JP2011510335A - オーディオエンコーダおよびデコーダ - Google Patents

オーディオエンコーダおよびデコーダ Download PDF

Info

Publication number
JP2011510335A
JP2011510335A JP2010541031A JP2010541031A JP2011510335A JP 2011510335 A JP2011510335 A JP 2011510335A JP 2010541031 A JP2010541031 A JP 2010541031A JP 2010541031 A JP2010541031 A JP 2010541031A JP 2011510335 A JP2011510335 A JP 2011510335A
Authority
JP
Japan
Prior art keywords
signal
unit
audio coding
coding system
mdct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010541031A
Other languages
English (en)
Other versions
JP5350393B2 (ja
Inventor
ビスワズ、アリジット
プルンハーゲン、ハイコ
ジェーリング、クリストファー
レッシュ、バーバラ
ヴィレモス、ラーズ・ファルック
ヘデリン、ペール・ヘンリック
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39710955&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2011510335(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2011510335A publication Critical patent/JP2011510335A/ja
Application granted granted Critical
Publication of JP5350393B2 publication Critical patent/JP5350393B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

本発明は、低ビットレートで一般的なオーディオ信号と音声信号とを上手くコーディングする新規なオーディオコーディングシステムを教示する。提案のオーディオコーディングシステムは、適応フィルタに基づいて入力信号にフィルタを掛ける線形予測ユニットと;フィルタ掛けされた入力信号のフレームを変換領域に変換する変換ユニットと;変換領域信号を量子化する量子化ユニットと;フィルタ掛けされた入力信号の前回のセグメントの復号に基づいてフィルタ掛けされた入力信号のフレームの推定を決定する長期間予測ユニットと;長期間予測推定と変換された入力信号とを変換領域で組み合わせ、変換領域信号を生成する変換領域信号組み合わせユニットとを備える。
【選択図】図2

Description

本発明は、オーディオ信号のコーディングに関し、特に、音声、音楽あるいはそれらの組み合わせのいずれにも限定されないオーディオ信号のコーディングに関する。
従来技術においては、信号の音源モデル、すなわち人間の発声システムにコーディングを基づかせることにより、特に音声信号をコーディングするようになされた音声コーダーがある。このようなコーダーは、音楽、あるいは他の非音声信号のような任意のオーディオ信号を取り扱うことはできない。さらに、従来技術においては、信号の音源モデルではなく、人間の聴覚システムを前提にしたコーディングに基づく、普通オーディオコーダーと呼ばれる音楽コーダーがある。このようなコーダーは、任意の信号を非常によく取り扱うことができ、しかしながら、音声信号用の低ビットレートにおいては、専用音声コーダーの方が優れたオーディオ品質を有する。それゆえ、低ビットレートで操作されるときには、音声については音声コーダーと同様によく、また、音楽については音楽コーダーと同様によく動作する任意のオーディオ信号のコーディングについての一般的なコーディング構造は今まで存在しなかった。
よって、改良されたオーディオ品質および/または低減したビットレートを有する改良オーディオエンコーダおよびデコーダに対する要望がある。
本発明は、特別に特定の信号用に作られたシステムの品質レベルと同等若しくはより優れた品質レベルで任意のオーディオ信号を効率的にコーディングすることに関する。
本発明は、線形予測コーディング(LPC)とLPC処理された信号上で動作する変換コーダー部との両方を含むオーディオコーデックアルゴリズムに向けられる。
本発明は、可変フレームサイズのオーディオエンコーダのビットリザーバを効率的に用いることにさらに関する。
本発明は、可変フレームサイズを有する変換コーダーと一緒の長期間予測の操作にさらに関する。
本発明はさらに、オーディオ信号をエンコードしビットストリームを生成するエンコーダと、そのビットストリームをデコードして入力オーディオ信号と知覚的に区別できない復号オーディオ信号を生成するデコーダとに関する。
本発明はさらに、オーディオ信号をエンコードしビットストリームを生成するエンコーダと、そのビットストリームをデコードして入力オーディオ信号と知覚的に区別できない復号オーディオ信号を生成するデコーダとに関する。
本発明は、変換コーダーに基づき、音声コーダーからの基礎的予測と形成モジュールを含むオーディオコーディングシステムを提供する。発明のシステムは、適応フィルタに基づき入力信号にフィルタを掛ける線形予測ユニットと;フィルタされた入力信号のフレームを変換領域に変換する変換ユニットと;変換領域信号を量子化する量子化ユニットと;フィルタされた入力信号の前回のセグメントの復号に基づきフィルタされた入力信号のフレームを推定する長期間予測ユニットと;変換領域で、長期間予測推定と変換された入力信号を組み合わせて、量子化ユニットに入力される変換領域信号を生成する変換領域信号組み合わせユニットとを備える。
オーディオコーディングシステムは、フィルタされた入力信号のフレームの時間領域復号を生成する逆量子化および逆変換ユニットをさらに備えてもよい。さらに、フィルタされた入力信号の前回のセグメントの時間領域復号を保存する長期間予測バッファが提供されてもよい。これらのユニットは、量子化ユニットから長期間予測抽出ユニットへのフィードバックループに配置されてもよく、長期間予測抽出ユニットは、フィルタされた入力信号の現在のフレームに最もよくマッチする復号セグメントを長期間予測バッファで探す。さらに、長期間予測ゲイン推定ユニットが提供され、現在のフレームに最もよくマッチするように長期間予測バッファから選定されたセグメントのゲインを調整してもよい。好適には、長期間予測推定は、変換領域の変換された入力信号から引き取られる。したがって、選定されたセグメントを変換領域に変換する第2の変換ユニットが備えられる。長期間予測ループは、変換領域の長期間予測推定を逆量子化後で時間領域への逆変換前のフィードバック信号に加えることを含む。よって、後退適応長期間予測スキームを用い、前回のフレームに基づいてフィルタされた入力信号の現在のフレームを変換領域で予測する。より効率的にするため、長期間予測スキームは、以下にいくつかの例について説明するように、異なった方法で適応されてもよい。
入力信号にフィルタを掛ける適応フィルタは、白色化入力信号を生成する線形予測コーディング(LPC)フィルタを含むLPC分析に基づくのが好ましい。入力データの現在のフレームのLPCパラメータは、当該分野で周知のアルゴリズムで決定される。LPCパラメータ推定ユニットが、入力データのフレームに対して、多項式、変換関数、反射係数、線スペクトル周波数等の適切なLPCパラメータ表現を計算してもよい。コーディングや他の処理に用いられるLPCパラメータ表現の特定のタイプは、それぞれの要求に基づく。当業者に周知のように、表現によっては、他のものよりある動作により適しており、よってそのような動作を実行するのに好適である。線形予測ユニットは、たとえば20ミリ秒の固定された第1のフレーム長で動作する。線形予測フィルタは、歪んだ周波数軸で動作し、特定の周波数範囲、たとえば低周波数を他の周波数より選択的に強調する。
フィルタされた入力信号のフレームに適用される変換は、可変の第2のフレーム長で動作する修正離散コサイン変換(MDCT)であるのが好ましい。オーディオコーディングシステムは、いくつかのフレームを含む入力信号ブロック全体の、コーディングコスト関数、好ましくは単純化知覚エントロピを最小化することにより、入力信号のブロックに対し、オーバーラップするMDCTウィンドウのフレーム長を決定するウィンドウシーケンスコントロールユニットを備える。よって、第2のフレーム長を有するMDCTウィンドウへの入力信号ブロックの最適な分割が導かれる。対照的に、変換領域コーディング構造は、音声コーダー要素を含み、LPCを除くすべての処理で唯一の基本ユニットとして適応長MDCTフレームを有して提案される。MDCTフレーム長は多くの様々な値を取り得るので、小さなウィンドウサイズと大きなウィンドウサイズとだけが適用される先行技術で一般的なように、最適なシーケンスが見つけられ、急激なフレームサイズの変化を避けることができる。さらに、小さなウィンドウサイズと大きなウィンドウサイズの間の遷移に対する従来技術のアプローチで用いられるところの、シャープなエッジを有する遷移変換ウィンドウは必要ではない。
好ましくは、最大で2の係数である連続的なMDCTウィンドウ長の変化および/またはMDCTウィンドウ長は、二項値である。より具体的には、MDCTウィンドウ長は、入力信号ブロックの二項区分である。したがって、MDCTウィンドウのシーケンスは、少ない数のビットでエンコードするのが容易な所定のシーケンスに限られる。さらにウィンドウシーケンスはフレームサイズの滑らかな遷移を有し、よって、急激なフレームサイズの変化を除外する。
ウィンドウシーケンスでMDCTウィンドウ長とウィンドウ形状とを一緒にエンコーディングするウィンドウシーケンスエンコーダが備えられる。ジョイントエンコーディングは、冗長性を取り去り、より少ないビットしか必要としない。ウィンドウシーケンスエンコーダは、デコーダで復号される不要な情報(ビット)を省略するように、ウィンドウシーケンスのウィンドウ長とウィンドウ形状をエンコーディングするときにウィンドウサイズの制約を考慮する
ウィンドウシーケンスコントロールユニットは、さらに、入力信号ブロックのコーディングコスト関数を最小化するMDCTウィンドウ長のシーケンスを探すときに、ウィンドウ長の候補について、長期間予測ユニットにより生成された長期間予測推定を考慮するようになされている。この実施の形態では、エンコーディングに用いられるMDCTウィンドウの改良したシーケンスとなるMDCTウィンドウ長を決定するときに長期間予測ループは閉じられる。
さらに、時間歪みカーブによりフィルタされた入力信号を再度サンプリングすることによりフィルタされた信号のフレームのピッチ成分を一定に揃える時間歪みユニットを備えてもよい。時間歪みカーブは、フレーム中のピッチ成分を一定に揃えるように決定されることが好ましい。よって、変換ユニットおよび/または長期間予測ユニットは、一定のピッチを有する時間的に歪んだ信号で動作し、信号分析の精度を改善する。
オーディオコーディングシステムはさらに、線スペクトル周波数または、保存および/またはデコーダに伝達するための線形予測ユニットにより生成された他の適切なLPCパラメータ表現を、可変レートで再帰的にコーディングするためのLPCエンコーダを備えてもよい。実施の形態によれば、線形予測内挿ユニットが提供され、変換領域信号の可変フレーム長に適合するように第1のフレーム長に対応するレートで生成された線形予測パラメータを内挿する。
本発明の態様によれば、オーディオコーディングシステムは、LPCフレーム用に線形予測ユニットで生成されたLPC多項式をチャープおよび/または傾斜させることにより適応フィルタの特性を修正する知覚モデリングユニットを備えてもよい。適応フィルタ特性の修正により受信した知覚モデルは、本システムで多くの目的に用いられる。たとえば、量子化または長期間予測の知覚重み関数として用いられる。
本発明の別の独立した態様は、入力信号の高バンド成分をエンコーディングする別の手段を提供することによりオーディオエンコーダのバンド幅を拡張することに関する。実施の形態によれば、入力信号の高バンド成分をエンコーディングする高バンドエンコーダが備えられる。好適には、高バンドエンコーダは、スペクトルバンド複製(SBR)エンコーダである。高バンドエンコーダでの高バンドの別のコーディングにより、別の量子化ステップを、入力信号の低バンドに属する成分に対するのと比較して高バンドに属する変換領域信号の成分をエンコーディングするのに、変換領域信号を量子化するときに量子化ユニットで用いることができる。より具体的には、量子化器は、ビットレートを低減する高バンドエンコーダによってもエンコーディングされる高バンド信号成分のより粗い量子化を適用する。
別の実施の形態によれば、入力信号を低バンド成分と高バンド成分に分割する周波数分割ユニットが備えられる。それから、高バンド成分は高バンドエンコーダでエンコーディングされ、低バンド成分は線形予測に入力され上記で提案の変換エンコーダでエンコーディングされる。好適には、周波数分割ユニットは、線形予測ユニットに入力される入力信号をダウンサンプルするようになされた直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットを備える。直交ミラーフィルタバンクからの信号は、高バンドエンコーダに直接入力されてもよい。このことは、高バンドエンコーダが直交ミラーフィルタバンク信号により直接供給されるスペクトルバンド複製エンコーダのときに、特に有効である。さらに、直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットの組み合わせは、低バンド成分用の高品質ダウンサンプラとして機能する。
低バンドと高バンドとの境界は変化し、周波数分割ユニットはダイナミックに低バンドと高バンドとのクロスオーバー周波数を決定する。このことにより、たとえば入力信号特性および/またはエンコーダバンド幅要求に基づいて、適応周波数配分が可能となる。
別の態様によれば、オーディオコーディングシステムは、高バンド成分をローパス信号に変化させる第2の直交ミラーフィルタ合成ユニットを備える。それから、この下方調節した高周波数範囲は、好ましくは低分解能の、すなわちよりおおきな量子化ステップの、第2の変換ベースエンコーダによりエンコーディングされる。このことは、高周波数バンドが同様に、たとえばスペクトルバンド複製エンコーダなど、他の手段で更にエンコーディングされるときに、特に有効である。それから、高周波数バンドをエンコーディングする両方法の組み合わせは、より効果的である。
同じ周波数範囲をカバーする異なった信号表現は、必要なビットレートを低減するために信号表現の相関を利用する信号表現組み合わせユニットにより組み合わされる。信号表現組み合わせユニットは、どのように信号表現が組み合わされるかを指示する信号データをさらに生成する。この信号データは、保存され、または、異なった信号表現からエンコーディングされたオーディオ信号を復号するデコーダに伝達される。
スペクトルバンド複製ユニットが、エネルギを長期間予測推定の高周波数成分に導く長期間予測ユニットにさらに備えられてもよい。このことは、長期間予測の効率を改善するのに役立つ。
実施の形態によれば、左右の入力チャンネルを有するステレオ信号が、入力信号のモノ表現を含めてステレオ信号のパラメトリックステレオ表現を計算するパラメトリックステレオユニットに入力される。それから、モノ表現はLPC分析ユニットと、その後の変換コーダーに、上記で提案したように、入力される。よって、モノ表現だけが波形コーディングされ、ステレオ効果は低ビットレートのパラメトリックステレオ表現で達成されるときに、ステレオ信号をエンコーディングするための効率的な手段が得られる。
コーディングした信号の品質のさらなる向上は、周波数/MDCT領域で高調波信号成分だけを予測する高調波予測分析ユニットの使用に関係する。
本発明のもう一つの独立したエンコーダ特有の態様は、可変のフレームサイズを処理するビットリザーバに関する。可変長のフレームをコーディングできるオーディオコーディングシステムでは、ビットリザーバはフレーム中のビットを分配することによりコントロールされる。個々のフレームや定義されたサイズのビットリザーバの適当な困難さの尺度が与えられると、所望の一定のビットレートからのあるずれはビットリザーバのサイズにより課せられるバッファの要求に反することなく全体的によりよい品質を可能にする。本発明は、ビットリザーバを使用する概念を、可変フレームサイズの汎用オーディオコーデック用ビットリザーバコントロールに拡張する。したがって、オーディオコーディングシステムは、フレーム長とフレームの困難さの尺度に基づいてフィルタされた信号のフレームをエンコードするのに付与されたビットの数を決定するビットリザーバコントロールユニットを備える。好ましくは、ビットリザーバコントロールユニットは、異なったフレーム困難さの尺度および/または異なったフレームサイズ用の別々のコントロール式を有する。異なったフレームサイズに対する異なった尺度は、それらがより簡単に比較できるように正規化される。可変レートのエンコーダ用にビット配分をコントロールするために、ビットリザーバコントロールユニットは、許容最大フレームサイズに対するビットの平均数に対し付与されたビットコントロールアルゴリズムの許容下限界を設定するのが好適である。
本発明は、変換エンコーダのMDCTラインを量子化する態様に更に関する。この態様は、エンコーダがLPC分析あるいは長期間予測を使用するかとは独立して適用できる。提案の量子化方式は、たとえば変換フレームサイズのような入力信号特性が条件とされる。量子化ユニットが、変換ユニットにより適用されるフレームサイズに基づいて、モデルベース量子化器または非モデルベース量子化器で変換領域信号をエンコーディングすることを決めることが推奨される。好適には、量子化ユニットは、モデルベースエントロピ制約量子化により、閾値より小さなフレームサイズのフレームに対し変換領域信号をエンコーディングするようになされる。モデルベース量子化は、様々なパラメータを条件とする。大きなフレームは、例えばAACコーデックで用いられるように、例えばハフマンベースのエントロピコーディング付スカラ量子化器で量子化される。
MDCTラインの異なった量子化方法間の切換は、本発明の好適な実施の形態の別の態様である。異なった変換サイズに対して異なった量子化方式を用いることにより、コーデックは、変換領域コーデックと並行または順番に実行される特定の時間領域音声コーダーを有する必要なしに、MDCT領域でのすべての量子化とコーディングを行うことができる。本発明は、LTPゲインがある場合に音声状の信号について、短時間変換とモデルベース量子化器を用いて信号をコーディングするのが好ましいことを教示する。モデルベース量子化器は、特に短時間変換向きで、追って概要を記述するように、MDCT領域で実行されながらも、入力信号が音声信号であるとの要件なしで、時間領域音声専用ベクトル量子化器(VQ)の利益を与える。別の表現では、LTPと組み合わせて短時間変換セグメントにモデルベース量子化器を用いると、専用の時間領域音声コーダーVQの効率は一般性の喪失なしに、MDCT領域から離間することなく維持される。
より安定している音楽信号に加えて、オーディオコーデックで普通に用いられているように比較的大きなサイズの変換と、大きな変換により区別されるまばらなスペクトル線を利用する量子化スキームを用いることが好ましい。したがって、本発明は、長い変換にこの種の量子化スキームを用いることを教示する。
よって、フレームサイズの関数として量子化方式を切り替えることにより、コーデックは、単に変換サイズを選択するだけで、専用音声コーデックの特性と専用オーディオコーデックの特性を両方とも維持できる。このことにより従来技術のシステムのすべての問題を回避でき、従来技術のシステムは、時間領域のコーディング(音声コーダー)を周波数領域のコーディング(オーディオコーダー)と効率的に組み合わせる問題や困難に必然的に遭遇するので、これらのシステムは音声信号とオーディオ信号とを低速度で上手く取り扱おうと努力している。
本発明の他の態様によると、量子化は適応ステップサイズを用いる。好ましくは、変換領域信号の成分に対する量子化ステップサイズ(単数または複数)は、線形予測および/または長期間予測パラメータに基づいて適応する。量子化ステップサイズはさらに、周波数依存するようになされてもよい。本発明の実施の形態では、量子化ステップサイズは、適応フィルタの多項式、コーディングレートコントロールパラメータ、長期間予測ゲイン値、および、入力信号分散の少なくとも一つに基づいて決定される。
本発明の他の態様は長期間予測(LTP)、特にMDCT領域、MDCTフレーム適応LTPおよびMDCT重み付きLTP探索に関する。これらの態様は、LPC分析が変換コーダーの上流側に存在するか否かに関わらず適用できる。
実施の形態によれば、長期間予測ユニットは、フィルタされた信号の現在のフレームに最も適合するフィルタされた信号の復号セグメントを特定する遅延値を決定する長期間予測エクストラクタを備える。長期間予測ゲインエスティメータは、フィルタされた信号の選定したセグメントの信号に適用するゲイン値を推定する。好ましくは、遅延値とゲイン値は、知覚領域において長期間予測推定の変換された入力信号に体する差に関係する歪みのクライテリアを最小にするように決定される。歪みのクライテリアは、知覚領域における長期間予測推定の変換された入力信号に対する差に関係する。好ましくは、歪みのクライテリアを知覚領域の遅延値トゲイン値を探索することで最小化する。歪みのクライテリアを最小にするとき、修正線形予測多項式をMDCT領域同等化ゲイン曲線として適用することもできる。
長期間予測ユニットは、LTPバッファからのセグメントの復号信号を変換領域に変換する変換ユニットを備えてもよい。MDCT変換の効果的な実行のため、変換は離散コサイン変換タイプIVとするのが好ましい。
遅延値がMDCTフレーム長より小さいときに、仮想ベクトルを用いて復号信号の拡張セグメントを生成してもよい。仮想ベクトルは、復号信号の生成されたセグメントを改良するのに繰り返しフォールドイン・フォールドアウトプロシージャ(iterative fold-in fold-out procedure)により生成されるのが好ましい。よって、復号信号の未だ存在していないセグメントが、長期間予測の遅延探索プロシージャの間に生成される。
変換ユニットが時間歪み信号で動作するとき、時間歪みカーブに基づいて長期間予測バッファの復号信号が再度サンプリングされる。このことにより、時間歪みLPT抽出を時間歪みMDCTに適合させることができる。
実施の形態によれば、長期間予測遅延値およびゲイン値をエンコーディングする可変レートエンコーダが備えられ、低ビットレートを達成する。さらに、長期間予測ユニットはノイズベクトルバッファおよび/またはパルスベクトルバッファを備え、たとえばノイズのある、または、遷移信号の予測精度を向上する。
長期間予測パラメータのようなピッチ関連情報と、調和予測パラメータと時間歪みパラメータを一緒にエンコーディングするジョイントコーディングユニットを備えてもよい。ジョイントコーディングは、これらのパラメータの相関を利用することにより必要なビットレートも低減する。
本発明の別の態様は、上記の実施の形態のエンコーダで生成されたビットストリームをデコーディングするオーディオデコーダに関する。そのオーディオデコーダは、入力ビットストリームのフレームを逆量子化する逆量子化ユニットと;変換領域信号を逆変換する逆変換ユニットと;逆量子化されたフレームの推定を決定する長期間予測ユニットと;変換領域で、長期間予測推定と逆量子化フレームとを組み合わせて変換領域信号を生成する変換領域信号組み合わせユニットと;逆変換された変換領域信号にフィルタを掛ける線形予測ユニットとを備える。
さらに、デコーダは、エンコーダに関して上記した態様の多くを備える。いくつかの動作はエンコーダだけで実行されデコーダには対応する要素はないが、一般的にデコーダは、エンコーダの動作に酷似する。よって、エンコーダについて開示されたものは、特に断らない限り、同様にデコーダにも適用できるものと考えられる。
上記の本発明の態様は、デバイス、装置、方法、あるいはプログラム可能なデバイス上で動作するコンピュータプログラムとして実行される。発明の態様は、さらに信号、データ構造、およびビットストリームで具体化される。
よって、本出願は、オーディオエンコーディング方法とオーディオデコーディング方法をさらに開示する。例示のオーディオエンコーディング方法は、適応フィルタに基づき入力信号にフィルタを掛ける工程と;フィルタされた入力信号のフレームを変換領域に変換する工程と;変換領域信号を量子化する工程と;フィルタされた入力信号の前回のセグメントの復号に基づきフィルタされた入力信号のフレームを推定する工程と;変換領域で、長期間予測推定と変換された入力信号を組み合わせ変換領域信号を生成する工程とを備える。
例示のオーディオデコーディング方法は、入力ビットストリームのフレームを逆量子化する工程と;変換領域信号を逆変換する工程と;逆量子化されたフレームの推定を決定する工程と;変換領域で、長期間予測推定と逆量子化フレームを組み合わせ変換領域信号を生成する工程と;復号されたオーディオ信号を出力する工程とを備える。
本願にて教示され、また、当業者が例示の実施の形態の以下の説明から導き出せるのは、好適なオーディオエンコーディング/デコーディング方法とコンピュータプログラムのほんの一例である。
本発明をここで、添付図面を参照して例を用いて説明するが、本発明の範囲や思想を限定するものではない。
図1は、本発明によるエンコーダとデコーダの好適な実施の形態を示す。 図2は、本発明によるエンコーダとデコーダのより詳細な図を示す。 図3は、本発明によるエンコーダの別の実施の形態を示す。 図4は、本発明によるエンコーダの好適な実施の形態を示す。 図5は、本発明によるデコーダの好適な実施の形態を示す。 図6は、本発明によるMDCTラインエンコーディングおよびデコーディングの好適な実施の形態を示す。 図7は、SBRエンコーダと組み合わせた本発明の好適な実施の形態を示す。 図8は、ステレオシステムの好適な実施の形態を示す。 図9は、本発明によるコアコーダーと高周波数復号コーディングのより複雑な統合の好適な実施の形態を示す。 図10は、本発明によるSBRエンコーディングとコアコーダーの組み合わせの好適な実施の形態を示す。 図11は、本発明による、エンコーダとデコーダの好適な実施の形態と、互いに伝達される関連するコントロールデータを示す。 図11aは、本発明の実施の形態による、エンコーダの態様の別の図を示す。 図12は、本発明の実施の形態によるウィンドウシーケンスの例とLPCデータとMDCTデータの関係を示す。 図13は、本発明によるスケールファクタデータとLPCデータの組み合わせを示す。 図14は、本発明によるLPC多項式のMDCTゲインカーブへの変換の好適な実施の形態を示す。 図15は、本発明による、一定更新レートLPCパラメータを適応MDCTウィンドウシーケンスデータにマッピングする好適な実施の形態を示す。 図16は、本発明による、フレームサイズにより量子化器の変換サイズとタイプに基づき知覚重み付けフィルタ計算を適応することの好適な実施の形態を示す。 図17は、本発明による、フレームサイズにより量子化器を適応することの好適な実施の形態を示す。 図18は、本発明による、フレームサイズにより量子化器を適用させることの好適な実施の形態を示す。 図19は、本発明による、LPCおよびLTPデータの関数として量子化ステップサイズを適応させることの好適な実施の形態を示す。 図19aは、差分カーブが差分適応モジュールによりLPCおよびLTPパラメータからどのように導かれるかを示す。 図20は、本発明による、ランダムオフセットを利用するモデルベース量子化器の好適な実施の形態を示す。 図21は、本発明によるモデルベース量子化器の好適な実施の形態を示す。 図21aは、本発明によるモデルベース量子化器の別の好適な実施の形態を示す。 図22は、本発明によるLTPループでSBRモジュールを用いる好適な実施の形態を示す。 図23aは、本発明の実施の形態におけるMDCT変換の隣接ウィンドウを模式的に示す。 図23bは、4つの異なったMDCTウィンドウ形状を用いる本発明の実施の形態を示す。 図23cは、本発明の実施の形態によるウィンドウシーケンスエンコーディング方法の例を示す。 図24は、本発明による、MDCT領域での高調波予測の好適な実施の形態を示す。 図25は、本発明によるLTP抽出改良プロセスを示す。 図25aは、MDCT適応LTP抽出プロセスを示す。 図25bは、初期LTP抽出信号の繰り返し改良を示す。 図25cは、改良ユニットの代替の実行を示す。 図25dは、改良ユニットの別の代替の実行を示す。 図26は、本発明による、高調波予測のためのコントロールデータとLTPと時間歪みを組み合わせる好適な実施の形態を示す。 図27は、本発明による、ノイズとパルスバッファでLTP探索を拡張する好適な実施の形態を示す。 図28aは、ビットリザーバコントロールの基本的な概念を示す。 図28bは、本発明による、可変フレームサイズ用のビットリザーバコントロールの概念を示す。 図29は、本発明による、LTP探索と時間歪みMDCTの状況での適用を示す。 図29aは、時間歪みMDCT分析の効果を示す。 図30は、本発明による、MDCTとQMF領域中の組み合わされたSBRを示す。
下記に説明する実施の形態は、オーディオエンコーダとデコーダの本発明の原理を単に説明するためのものである。ここで説明する配置や詳細の修正や改変は当業者にとって明きらかであることが理解される。したがって、添付の特許請求の範囲によってのみ限定され、本書における実施の形態の説明によって示された特定の詳細によっては限定されないことを意図する。実施の形態の類似の要素には類似の参照符号で番号付けされる。
図1にエンコーダ101とデコーダ102を示す。エンコーダ101は時間領域入力信号を取り込み、続いてデコーダ102に送られるビットストリーム103を生成する。デコーダ102は、受信したビットストリーム103に基づいて出力波形を生成する。出力信号は、心理音響的にオリジナルの入力信号に類似する。
図2にエンコーダ200とデコーダ210の好適な実施の形態を示す。エンコーダ200の入力信号は、第1のフレーム長を有するLPCフレーム用の白色化した残留信号と対応する線形予測パラメータとを生成するLPC(Linear Prediction Coding:線形予測コーディング)モジュール201を通過する。さらに、LPCモジュール201にはゲイン正規化が含まれる。LPCからの残留信号は、第2の可変フレーム長で動作するMDCT(Modified Discrete Cosine Transform:修正離散コサイン変換)モジュール202によって周波数領域に変換される。図2に示すエンコーダ200では、LTP(Long Term Prediction:長期間予測)モジュール205が含まれる。LTPは、本発明の他の実施の形態で詳述する。MDCTラインは量子化203され、デコーダ210で使えるようにデコーディングされた出力のコピーをLTPバッファに提供するように逆量子化204もされる。量子化歪みのために、このコピーはそれぞれの入力信号の復号と呼ばれる。図2の下部にデコーダ210を示す。デコーダ210は、量子化されたMDCTラインを受け取り、それらを逆量子化211し、LTPモジュール214からの寄与を付加し、逆MDCT変換212をして、LPC合成フィルタ213が続く。
上記の実施の形態で重要な態様は、LPCがそれ自身の(一実施の形態では一定の)フレームサイズを有しLPCパラメータもコーディングされるものの、MDCTフレームがコーディング用の唯一の基本ユニットであるということである。実施の形態は、変換コーダーから始まり、音声コーダーから基本的予測および成形モジュールを導入する。追って説明するように、MDCTフレームサイズは可変であり、単純化知覚エントロピコスト関数を最小化することによりブロック全体に対する最適MDCTウィンドウシーケンスを決定することにより入力信号のブロックに適応する。このことにより、スケーリングが最適な時間/周波数コントロールを維持できる。さらに、提案の一体化した構造は、異なったコーディングパラダイムの切替えや層をなすことによる組合せを回避する。
図3では、エンコーダ300の部分がより詳細に模式的に説明される。図2のエンコーダのLPCモジュール201からの出力である白色化された信号は、MDCTのフィルタバンク302に入力される。MDCT分析は、オプションとして時間ゆがみMDCT分析でもよく、時間ゆがみMDCT分析は、信号のピッチ(信号がよく確立されたピッチで周期的なら)がMDCT変換ウィンドウで一定であることを確かなものにする。
図3では、LTPモジュール310がより詳細に示される。LTPモジュール310は、前回の出力信号のセグメントの復号された時間領域サンプルを保持するLTPバッファ311を備える。LTPエクストラクタ312は、現在の入力セグメントを与えられてLTPバッファ311中に最も適合するセグメントを見つけ出す。量子化器303に入力されようとしているセグメントから抽出される前に、ゲインユニット313によりこのセグメントに適切なゲイン値が適用される。明らかに、量子化の前に抽出するために、LTPエクストラクタ312はまた選択された信号セグメントをMDCT領域に変換する。LTPエクストラクタ312は、復号された前回の出力信号セグメントを変換されたMDCT領域入力フレームと組み合わせるときに知覚領域の誤差関数を最小化する最適なゲインと遅延値を探す。たとえば、LTPモジュール310からの変換された復号セグメントと変換された入力フレーム(すなわち、抽出後の残留信号)との間の平均二乗誤差(MSE)関数が最適化される。この最適化は、周波数成分(すなわちMDCTライン)が知覚重要性に応じて重み付けされる知覚領域で実行される。LTPモジュール310はMDCTフレームユニットで動作し、エンコーダ300は、たとえば量子化モジュール303における量子化について、一度に一つのMDCTフレーム残留を扱う。遅延とゲイン探索は、知覚領域で実行される。オプションとして、LTPは、周波数選択的、すなわち周波数にわたりゲインおよび/または遅延を適応させてもよい。逆量子化ユニット304と逆MDCTユニット306を説明する。MDCTは、追って説明するように、時間で歪んでいる。
図4にエンコーダ400の別の実施の形態を示す。図3に加え、分かりやすくするためLPC分析401が含まれる。選択された信号セグメントをMDCT領域に変換するのに用いられるDCT−IV変換414が示される。さらに、LTPセグメント選定の最小誤差を計算するいくつかの方法が図示される。図4に示される残留信号の最小化(図4でLTP2とされる)に加え、LTPバッファ411での保管のために復号した時間領域信号に逆変換される前に変換入力信号と逆量子化MDCT領域信号との間の差の最小化が示される(LTP3とされる)。このMSE関数の最小化は、LTPの寄与を変換された入力信号とLTPバッファ411に保管するための復号された入力信号との最適な(可能な限り)類似性に仕向ける。他の代替となる誤差関数(LTP1とされる)は、時間領域でのこれらの信号の差に基づく。この場合に、LPCフィルタを掛けられた入力フレームとLTPバッファ411の対応する時間領域復号とのMSEは最小化される。好都合なことにMSEはMDCTフレームサイズに基づいて計算され、MDCTフレームサイズはLPCフレームサイズと異なっていてもよい。さらに、量子化器ブロックと逆量子化器ブロックは、量子化とは別の追加のモジュールを含むスペクトルエンコーディングブロック403とスペクトルデコーディングブロック404(「Spec enc」と「Spec dec」)で置き換えられ、図6にて追って説明する。また、MDCTと逆MDCTは時間歪みを受ける(WMDCT、IWMDCT)。
図5に、提案するデコーダ500を示す。受信したビットストリームからのスペクトルデータは、逆量子化511され、LTPエクストラクタによりLTPバッファ515から提供されたLTP寄与に加えられる。デコーダ500のLTPエクストラクタ516およびLTPゲインユニット517も示される。合計されたMDCTラインは、MDCT合成モジュールにより時間領域に合成され、時間領域信号は、LPC合成フィルタ513によりスペクトルとして形成される。オプションとして、MDCT合成は時間歪みMDCTでもよく、および/または、LPC合成フィルタは周波数歪みしていてもよい。
周波数歪みLPCは周波数軸の非均一サンプリングに基づき、LPCフィルタパラメータを決めるときにLPC誤差の寄与の周波数選択コントロールを可能にする。LPC多項式がスペクトルのピーク部分で最も精度が高くなるように、標準LPCは線形周波数軸にわたってMSEを最小化することに基づくが、周波数歪みLPCはLPCフィルタパラメータを決めるときに周波数選択焦点を可能にする。たとえば、16または24kHzのサンプリングレートのような高バンド幅で動作するとき、周波数軸を歪めることにより4kHzまでのような低周波数バンドでLPC多項式の精度を合わせることが可能になる。
図6に、図4の「Spec enc」(スペクトルエンコーディング)ブロック403と「Spec dec」(スペクトルデコーディング)ブロック404をより詳細に示す。図の右に示すスペクトルエンコーディングブロック603は、実施の形態では、高調波予測分析モジュール610、TNS(Temporal Noise Shaping:時間ノイズ形成)分析モジュール611、その後にMDCTラインのスケールファクタスケーリングモジュール612、および、最後にエンコーディングラインモジュール613の量子化とエンコーディングとを備える。図で左に示されるデコーダ「Spec dec」(スペクトルデコーディング)ブロック604は、逆プロセスを行い、すなわち、受信したMDCTラインはデコーディングラインモジュール620で逆量子化され、スケーリングはスケールファクタ(SCF)スケーリングモジュール621によってなされてはいない。TNS合成622と高調波予測合成623が、追って説明するように、適用される。
図7に本発明の別の好適な実施の形態の概要を示す。既に説明したLPC701、MDCT量子化704、およびLTP705に加え、SBR(Spectral Band Replication:スペクトルバンド複製)モジュール712と共にQMF分析モジュール710とQMF合成モジュール711が追加される。QMF(Quadrature Mirror Filter:直交ミラーフィルタ)フィルタバンクはある数のサブバンドを有し、この特定の例では64のサブバンドを有する。複雑なQMFフィルタバンクにより、サブバンドの独立した操作と、使用されたプロトタイプフィルタに与えられたエイリアシング拒絶レベルを超えた周波数領域エイリアシングを導入することをしないことが可能になる。ある数の、この特定の例では32の(周波数で)低いサブバンドはそれから時間領域に合成され、よってダウンサンプル信号を、ここでは2の係数で、生ずる。前に説明したように、これはエンコーダモジュールへの入力信号である。リサンプラとしてQMF分析モジュールおよびQMF合成モジュールを用いることは、続く変換コーダがコーディングする低減したバンド幅でのみLPCが動作することを確実にする。高い32のサブバンドがSBRエンコーダモジュール712に送られ、高バンドのオリジナル信号から関連するSBRパラメータを抽出する。あるいは、入力信号をQMF分析モジュールに提供し、QMF分析モジュールは順にSBRエンコーダ、および、ダウンサンプリングモジュールに接続され、ダウンサンプリングモジュールは、前述したように変換エンコーダモジュール用のダウンサンプル信号を生成する。
SBR(スペクトルバンド複製)は、スペクトルの高周波数部分をコーディングする効果的な方法を提供する。それは、低周波数と少量の追加コントロール情報からオーディオ信号の高周波数を再生する。SBR方法は、コアコーダーバンド幅の低減を可能にし、SBR技術は周波数範囲をコーディングするのに波形コーダーよりも遥かに低いビットレートを必要とするので、コーディングゲインは、全オーディオバンド幅を維持しつつ波形コアコーダーに割り当てられるビットレートを低減することにより達成できる。このことは、自然と、コアコーダーとSBR部分との間のクロスオーバー周波数を低くすることにより全データレートをほとんど連続的に低減する可能性を与える。
知覚オーディオコーダーは、信号により常にマスキングされるように量子化ノイズを形成することによりビットレートを低減する。このことにより、多少低い信号ノイズ比となるが、量子化ノイズがマスキングカーブの下にあるならばこのことは問題ではない。量子化が表現する歪みが聞こえなくなる。しかし、低ビットレートで動作すると、マスキング閾値は乱され、歪みが聞こえるようになる。知覚オーディオコーダーが用いる一つの方法は、単に信号の全周波数範囲をコーディングするほど十分なビットがないから、信号に、すなわちスペクトルのコーディングする部分にだけ、ローパスフィルタを掛けることである。この状況で、SBRアルゴリズムは、低ビットレートで全オーディオバンド幅を可能にするので、とても有益である。
SBRでコーディングの概念は、下記の態様を備える。
・高バンド再生が、常に低周波数を除外して、低バンドからのバンドパス信号をコピーすることにより行われる。
・スペクトル包絡線情報は、復号された高バンドの粗いスペクトル包絡が正しいことを確実にして、エンコーダからデコーダに送られる。
・高周波数復号の欠点を補うようになされた追加の情報がエンコーダからデコーダに伝達される。
・逆フィルタ、ノイズおよび制限は追加などの追加手段が、それらは全て伝達された情報により同様に導かれるが、低バンドと高バンドの間の時々起こる基本的相違点から生ずるバンド幅拡張方法の欠点を補う。
図8では本発明の実施の形態を、左右のチャンネル用の2つのQMF分析フィルタバンク820、821と、パラメトリックステレオ(PS)モジュールと呼ばれる回転モジュール830を追加することによりステレオに拡張し、回転モジュール830は、回転パラメータに対応する、QMF領域の2つの入力信号からの2つの新しい信号に応答する。その2つの新しい信号は、モノダウンミックス(mono downmix)と残留信号を表わす。それらは、左右ステレオ信号のM/S(Mid/Side)変換として目に見えるようなされ、M/Sステレオ空間を、Mid信号(すなわち、ダウンミックス信号)のエネルギを最大化し、Side信号(すなわち、残留信号)のエネルギを最小化するように回転する。特定の例として、左右どちらかへ45度回転したモノ音源が、左右両チャンネルに(異なったレベルで)存在するとする。先行技術の波形オーディオコーダーは、独立して左右のチャンネルを、あるいはM/S表現として、コーディングするかを選択するのが普通である。この特定の例では、回転したモノ音源は表現に無関係に両チャンネルで存在するので、左右表現もM/S表現も有益ではない。しかし、M/S表現が45度回転すると、回転したモノ音源は回転したMidチャンネル(ここでは、ダウンミックスチャンネルと呼ぶ)で完全に終了し、回転したSideチャンネル(ここでは、残留チャンネルと呼ぶ)はゼロとなる。このことにより、通常の左右あるいはM/Sコーディングよりコーディングでの利点を生ずる。
この2つの新しい信号は、抽出したパラメータと組み合わせてステレオ信号を表わすが、図7に示すように、例えば次にQMF合成モジュールおよびSBRモジュールに入力される。低ビットレートでは、残留信号はローパスフィルタに掛けれら、完全に除外される。パラメトリックステレオデコーダは、除外された残留信号をダウンミックス信号の相関をなくしたもので置き換える。ステレオ信号のこの提案の処理は、本発明の他の実施の形態とも組み合わされるのは当然である。
より詳細には、PSモジュールは、対応する時間/周波数タイルに対し2つの入力信号(左と右)を比較する。タイルの周波数バンドは、セグメント長が両耳で聴くシステムの既知の制限にかなり一致するが、心理音響的に動機付けされた尺度を概算する。基本的に、時間/周波数タイルあたり3つのパラメータが抽出され、知覚的に最も重要な空間特性を表わす。
(i)ミキシングコンソールの「パンポット(pan pot)」に類似したチャンネル間のレベル差を表わす、チャンネル間レベル差(Inter-channel Level Difference、ILD)。
(ii)チャンネル間の位相差を表わす、チャンネル間位相差(Inter-channel Phase Difference、IPD)。周波数領域では、この特徴はチャンネル間時間差(Inter-channel Time Difference、ITD)とほとんど互換性がある。IPDを、左右の位相調整の配分を表わす、追加の全体位相差(Overall Phase Difference、OPD)により増加する。
(iii)チャンネル間のコヒーレンスまたは相互相関を表わす、チャンネル間コヒーレンス(Inter-channel Coherence、IC)。始めの2つのパラメータは音源の方向と結合しているが、3番目のパラメータは音源の空間的核酸により関係する。
パラメータ抽出に続いて、入力信号がダウンミックスされ、モノ信号を形成する。ダウンミキシングは、合計処理の普通の手段で行われるが、時間的整合やエネルギ保存技術を組み込んだより進んだ方法を組み込みダウンミキシングで潜在的位相が取り消されることを回避するのが好ましい。デコーダ側では、対応するエンコーダの逆プロセスを備え、PSパラメータに基づきステレオ出力信号を復号するPSデコーディングモジュールを備える。
図9に本発明の別の実施の形態を示す。ここで、入力信号は64サブバンドチャンネルQMFモジュール920により再度分析される。しかし、図7に示すシステムとは逆に、コアコーダーとSBRコーダーによりカバーされる範囲の境界は、可変である。それゆえ、次にLPC、MDCTおよびLTPモジュール901でコーディングされる時間領域信号のバンド幅をカバーするために必要なだけ多くのサブバンドを、システムはモジュール911で合成する。残りの(周波数の高い)サブバンドのサンプルはSBRエンコーダ912に入力される。
先に説明した例に加え、高サブバンドサンプルもQMF合成モジュール920に入力され、QMF合成モジュール920は高周波数範囲をローパス信号に合成し、よって、ダウン変調(down-modulated)された高周波数範囲を含む。この信号は、追加のMDCTベースMDCTベースコーダー930により続いてコーディングされる。追加のMDCTベースMDCTベースコーダー930からの出力は、オプションの組み合わせユニット940でSBRエンコーダの出力と組み合わされる。信号が生成され、どの部分がSBRでコーディングされ、どの部分がMDCTベース波形コーダーでコーディングされるかを示すデコーダに送られる。このことにより、SBRエンコーディングから波形コーディングへのスムースな遷移が可能となる。さらに、別のMDCT変換でコーディングされるので、低周波数と高周波数のMDCTコーディングで用いられる変換サイズに関して選択の自由が与えられる。
図10に別の実施の形態を示す。入力信号はQMF分析モジュール1010に入力される。SBR範囲に対応する出力サブバンドは、SBRエンコーダ1012に入力される。LPC分析とフィルタ掛けは信号の全周波数範囲をカバーすることにより行われ、入力信号を直接、または、QMF合成モジュール1011で生成されたQMFサブバンド信号の合成したもののいずれかを用いて行われる。後者は、図8のステレオ実施と組み合わせるときに有用である。LPCフィルタされた信号はMDCT分析モジュール1002へ入力され、コーディングされるスペクトル線を提供する。本発明のこの実施の形態では、量子化1003は、かなり粗い量子化がSBR領域(すなわちSBRエンコーダでカバーされる周波数領域も)で行われ、よって、最も強いスペクトル線をカバーするだけとなるようになされる。この情報は組み合わせユニット1040に入力され、組み合わせユニット1040は量子化されたスペクトルとSBRエンコーディングされたデータを与えられると、どの信号がSBR範囲で異なった周波数範囲に用いられるか、すなわちSBRデータか波形コーディングされたデータかの信号をデコーダに発する。
図11に、発明性のあるコーディングシステムのとても一般的な図を示す。例示のエンコーダは、入力信号を受け取り、特に次のデータを含む、ビットストリームを生成する。
・量子化されたMDCTライン
・スケールファクタ
・LPC多項式表現
・信号セグメントエネルギ(たとえば、信号分散)
・ウィンドウシーケンス
・LTPデータ
実施の形態によるデコーダは、提供されたビットストリームを読み、オリジナル信号を心理音響的に表すオーディオ出力信号を生成する。
図11aは、本発明の実施の形態によるエンコーダ1100の態様の別の図である。エンコーダ1100は、LPCモジュール1101、MDCTモジュール1102、LTPモジュール1105(簡単化して示すのみ)、量子化モジュール1103、および、復号した信号をLTPモジュール1105に戻す逆量子化モジュール1104を備える。入力信号のピッチを推定するピッチ推定モジュール1150と、入力信号の比較的大きなブロック(たとえば1秒)用に最適なMDCTウィンドウシーケンスを決定するウィンドウシーケンス決定モジュール1151をさらに備える。この実施の形態では、MDCTウィンドウシーケンスは開ループアプローチに基づいて決定され、開ループアプローチでは、たとえば単純化知覚エントロピであるコーディングコスト関数を最小化するMDCTウィンドウサイズ候補のシーケンスが決定される。ウィンドウシーケンス決定モジュール1151で最小化されたコーディングコスト関数に対するLTPモジュール1105の寄与は、最適MDCTウィンドウシーケンスを探すときにオプションとして考慮されてもよい。好ましくは、評価された各ウィンドウサイズ候補について、ウィンドウサイズ候補に対応するMDCTフレームへの最適な長期間予測寄与を決定し、各コーディングコストが推定される。一般的に、短いMDCTフレームサイズは音声入力により適するが、詳細なスペクトル分解能を有する長い変換ウィンドウはオーディオ信号に適する。
知覚重み付けあるいは知覚重み付け関数は、LPCモジュール1101で計算されたLPCパラメータに基づいて決定され、以下に詳細に説明される。知覚重み付けは、LTPモジュール1105と量子化モジュール1103に提供され、共にMDCT領域で動作し、それぞれの知覚重要性に応じて周波数成分の誤差または歪み寄与を重み付けする。図11aは、どのコーディングパラメータがデコーダに、好ましくは追って説明するような適切なコーディングスキームにより、伝達されるかを示す。
次に、共に反作用と実際のフィルタの省略のためであるが、LPCおよびMDCTデータの共存とMDCTでのLPCの効果のエミュレーションを説明する。
実施の形態によれば、LPモジュールは、信号のスペクトル形状を除去し、そして、続くLPモジュールの出力がスペクトル的にフラットな信号となるように、入力信号にフィルタを掛ける。このことは、たとえばLTPの動作に利点を有する。しかし、スペクトル的にフラットな信号に動作するコーデックの他の部分は、LPフィルタの前のオリジナル信号のスペクトル形状がどんなものであったのかを知ることにより利益を得る。フィルタの後のエンコーダモジュールはスペクトル的にフラットな信号のMDCT変換に動作するので、必要ならば、本発明はLPフィルタの前のオリジナル信号のスペクトル形状を、ゲインカーブすなわち量子化カーブに使用したLPフィルタの変換関数(すなわち、オリジナル信号のスペクトル包絡線)でマッピングすることによりスペクトル的にフラットな信号のMDCT表現に再度掛け、変換関数はスペクトル的にフラットな信号のMDCT表現の周波数ビンに適用されることを教示する。反対に、LPモジュールは、実際のフィルタを省略し、変換関数を推定するだけでよく、変換関数は次にゲインカーブにマッピングされ、ゲインカーブは信号のMDCT表現に掛けられ、よって入力信号の時間領域フィルタの必要性をなくする。
本発明の実施の形態の一つの顕著な態様は、MDCTベースの変換コーダーが、フレキシブルなウィンドウセグメント分けを用いてLPC白色化信号で動作することである。このことは図12に示され、図12では例示のMDCTウィンドウシーケンスが、LPCのウィンドウ化と一緒に示される。したがって、図から明らかなように、LPCは一定のフレームサイズ(たとえば20ミリ秒)で動作するが、MDCTは可変ウィンドウシーケンス(たとえば、4〜128ミリ秒)で動作する。このことにより、独立してLPCに対する最適なウィンドウ長とMDCTに対する最適なウィンドウシーケンスとが選定できる。
図12は、第1のフレームレートで生成されたLPCデータ、特にLPCパラメータと、第2の可変レートで生成されたMDCTデータ、特にMDCTラインとの関係を更に示す。図中、下向き矢印は、対応するMDCTフレームに適合するようにLPCフレーム(サークル)間に挿入されるLPCデータを表す。たとえば、LPCで生成された知覚重み付け関数は、MDCTウィンドウシーケンスで決められる時間インスタンスに挿入される。上向き矢印は、MDCTラインコーディングに用いられる改良データ(すなわちコントロールデータ)を表す。AACについてこのデータは典型的にスケールファクタであり、ECQフレームについてそのデータは典型的に分散補正データなどである。実線対破線は、ある量子化器に与えられたMDCTラインコーディング用の最も「重要な」データがどちらのデータであるかを表す。二重の下向き矢印は、コーデックスペクトルラインを表す。
エンコーダでのLPCとMDCTデータの共存は、たとえば、LPCパラメータから推定した知覚マスキングカーブを考慮することによりMDCTスケールファクタをエンコーディングすることのビット要求を低減するのに利用される。さらに、量子化歪みを決定するのにLPC由来知覚重み付けを用いてもよい。図示され以下に説明されるように、量子化器は2つのモードで作動し、受信したデータのフレームサイズに基づき、すなわちMDCTフレームやウィンドウサイズに対応して、2つのタイプのフレーム(ECQフレームとAACフレーム)を生成する。
図15は一定レートLPCパラメータを適応MDCTウィンドウシーケンスデータにマッピングする好適な実施の形態を示す。LPCマッピングモジュール1500は、LPC更新レートにしたがったLPCパラメータを受信する。さらに、LPCマッピングモジュール1500はMDCTウィンドウシーケンスに関する情報を受信する。そして、たとえば、可変MDCTフレームレートで生成されるそれぞれのMDCTフレームにLPCベースの心理音響データをマッピングするのに、LPC−MDCTマッピングを生成する。たとえば、LPCマッピングモジュールは、たとえばLTPモジュールまたは量子化器の知覚重みのように使うために、LPC多項式あるいはMDCTフレームに対応する時間インスタンスの関連データを内挿する。
ここで、図13を参照してLPCベースの知覚モデルの特徴について説明する。LPCモジュール1301を本発明の実施の形態では、たとえば16kHzのサンプリングレート信号用命令16の線形予測を用いて白色化出力信号を生成するように適応する。たとえば、図2のLPCモジュール201からの出力は、LPCパラメータ推定とフィルタ掛けの後に残留物となる。図13の左下に模式的に示される、推定したLPC多項式A(z)は、バンド幅拡張係数によりチャープされ、本発明の実施によっては傾けられ、対応するLPC多項式の第1の反射率を修正する。チャープは、多項式の極を内側にユニットサークルへ移動することによりLPC伝達関数のピークのバンド幅を拡張し、その結果柔らかなピークとする。傾けることにより、低周波数と高周波数の影響をバランスするためにLPC伝達関数をより平らにすることができる。このような修正は、システムのエンコーダとデコーダの両側で利用可能な推定したLPCパラメータから知覚マスキングカーブA’(z)を生成することを目的とする。LPC多項式の操作の詳細は、以下の図16に示す。
LPC残留に動作するMDCTコーディングは、本発明の一実施においては、量子化器の分解能あるいは量子化ステップサイズ(および、量子化により導入されるノイズ)をコントロールするスケールファクタを有する。このようなスケールファクタは、オリジナルの入力信号についてスケールファクタ推定モジュール1360により推定される。たとえば、スケールファクタはオリジナル信号から推定された知覚マスキング閾値カーブから導かれる。実施の形態では、分割周波数変換(恐らく異なった周波数分解能を有する)を用いてマスキング閾値カーブを決定してもよいが、このことは常に必要なわけではない。あるいは、マスキング閾値カーブは変換モジュールにより生成されたMDCTラインから推定されてもよい。図13の右下部分は、スケールファクタ推定モジュール1360により生成された、導入される量子化ノイズが不可聴歪みに制限されるように量子化をコントロールするスケールファクタを図示する。
LPCフィルタがMDCT変換モジュールの上流に接続されると、白色化信号はMDCT領域に変換される。この信号は白色スペクトルを有するので、知覚マスキングカーブを導くのには適さない。よって、マスキング閾値カーブおよび/またはスケールファクタを推定するには、スペクトルの白色化を相殺するのに生成されたMDCT領域量子化ゲインカーブを用いる。これは、知覚マスキングを正確に推定するためには、スケールファクタは、オリジナル信号の完全なスペクトル特性を有する信号で推定する必要があるからである。LPC多項式からのMDCT領域量子化ゲインカーブの計算は、以下に図14を参照して詳細に説明する。
上記に概略を説明したアプローチを用いると、エンコーダとデコーダ間で伝達されたデータは、モデルベース量子化器を用いると信号モデルと共に関連した知覚情報も導き出されるLP多項式と、変換コーデックで一般的に用いられるスケールファクタとの両方を含む。
更に詳細には、図13に戻って、図中のLPCモジュール1301は入力信号から信号のスペクトル包絡線A(z)を推定し、それから知覚表現A’(z)を導き出す。さらに、変換ベースの知覚オーディオコーデックで通常用いられるスケールファクタが入力信号について推定され、または、スケールファクタ推定でLPフィルタの変換関数が考慮されるならば(以下に図14の関係で説明されるように)、スケールファクタは、LPフィルタで作られた白色化信号について推定される。それからスケールファクタは、以下に簡単に説明するように、スケールファクタを伝達するのに必要なビットレートを低減するために、LP多項式を与えられたスケールファクタ適応モジュール1361で適応される。
通常、スケールファクタはデコーダに伝達され、LP多項式もデコーダに伝達される。ここで、それらはオリジナル入力信号から推定され、共にオリジナル入力信号の絶対スペクトル特性に多少相関を有するとすると、それらが別々に伝達されると生ずる冗長性を除去するために、それら2つの間の差分表現をコーディングすることが提案される。実施の形態によれば、この相関は以下のように利用される。LPC多項式は正しくチャープされ傾けられたときにマスキング閾値カーブを表そうとするので、伝達された変換コーダーのスケールファクタが所望のスケールファクタと変換されたLPC多項式から導かれるものとの間の差を表現するように2つの表現が組み合わされる。したがって、図13に示されるスケールファクタ適応モジュール1361は、オリジナル入力信号から生成された所望のスケールファクタとLPC由来のスケールファクタとの差を計算する。この態様は、LPC構造内で、変換コーダーで一般的に用いられるスケールファクタの概念を有するMDCTベースの量子化器がLPC残留に作用する能力を維持し、さらに線形予測データからのみ量子化ステップサイズを導くモデルベース量子化器に切り替える可能性も有する。
図14は、LPC多項式をMDCTゲインカーブに書き換える好適な実施の形態を示す。図2で概略説明したように、MDCTは、LPCフィルタ1001で白色化された白色化信号について動作する。オリジナル入力信号のスペクトル包絡線を維持するため、MDCTゲインカーブは、MDCTゲインカーブモジュール1470で計算される。MDCT領域等化ゲインカーブは、MDCT変換のビンで表される周波数について、LPCフィルタで説明されたスペクトル包絡線の強度応答を推定することによって得られる。それから、ゲインカーブは、たとえば図3で示した最小平均自乗誤差信号を計算するときに、または、上記の図13を参照して説明したようにスケールファクタ決定のために知覚マスキングカーブを推定するときに、MDCTデータに適用される。
図16は、変換サイズおよび/または量子化器のタイプに基づいて知覚重み付けフィルタ計算を適応する好適な実施の形態を示す。LP多項式A(z)は図16のLPCモジュール1601で推定される。LPCパラメータ修正モジュール1671はLPC多項式A(z)のようなLPCパラメータを受信し、LPCパラメータを修正することにより知覚重み付けフィルタA’(z)を生成する。たとえば、LPC多項式A(z)のバンド幅を拡張し、および/または、多項式を傾斜する。適応チャープ・傾斜モジュール1672への入力パラメータは、デフォルトチャープ値ρおよび傾斜値γである。これらは、用いる変換サイズおよび/または用いる量子化方式Qに基づいて、所定のルールを考えて修正される。修正されたチャープパラメータρ’と傾斜パラメータγ’は、A(z)で表される入力信号スペクトル包絡線をA’(z)で表される知覚マスキングカーブに書き換えるLPCパラメータ修正モジュール1671に入力される。
以下では、フレームサイズに条件のある量子化方式および本発明の実施の形態により様々なパラメータに条件のあるモデルベース量子化を説明する。本発明の一態様は、異なった変換サイズやフレームサイズに対して異なった量子化方式を用いることである。このことは図17に示され、フレームサイズがモデルベース量子化器または非モデルベース量子化器を用いるための選択パラメータとして用いられる。この量子化の態様は、開示されたエンコーダ/デコーダの他の態様とは独立し、別のコーデックにも適用できることは重要である。非モデルベース量子化器の例は、AACオーディオコーディング規格で用いられるハフマン表ベースの量子化器である。モデルベース量子化器は、算術符号化を用いるエントロピ制約量子化器(ECQ)でもよい。しかし、本発明の実施の形態では他の量子化器を同様に用いてもよい。さらに、ここで説明している本発明の実施の形態では、選択した量子化器は、変換サイズによってデコーダに暗に信号を送る。たとえば、特定のフレームサイズに使用された量子化方式で陽にデコーダに情報を送るなどの、信号を送る他の手段も同様に使用できることは明らかであろう。
本発明の独立した態様によれば、特定のフレームサイズを考慮した最適な量子化方式を用いることができるように、フレームサイズの関数として異なった量子化方式間で切り替えることが推奨される。例として、ウィンドウシーケンスは、信号の非常に安定している調性音楽セグメントについて長い変換の使用を決定する。長い変換を用いる、この特定の信号タイプについて、信号スペクトルの「まばらな」特徴(すなわち、よく定義された離散化したトーン)を利用する量子化方式を用いることは大いに有益である。ハフマン表と組み合わせてAACで用いられ、スペクトル線をグルーピングしてAACでまた用いられる量子化方法は、とても利益がある。しかし、反対に、音声セグメントについては、ウィンドウシーケンスは、LTPのコーディングゲインを考慮して、短時間変換の使用を決定する。この信号タイプと変換サイズについて、スペクトルのまばらさを見出したり導入したりしようとせず、代わりに、LTPを考慮してオリジナル入力信号のパルス的な特徴を保持するブロードバンドエネルギを維持する量子化方式を採用することは利益がある。
この概念のより一般的な概観は図18に示され、入力信号はMDCT領域に変換され、続いてMDCT変換に用いられる変換サイズまたはフレームサイズによりコントロールされる量子化器で量子化される。
本発明の他の態様によれば、量子化器のステップサイズは、LPCおよび/またはLTPデータの関数として適応される。このことによりフレームの困難さによりステップサイズの決定を行うことができ、フレームのエンコーディングに割り当てられるビット数をコントロールする。図19にモデルベース量子化がLPCおよびLTPデータによりどのようにコントロールされるかが示される。図19の上部にはMDCTラインの模式図が示される。下には、周波数の関数としての量子化ステップサイズ差分Δを表す。この特定の例から、周波数と共に量子化ステップサイズが増加すること、すなわち、大きな量子化歪みが高い周波数で生ずることが明らかである。差分カーブは、図19aに示す差分適応モジュールによってLPCおよびLTPパラメータから導かれる。差分カーブは、図13を参照して説明したように、さらに、チャープおよび/または傾斜により予測多項式A(z)から導かれる。
LPCデータから導かれる好適な知覚重み付け関数は、下記の式で与えられる。
Figure 2011510335
ここで、A(z)はLPC多項式、τは傾斜パラメータ、ρはチャープをコントロールし、γはA(z)多項式から計算した第1の反射率である。A(z)多項式は、その多項式から関連情報を抽出するために、異なった表現の類別にまで再計算されることが重要である。スペクトルの傾斜を無効にする「傾斜」を適用するためにスペクトルの傾斜に興味があれば、第1の反射率はスペクトルの傾斜を表すので、反射率までのA(z)多項式の再計算が好ましい。
さらに、差分値Δは、入力信号分散σ、LTPゲインg、および、予測多項式から導く第1の反射率γの関数として適応できる。たとえば、適応は下記式に基づいてもよい。
Figure 2011510335
以下に、本発明の実施の形態によるモデルベース量子化器の態様を説明する。図20にモデルベース量子化器の態様の一つを図示する。MDCTラインを、均一スカラ量子化器を用いて量子化器に入力する。さらに、ランダムオフセットを量子化器に入力し、量子化区間の境界を変更する量子化区間のオフセット値として用いる。提案の量子化器は、スカラ量子化器の検索能力を維持しつつ、ベクトル量子化の長所を提供する。量子化器は異なったオフセット値のセットについて反復し、それらの量子化誤差を計算する。量子化される特定のMDCTラインの量子化歪みを最小化するオフセット値(またはオフセット値のベクトル)を、量子化に用いる。それからオフセット値は、量子化MDCTラインに沿ってデコーダに伝達される。ランダムオフセットの使用により、逆量子化され、デコーディングされた信号にノイズ充填が行われ、そのようにすることにより、量子化スペクトルのスペクトルホールを回避する。このことは、そうしなければ多くのMDCTラインが復号信号のスペクトルの可聴ホールとなるゼロ値に量子化されてしまう低ビットレートにとっては特に重要である。
図21は、本発明の実施の形態によるモデルベースMDCTライン量子化器(MBMLQ)を模式的に示す。図21の上部は、MBMLQエンコーダ2100を表わす。MBMLQエンコーダ2100は入力としてMDCTフレームのMDCTラインあるいはLTPがシステムに存在するならLTP残留のMDCTラインを受け取る。MBMLQは、MDCTラインの統計モデルを用い、ソースコードをMDCTのフレームごとに基づく信号特性に適応させ、ビットストリームに効率的な圧縮を施す。
MDCTラインの局所的ゲインはMDCTラインのRMS値、およびMBMLQエンコーダ2100に入力される前にゲイン正規化モジュール2120で正規化されたMDCTラインとして推定される。局所的ゲインはMDCTラインを正規化し、LPゲイン正規化を補完する。LPゲインはより大きな時間スケールで信号レベルの変化に適応するが、局所的ゲインは、より小さな時間スケールでの変化に適応し、遷移サウンドと音声の出だしの改良した品質を生ずる。局所的ゲインは固定レートあるいは可変レートコーディングでエンコードされ、デコーダに伝達される。
レートコントロールモジュール2110を用いてMDCTフレームをエンコードするのに用いるビット数をコントロールしてもよい。レートコントロールインデックスは、使用されるビット数をコントロールする。レートコントロールインデックスは、公称量子化器ステップサイズのリストに書き込まれる。表は、降順にステップサイズで並べ替えられてもよい。
MBMLQエンコーダは、異なったレートコントロールインデックスのセットで実行され、レートコントロールインデックスはビットリザーバコントロールにより与えられた許容ビット数より低いビットカウントになり、フレームに使用される。レートコントロールインデックスはゆっくりと変化し、このことは、検索の複雑さを低減し、レートコントロールインデックスを効率的にエンコードするのに利用される。テストされたレートコントロールインデックスのセットは、テストが前回のMDCTフレームのインデックスの周囲で始められるならば、低減できる。同様に、確率がレートコントロールインデックスの前回の値の周囲にピークを有するなら、レートコントロールインデックスの効果的なエントロピコーディングが得られる。たとえば、32ステップサイズのリストについて、レートコントロールインデックスは、平均でMDCTフレーム当たり2ビットを用いてコーディングされる。
図21はさらに、エンコーダ2100で局所的ゲインが推定されるならばMDCTフレームをゲインで再正規化するMBMLQデコーダ2150も模式的に示す。
図21aは、モデルベースエントロピ制約エンコーダ2140を模式的により詳細に示す。入力されたMDCTラインは、それらを知覚マスキング曲線、好ましくはLPC多項式から導かれたもので除すことにより知覚的に重み付けされ、その結果、重み付きMDCTラインベクトルy={y,・・・、y}となる。それに続くコーディングの狙いは、知覚領域のMDCTラインに白色の量子化ノイズを導入することである。デコーダでは、知覚重み付けの逆が適用され、その結果、知覚マスキングカーブに従う量子化ノイズとなる。
ランダムオフセットは、粗い量子化によるスペクトルホールを回避する手段として量子化器の説明において既に述べた。スペクトルホールを回避する他の方法としては、図22で示すように、SBRモジュール2212をLTPループに組み込むことがある。
図22では、SBRモジュール2212はMDCT領域で動作し、低周波数から高周波数を再生成する。完全なエンコーダ/デコーダSBRシステムとは反対に、全体の動作がスペクトル的に平坦なMDCT領域で行われるので、LTPループのSBRモジュールは、包絡線調整を必要としない。LTPモジュールに高周波数復号モジュールを設置する利点は、高周波数再生成信号は量子化の前に抽出され、量子化の後に加えられることである。それゆえ、全体の周波数範囲でビットを使えるならば、量子化器は、オリジナルの高周波数が維持されるように信号をエンコーディングし(SBRの寄与は量子化の前に抽出され、量子化の後に加えられるから)、ビット制約が厳しすぎるならば、量子化器は高周波数にエネルギを生成することができず、SBR再生成高周波数は「フォールバック」として出力に加えられ、よって高周波数範囲でのエネルギを確保する。
本発明の一実施の形態においてLTPループのSBRモジュールは単純コピーされた(すなわち、低周波数ラインが高周波数ラインにコピーされた)メカニズムである。別の実施の形態では、高調波高周波数再生成モジュールを用いる。高調波信号について、低バンドスペクトルに調和した関係を有する高周波数スペクトルを生成するSBRモジュールは好ましく、なぜならば、量子化の前に入力信号から抽出された高周波数は、オリジナルの高周波数とよく一致し、よって量子化器に入る信号のエネルギを低減し、ビットレートの要求を考慮して量子化するのを容易にするからである。3番目の実施の形態では、LTPループのSBRモジュールは、変換サイズに依存して高周波数、よって、暗黙的に信号特性を再生成するやり方を適応できる。
本発明は、新しいウィンドウシーケンスコーディングフォーマットをさらに組み込む。本発明の実施の形態によれば、図23a、b、cに図化されるように、MDCT変換に用いられるウィンドウは、ダイアディックサイズであり、ウィンドウ間で係数2の大きさの変化しかしない。ダイアディック変換サイズは、例えば、16kHzのサンプリングレートにおいて4、8、・・・、128ミリ秒に対応して64、128、・・・、2048である。一般的に、最小ウィンドウサイズと最大ウィンドウサイズ間の複数のウィンドウサイズを取ることができる可変サイズウィンドウが提案される。シーケンスにおいて、連続的なウィンドウサイズは係数2でのみ変化し、急激な変化のないウィンドウサイズのスムースなシーケンスが展開する。実施の形態で画定するようなウィンドウシーケンス、すなわちダイアディックサイズに限定され、ウィンドウ間で係数2の大きさで変化することだけが出許される、ウィンドウシーケンスは、多くの利点を有する。先ず第1に、特別な開始あるいは終了ウィンドウ、すなわちシャープなエッジを有するウィンドウが不要である。このことにより、時間/周波数分解能が良好に維持される。第2に、ウィンドウシーケンスはコーディングするのに、すなわちデコーダにどの特定のウィンドウシーケンスが用いられるか信号を送るのに、非常に効率的になる。実施の形態によれば、シーケンスの次のウィンドウが係数2だけ増大するのか2だけ減少するのかの信号を送るのにたった1ビットだけが必要となる。もちろん、上記の制約を考慮してウィンドウサイズのシーケンス全体を効率的にコーディングする他のコーディング方式を使ってもよい。最後に、ウィンドウシーケンスは、いつでもハイパーフレーム構造によく適合する。
ハイパーフレーム構造は、デコーダを始めることを可能にするためにあるデコーダ構造パラメータが伝達されなければならない現実のシステムでコーダーを操作するのに有用である。このデータは、通常コーディングされたオーディオ信号を記述するビットストリームのヘッダーフィールドに保存される。ビットレータを最小化するために、ヘッダーはコーディングされたデータのすべてのフレームで伝達されず、MDCTフレームサイズが極短いものから極長いものまで変化する本発明で提案されるシステムでは特にそうである。したがって、本発明では、ある量のMDCTフレームをハイパーフレームにグループ化し、そこではヘッダーデータがハイパーフレームの最初で伝達されることを提案する。ハイパーフレームは特定の長さの時間で画定されるのが典型的である。したがって、MDCTフレームサイズの変化が一定の長さであらかじめ規定されたハイパーフレーム長に適合するようにする注意が必要である。上記に説明した発明性のあるウィンドウシーケンスは、選定したウィンドウシーケンスがいつでもハイパーフレーム構造に適合することを確実にする。
図23aは、MDCT理論により得られる、MDCT変換の隣接ウィンドウについての好適な適合性要求を示す。左のウィンドウは変換サイズLに適合し、右のウィンドウは変換サイズLに適合する。ウィンドウのオーバーラップは直径の時間区間、すなわち期間Dにサポートされる。本発明の実施の形態により教示されるMDCT変換については、変換サイズは、等しい(L=L)か、係数2で大きさが異なる(L=2LまたはL=2L)か、どちらでもよい。図では、後者の状態を示す。さらに、他の好適な制約として、変換サイズ区間の位置は、規則正しい等距離のハイパーフレームシーケンスのダイアディック分割により求められなければならない。すなわち、変換区間位置は、ハイパーフレーム区間から始めて、半分で分割される区間の継続から得られる。変換サイズ区間が与えられる場合であっても、オーバーラップ直径Dを選定するのにいくらかの自由度が残されている。本発明の実施の形態によれば、隣接する変換サイズL1、L2より遥かに小さな直径Dは、そのようなシャープなエッジは結果として得られるMDCT変換の周波数解像度を低くするので、回避される。
図23bは、4つの異なるMDCTウィンドウ形状を用いる本発明の実施の形態を模式的に示す。4つの形状は、以下のように表示される。
LL:長い左と長い右がオーバーラップ
LS:長い左と短い右がオーバーラップ
SL:短い左と長い右がオーバーラップ
SS:短い左と短い右がオーバーラップ
使用されるMDCTウィンドウは、これら4つのウィンドウのタイプを再スケーリングしたものであり、再スケーリングは指数2に等しい係数による。図23bの時間軸上の目盛は、変換サイズ区間を表わし、図示のように、長いオーバーラップの直径は変換サイズに等しいが、短いオーバーラップの直径はそのサイズの半分である。実際的な実行では、最大変換サイズがあり、それは最小変換サイズの2倍であり、Nは6より小さな整数に等しいのが典型である。さらに、最小の変換サイズではLLウィンドウだけを考慮してもよい。
図23cは、例を用いて、本発明の実施の形態によるウィンドウシーケンスエンコーディング方法を説明する。時間軸のスケールは、最小変換サイズの単位に正規化してある。ハイパーフレームサイズは、その単位でH=16であり、ハイパーフレームの左縁は時間スケールの原点t=0を規定する。また、単純化のために、許容される最大変換サイズはN=2として4=2と仮定する。変換サイズ区間は、それぞれ長さ4、2、2、1、1、2、4を有する7つの区間[0,4], [4,6], [6,8], [8,9], [9,10], [10,12], [12,16]からなるハイパーフレーム区間[0,16]のダイアディック部分を形成する。見れば分かるように、これらの長さは、隣同士の間は係数2で最大限変化するサイズの条件に従っている。7つのウィンドウ全てが、図23bの4つの基本形の1つを再スケーリングすることにより得られる。
変換サイズが2倍あるいは半分に維持されるので、それらを再帰的にエンコーディングする最初のアプローチは、ウィンドウシーケンスに沿ったこの選択の道筋を三位のシンボルで保つことである。しかし、このことにより、変換サイズの過度なコーディングや、ウィンドウ形状の不明りょうな記述を生じうる。ダイアディック分割を用いる要求のために、前者は、変換サイズを2倍にすることができないことがある。
たとえば、区間[4,6]の後、2倍にすると区間[6,10]となり、[0,16]のダイアディックサブ区間ではなくなる。後者のウィンドウ形状の不明りょうな記述は、同じサイズの隣接区間が長いオーバーラップあるいは短いオーバーラップのどちらでも共有できるので、図23bの例で抑えられる。これらのオーバーラップの要求は、MDCT理論から分かり、フィルタバンクのエイリアシングキャンセル特性を与える。
その代わりに、実施の形態によるコーディングの原理は以下の通りである。
各ウィンドウについて最大の2ビットが次のように規定される。
= 1:変換サイズが左のオーバーラップより大きい場合
0:その他の場合
= 1:右のオーバーラップが変換サイズより小さい場合
0:その他の場合
別の言い方をすると、ビットベクトル(b、b)から図23bのウィンドウタイプへのマッピングは以下の表で与えられる。
Figure 2011510335
しかし、ビットの1つがダイアディック変換区間の制約あるいは変換サイズの制限から推定されると、そのときにはそれは伝達されない。
図23cの特定の例に戻ると、一番左のオーバーラップのサイズ4単位は、前回のハイパーフレームの最終状態よりあるいは独立したハイパーフレームの場合には絶対的伝達より求められる現在のハイパーフレームの最初の状態である。考慮すべき最初のビットは、一番左のウィンドウのbである。区間[0,4]の長さは4より大きくないので、このビットの値は0となる。しかし、4はこの例で考えられる最大の変換サイズであるので、この第1のビットは除外される。このことは、最初のウィンドウの上の×印で消された0で表わされる。右のオーバーラップは変換サイズより小さいので、このウィンドウの2番目のビットは上記のようにb=2で、オーバーラップポイントt=4である。次に、区間[4,6]はt=4の周囲でオーバーラップに等しいサイズを有し、よって2番目のウィンドウの第1のビットはb=0である。t=6の周囲のオーバーラップは2より小さくないので、次のビットは0となる。3番目のウィンドウの変換サイズビットb1は値0であるが、ここで、より長い変換のオプションはダイアディック構造と一致せず、ビットはその状況から推定され、よって、伝達されず、図では×印で消されている。このプロセスは、短いオーバーラップのビット1を有するt=16にハイパーフレームの終わりが到達するまで続けられる。途中で、[9.10]上の3つのビットが最短の変換サイズのオーバーラップは役に立たないという理由で×印で消されており、拡大すると間違った位置にある。よって、全部の消していないビットシーケンスは、
01000100001011
であるが、エンコーダとデコーダの両方で利用できる情報を用いた後に次のように低減され、
100101011
7つのウィンドウをコーディングするのに9ビットとなる。
ビットレートのさらなる低減が、これらの純粋に記述的なビットのエントロピコーディングにより行えることは、当業者には明らかである。
図24に発明性のあるエンコーダ/デコーダシステムの追加の特徴を示す。入力信号はMDCT分析モジュールに入力され、その信号のMDCT表現が高調波予測モジュール2400に入力される。高調波予測は、パラメトリックフィルタを考慮する、周波数軸に沿ったフィルタ掛けである。ピッチ情報、ゲイン情報および位相情報を考慮して、それから(周波数が)高い方のMDCTラインは、入力信号が一連の高調波を含むなら、低い方のラインから予測される。高調波予測モジュールのコントロールパラメータは、ピッチ情報、ゲインおよび位相情報である。
実施の形態によれば、LTP抽出モジュール2512とLTP改良モジュール2518の2つのモジュールを含んで示す図25で説明するように、MDCT領域における仮想のLTPベクトルを用いる。LTPの考えは、出力信号の前回のセグメントを現在のセグメントあるいはフレームのデコーディングに用いることである。どの前回のセグメントを使うかは、コーディングされた信号の歪みを最小化する繰り返しプロセスを考慮して、LTP抽出モジュール2512で決められる。LTPがMDCT領域で実行されるときに、本発明はMDCTフレームのオーバーラップを考慮する新しい方法を提供し、すなわち、MDCT分析され現在の出力セグメントのデコーディングプロセスで使われる前回の出力信号のセグメントが、オーバーラップのために、未だ生成されてはいない現在の出力信号の部分を含むように、LTP遅延が選定される。
この繰り返しプロセスを以下に説明する。
LTPバッファから信号の第1の抽出がLTP抽出モジュール2512により実行される。この第1の抽出の結果は改良モジュール2518により改良されるが、改良モジュール2518の目的は、選定した遅延TがコーディングされるフレームのMDCTウィンドウの機関より小さいときにLTP信号の品質を改良することである。分析されたフレームより小さな時間遅延に対するLTP寄与を改良する繰り返しプロセスを、図25aを参照することでまず簡単に説明する。最初のグラフで、LTPバッファで選定されたセグメントが、MDCT分析ウィンドウを重ね合わせて、示される。オーバーラップウィンドウの右の部分は、利用できるデータを含んでない(時間信号の破線の部分)。繰り返し改良プロセスは、以下の工程を経る。
1)MDCT分析で一般的に行われるように、オーバーラップ部分でフォールドインする(折り畳む);
2)オーバーラップ部分をフォールドアウトする(折り畳んだものを開く)(最初にデータを含んでいない右側の部分は、今はフォールドアウトデータを有することに留意すること);
3)ウィンドウを選定したLTP遅延だけ右に移動する;
4)オーバーラップ部分をフォールドインし、差分を計算する;
5)上のグラフのオリジナルのLTPセグメントと差分を合計する。
この繰り返しプロセスは2から4回行われるのが好ましい。
MDCT適応LTP抽出プロセスを図25bにより詳細に示し、図25bは、LTP抽出モジュールで実行される工程を示す。
a)様式を合わせた入力信号x(t)を表わす。入力信号x(t)は、有限の時間区間においてのみ、LTPバッファの範囲もしくは現在のMDCTフレームウィンドウの範囲で、または、システムの制限により与えられる他の区間で既知である。しかし、操作の定義用には、入力信号は全ての時間で既知であると仮定する。このことは、既知である区間の外側では入力信号をゼロに設定することによりなされる。
b)入力信号に実行される最初の操作は、LTP遅延Tだけ移動することである。すなわち、
(t)=x(t−T)
c)次の工程は、MDCTウィンドウw(t)を適用することである。そのようなウィンドウは、期間の上昇部分2r、期間の下降部分2r、および、恐らくその間の一定部分からなる。例示のウィンドウは破線のグラフで示される。ウィンドウの上昇部分及び下降部分のサポートは、それぞれミラーポイントt、tの周囲に集中する。信号x1(t)は、ウィンドウでポイントごとに乗算され、次式が得られる。
(t)=w(t)・x(t)
再度、既知の範囲[t−r,t+r]の外側ではウィンドウw(t)はゼロと仮定される。
x(t)からx(t)への操作に関する別の、しかし同等な見方は、次の工程を実行することであり、
Figure 2011510335
ここで、工程(i)は(t−r−T,t+r−T)でサポートされるウィンドウでウィンドウ操作することになり、工程(ii)はその結果をLTP遅延Tだけ移動する。
d)ここでウィンドウ信号x(t)は、次式により規定される[t,t]でサポートされる信号にフォールドインされる。
(t)+ε(2t−t) t≦t≦t+rの場合
(t)=x(t) t+r<t<t−rの場合
(t)+ε(2t−t) t−r≦t≦tの場合
説明した例では、信号の値は、MDCT変換の所与の遂行に対応して(ε1,ε2)=(−1,1)であり、他の可能性としては(1,−1)、(1,1)あるいは(−1,−1)である。
フォールドインされた信号x(t)は、続いて区間[t−r,t+r]でサポートされた信号にフォールドアウトされ、次式で与えられる。
ε(2t−t) t−r≦t≦tの場合
(t)=x(t) t<t<tの場合
ε(2t−t) t≦t≦t+rの場合
(t)からx(t)への操作はまた、区間[t−r,t+r]と[t−r,t+r]の信号部分のミラーイメージを加え、あるいは減じる1つの操作に組み合わせることができる。
f)最後に、信号x(t)にMDCTウィンドウでウィンドウ掛けして、LTP抽出操作の結果を作り出す。
y(t)=w(t)・x(t)
(t)からy(t)への組み合わせ操作は、MDCT合成が後に続くMDCT分析と等価であり、このことは現在のMDCTフレームサブスペースの直交射影を実現することは、当業者にとっては明らかである。
オーバーラップがない場合、すなわちr=r=0の場合に、d)からf)の操作によってはx(t)には何も起こらないということは重要である。すると、ウィンドウ操作は、区間[t,t]における信号x(t)の単なる抽出からなる。この場合、LTP抽出モジュール2512はまさに、先行技術のLTPエクストラクタが行うことを実行する。
図25cは、最初のLTP抽出信号y(t)の繰り返し改良を説明する。それは、LTP抽出操作N−1回を適用することと、その結果を最初の信号に加えることからなる。SがLTP抽出操作を表わすならば、繰り返しは次式で定義される。
Δ=y
Δ=S(Δk−1)、k=1,・・・,N−1
=yk+1,k=2,・・・,n−2
LTP遅延T>max(2r,2r)であれば、Δ=0であるようなNがあることが、図25bから分かる。T>r+r+t−tであれば、既にΔ=0であり、改良は割愛される。
オーバーラップがない場合は、すなわちr=r=0の場合に、本方法は、従来技術の方法の仮想ベクトル生成と一致する。
図25dは、改良ユニットの別の遂行を示し、改良ユニットは下記の繰り返しを実行する。
=y+S(yk−1),k=2,・・・,N
双方の遂行において、繰り返しからの最終的出力は、次式のように記載され、
Figure 2011510335
ここで、xはLTPバッファ信号である。
本発明の実施の形態によれば、LTP遅延とLTPゲインは可変レートの様式でコーディングされる。このことは、変化しない周期的信号に対するLTPの有効性のために、LTP遅延はある程度長いセグメントで同じである傾向があるので、有利である。それゆえ、このことは算術コーディングにより用いられ、結果として可変レートLTP遅延およびLTPゲインコーディングとなる。
同様に、本発明の実施の形態は、LTPパラメータのコーディングについてビットリザーバと可変レートコーディングの利益を享受する。さらに、帰納的LPコーディングが本発明により教示される。
前述したように、高調波信号のコーディングを改良するようになされた技術を利用してもよい。そのような技術は、たとえば、高調波予測、LTPあよび時間歪みである。前記のツールは全て陰にあるいは陽にある種のピッチあるいはピッチに関連する情報に依存する。本発明の実施の形態では、別の技術で必要となるこの別の情報は、依存性あるいは相関性があることを考慮して効率的にコーディングされる。このことは図26に示され、図26は、LTP遅延や時間歪みからの差分などのピッチ関連データおよびピッチを組み合わせる組み合わせユニット2600を示し、組み合わせユニット2600は組み合わされたピッチ信号を生成する。
上記に説明したように、実施の形態によるコーデックは、MDCT領域でLTPを利用してもよい。MDCT領域でLTPのパフォーマンスを改善するために、2つの追加のLTPバッファ2512、2513を導入してもよい。図27に示すように、LTPエクストラクタがLTPバッファ2511に最適な遅延を探索するとき、ノイズベクトルとパルスベクトルとも探索に含まれる。ノイズとパルスは、たとえばLTPバッファに保管された前回のセグメントの信号が適切でない遷移などにおいて、予測信号として用いられる。よって、パルスおよびノイズコードブックのエントリを伴う改良されたLTPが提供される。
本発明の他の態様は、エンコーダの可変のフレームサイズ用のビットリザーバの取扱いである。ビットリザーバコントロールユニットを教示する。入力として与えられる困難さの尺度に加え、ビットリザーバコントロールユニットは、現在のフレームのフレーム長の情報も受信する。ビットリザーバコントロールユニットで用いられる困難さの尺度の例は、知覚エントロピ、すなわちパワースペクトルの対数である。ビットリザーバコントロールは、一組の異なったフレーム長についてフレーム長が変化するシステムにおいて重要である。ここで提案するビットリザーバコントロールユニット1800は、以下に説明するように、コーディングされるフレームに許容されたビットの数を計算するときにフレーム長を考慮する。
ここでは、ビットリザーバは、バッファ中のある固定量のビットとして定義され、所与のビットレートで使用が認められたフレームの平均ビット数より大きくなければならない。同じサイズであると、フレームについてのビット数の変化ができなくなる。ビットリザーバコントロールは、実行中のフレームに認められたビット数としてエンコーディングアルゴリズムに認められるビットを取り出す前に、ビットリザーバのレベルを常に見ている。よって、満杯のビットリザーバとは、ビットリザーバ中で用いられるビット数がビットリザーバサイズに等しいことをいう。フレームをエンコーディングした後、使用されたビットの数はバッファから減じられ、一定のビットレートを表わすビット数を加算されることによりビットリザーバはアップデートされる。したがって、フレームをコーディングする前のビットリザーバのビット数がフレーム当たりの平均ビット数に等しいならば、ビットリザーバは空である。
図28aにビットリザーバコントロールの基本概念を示す。エンコーダは、前回のフレームと比較して実行中のフレームをエンコードすることがいかに困難かを計算する手段を提供する。平均の困難さを1.0として、認められたビット数はビットリザーバで使用可能なビット数に依存する。与えられたコントロールのラインによれば、ビットリザーバが本当に満杯であると、平均ビットレートに対応するより多くのビットがビットリザーバから取り出される。空のビットリザーバの場合には、平均ビットに比べて少ないビットがフレームをエンコーディングするのに用いられる。この行動は、平均の困難さを有するフレームの長いシーケンスについては平均ビットリザーバレベルとなる。高い困難さのフレームについては、コントロールのラインは上方にシフトされ、フレームをエンコーディングする困難さは同じビットサーバレベルでより多くのビットを使うことが許されるという効果を有する。したがって、フレームを容易にエンコーディングするため、フレームに認められたビット数は、図28aのコントロールラインを平均困難さの場合から容易な困難さの場合にシフトダウンすることだけで低減される。コントロールラインを単純にシフトする以外の修正も可能である。たとえば、図28aに示すように、コントロールカーブの傾きをフレームの困難さに応じて変えてもよい。
認められたビット数を計算するときに、許可された以上にバッファからビットを取り出さないようにビットリザーバの下限界には従う必要がある。図28aに示すようにコントロールラインにより認められたビットを計算することを含むビットリザーバコントロールスキームは、可能なビットリザーバレベルと認められたビットの関係の困難さの尺度の一例に過ぎない。また、他のコントロールアルゴリズムも一般的にビットリザーバレベルの下限に厳しい限界を有し、その限界はビットリザーバが空のビットリザーバの制限を破ることを防止し、エンコーダにより過小なビット数しか消費されないときにエンコーダがビットを満たすように強制される上限の限界でも同様である。
可変フレームサイズのセットを取り扱うことができるコントロールメカニズムなどでは、この単純なコントロールアルゴリズムを適応すべきである。使用される困難さの尺度は、異なったフレームサイズの困難さの値が比較できるように正規化される。すべてのフレームサイズについて、認められたビットについての異なった許容範囲があり、フレーム当たりの平均ビット数が変化するフレームサイズに対し異なるので、結果としてそれぞれのフレームサイズは、それ自身の限界のあるそれ自身のコントロール式を有する。一例を図28bに示す。固定フレームサイズの場合への重要な修正は、コントロールアルゴリズムの低い許容境界である。固定ビットレートの場合に対応する実行中のフレームサイズの平均ビット数の代わりに、ここでは最大許容フレームサイズに対する平均ビット数が、実行中のフレームについてビットを取り出す前のビットリザーバレベルに対する最低許容値となる。このことは、固定フレームサイズのビットリザーバコントロールに対する主な差異の一つである。この制限は、続いての最大可能フレームサイズのフレームが少なくともこのフレームサイズの平均ビット数を用いることを約束する。
困難さの尺度は、たとえば、AACで行われるように心理音響モデルのマスキング閾値から導かれる知覚エントロピ(PE)計算、または代替として、本発明の実施の形態によるエンコーダのECQ部で行われるように固定ステップサイズの量子化のビットカウントに基づく。これらの値は、可変フレームサイズに関して正規化され、それはフレーム長で単に除すことによりなされ、その結果はPEであり、それぞれサンプル当たりのビットカウントである。別の正規化のステップは、平均困難さに関して行われる。この目的のために、過去のフレームに対して移動平均が用いられ、結果は、困難なフレームに対しては1.0より大きな、容易なフレームに対しては1.0未満の困難値となる。2パスエンコーダまたは大きな先取りの場合、将来フレームの困難値もこの困難さの尺度の正規化に考慮される。
図29は、提案のエンコーダおよびデコーダの実施の形態で用いられる歪んだMDCT領域を示す。図示されるように、時間歪みは時間スケールを再サンプリングして一定ピッチとすることを意味する。図のx軸は変化するピッチでの入力信号を示し。図のy軸は再サンプリングされた一定ピッチの信号を示す。時間歪みカーブは現在のセグメントについてピッチ検出アルゴリズムを用い、セグメント中のピッチの展開を推定することにより、決定される。するとピッチの展開情報を用いて、セグメント中の信号を再サンプリングし、よって、歪みカーブを生成する。ピッチの展開を決定するのにピッチの差だけが必要で、完全なピッチ情報は不要なので、歪みカーブを作成するアルゴリズムはピッチ検出誤差に影響されにくい。
本発明の態様によれば、時間歪みMDCTをLTPと組み合わせて用いる。この場合、LTP探索は、エンコーダで一定ピッチセグメント領域で行われる。このことは、ピッチの変化のためにMDCTフレームで等距離に配置されていない多くのピッチパルスを備える長いMDCTフレームについて、特に有用である。よって、LTPバッファからの一定ピッチセグメントは複数のピッチパルスに適切には適合しないであろう。実施の形態によれば、LTPバッファの全セグメントが、現在のMDCTフレームの歪みカーブに基づいて再サンプリングされる。デコーダにおいても、LTPバッファで選定されたセグメントは、歪みデータ情報を考慮して、現在フレームの歪みデータに再サンプリングされる。歪みデータは、ビットストリームの一部としてデコーダに伝達される。
図29の上部に、ウィンドウ、すなわちLTPバッファにおけるセグメントが、現在の、破線のフレームのウィンドウと共に示される。図29aには、歪みMDCT分析の効果が示される。左側には歪んでいない分析の周波数のプロットが示される。ウィンドウに関するピッチ変化のために、周波数がより高い高調波は、適切には分解されてはいない。図の右側部分には、時間歪みMDCT分析で分析された、同じ信号の周波数プロットが示される。ここでは分析ウィンドウでピッチが一定なので、高い高調波はよりよく分解される。
本発明の実施の形態による別の層状SBR復号アプローチが図30に示される。図7によれば、エンコーダとデコーダは二重レートシステムとして遂行され、コアコーダーはサンプリングレートの半分のレートでサンプリングされ、高周波数復号モジュールは、オリジナルのサンプリングレートでサンプリングされて、高周波数を取り扱う。32kHzのオリジナルサンプリングレートを仮定すると、LPCフィルタは16kHzで作動し、8kHzの白色化信号を提供する。しかし、以下のコアコーダーは、課せられたビットレート制約を考慮して8kHzのバンド幅をコーディングすることはできないかもしれない。本発明は、このことを取り扱う多くの手段を提供する。本発明の実施の形態は、LPCの下で(すなわち、LPCフィルタを掛けられた信号に基づいて)MDCT領域で高周波数復号を適用して8kHzのバンド幅を提供する。このことは図30に示され、LPCがゼロから8kHzの周波数範囲をカバーし、0〜5kHzの範囲はMDCT波形量子化器により処理される。5〜8kHzの周波数範囲は、MDCT・SBRアルゴリズムで処理され、最後に8〜16kHzの範囲はQMF・SBRアルゴリズムで処理される。MDCT・SBRは、上述したようにQMFベースのSBRで用いられるのと類似したコピーアップ(copy-up)メカニズムに基づく。しかし、変換サイズの関数としてのMDCT・SBR方法の適応などの、他の方法もまた有利なことに用いることができる。
本発明の別の実施の形態では、LPスペクトルの上方の周波数範囲は、フレームサイズと信号特性に基づいて量子化されコーディングされる。あるフレームサイズと信号では、その周波数範囲は上記に従ってコーディングされ、他のフレームサイズでは、粗い量子化とノイズ充填技法が使われる。
これまでは本発明の特定の実施の形態を参照して開示してきたが、本発明の概念は説明した実施の形態に限定されることはないことは理解されるはずである。反対に、本出願で提供された開示により当業者は本発明を理解し実施することができる。当業者が、添付の特許請求の範囲だけで提示された本発明の思想と範囲から逸脱することなく、多くの改変を行えることは明らかである。

Claims (40)

  1. 適応フィルタに基づいて入力信号にフィルタを掛ける線形予測ユニットと;
    前記フィルタ掛けされた入力信号のフレームを変換領域に変換する変換ユニットと;
    変換領域信号を量子化する量子化ユニットと;
    前記フィルタ掛けされた入力信号の前回のセグメントの復号に基づいて、前記フィルタ掛けされた入力信号の前記フレームの推定を決定する長期間予測ユニットと;
    前記変換領域で、長期間予測推定と前記変換された入力信号を組み合わせて変換領域信号を生成する変換領域信号組み合わせユニットとを備える;
    オーディオコーディングシステム。
  2. 前記フィルタ掛けされた入力信号の前記フレームの時間領域復号を生成する逆量子化逆変換ユニットと;
    前記フィルタ掛けされた入力信号の前回のフレームの時間領域復号を保管する長期間予測バッファとを備える;
    請求項1のオーディオコーディングシステム。
  3. 前記入力信号にフィルタ掛けする適応フィルタは、第1のフレーム長で動作し白色化入力信号を生成する線形予測コーディング(LPC)分析に基づき、前記フィルタ掛けされた入力信号の前記フレームに適用される変換は、可変の第2のフレーム長で動作する修正離散化コサイン変換(MDCT)である;
    請求項1または2のオーディオコーディングシステム。
  4. 前記入力信号のブロックに対して、入力信号のコーディングコスト関数、好ましくは単純化知覚エントロピを最小化することにより、オーバーラップするMDCTウィンドウの第2のフレーム長を決定するウィンドウシーケンスコントロールユニットを備える;
    請求項3のオーディオコーディングシステム。
  5. 連続したMDCTウィンドウ長は最大で係数2だけ変化する;
    請求項4のオーディオコーディングシステム。
  6. 前記MDCTウィンドウ長は、前記入力信号のダイアディック分割である;
    請求項4または5のオーディオコーディングシステム。
  7. 前記ウィンドウシーケンスコントロールユニットは、前記入力信号ブロックの前記コーディングコスト関数を最小にするMDCTウィンドウ長のシーケンスを探索するときに、ウィンドウ長の候補について長期間予測ユニットにより生成された長期間予測推定を考慮するようになされる;
    請求項4ないし6のいずれか1項のオーディオコーディングシステム。
  8. 一連のMDCTウィンドウ長とウィンドウ形状とを一緒にエンコーディングするウィンドウシーケンスエンコーダを備える;
    請求項4ないし7のいずれか1項のオーディオコーディングシステム。
  9. 前記ウィンドウシーケンスエンコーダは、前記一連のウィンドウ長と形状をエンコーディングするときにウィンドウサイズ制約を考慮する;
    請求項8のオーディオコーディングシステム。
  10. 前記線形予測ユニットで生成された線スペクトル周波数を可変レートで再帰的にコーディングするLPCエンコーダを備える;
    請求項1ないし9のいずれか1項のオーディオコーディングシステム。
  11. 前記第2のフレーム長に対応するレートで生成された変換領域信号のフレームに適合するように、前記第1のフレーム長に対応するレートで生成された線形予測パラメータを内挿する線形予測内挿ユニットを備える;
    請求項1ないし10のいずれか1項のオーディオコーディングシステム。
  12. LPCフレームについて前記線形予測ユニットで生成されたLPC多項式をチャープしおよび/または傾けることにより適応フィルタの特性を調整する知覚モデリングユニットを備える;
    請求項1ないし11のいずれか1項のオーディオコーディングシステム。
  13. 前記フィルタ掛けされた入力信号を時間歪みカーブにより再サンプリングすることにより前記フィルタ掛けされた信号の前記フレームでピッチ成分を均一に揃える時間歪みユニットを備え;
    前記変換ユニットと前記長期間予測ユニットは時間歪み信号で動作する;
    請求項1ないし12のいずれか1項のオーディオコーディングシステム。
  14. 前記線形予測フィルタは、歪んだ周波数軸で動作する;
    請求項1ないし13のいずれか1項のオーディオコーディングシステム。
  15. 前記入力信号の高バンド成分をエンコーディングする高バンドエンコーダを備え;
    前記変換領域信号を量子化するときに前記量子化で用いられる量子化ステップは、前記入力信号の低バンドに属する成分に対してと、前記高バンドに属する前記変換領域信号の成分をエンコーディングするのとで異なる;
    請求項1ないし14のいずれか1項のオーディオコーディングシステム。
  16. 前記入力信号を低バンド成分と高バンド成分に分割する周波数分割ユニットと;
    前記高バンド成分をエンコーディングする高バンドエンコーダとを備え;
    前記低バンド成分は前記線形予測ユニットに入力される;
    請求項1ないし14のいずれか1項のオーディオコーディングシステム。
  17. 前記周波数分割ユニットは、前記入力信号をダウンサンプルするようになされた直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットとを備える;
    請求項16のオーディオコーディングシステム。
  18. 前記低バンドと前記高バンドの境界は可変であり、前記周波数分割ユニットは、入力信号特性および/またはエンコーダバンド幅要求に基づいてクロスオーバー周波数を決定する;
    請求項16または17のオーディオコーディングシステム。
  19. 前記高バンド成分をローパス信号に変換する第2の直交ミラーフィルタ合成ユニットと;
    前記ローパス信号をエンコーディングする第2の変換ベースエンコーダとを備える;
    請求項16ないし18のいずれか1項のオーディオコーディングシステム。
  20. 同じ周波数範囲をカバーする異なった信号表現を組み合わせ、前記信号表現をどのように組み合わせるかを示す信号データを生成する信号表現組み合わせユニットを備える;
    請求項16ないし19のいずれか1項のオーディオコーディングシステム。
  21. 前記高バンドエンコーダは、スペクトルバンド複製エンコーダである;
    請求項15ないし20のいずれか1項のオーディオコーディングシステム。
  22. 前記長期間予測ユニットは、エネルギを長期間予測推定の高周波数成分に導入するスペクトルバンド複製ユニットを備える;
    請求項1ないし21のいずれか1項のオーディオコーディングシステム。
  23. 左右の入力チャンネルのパラメトリックステレオ表現を計算するパラメトリックステレオユニットを備える;
    請求項1ないし22のいずれか1項のオーディオコーディングシステム。
  24. 低周波数ラインから高周波数MDCTラインを予測する高調波予測分析ユニットを備える;
    請求項1ないし23のいずれか1項のオーディオコーディングシステム。
  25. 前記量子化ユニットは、入力信号特徴に基づいて、モデルベース量子化器で変換領域信号をエンコードするか、あるいは非モデルベース量子化器で変換領域信号をエンコードするかを決める;
    請求項1ないし24のいずれか1項のオーディオコーディングシステム。
  26. 前記変換領域信号の成分の量子化ステップサイズを線形予測および長期間予測パラメータに基づいて決定する量子化ステップサイズコントロールユニットを備える;
    請求項1ないし25のいずれか1項のオーディオコーディングシステム。
  27. 前記長期間予測ユニットは、
    遅延値を決定して、前記フィルタ掛けされた信号の現在のフレームに最も適合する前記フィルタ掛けされた信号の復号セグメントを特定する長期間予測エクストラクタと、
    前記フィルタされた信号の選定されたセグメントの信号に適用されるゲイン値を推定する長期間予測ゲイン推定器とを備え、
    前記遅延値と前記ゲイン値は歪みのクライテリアを最小化するように決定される;
    請求項1ないし26のいずれか1項のオーディオコーディングシステム。
  28. 前記歪みのクライテリアは、知覚領域における前記長期間予測推定の前記変換入力信号に対する差に関連し、前記歪みのクライテリアは前記知覚領域における前記遅延値と前記ゲイン値を探索することにより最小化される;
    請求項27のオーディオコーディングシステム。
  29. 前記知覚モデリングユニットにより生成された修正線形予測多項式は、歪みのクライテリアを最小化するときにMDCT領域量子化ゲインカーブとして適用される;
    請求項27または28のオーディオコーディングシステム。
  30. 前記長期間予測ユニットは、前記選定されたセグメントの復号信号を前記変換領域に変換する変換ユニットを備え、前記変換は好ましくは離散コサイン変換タイプIVである;
    請求項27ないし29のいずれか1項のオーディオコーディングシステム。
  31. 前記長期間予測ユニットは、仮想ベクトル生成器を備え、前記遅延値が前記MDCTフレーム長より小さいとき前記復号信号の拡張セグメントを生成する;
    請求項27ないし30のいずれか1項のオーディオコーディングシステム。
  32. 前記仮想ベクトル生成器は、前記復号信号の前記生成されたセグメントを改良するのに繰り返しフォールドインフォールドアウトプロシージャを適用する;
    請求項31のオーディオコーディングシステム。
  33. 前記長期間予測ユニットは、前記変換ユニットが時間歪み信号で動作するときに前記時間歪みユニットから受信した時間歪みカーブに基づいて前記復号されたフィルタ掛けされた入力信号を再サンプリングする;
    請求項27ないし32のいずれか1項のオーディオコーディングシステム。
  34. 前記長期間予測ユニットは、長期間予測遅延およびゲイン値をエンコーディングする可変レートエンコーダを備える;
    請求項1ないし33のいずれか1項のオーディオコーディングシステム。
  35. 前記長期間予測ユニットは、ノイズベクトルバッファおよび/またはパルスベクトルバッファを備える;
    請求項1ないし34のいずれか1項のオーディオコーディングシステム。
  36. 長期間予測パラメータ、高調波予測パラメータあるいは時間歪みパラメータなどのピッチ関連情報を一緒にエンコーディングするジョイントコーディングユニットを備える;
    請求項1ないし35のいずれか1項のオーディオコーディングシステム。
  37. 入力されたビットストリームのフレームを逆量子化する逆量子化ユニットと;
    変換領域信号を逆に変換する逆変換ユニットと;
    前記逆量子化されたフレームの推定を決定する長期間予測ユニットと;
    変換領域で、長期間予測推定と前記逆量子化フレームを組み合わせて、変換領域信号を生成する変換領域信号組み合わせユニットと;
    前記逆荷変換された変換領域信号にフィルタを掛ける線形予測ユニットとを備える;
    オーディオデコーダ。
  38. 適応フィルタに基づいて入力信号にフィルタを掛けるステップと;
    前記フィルタ掛けされた入力信号のフレームを変換領域に変換するステップと;
    変換領域信号を量子化するステップと;
    前記フィルタ掛けされた入力信号の前回のセグメントの復号に基づいて前記フィルタ掛けされた入力信号を推定するステップと;
    長期間予測推定と前記変換された入力信号を前記変換領域で組み合わせ、前記変換領域信号を生成するステップとを備える;
    オーディオエンコーディング方法。
  39. 入力ビットストリームのフレームを逆量子化するステップと;
    変換領域信号を逆変換するステップと;
    前記逆量子化されたフレームの推定を決定するステップと;
    長期間予測推定と前記逆量子化されたフレームを変換領域で組み合わせ、前記変換領域信号を生成するステップと;
    前記逆変換された変換領域信号にフィルタを掛けるステップと;
    復号オーディオ信号を出力するステップとを備える;
    オーディオデコーディング方法。
  40. プログラムデバイスに請求項38または39によるオーディオコーディング方法を実行させる;
    コンピュータプログラム。
JP2010541031A 2008-01-04 2008-12-30 オーディオコーディングシステム、オーディオデコーダ、オーディオエンコーディング方法及びオーディオデコーディング方法 Active JP5350393B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
SE0800032-5 2008-01-04
SE0800032 2008-01-04
US5597508P 2008-05-24 2008-05-24
US61/055,975 2008-05-24
EP08009531.8 2008-05-24
EP08009531A EP2077551B1 (en) 2008-01-04 2008-05-24 Audio encoder and decoder
PCT/EP2008/011145 WO2009086919A1 (en) 2008-01-04 2008-12-30 Audio encoder and decoder

Publications (2)

Publication Number Publication Date
JP2011510335A true JP2011510335A (ja) 2011-03-31
JP5350393B2 JP5350393B2 (ja) 2013-11-27

Family

ID=39710955

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2010541030A Active JP5356406B2 (ja) 2008-01-04 2008-12-30 オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JP2010541031A Active JP5350393B2 (ja) 2008-01-04 2008-12-30 オーディオコーディングシステム、オーディオデコーダ、オーディオエンコーディング方法及びオーディオデコーディング方法
JP2013176239A Active JP5624192B2 (ja) 2008-01-04 2013-08-28 オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010541030A Active JP5356406B2 (ja) 2008-01-04 2008-12-30 オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013176239A Active JP5624192B2 (ja) 2008-01-04 2013-08-28 オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法

Country Status (14)

Country Link
US (4) US8484019B2 (ja)
EP (6) EP2077551B1 (ja)
JP (3) JP5356406B2 (ja)
KR (2) KR101202163B1 (ja)
CN (3) CN101939781B (ja)
AT (2) ATE500588T1 (ja)
AU (1) AU2008346515B2 (ja)
BR (1) BRPI0822236B1 (ja)
CA (4) CA2709974C (ja)
DE (1) DE602008005250D1 (ja)
ES (1) ES2677900T3 (ja)
MX (1) MX2010007326A (ja)
RU (3) RU2456682C2 (ja)
WO (2) WO2009086919A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014500521A (ja) * 2010-10-25 2014-01-09 ヴォイスエイジ・コーポレーション 低ビットレート低遅延の一般オーディオ信号の符号化
JP2015525374A (ja) * 2012-06-04 2015-09-03 サムスン エレクトロニクス カンパニー リミテッド オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器
US9257129B2 (en) 2013-03-28 2016-02-09 Fujitsu Limited Orthogonal transform apparatus, orthogonal transform method, orthogonal transform computer program, and audio decoding apparatus
JPWO2014068817A1 (ja) * 2012-10-31 2016-09-08 株式会社ソシオネクスト オーディオ信号符号化装置及びオーディオ信号復号装置
JP6073456B2 (ja) * 2013-02-22 2017-02-01 三菱電機株式会社 音声強調装置

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US8326614B2 (en) * 2005-09-02 2012-12-04 Qnx Software Systems Limited Speech enhancement system
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
US8380523B2 (en) * 2008-07-07 2013-02-19 Lg Electronics Inc. Method and an apparatus for processing an audio signal
CA2729665C (en) 2008-07-10 2016-11-22 Voiceage Corporation Variable bit rate lpc filter quantizing and inverse quantizing device and method
BRPI0910511B1 (pt) * 2008-07-11 2021-06-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para decodificar e codificar um sinal de áudio
JP5551694B2 (ja) 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 多くのスペクトルエンベロープを計算するための装置および方法
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
BRPI1009467B1 (pt) 2009-03-17 2020-08-18 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
JP5358691B2 (ja) * 2009-04-08 2013-12-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 位相値平滑化を用いてダウンミックスオーディオ信号をアップミックスする装置、方法、およびコンピュータプログラム
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
US9245529B2 (en) * 2009-06-18 2016-01-26 Texas Instruments Incorporated Adaptive encoding of a digital signal with one or more missing values
JP5365363B2 (ja) * 2009-06-23 2013-12-11 ソニー株式会社 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
WO2011042464A1 (en) * 2009-10-08 2011-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
EP2315358A1 (en) 2009-10-09 2011-04-27 Thomson Licensing Method and device for arithmetic encoding or arithmetic decoding
WO2011048099A1 (en) 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
CN102081622B (zh) * 2009-11-30 2013-01-02 中国移动通信集团贵州有限公司 评估系统健康度的方法及系统健康度评估装置
WO2011073201A2 (en) * 2009-12-16 2011-06-23 Dolby International Ab Sbr bitstream parameter downmix
BR122021008583B1 (pt) 2010-01-12 2022-03-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
WO2011132368A1 (ja) * 2010-04-19 2011-10-27 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
ES2942867T3 (es) * 2010-07-19 2023-06-07 Dolby Int Ab Procesamiento de señales de audio durante la reconstrucción de alta frecuencia
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
ES2828429T3 (es) * 2010-07-20 2021-05-26 Fraunhofer Ges Forschung Decodificador de audio, procedimiento de decodificación de audio y programa informático
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
JP5581449B2 (ja) * 2010-08-24 2014-08-27 ドルビー・インターナショナル・アーベー Fmステレオ無線受信機の断続的モノラル受信の隠蔽
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN102479514B (zh) * 2010-11-29 2014-02-19 华为终端有限公司 一种编码方法、解码方法、装置和系统
US8325073B2 (en) * 2010-11-30 2012-12-04 Qualcomm Incorporated Performing enhanced sigma-delta modulation
FR2969804A1 (fr) * 2010-12-23 2012-06-29 France Telecom Filtrage perfectionne dans le domaine transforme.
US8849053B2 (en) * 2011-01-14 2014-09-30 Sony Corporation Parametric loop filter
BR112013016350A2 (pt) * 2011-02-09 2018-06-19 Ericsson Telefon Ab L M codificação/decodificação eficaz de sinais de áudio
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
JP5648123B2 (ja) * 2011-04-20 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声音響符号化装置、音声音響復号装置、およびこれらの方法
CN102186083A (zh) * 2011-05-12 2011-09-14 北京数码视讯科技股份有限公司 量化处理方法及装置
KR102053900B1 (ko) 2011-05-13 2019-12-09 삼성전자주식회사 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기
JP5714180B2 (ja) * 2011-05-19 2015-05-07 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーディング方式の鑑識検出
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
BR112013032333B1 (pt) * 2011-06-16 2022-07-26 Ge Video Compression, Llc Comutação de modo auxiliar para codificação por entropia
WO2013002696A1 (en) * 2011-06-30 2013-01-03 Telefonaktiebolaget Lm Ericsson (Publ) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
CN102436819B (zh) * 2011-10-25 2013-02-13 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器
KR101311527B1 (ko) * 2012-02-28 2013-09-25 전자부품연구원 영상처리장치 및 영상처리방법
JP5789816B2 (ja) * 2012-02-28 2015-10-07 日本電信電話株式会社 符号化装置、この方法、プログラム及び記録媒体
WO2013129528A1 (ja) * 2012-02-28 2013-09-06 日本電信電話株式会社 符号化装置、この方法、プログラムおよび記録媒体
US9905236B2 (en) 2012-03-23 2018-02-27 Dolby Laboratories Licensing Corporation Enabling sampling rate diversity in a voice communication system
HUE033069T2 (hu) 2012-03-29 2017-11-28 ERICSSON TELEFON AB L M (publ) Harmonikus hangjelek átalakítási kódolása/dekódolása
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9799339B2 (en) 2012-05-29 2017-10-24 Nokia Technologies Oy Stereo audio signal encoder
ES2644131T3 (es) * 2012-06-28 2017-11-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en una codificación de audio utilizando un estimador mejorado de distibución de probabilidad
JPWO2014007097A1 (ja) 2012-07-02 2016-06-02 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
BR112014004127A2 (pt) * 2012-07-02 2017-04-04 Sony Corp dispositivo e método de decodificação, programa, e, dispositivo e método de codificação
AR090703A1 (es) * 2012-08-10 2014-12-03 Fraunhofer Ges Forschung Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos
US9830920B2 (en) 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
CA3076775C (en) 2013-01-08 2020-10-27 Dolby International Ab Model based prediction in a critically sampled filterbank
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
RU2676242C1 (ru) * 2013-01-29 2018-12-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
AU2014211520B2 (en) 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
CN110047499B (zh) 2013-01-29 2023-08-29 弗劳恩霍夫应用研究促进协会 低复杂度音调自适应音频信号量化
CN110827841B (zh) 2013-01-29 2023-11-28 弗劳恩霍夫应用研究促进协会 音频解码器
KR101757347B1 (ko) 2013-01-29 2017-07-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 지각적 변환 오디오 코딩에서의 노이즈 채움
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
MX343673B (es) 2013-04-05 2016-11-16 Dolby Int Ab Codificador y decodificador de audio.
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
US9940942B2 (en) * 2013-04-05 2018-04-10 Dolby International Ab Advanced quantizer
CN105247613B (zh) 2013-04-05 2019-01-18 杜比国际公司 音频处理系统
JP6019266B2 (ja) * 2013-04-05 2016-11-02 ドルビー・インターナショナル・アーベー ステレオ・オーディオ・エンコーダおよびデコーダ
MY197063A (en) * 2013-04-05 2023-05-23 Dolby Int Ab Companding system and method to reduce quantization noise using advanced spectral extension
CN104103276B (zh) * 2013-04-12 2017-04-12 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
US20140328406A1 (en) * 2013-05-01 2014-11-06 Raymond John Westwater Method and Apparatus to Perform Optimal Visually-Weighed Quantization of Time-Varying Visual Sequences in Transform Space
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
US10332527B2 (en) 2013-09-05 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio signal
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
ES2716756T3 (es) * 2013-10-18 2019-06-14 Ericsson Telefon Ab L M Codificación de las posiciones de los picos espectrales
AU2014350366B2 (en) * 2013-11-13 2017-02-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
KR102251833B1 (ko) 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
AU2014371411A1 (en) 2013-12-27 2016-06-23 Sony Corporation Decoding device, method, and program
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN106233112B (zh) * 2014-02-17 2019-06-28 三星电子株式会社 信号编码方法和设备以及信号解码方法和设备
CN103761969B (zh) * 2014-02-20 2016-09-14 武汉大学 基于高斯混合模型的感知域音频编码方法及系统
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
CN111370008B (zh) * 2014-02-28 2024-04-09 弗朗霍弗应用研究促进协会 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
KR101826237B1 (ko) * 2014-03-24 2018-02-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
EP3648103B1 (en) * 2014-04-24 2021-10-20 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, corresponding program and recording medium
CN110491402B (zh) * 2014-05-01 2022-10-21 日本电信电话株式会社 周期性综合包络序列生成装置、方法、记录介质
GB2526128A (en) * 2014-05-15 2015-11-18 Nokia Technologies Oy Audio codec mode selector
CN105225671B (zh) * 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
CN117636885A (zh) * 2014-06-27 2024-03-01 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN104077505A (zh) * 2014-07-16 2014-10-01 苏州博联科技有限公司 一种提高16Kbps码率音频数据压缩编码音质方法
EP3413307B1 (en) 2014-07-25 2020-07-15 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio signal coding apparatus, audio signal decoding device, and methods thereof
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
ES2770704T3 (es) * 2014-07-28 2020-07-02 Nippon Telegraph & Telephone Codificación de una señal acústica
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
KR102128330B1 (ko) 2014-11-24 2020-06-30 삼성전자주식회사 신호 처리 장치, 신호 복원 장치, 신호 처리 방법, 및 신호 복원 방법
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2016162283A1 (en) * 2015-04-07 2016-10-13 Dolby International Ab Audio coding with range extension
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
US10325609B2 (en) * 2015-04-13 2019-06-18 Nippon Telegraph And Telephone Corporation Coding and decoding a sound signal by adapting coefficients transformable to linear predictive coefficients and/or adapting a code book
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10134412B2 (en) * 2015-09-03 2018-11-20 Shure Acquisition Holdings, Inc. Multiresolution coding and modulation system
US10573324B2 (en) 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
FR3049084B1 (fr) * 2016-03-15 2022-11-11 Fraunhofer Ges Forschung Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code
EP3438976A4 (en) * 2016-03-31 2019-04-24 Sony Corporation INFORMATION PROCESSING DEVICE AND METHOD
CN109416913B (zh) * 2016-05-10 2024-03-15 易默森服务有限责任公司 自适应音频编解码系统、方法、装置及介质
BR112018073621A2 (pt) * 2016-05-24 2019-02-26 Sony Corporation aparelho e método de compressão/codificação, programa, e, aparelho e método de decodificação
WO2017220528A1 (en) * 2016-06-22 2017-12-28 Dolby International Ab Audio decoder and method for transforming a digital audio signal from a first to a second frequency domain
US11380340B2 (en) * 2016-09-09 2022-07-05 Dts, Inc. System and method for long term prediction in audio codecs
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
CN111656442B (zh) * 2017-11-17 2024-06-28 弗劳恩霍夫应用研究促进协会 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法
FR3075540A1 (fr) * 2017-12-15 2019-06-21 Orange Procedes et dispositifs de codage et de decodage d'une sequence video multi-vues representative d'une video omnidirectionnelle.
JP7326285B2 (ja) * 2017-12-19 2023-08-15 ドルビー・インターナショナル・アーベー 音声音響統合復号および符号化のqmfに基づく高調波トランスポーザーの改良のための方法、機器、およびシステム
US10565973B2 (en) * 2018-06-06 2020-02-18 Home Box Office, Inc. Audio waveform display using mapping function
US20210210108A1 (en) * 2018-06-21 2021-07-08 Sony Corporation Coding device, coding method, decoding device, decoding method, and program
RU2769788C1 (ru) * 2018-07-04 2022-04-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, многосигнальный декодер и соответствующие способы с использованием отбеливания сигналов или постобработки сигналов
CN109215670B (zh) * 2018-09-21 2021-01-29 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质
US11621011B2 (en) * 2018-10-29 2023-04-04 Dolby International Ab Methods and apparatus for rate quality scalable coding with generative models
CN111383646B (zh) * 2018-12-28 2020-12-08 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质
US10645386B1 (en) 2019-01-03 2020-05-05 Sony Corporation Embedded codec circuitry for multiple reconstruction points based quantization
BR112021013720A2 (pt) * 2019-01-13 2021-09-21 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
WO2020171049A1 (ja) * 2019-02-19 2020-08-27 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法
US11380343B2 (en) * 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
JP2023507073A (ja) * 2019-11-27 2023-02-21 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法
CN113129913B (zh) * 2019-12-31 2024-05-03 华为技术有限公司 音频信号的编解码方法和编解码装置
CN113129910B (zh) 2019-12-31 2024-07-30 华为技术有限公司 音频信号的编解码方法和编解码装置
CN112002338B (zh) * 2020-09-01 2024-06-21 北京百瑞互联技术股份有限公司 一种优化音频编码量化次数的方法及系统
CN112289327B (zh) * 2020-10-29 2024-06-14 北京百瑞互联技术股份有限公司 一种lc3音频编码器后置残差优化方法、装置和介质
CN112599139B (zh) 2020-12-24 2023-11-24 维沃移动通信有限公司 编码方法、装置、电子设备及存储介质
CN115472171A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN113436607B (zh) * 2021-06-12 2024-04-09 西安工业大学 一种快速语音克隆方法
CN114189410B (zh) * 2021-12-13 2024-05-17 深圳市日声数码科技有限公司 一种车载数码广播音频接收系统
CN115604614B (zh) * 2022-12-15 2023-03-31 成都海普迪科技有限公司 采用吊装麦克风进行本地扩声和远程互动的系统和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09127998A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号量子化方法及び信号符号化装置
JP2007286200A (ja) * 2006-04-13 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 適応ブロック長符号化装置、その方法、プログラム及び記録媒体

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5936280B2 (ja) * 1982-11-22 1984-09-03 日本電信電話株式会社 音声の適応変換符号化方式
JP2523286B2 (ja) * 1986-08-01 1996-08-07 日本電信電話株式会社 音声符号化及び復号化方法
SE469764B (sv) * 1992-01-27 1993-09-06 Ericsson Telefon Ab L M Saett att koda en samplad talsignalvektor
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
CA2121667A1 (en) * 1994-04-19 1995-10-20 Jean-Pierre Adoul Differential-transform-coded excitation for speech and audio coding
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
US5754733A (en) 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
DE69620967T2 (de) * 1995-09-19 2002-11-07 At & T Corp., New York Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
TW321810B (ja) 1995-10-26 1997-12-01 Sony Co Ltd
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
JP3684751B2 (ja) * 1997-03-28 2005-08-17 ソニー株式会社 信号符号化方法及び装置
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
JP4281131B2 (ja) * 1998-10-22 2009-06-17 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
JP2001142499A (ja) 1999-11-10 2001-05-25 Nec Corp 音声符号化装置ならびに音声復号化装置
US7058570B1 (en) * 2000-02-10 2006-06-06 Matsushita Electric Industrial Co., Ltd. Computer-implemented method and apparatus for audio data hiding
TW496010B (en) * 2000-03-23 2002-07-21 Sanyo Electric Co Solid high molcular type fuel battery
US20020040299A1 (en) * 2000-07-31 2002-04-04 Kenichi Makino Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
KR100378796B1 (ko) 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
CN100370517C (zh) * 2002-07-16 2008-02-20 皇家飞利浦电子股份有限公司 一种对编码信号进行解码的方法
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
JP4191503B2 (ja) * 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
RU2374703C2 (ru) * 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Кодирование или декодирование аудиосигнала
DE102004009955B3 (de) 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
DE602004025517D1 (de) * 2004-05-17 2010-03-25 Nokia Corp Audiocodierung mit verschiedenen codierungsrahmenlängen
WO2006008817A1 (ja) 2004-07-22 2006-01-26 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
WO2007052088A1 (en) * 2005-11-04 2007-05-10 Nokia Corporation Audio compression
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7610195B2 (en) * 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
USRE50132E1 (en) * 2006-10-25 2024-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
ATE547898T1 (de) * 2006-12-12 2012-03-15 Fraunhofer Ges Forschung Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
CA2729665C (en) * 2008-07-10 2016-11-22 Voiceage Corporation Variable bit rate lpc filter quantizing and inverse quantizing device and method
BRPI0910511B1 (pt) * 2008-07-11 2021-06-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para decodificar e codificar um sinal de áudio
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09127998A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号量子化方法及び信号符号化装置
JP2007286200A (ja) * 2006-04-13 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 適応ブロック長符号化装置、その方法、プログラム及び記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014500521A (ja) * 2010-10-25 2014-01-09 ヴォイスエイジ・コーポレーション 低ビットレート低遅延の一般オーディオ信号の符号化
JP2015525374A (ja) * 2012-06-04 2015-09-03 サムスン エレクトロニクス カンパニー リミテッド オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器
JPWO2014068817A1 (ja) * 2012-10-31 2016-09-08 株式会社ソシオネクスト オーディオ信号符号化装置及びオーディオ信号復号装置
JP6073456B2 (ja) * 2013-02-22 2017-02-01 三菱電機株式会社 音声強調装置
US9257129B2 (en) 2013-03-28 2016-02-09 Fujitsu Limited Orthogonal transform apparatus, orthogonal transform method, orthogonal transform computer program, and audio decoding apparatus

Also Published As

Publication number Publication date
CA2960862C (en) 2020-05-05
WO2009086918A1 (en) 2009-07-16
US20130282383A1 (en) 2013-10-24
RU2012120850A (ru) 2013-12-10
CN103065637A (zh) 2013-04-24
CA3190951A1 (en) 2009-07-16
US8494863B2 (en) 2013-07-23
CN101925950B (zh) 2013-10-02
CN101925950A (zh) 2010-12-22
EP2077551B1 (en) 2011-03-02
ATE500588T1 (de) 2011-03-15
US20100286990A1 (en) 2010-11-11
EP2573765A3 (en) 2017-05-31
EP2077551A1 (en) 2009-07-08
US20100286991A1 (en) 2010-11-11
US8484019B2 (en) 2013-07-09
CA2709974A1 (en) 2009-07-16
WO2009086919A1 (en) 2009-07-16
ES2677900T3 (es) 2018-08-07
RU2015118725A (ru) 2016-12-10
EP2573765B1 (en) 2024-06-26
EP2235719B1 (en) 2018-05-30
BRPI0822236A2 (pt) 2015-06-30
AU2008346515A1 (en) 2009-07-16
DE602008005250D1 (de) 2011-04-14
CN101939781B (zh) 2013-01-23
RU2015118725A3 (ja) 2019-02-07
US20130282382A1 (en) 2013-10-24
JP5350393B2 (ja) 2013-11-27
EP4414982A2 (en) 2024-08-14
KR20100105745A (ko) 2010-09-29
RU2696292C2 (ru) 2019-08-01
MX2010007326A (es) 2010-08-13
EP2077550B8 (en) 2012-03-14
RU2562375C2 (ru) 2015-09-10
EP2573765A2 (en) 2013-03-27
CN101939781A (zh) 2011-01-05
US8924201B2 (en) 2014-12-30
CN103065637B (zh) 2015-02-04
EP4414981A2 (en) 2024-08-14
KR101202163B1 (ko) 2012-11-15
EP4414982A3 (en) 2024-10-02
JP2014016625A (ja) 2014-01-30
AU2008346515B2 (en) 2012-04-12
ATE518224T1 (de) 2011-08-15
BRPI0822236B1 (pt) 2020-02-04
RU2456682C2 (ru) 2012-07-20
KR101196620B1 (ko) 2012-11-02
JP5356406B2 (ja) 2013-12-04
JP5624192B2 (ja) 2014-11-12
EP2077550A1 (en) 2009-07-08
KR20100106564A (ko) 2010-10-01
EP2077550B1 (en) 2011-07-27
CA3076068A1 (en) 2009-07-16
EP2235719A1 (en) 2010-10-06
RU2010132643A (ru) 2012-02-10
CA3076068C (en) 2023-04-04
US8938387B2 (en) 2015-01-20
CA2709974C (en) 2017-04-11
EP4414981A3 (en) 2024-10-02
JP2011509426A (ja) 2011-03-24
CA2960862A1 (en) 2009-07-16

Similar Documents

Publication Publication Date Title
JP5350393B2 (ja) オーディオコーディングシステム、オーディオデコーダ、オーディオエンコーディング方法及びオーディオデコーディング方法
JP6705787B2 (ja) 復号装置、復号方法およびコンピュータプログラム
JP5600822B2 (ja) 正弦波置換を用いた音声符号化および復号化のための装置および方法
JP5978218B2 (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
CN104903956B (zh) 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法
CA2978812A1 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120806

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120813

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120905

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130604

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130821

R150 Certificate of patent or registration of utility model

Ref document number: 5350393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250