JP3824607B2 - 時間−周波数相関性を利用した改善されたオーディオ符号化及び/または復号化方法とその装置 - Google Patents

時間−周波数相関性を利用した改善されたオーディオ符号化及び/または復号化方法とその装置 Download PDF

Info

Publication number
JP3824607B2
JP3824607B2 JP2003425850A JP2003425850A JP3824607B2 JP 3824607 B2 JP3824607 B2 JP 3824607B2 JP 2003425850 A JP2003425850 A JP 2003425850A JP 2003425850 A JP2003425850 A JP 2003425850A JP 3824607 B2 JP3824607 B2 JP 3824607B2
Authority
JP
Japan
Prior art keywords
block
frequency
frame
nearest
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003425850A
Other languages
English (en)
Other versions
JP2004206129A (ja
Inventor
マシュー・マヌ
基錫 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004206129A publication Critical patent/JP2004206129A/ja
Application granted granted Critical
Publication of JP3824607B2 publication Critical patent/JP3824607B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Description

本発明はデジタルオーディオ符号化及び復号化方法とその装置に係り、特に、オーディオ信号の時間−周波数相関性を利用して既存の符号化及び復号化装置を改善するためのオーディオ符号化及び復号化方法とその装置に関する。
オーディオ符号化及び復号化器、すなわち、オーディオコーデックは、より小さなディスク保存空間を使用し、より低いビットレートで音楽ファイルをインターネットを通じて伝送できるようにするため、現在多く使われている。オーディオコーデックのうち、MP3はインターネットを通じて音楽を共有し、携帯用オーディオ装置に使われる標準コーデックとなった。インターネット上で求められるMp3音楽とMp3音楽を共有する使用者の数とは鼠算式に増加している。
最近、低いビットレートでも原オーディオと区別できない程度のオーディオ圧縮が可能なオーディオコーデックを具現するために、オーディオコーディング分野での研究が活発に進行されている。このようなオーディオコーデックには、MPEG(Motion Picture Experts Group)−1 レイヤー3、MPEG−2 AAC(Advanced Audio Coding)、MPEG4、WMA(Windows(登録商標) Media Audio)がある。
図1は、一般的なMPEGオーディオ符号化器を示す図面である。ここでは、MPEGオーディオ符号化器のうちMPEG−1 レイヤー3、すなわち、MP3オーディオ符号化器を例を挙げて説明する。
MP3オーディオ符号化器は、フィルターバンク110、高速フーリエ変換部(Fast Fourier Transform:FFT)120、心理音響符号化部130、変形離散余弦変換部(Modified Discrete Cosine Transform:MDCT)140、量子化及びハフマンインコーディング部150を含む。
フィルターバンク110は、オーディオ信号の統計的な重複性を除去するために入力された時間領域のオーディオ信号を32個の周波数領域のサブバンドに細分する。
FFT部120は、入力されたオーディオ信号を周波数領域のスペクトルに変換して心理音響モデル部130に出力する。
心理音響モデル部130は、人間の聴覚特性による知覚的な重複性を除去するために、FFT部120から出力された周波数スペクトルを利用して、それぞれのサブバンドに対する耳に聞こえない雑音レベルであるマスキング臨界値、すなわち、信号対マスク率(Signal to Mask Ratio:SMR)を決定する。心理音響モデル部130で決定されたSMR値は、量子化及びハフマン符号化部150に入力される。
また、心理音響モデル部130は、知覚エネルギーを計算してウィンドースイッチングのいかんを決定して、ウィンドースイッチング情報をMDCT部140に出力する。
MDCT部140は、周波数分解能を向上させるために、心理音響モデル部130から入力されたウィンドースイッチング情報を利用してフィルターバンク110から分割されたサブバンドをさらに細密な周波数帯域に分割する。
量子化及びハフマン符号化部150では、心理音響モデル部140から入力されたSMR値に基づいて、MDCT部120から入力されたMDCTが行われた周波数領域のデータに対して、知覚的な重複性を除去するためのビット割当てとオーディオ符号化のための量子化過程を行う。
図1に示された心理音響モデルを使用したオーディオ符号化方法は、特許文献1に開示されている。図1に示されたMp3のようなオーディオコーデックは低いビットレートで符号化及び復号化が行われるため、出力オーディオの音質が低いという問題点があった。
米国特許第6,092,041号公報
本発明は、前記のような従来オーディオ符号化装置の性能を改善して、さらに低いビットレートでもさらに向上した音質を提供するオーディオ符号化方法及び装置を提供することを目的とする。
本発明はまた、従来オーディオ復号化器の性能を改善して、さらに低いビットレートでもさらに向上した音質を提供するオーディオ復号化方法及び装置を提供することを目的とする。
前記目的は、本発明によるデジタルオーディオ符号化方法において、入力オーディオ信号に基づいて時間−周波数帯域テーブルを生成する段階と、前記生成された時間−周波数帯域テーブルに基づいて、現在符号化するブロックの最近接ブロックを探索し、前記探索された最近接ブロックに関する情報を生成する段階と、前記生成された最近接ブロックに関する情報を含むビットストリームを生成する段階と、を含む符号化方法によって達成される。
また、前記目的は、本発明によるデジタルオーディオ符号化方法において、入力オーディオ信号に基づいて時間−周波数帯域テーブルを生成する段階と、前記生成された時間−周波数帯域テーブルに基づいて、現在符号化するブロックの最近接ブロックを探索する段階と、前記探索された最近接ブロックに基づいて、現在符号化するブロックが重複ブロックであるか否かを判断する段階と、前記判断された結果に基づいて、出力ビットストリームを生成する段階と、を含むことを特徴とするデジタルオーディオ符号化方法によっても達成される。
また、前記目的は、本発明によるデジタルオーディオ符号化装置において、入力オーディオ信号に基づいて時間−周波数帯域テーブルを生成する時間−周波数帯域テーブル生成部と、前記生成された時間−周波数帯域テーブルに基づいて、現在符号化するブロックの最近接ブロックを探索し、前記探索された最近接ブロックに関する情報を生成する最近接ブロック探索及び最近接ブロック情報生成部と、前記生成された最近接ブロックに関する情報を含むビットストリームを生成するビットストリームパッキング部と、を含むことを特徴とするデジタルオーディオ符号化装置によっても達成される。
また、前記目的は、本発明によるデジタルオーディオ符号化装置において、入力オーディオ信号に基づいて時間−周波数帯域テーブルを生成する時間−周波数帯域テーブル生成部と、前記生成された時間−周波数帯域テーブルに基づいて、現在符号化するブロックの最近接ブロックを探索する最近接ブロック探索部と、前記探索された最近接ブロックに基づいて、現在符号化するブロックが重複ブロックであるか否かを決定する重複ブロック決定部と、前記重複ブロック決定部で決定された結果に基づいて、出力ビットストリームを生成するビットストリーム生成部と、を含むことを特徴とする符号化装置によっても達成される。
また、前記目的は、本発明による所定領域のオーディオ信号に関する付加情報を含むオーディオ信号の復号化方法において、入力オーディオビットストリームから所定領域に属さないブロックを復号化する段階と、前記復号化されたブロックデータに基づいて所定領域に対応する時間−周波数帯域テーブルを生成する段階と、前記生成された時間−周波数帯域テーブルを使用して、前記所定領域のオーディオ信号に関する付加情報に基づいて、所定領域に属する現在ブロックを再構成する段階と、を含むことを特徴とする復号化方法によっても達成される。
また、前記目的は、本発明によるデジタルオーディオ復号化方法において、入力オーディオビットストリームから最近接ブロック情報を抽出する段階と、前記入力オーディオビットストリームに基づいて時間−周波数帯域テーブルを生成する段階と、前記抽出された最近接ブロック情報に基づいて、現在復号化するブロックが重複ブロックであるか否かを判断する段階と、前記現在復号化するブロックが重複ブロックである場合、前記生成された時間−周波数帯域テーブルを使用して前記抽出された最近接ブロック情報に基づいて重複ブロックを再構成する段階と、を含むことを特徴とするデジタルオーディオ復号化方法によっても達成される。
また、前記目的は、前記再構成された重複ブロックを使用して入力されたオーディオビットストリームに対応する全体スペクトルを再構成する段階を含むことを特徴とする復号化方法によっても達成される。
また、前記目的は、本発明による所定領域のオーディオ信号に関する付加情報を含むオーディオ信号の復号化装置において、入力オーディオビットストリームから所定領域に属さないブロックを復号化する復号化部と、前記復号化されたブロックデータに基づいて所定領域に対応する時間−周波数帯域テーブルを生成し、前記生成された時間−周波数帯域テーブルを使用して、前記所定領域のオーディオ信号に関する付加情報に基づいて、所定領域に属する現在ブロックを再構成する後処理部とを含むことを特徴とする復号化装置によっても達成される。
また、前記目的は、本発明によるデジタルオーディオ復号化装置において、入力オーディオビットストリームから最近接ブロック情報を抽出する最近接ブロック情報抽出部と、前記入力オーディオビットストリームに基づいて時間−周波数帯域テーブルを生成する時間−周波数帯域テーブル生成部と、前記抽出された最近接ブロック情報に基づいて、現在復号化するブロックが重複ブロックであるか否かを判断して、前記現在復号化するブロックが重複ブロックである場合、前記生成された時間−周波数帯域テーブルを使用して前記抽出された最近接ブロック情報に基づいて重複ブロックを再構成する重複ブロック再構成部とを含むことを特徴とするデジタルオーディオ復号化装置によっても達成される。
本発明による改善された符号化及び復号化方法とその装置を利用することによって、既存のオーディオコーデックと比較して音質の低下なしに伝送ビットレートを減少させ、また伝送ビットレートの増加なしに音質を向上させうる。
以下では、スペクトル係数の時間的な相関性を利用した符号化方式を説明する。
音声コーデック及びビデオコーデックは、データを圧縮するために信号サンプル間の時間的な相関性を利用する。音声コーデックは、線形予測係数(Linear Prediction Coefficient:LPC)技法を利用して圧縮を行う。一方、ビデオコーデックは、動き測定を利用して時間的な相関関係を利用する。
オーディオコーデックで時間的な相関関係を利用してデータを圧縮することは一般的に適しない。これは、オーディオ信号は属性上動的であるため、時間相関性が小さいためである。しかし、周波数変換領域では、各サブバンドのデータは本質的に時間領域に比べて静的である。したがって、フレーム間の相関性を利用した線形予測技法は、周波数変換領域で使われる。
例えば、MPEG2 AACは、さらによい圧縮率を得るために個々の変換係数に対して線形予測方式を行う。また、MPEG4 AACは、長周期性を除去するために音声コーデックの線形予測方式と類似した長周期予測器を使用する。
以下では、図2を参照してスペクトル係数の類似性を利用したスペクトル帯域複製方式を説明する。
スペクトル帯域複製(Spectrum Band Replication:SBR)方式は、与えられたビットレートでオーディオ帯域を増加させるか、または与えられた音質レベルに符号化効率を改善させることによって低いビットレートのオーディオ及び音声コーデックの性能を改善するためのものである。
図2に示されたSBR方式は、インコーダでは周波数スペクトルの高周波部分に対しては符号化を行わず、低周波部分に対してだけ符号化を行って伝送した後、伝送されていない高周波数部分に対しては復号化時に低周波部分のスペクトルに基づいて再構成する。
例えば、SBR方式が採用されたMp3プログラム符号化器は、音楽信号を従来の方式に8kHzまで符号化する。8kHzまで符号化されたMp3ファイルは、従来のMp3デコーダによって復号化できる。したがって、SBR方式は、従来のMp3と互換性を維持する。SBR方式は、符号化されていない高周波部分、すなわち、8kHzから16kHz部分を再構成するために、スペクトルのハーモニック構造を利用して8kHzまで復号化された信号を使用する。
SBR方式を使用する場合、従来の知覚符号化方式のコーデックが低ビットレートで提供した制限されたオーディオ帯域幅を増加させて、アナログFMオーディオ帯域幅(15kHz)程度またはその以上の帯域幅が提供できる。また、SBR方式は、狭帯域音声コーデックの性能を向上させて、例えば、多重言語放送に使われる12kHzオーディオ帯域幅を有する音声専用チャンネルが提供できる。
SBR方式は、デコーディング処理をガイドするためのインコーダ付加情報がインコーダで一部処理が行われるが、ほとんどはデコーダ端で行われる。
技術的な観点で見る時、SBR方式は、オーディオ圧縮アルゴリズムで高周波信号を非常に効率的に符号化するための方法である。SBR方式が適用された符号化装置は、スペクトルの低周波部分だけを伝送する。省略された高周波数部分は、SBRデコーダでの復号化過程で生成される。高周波数部分を伝送する代わり、SBR方式によるデコーダではインコーダから伝送された低周波数部分のスペクトルを分析して高周波数部分を再構成する。
この時、高周波数部分の正確な再構成を保証するために、一部の付加的な情報が低いデータレートで符号化されたビットストリームに伝送される。結果的に、SBR方式は、非常に低いデータレートで全域オーディオ符号化を行えると同時に、既存のMp3インコーダと比較して非常に向上した圧縮効率を提供する。
このように、LPCアルゴリズムは、時間的な相関性を利用し、SBRアルゴリズムは信号の周波数相関性を利用している。
本発明によるアルゴリズムは、オーディオ信号の時間及び周波数依存性を同時に利用している。
以下では、図3ないし図11を参照して本発明による実施例を説明する。
図3は、本発明の一実施例を示す図面である。
以下では、図3及び図4を参照して本発明の一実施例によるオーディオ符号化方式を説明する。
本発明による符号化装置は、符号化部310、時間−フレーム帯域複製部320、及びビットストリームパッキング部330を含む。
符号化部310は、既存のオーディオインコーダ、すなわち、図1に示されたオーディオインコーダと類似した機能を行う。したがって、説明を簡単にするために符号化部310の具体的な機能部についての詳細な説明は省略する。本実施例では、図1に示されたオーディオインコーダを使用したが、選択的に他のオーディオインコーダを使用することもある。
時間−フレーム帯域複製部(Time Frame Band Replication Unit:TFBR部)320は、時間−周波数テーブル生成部322及び最近接ブロック探索部324を含む。
時間−周波数帯域テーブル生成部322では、符号化部310でMDCT変換されたデータをそれぞれのフレーム別にN個の周波数ブロックに分割して図4に示された時間−周波数インデックス組合わせ、すなわち、時間−周波数(Time−Frequency:TF)帯域テーブルを生成する。
本実施例では、時間−周波数変換方式としてMDCT変換方式を使用したが、選択的に他の方式の時間−周波数変換方式を使用することもある。
本発明による実施例で符号化部310のMDCT変換部によって色々な帯域に分割されたそれぞれの帯域は、多数のスペクトル係数を含む。本実施例では、均一な幅を有する帯域を使用したが、選択的に任意の幅を有する帯域を使用することもある。
図4で、“i”はフレームインデックスであり、“j=0,1,2,...j−1,j,j+1,..N”はフレームの周波数ブロックインデックスである。ここで、“i”はインコーディングが行われる現在フレームを意味し、“i−1”は以前フレーム、“i+1”は次のフレームを意味する。また、jはインコーディングが行われる周波数帯域を意味し、j=0は当該フレームの第一周波数帯域を意味し、jは現在インコーディングしようとするブロックの周波数帯域を意味する。また、j−1は以前周波数帯域を意味する。
例えば、図4のB(i,j)は、i番目フレームの、j番目周波数帯域に当たる時間−周波数帯域に当たるブロックを意味し、それぞれのブロックB(i,j)は同数のスペクトル係数を含む。
以下では、図4に示された時間−周波数帯域テーブルを利用した時間周波数帯域の複製方式についてさらに具体的に説明する。
本発明による時間−周波数帯域の複製方式は、フレーム間の時間的な相関性と周波数帯域間のスペクトルの類似性とを共に利用する。また、本発明は、一つのブロックB(i,j)は、以前のブロックのうち何れか一つとその値が類似であるという点を利用する。これは、下記の理由に基づく。
1.高周波数部分のスペクトルと低周波数部分のスペクトルとは内在的な類似性を有し、
2.それぞれのフレームの全体的なスペクトルは異なるが、現在フレームの一部分のスペクトルは以前フレームの一部分のスペクトルと類似であるという点に基づく。
最近接ブロック探索部324は、下記の数式1を利用して以前ブロックのうち現在ブロックとの差が最小であるブロックを探索する。ここで、以前ブロックは、現在フレームのj個の以前ブロックだけではなく、選定された数の以前フレーム内のブロックを含む。
Figure 0003824607
ここで、B(m,n)は、m番目フレームの、nブロックを意味する。
ここで、m番目フレームが現在フレームである場合、m=iであり、n=0,1,..j−1となる。また、m番目フレームが以前フレームである場合には、m=i−1,i−2,i−M+1であり、n=0,1,..N−1となる。Ckは加重因子の集合であり、k=0,1,..K−1である。
最近接ブロック探索及び最近接ブロック情報生成部324は、現在符号化するブロックB(i,j)が高周波数帯域に含まれているか否かを判断する。現在ブロックB(i,j)が高周波数帯域に含まれる場合、すなわちjが所定の周波数jTH以上である場合には、m、n、k値を異にしつつB(i,j)とCB(m,n)間の差値が最小であるm、n、kを求め、D(i,j)が最小であるm、n、kをmmin、nmin、kminに決定する。決定されたmmin及びnminを現在ブロックB(i,j)との差が最小であるブロックのインデックスという。
選択的に、本実施例では現在ブロックB(i,j)の周波数帯域が臨界周波数jTH以上、すなわち、高周波数領域に含まれているか否かによって最近接ブロック探索の可否を判断したが、選択的に任意の周波数領域及び時間領域に含まれているか否かを基準として判断することもある。
前記数式1で使われた関数|x,y|は、距離関数を表す。本実施例では、前記関数は、下記の数式2によるユークリッド距離関数を意味する。しかし、選択的に加重ユークリッド距離を利用した最近接分類方法を使用することもある。
Figure 0003824607
数式2では、n次元の特性空間を考慮し、2つのポイントx=(x,x,x,...x)とy=(y,y,y,...y)間の幾何学的な距離を意味する。
本実施例による最近接ブロック探索及び最近接ブロック情報生成部324は、下記の数式3を利用して以前フレームのブロックと現在フレームの以前ブロックのうち最も小さなユークリッド距離を有するブロックを探索する。最近接ブロック探索部324によって決定された最近接ブロックは、B(mmin,nmin)と表示する。
数式1のD(i,j)は、i、j番目ブロックとi、j番目ブロックの最近接ブロック間の距離、すなわち、B(i,j)とBmin(mmin,nmin)間のユークリッド距離を意味する。
数式1によって求めたD(i,j)のうち最小値を有するDmin(i,j)は、下記の数式3の通りである。
Figure 0003824607
ビットストリームパッキング部330は、当該ブロックB(i,j)に対するスペクトル情報の代わりに、最近接ブロックのインデックス情報mmin、nmin、kminを含むビットストリーム、すなわち、TFBRビットストリームをデコーダに出力する。ここで、jTH以下の周波数帯域に当たるオーディオ信号だけ符号化されて出力ビットストリームに含まれ、jTH以上の周波数帯域に当たるオーディオ信号はビットストリームに含まれていない。
選択的に、最近接ブロック探索時にスケールファクターを使用しない場合にはインデックス情報mmin及びnminだけを含む。
本実施例では、MPEGビットストリームの場合、前記最近接ブロックのインデックス情報は補助データ1フィールドに含まれる。しかし、選択的にビットストリーム以外の領域に含めて許容することもある。
また、本実施例での最近接ブロック探索範囲は、以前ブロックであったが、選択的に以後ブロックに対しても最近接ブロックを探索させることもある。
図5は、本発明の一実施例によるオーディオ符号化方法を示す図面である。
段階510ではオーディオ信号を入力され、入力された時間領域のオーディオ信号に対して既存のオーディオ符号化段階で行われるMDCT変換を行う。
段階520では、段階520でMDCT変換されたデータをそれぞれのフレーム別にN個の周波数ブロックに分割して図4に示された時間−周波数インデックス組合わせ、すなわち、時間−周波数帯域テーブルを生成する。本実施例では、時間−周波数帯域の変換方式としてMDCT変換方式を使用したが、選択的に他の方式の時間−周波数変換方式を使用することもある。
段階530では、現在ブロックB(i,j)の周波数が臨界周波数jTH以上であるか否かを判断する。jTHは、低周波数と高周波数部分とを区分するための臨界周波数値である。現在ブロックが高周波数領域に含まれる場合には、段階540に進行し、低周波数領域に含まれる場合には段階550に進行する。
選択的に、本実施例では、現在ブロックB(i,j)が高周波数領域に含まれているか否かを判断したが、選択的に任意の周波数領域及び時間領域に含まれているか否かを基準として判断することもある。
段階540では、段階520で生成された時間−周波数帯域テーブルに基づいて現在ブロックの以前ブロックに対して現在ブロックB(i,j)に最も近接な最近接ブロックB(mmin,nmin)を探索し、最近接ブロックB(mmin,nmin)に関する最近接ブロック情報を生成する。最近接ブロック情報は、B(mmin,nmin)のインデックス情報mmin、nminを含む。選択的に、最近接ブロック探索時にスケールファクターを使用した場合、最近接ブロック情報は、スケールファクターkminを含む。
段階550では、低周波数帯域に含まれる現在ブロックを符号化する。
段階560では、高周波数帯域データの代わりに段階540で生成された最近接ブロック情報、すなわち、最近接ブロックのインデックス情報mmin、nmin、kminと段階550で符号化された現在ブロックデータを含むビットストリーム、すなわちTFBRビットストリームとを生成して出力する。
図6は、本発明のさらに他の実施例によるオーディオ符号化装置を示す図面である。
以下では、図6及び図4を参照して本発明の一実施例によるオーディオ符号化方式を説明する。
本発明によるオーディオ符号化装置は、符号化部610、時間−フレーム帯域複製部620、及びビットストリームパッキング部630を含む。
時間−フレーム帯域複製部620は、時間−周波数帯域テーブル生成部622、最近接ブロック探索部624、及び重複ブロック決定部626を含む。
符号化部610、時間−周波数帯域テーブル生成部622、最近接ブロック探索部624、及びビットストリームパッキング部630は、図3の対応モジュールと同じ機能を行うので、説明を簡単にするために詳細な説明は省略する。
重複ブロック決定部626は、最近接ブロック探索部622で探索された最近接ブロックB(mmin,nmin)に基づいて、現在ブロックB(i,j)が重複ブロックであるか否かを決定する。
数式1のD(i,j)は、現在ブロックと現在ブロックの最近接ブロック間の距離、すなわち、B(i,j)とB(mmin,nmin)間のユークリッド距離を意味する。
数式1によって求めたD(i,j)のうち最小値を有するDmin(i,j)は、下記の数式4の通りである。
Figure 0003824607
重複ブロック決定部626では、Dmin(i,j)が臨界値Tより小さな場合、現在ブロックB(i,j)を重複ブロックに決定し、最近接ブロック探索部624で決定された最近接ブロックのインデックス情報mmin、nmin、kminをビットストリームパッキング部630に伝送する。ここで、臨界値Tは、周波数帯域jでの臨界値であり、実験的に決定される。本実施例では、MPEGビットストリームの場合、前記最近接ブロックのインデックス情報は補助データ1フィールドに含まれる。しかし、選択的にビットストリーム以外の領域に含めて許容することもある。
ビットストリームパッキング部630は、重複ブロック決定部626から伝送された最近接ブロックのインデックス情報を利用して、当該ブロックB(i,j)のスペクトル情報の代わりに、最近接ブロックのインデックス情報mmin、nmin、kminを含むビットストリーム、すなわち、TFBRビットストリームをデコーダに出力する。
図7は、本発明のさらに他の実施例によるオーディオ符号化方法を示すフローチャートである。
段階710では入力された時間領域のオーディオ信号に対して既存のオーディオ符号化段階で行われるMDCTのような時間−周波数変換を行う。
段階720では段階720でMDCT変換されたデータをそれぞれのフレーム別にN個の周波数ブロックに分割して図4に示された時間−周波数インデックス組合わせ、すなわち、時間−周波数帯域テーブルを生成する。本実施例では、時間−周波数帯域の変換方式としてMDCT変換方式を使用したが、選択的に他の方式の時間−周波数変換方式を使用することもある。
段階730では、段階720で生成された時間−周波数帯域テーブルに基づいて現在ブロックの以前ブロックを探索して現在ブロックB(i,j)に最も近接な最近接ブロックB(mmin,nmin)を決定する。
段階740では、現在ブロックB(i,j)と段階730で決定された現在ブロックの最近接ブロックB(mmin,nmin)間の数式3による距離Dmin(i,j)と臨界値Tとを比較して現在ブロックが重複ブロックであるか否かを判断する。Dmin(i,j)が臨界値Tより小さな場合には段階750に進行する。Dmin(i,j)が臨界値Tより大きい場合には段階760に進行する。
段階750では現在ブロックを重複ブロックと判断して、最近接ブロック情報を生成し、当該ブロックB(i,j)のスペクトル情報の代わりに、最近接ブロックのインデックス情報mmin及びnminを含むビットストリーム、すなわち、TFBRビットストリームを生成して出力する。選択的に、最近接ブロック探索時にスケールファクターを使用した場合、最近接ブロック情報はスケールファクターkminを含む。
段階760では、現在ブロックを正常ブロックと判断し、現在ブロックデータが挿入されるビットストリームを生成して出力する。
図8は、本発明の一実施例によるオーディオ復号化装置を示す図面である。
図8に示されたオーディオ復号化装置800は、ビットストリームアンパッキング部810、TFBRデコーダ820を含む。TFBRデコーダ820は、復号化部822及び重複ブロック再構成部824を含む。
ビットストリームアンパッキング部810は、入力されたTFBRビットストリームからTFBRパラメータを抽出する。抽出されたTFBRパラメータは、重複ブロック再構成部824に入力され、残りのデータは、復号化部822に入力される。
復号化部822は、復号化しようという現在ブロックB(i,j)が正常ブロックである場合、一般的なオーディオ復号化過程を行う。復号化部822を構成するモジュールは、一般的なオーディオ復号化器と同じ機能を行うので、説明を簡単にするために詳細な説明は省略する。
復号化部822は、復号化された正常ブロックデータ及び重複ブロック再構成部824から入力された重複ブロックデータに基づいて図4に示された時間−周波数帯域テーブルを生成する。
重複ブロック再構成部824は、ビットストリームアンパッキング部810から入力されたTFBRパラメータ、すなわち、重複ブロックの最近接ブロックのインデックスmmin及びnminに基づいて生成された時間−周波数帯域テーブルを使用して重複ブロックを近似的に再構成する。TFBRインコーダ部でTFBRパラメータ生成時にスケールファクターkminを使用した場合には、重複ブロック再構成時にスケールファクターkminに基づいて最近接ブロックのスケールを調整する。
もし、重複ブロックの最近接ブロック、すなわち、重複ブロックを近似的に再構成するために参照しようという最近接ブロックが重複ブロックである場合には、最近接ブロックが参照するブロックを利用して再構成する。
重複ブロック復元部822で近似的に再構成された重複ブロックデータは、復号化部822に入力される。
復号化部822は、重複ブロック復元部824から入力された重複ブロックデータを利用して全体スペクトルを再構成して出力オーディオ信号を生成する。復号化部822は、入力された重複ブロックデータを利用して時間−周波数帯域テーブルを更新して次の重複ブロックデータ再構成時に使用する。
図9は、本発明の一実施例によるオーディオ復号化方法を示す図面である。
段階910では、インコーダから伝送されたTFBRビットストリームをアンパッキングして、TFBRパラメータを抽出する。
段階920では、抽出されたTFBRパラメータに基づいて、現在復号化しようというブロックB(i,j)が重複ブロックであるか否かを判断する。本実施例では、現在ブロックB(i,j)に対応するTFBRパラメータが存在する場合、現在ブロックB(i,j)を重複ブロックと判断する。重複ブロックと判断された場合には、段階930に進行し、重複ブロックではない、すなわち、正常ブロックと判断された場合には段階940に進行する。
段階930では、TFBRパラメータ、すなわち、重複ブロックの最近接ブロックのインデックスmmin及びnminに基づいて重複ブロックを再構成する。また、TFBRパラメータにスケールファクターkminに含まれた場合には、スケールファクターkminに基づいて最近接ブロックのスケールを調整する。
段階940では、現在ブロックB(i,j)を正常ブロックと判断して、復号化を行う。また、段階940では、段階930で再構成された重複ブロックデータと復号化されたブロックデータとに基づいて図4に示された時間−周波数帯域テーブルを生成する。段階940で生成された時間−周波数帯域テーブルは、図9に示されたように段階930での重複ブロック再構成時に使われる。
段階950では、段階940で復号化された正常ブロックデータと段階930で再構成された重複ブロックデータとに基づいて、スペクトルを再構成し、これに基づいて出力オーディオ信号を生成する。
図10は、本発明の一実施例によるオーディオ復号化装置を示す図面である。
図10に示されたオーディオ復号化装置1000は、ビットストリームアンパッキング部1010、復号化部1020、及び後処理部1030を含む。
ビットストリームアンパッキング部1010は、図3のビットストリームパッキング部330で生成されたTFBRビットストリームを入力され、これからTFBRパラメータを抽出する。抽出されたTFBRパラメータは、後処理部1030に入力される。
復号化部1020は、一般的なオーディオインコーダ、例えば、Mp3インコーダから伝送される低周波数部分に当たるビットストリームに対して復号化を行い、これを後処理部1030に伝送する。
後処理部1030は、復号化部1020から入力された復号化された低周波数部分データに基づいて図4に示された時間−周波数帯域テーブルを生成し、ビットストリームアンパッキング部1010から入力されたTFBRパラメータmmin及びnminに基づいて高周波数部分に当たるデータブロックを再構成する。この時、入力されたTFBRパラメータにスケールファクターkminが含まれた場合には、kminに基づいてスケールを調整する。
また、再構成された高周波数ブロックデータに基づいて以前に作成された時間−周波数帯域テーブルを更新する。更新された時間−周波数帯域テーブルは、次の高周波数部分ブロックの再構成時に使われる。
結果的に、TFBRパラメータmmin、nmin、kminは、元来のブロック情報に比べてとても小さなサイズを有するため、とても小さな数の付加ビットだけを使用する。したがって、既存の伝送ビットレートを維持しつつも、音質を効果的に向上させうる。
本実施例では、高周波数部分データの伝送がなかった場合、TFBRパラメータを利用して高周波数部分データを復元することを例示した。しかし、選択的にデータの伝送がなかった任意の周波数帯域及びフレームに対して本発明を適用できる。
図11は、本発明の一実施例によるオーディオ復号化方法を示すフローチャートである。
段階1110では、TFBRビットストリームをアンパッキングして、TFBRパラメータを抽出する。
段階1120では、入力された低周波数帯域のブロックデータを復号化して、低周波数部分に当たるスペクトルを生成する。本実施例では、入力されたビットストリームが低周波数帯域のデータだけを含むことを仮定した。しかし、選択的に任意の他の周波数帯域及びフレームだけを含む場合にも本発明を適用できる。
段階1130では、段階1120から復号化された低周波数部分データに基づいて図4に示された時間−周波数帯域テーブルを生成し、段階1110で抽出されたTFBRパラメータmmin及びnminと段階1120で復号化された低周波数ブロックに基づいて、高周波数部分に当たるデータブロックを再構成する。この時、入力されたTFBRパラメータにスケールファクターkminが含まれた場合には、kminに基づいてスケールを調整する。
段階1140では、段階1120で復号化された低周波数部分の復号化されたブロック及び段階1130で再構成された高周波数部分のブロックを利用して全体スペクトルを再構成する。また、再構成された高周波数部分ブロックデータに基づいて時間−周波数帯域テーブルを更新する。更新された時間−周波数帯域テーブルは、次の高周波数部分のブロックを再構成するのに使われる。
本発明は、前述した実施例に限定されず、本発明の思想内で当業者による変形が可能である。特に、本発明は、MPEG−1 レイヤー3だけでなく、MPEG−2 AAC、MPEG4、WMAのような全てのオーディオ符号化装置及び方法に適用されうる。
本発明はまた、コンピュータで読取れる記録媒体にコンピュータがリードできるコードとして具現できる。コンピュータがリードできる記録媒体は、コンピュータシステムによって読取られるデータが保存される全ての種類の記録装置を含む。コンピュータがリードできる記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、ハードディスク、フロッピー(登録商標)ディスク、フラッシュメモリ、光データ保存装置があり、またキャリヤーウェーブ(例えば、インターネットを通じた伝送)形態に具現されることも含む。また、コンピュータがリードできる記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータがリードできるコードとして保存され、かつ実行されうる。
本発明は、オーディオ信号が入力される場合、音質の低下なしにビットレートを減少させるための改善されたオーディオ符号化及び復号化方法に係り、オーディオ信号を符号化するためのデジタルオーディオ符号化及び符号化されたオーディオ信号を復号化して再生するためのデジタルオーディオ復号化装置に利用されうる。
従来のMPEGオーディオ符号化装置を示すブロック図である。 スペクトル帯域の複製方式を説明するための図面である。 本発明の一実施例による符号化装置を示す図面である。 本発明に使われる時間−周波数帯域テーブルを示す図面である。 本発明の一実施例による符号化方法を示すフローチャートである。 本発明の一実施例による符号化装置を示す図面である。 本発明の一実施例による符号化方法を示すフローチャートである。 本発明の一実施例による復号化装置を示す図面である。 本発明の一実施例による復号化方法を示すフローチャートである。 本発明の一実施例による復号化装置を示す図面である。 本発明の一実施例による復号化方法を示すフローチャートである。
符号の説明
310 符号化部
320 時間−フレーム帯域複製部
322 時間−周波数テーブル生成部
324 最近接ブロック探索及び最近接ブロック情報生成部
330 ビットストリームパッキング部

Claims (24)

  1. デジタルオーディオ符号化方法において、
    (a)入力オーディオ信号に基づいて、オーディオ信号を複数のフレームに分割し、分割した各フレームにフレームインデックスを付し、各フレームを更に複数の周波数ブロックに分割し、分割した各ブロックに周波数ブロックインデックスを付し、各ブロックのスペクトルをフレームインデックスおよび周波数ブロックインデックスから成るインデックス情報と関連付けて記載した時間−周波数帯域テーブルを生成する段階と、
    (b)前記生成された時間−周波数帯域テーブルに基づいて、現在符号化するブロックである現在ブロックが属する現在フレームより以前のフレームである以前フレームに属するブロックと、現在フレームに属し、現在ブロックより以前に符号化されたブロックのうち現在ブロックとの距離が最も小さい最近接ブロックを探索し、前記探索された最近接ブロックのインデックス情報である最近接ブロック情報を生成する段階と、
    (c)前記生成された最近接ブロック情報を含むビットストリームを生成する段階と、を含むことを特徴とするデジタルオーディオ符号化方法。
  2. 前記(b)段階は、現在符号化するブロックの周波数が臨界周波数以上の場合に行われ、前記(c)段階で生成されるビットストリームは前記臨界周波数以下の帯域に属するブロックのスペクトル及び前記臨界周波数以上の帯域に属するブロックの最近接ブロック情報を含むことを特徴とする請求項1に記載の符号化方法。
  3. 前記最近接ブロック情報は、スケールファクター情報を含むことを特徴とする請求項1に記載の符号化方法。
  4. デジタルオーディオ符号化方法において、
    (a)入力オーディオ信号に基づいて、オーディオ信号を複数のフレームに分割し、分割した各フレームにフレームインデックスを付し、各フレームを更に複数の周波数ブロックに分割し、分割した各ブロックに周波数ブロックインデックスを付し、各ブロックのスペクトルをフレームインデックスおよび周波数ブロックインデックスから成るインデックス情報と関連付けて記載した時間−周波数帯域テーブルを生成する段階と、
    (b)前記生成された時間−周波数帯域テーブルに基づいて、現在符号化するブロックである現在ブロックが属する現在フレームより以前のフレームである以前フレームに属するブロックと、現在フレームに属し、現在ブロックより以前に符号化されたブロックのうち現在ブロックとの距離が最も小さい最近接ブロックを探索する段階と、
    (c)前記探索された最近接ブロックに基づいて、現在符号化するブロックが、最近接ブロックとの距離が所定の臨界値より小さい重複ブロックであるか否かを判断する段階と、
    (d)前記(c)段階で判断された結果に基づいて、出力ビットストリームを生成する段階と、を含むことを特徴とするデジタルオーディオ符号化方法。
  5. 前記(c)段階で現在符号化するブロックが重複ブロックであると判断された場合、前記(d)段階で生成されるビットストリームは、現在符号化するブロックのスペクトルである現在ブロックデータの代わりに前記(b)段階で探索された最近接ブロックのインデックス情報である最近接ブロック情報を含むことを特徴とする請求項4に記載の符号化方法。
  6. 前記(c)段階で現在符号化するブロックが重複ブロックではないと判断された場合、前記(d)段階で生成されるビットストリームは、現在符号化するブロックのスペクトルである現在ブロックデータを含むことを特徴とする請求項4に記載の符号化方法。
  7. 前記最近接ブロック情報は、スケールファクター情報を含むことを特徴とする請求項4に記載の符号化方法。
  8. デジタルオーディオ符号化装置において、
    入力オーディオ信号に基づいて、オーディオ信号を複数のフレームに分割し、分割した各フレームにフレームインデックスを付し、各フレームを更に複数の周波数ブロックに分割し、分割した各ブロックに周波数ブロックインデックスを付し、各ブロックのスペクトルをフレームインデックスおよび周波数ブロックインデックスから成るインデックス情報と関連付けて記載した時間−周波数帯域テーブルを生成する時間−周波数帯域テーブル生成部と、
    前記生成された時間−周波数帯域テーブルに基づいて、現在符号化するブロックである現在ブロックが属する現在フレームより以前のフレームである以前フレームに属するブロックと、現在フレームに属し、現在ブロックより以前に符号化されたブロックのうち現在ブロックとの距離が最も小さい最近接ブロックを探索し、前記探索された最近接ブロックのインデックス情報である最近接ブロック情報を生成する最近接ブロック探索及び最近接ブロック情報生成部と、
    前記生成された最近接ブロック情報を含むビットストリームを生成するビットストリームパッキング部と、を含むことを特徴とするデジタルオーディオ符号化装置。
  9. 前記最近接ブロック探索及び最近接ブロック情報生成部は、現在符号化するブロックの周波数が臨界周波数以上の場合に最近接ブロックを探索し、前記ビットストリームパッキング部は、前記臨界周波数以下の帯域に属するブロックのスペクトルと前記臨界周波数以上の帯域に属するブロックの最近接ブロック情報とが含まれたビットストリームを生成することを特徴とする請求項8に記載の符号化装置。
  10. デジタルオーディオ符号化装置において、
    入力オーディオ信号に基づいて、オーディオ信号を複数のフレームに分割し、分割した各フレームにフレームインデックスを付し、各フレームを更に複数の周波数ブロックに分割し、分割した各ブロックに周波数ブロックインデックスを付し、各ブロックのスペクトルをフレームインデックスおよび周波数ブロックインデックスから成るインデックス情報と関連付けて記載した時間−周波数帯域テーブルを生成する時間−周波数帯域テーブル生成部と
    前記生成された時間−周波数帯域テーブルに基づいて、現在符号化するブロックである現在ブロックが属する現在フレームより以前のフレームである以前フレームに属するブロックと、現在フレームに属し、現在ブロックより以前に符号化されたブロックのうち現在ブロックとの距離が最も小さい最近接ブロックを探索する最近接ブロック探索部と、
    前記探索された最近接ブロックに基づいて、現在符号化するブロックが、最近接ブロックとの距離が所定の臨界値より小さい重複ブロックであるか否かを決定する重複ブロック決定部と、
    前記重複ブロック決定部で決定された結果に基づいて、出力ビットストリームを生成するビットストリーム生成部と、を含むことを特徴とする符号化装置。
  11. 前記重複ブロック決定部で現在符号化するブロックが重複ブロックであると決定された場合、前記ビットストリーム生成部は、現在符号化するブロックのスペクトルである現在ブロックデータの代わりに前記最近接ブロック探索部で探索された最近接ブロック情報をビットストリームに含めることを特徴とする請求項10に記載の符号化装置。
  12. 前記重複ブロック決定部で現在符号化するブロックが重複ブロックではないと決定された場合、前記ビットストリーム生成部は、現在符号化するブロックのスペクトルである現在ブロックデータをビットストリームに含めることを特徴とする請求項10に記載の符号化装置。
  13. オーディオ信号の復号化方法において、
    (a)入力オーディオ信号に基づいて、オーディオ信号を複数のフレームに分割し、分割した各フレームにフレームインデックスを付し、各フレームを更に複数の周波数ブロックに分割し、分割した各ブロックに周波数ブロックインデックスを付し、各ブロックのスペクトルをフレームインデックスおよび周波数ブロックインデックスから成るインデックス情報と関連付けて記載した時間−周波数帯域テーブルを生成し、
    前記生成された時間−周波数帯域テーブルに基づいて、符号化するブロックの周波数が臨界周波数以上の場合に、符号化するブロックである現在ブロックが属する現在フレームより以前のフレームである以前フレームに属するブロックと、現在フレームに属し、現在ブロックより以前に符号化されたブロックのうち現在ブロックとの距離が最も小さい最近接ブロックを探索し、前記探索された最近接ブロックのインデックス情報である最近接ブロック情報を生成し、
    前記生成された最近接ブロック情報を含むビットストリームを生成することによって作成された入力オーディオビットストリームから臨界周波数以上の帯域に属しないブロックを復号化する段階と、
    (b)前記復号化されたブロックのスペクトルであるブロックデータに基づいて臨界周波数以上の帯域に対応する時間−周波数帯域テーブルを生成する段階と、
    (c)前記生成された時間−周波数帯域テーブルを使用して、前記臨界周波数以上の帯域のオーディオ信号に関する最近接ブロック情報に基づいて、臨界周波数以上の帯域に属するブロックを再構成する段階と、を含むことを特徴とする復号化方法。
  14. 前記(b)段階で生成された時間−周波数帯域テーブルは、段階(c)で再構成されたブロックによって更新されることを特徴とする請求項13に記載の復号化方法。
  15. 前記最近接ブロック情報は、スケールファクター情報を含むことを特徴とする請求項13に記載の復号化方法。
  16. デジタルオーディオ復号化方法において、
    (a)入力オーディオ信号に基づいて、オーディオ信号を複数のフレームに分割し、分割した各フレームにフレームインデックスを付し、各フレームを更に複数の周波数ブロックに分割し、分割した各ブロックに周波数ブロックインデックスを付し、各ブロックのスペクトルをフレームインデックスおよび周波数ブロックインデックスから成るインデックス情報と関連付けて記載した時間−周波数帯域テーブルを生成し、
    前記生成された時間−周波数帯域テーブルに基づいて、符号化するブロックである現在ブロックが属する現在フレームより以前のフレームである以前フレームに属するブロックと、現在フレームに属し、現在ブロックより以前に符号化されたブロックのうち現在ブロックとの距離が最も小さい最近接ブロックを探索し、
    前記探索された最近接ブロックに基づいて、符号化するブロックが、最近接ブロックとの距離が所定の臨界値より小さい重複ブロックであるか否かを判断し、
    符号化するブロックが重複ブロックであると判断された場合、符号化するブロックのスペクトルである現在ブロックデータの代わりに、探索された最近接ブロックのインデックス情報である最近接ブロック情報を含む出力ビットストリームを生成することによって作成された入力オーディオビットストリームから最近接ブロック情報を抽出する段階と、
    (b)前記入力オーディオビットストリームに基づいて時間−周波数帯域テーブルを生成する段階と、
    (c)前記抽出された最近接ブロック情報に基づいて、現在復号化するブロックが重複ブロックであるか否かを判断する段階と、
    (d)前記現在復号化するブロックが重複ブロックである場合、前記生成された時間−周波数帯域テーブルを使用して前記抽出された最近接ブロック情報に基づいて重複ブロックを再構成する段階と、を含むことを特徴とするデジタルオーディオ復号化方法。
  17. 前記再構成された重複ブロックを使用して入力されたオーディオビットストリームに対応する全体スペクトルを再構成する段階を含むことを特徴とする請求項16に記載の復号化方法。
  18. 前記(c)段階は、再構成された重複ブロックに基づいて前記時間−周波数帯域テーブルを更新する段階をさらに含むことを特徴とする請求項17に記載の復号化方法。
  19. 前記最近接ブロック情報は、スケールファクター情報を含むことを特徴とする請求項17に記載の復号化方法。
  20. オーディオ信号の復号化装置において、
    入力オーディオ信号に基づいて、オーディオ信号を複数のフレームに分割し、分割した各フレームにフレームインデックスを付し、各フレームを更に複数の周波数ブロックに分割し、分割した各ブロックに周波数ブロックインデックスを付し、各ブロックのスペクトルをフレームインデックスおよび周波数ブロックインデックスから成るインデックス情報と関連付けて記載した時間−周波数帯域テーブルを生成し、
    前記生成された時間−周波数帯域テーブルに基づいて、符号化するブロックの周波数が臨界周波数以上の場合に、符号化するブロックである現在ブロックが属する現在フレームより以前のフレームである以前フレームに属するブロックと、現在フレームに属し、現在ブロックより以前に符号化されたブロックのうち現在ブロックとの距離が最も小さい最近接ブロックを探索し、前記探索された最近接ブロックのインデックス情報である最近接ブロック情報を生成し、
    前記生成された最近接ブロック情報を含むビットストリームを生成することによって作成された入力オーディオビットストリームから臨界周波数以上の帯域に属さないブロックを復号化する復号化部と、
    前記復号化されたブロックのスペクトルであるブロックデータに基づいて臨界周波数以上の帯域に対応する時間−周波数帯域テーブルを生成し、前記生成された時間−周波数帯域テーブルを使用して、前記臨界周波数以上の帯域のオーディオ信号に関する最近接ブロック情報に基づいて、臨界周波数以上の帯域に属するブロックを再構成する後処理部と、を含むことを特徴とする復号化装置。
  21. 前記生成された時間−周波数帯域テーブルは、再構成されたブロックによって更新されることを特徴とする請求項20に記載の復号化装置。
  22. デジタルオーディオ復号化装置において、
    入力オーディオ信号に基づいて、オーディオ信号を複数のフレームに分割し、分割した各フレームにフレームインデックスを付し、各フレームを更に複数の周波数ブロックに分割し、分割した各ブロックに周波数ブロックインデックスを付し、各ブロックのスペクトルをフレームインデックスおよび周波数ブロックインデックスから成るインデックス情報と関連付けて記載した時間−周波数帯域テーブルを生成し、
    前記生成された時間−周波数帯域テーブルに基づいて、符号化するブロックである現在ブロックが属する現在フレームより以前のフレームである以前フレームに属するブロックと、現在フレームに属し、現在ブロックより以前に符号化されたブロックのうち現在ブロックとの距離が最も小さい最近接ブロックを探索し、
    前記探索された最近接ブロックに基づいて、符号化するブロックが、最近接ブロックとの距離が所定の臨界値より小さい重複ブロックであるか否かを判断し、
    符号化するブロックが重複ブロックであると判断された場合、符号化するブロックのスペクトルである現在ブロックデータの代わりに、探索された最近接ブロックのインデックス情報である最近接ブロック情報を含む出力ビットストリームを生成することによって作成された入力オーディオビットストリームから最近接ブロック情報を抽出する最近接ブロック情報抽出部と、
    前記入力オーディオビットストリームに基づいて時間−周波数帯域テーブルを生成する時間−周波数帯域テーブル生成部と、
    前記抽出された最近接ブロック情報に基づいて、現在復号化するブロックが重複ブロックであるか否かを判断して、前記現在復号化するブロックが重複ブロックである場合、前記生成された時間−周波数帯域テーブルを使用して前記抽出された最近接ブロック情報に基づいて重複ブロックを再構成する重複ブロック再構成部と、を含むことを特徴とするデジタルオーディオ復号化装置。
  23. 前記重複ブロック再構成部は、前記再構成された重複ブロックを使用して入力されたオーディオビットストリームに対応する全体スペクトルを再構成することを特徴とする請求項22に記載の復号化装置。
  24. 前記時間−周波数帯域テーブル生成部は、再構成された重複ブロックに基づいて前記時間−周波数帯域テーブルを更新することを特徴とする請求項23に記載の復号化装置。
JP2003425850A 2002-12-23 2003-12-22 時間−周波数相関性を利用した改善されたオーディオ符号化及び/または復号化方法とその装置 Expired - Fee Related JP3824607B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0082380A KR100524065B1 (ko) 2002-12-23 2002-12-23 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치

Publications (2)

Publication Number Publication Date
JP2004206129A JP2004206129A (ja) 2004-07-22
JP3824607B2 true JP3824607B2 (ja) 2006-09-20

Family

ID=36089201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003425850A Expired - Fee Related JP3824607B2 (ja) 2002-12-23 2003-12-22 時間−周波数相関性を利用した改善されたオーディオ符号化及び/または復号化方法とその装置

Country Status (7)

Country Link
US (1) US20040176961A1 (ja)
EP (1) EP1441330B1 (ja)
JP (1) JP3824607B2 (ja)
KR (1) KR100524065B1 (ja)
CN (1) CN1249669C (ja)
AT (1) ATE316679T1 (ja)
DE (1) DE60303346T2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN100424692C (zh) * 2005-08-31 2008-10-08 中国科学院自动化研究所 音频快速搜索方法
WO2007052088A1 (en) * 2005-11-04 2007-05-10 Nokia Corporation Audio compression
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
US20100111181A1 (en) * 2008-11-06 2010-05-06 Mediatek Inc. Video processing apparatus and methods
KR101390433B1 (ko) 2009-03-31 2014-04-29 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
BRPI1009648B1 (pt) * 2009-06-24 2020-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V decodificador de sinal de áudio, método para decodificador um sinal de áudio e programa de computador com o uso de etapas de processamento de objeto de áudio em cascata
WO2011000408A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Audio coding
MX2012010415A (es) 2010-03-09 2012-10-03 Fraunhofer Ges Forschung Aparato y metodo para procesar una señal de audio de entrada utilizando bancos de filtro en cascada.
EP2532002B1 (en) * 2010-03-09 2014-01-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for processing an audio signal
CA2792449C (en) 2010-03-09 2017-12-05 Dolby International Ab Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals
EP2559032B1 (en) * 2010-04-16 2019-01-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for generating a wideband signal using guided bandwidth extension and blind bandwidth extension
CA3203400C (en) 2010-07-19 2023-09-26 Dolby International Ab Processing of audio signals during high frequency reconstruction
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
WO2023211443A1 (en) * 2022-04-28 2023-11-02 Innopeak Technology, Inc. Transformer-encoded speech extraction and enhancement

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH589390A5 (ja) * 1975-08-19 1977-06-30 Patelhold Patentverwertung
US4748579A (en) * 1985-08-14 1988-05-31 Gte Laboratories Incorporated Method and circuit for performing discrete transforms
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
CA2088082C (en) * 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5703999A (en) * 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
US5867819A (en) * 1995-09-29 1999-02-02 Nippon Steel Corporation Audio decoder
EP0798866A2 (en) * 1996-03-27 1997-10-01 Kabushiki Kaisha Toshiba Digital data processing system
TW447193B (en) * 1996-12-09 2001-07-21 Matsushita Electric Ind Co Ltd Signal processing device
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5960401A (en) * 1997-11-14 1999-09-28 Crystal Semiconductor Corporation Method for exponent processing in an audio decoding system
EP1050113B1 (en) * 1997-12-27 2002-03-13 STMicroelectronics Asia Pacific Pte Ltd. Method and apparatus for estimation of coupling parameters in a transform coder for high quality audio
US6185525B1 (en) * 1998-10-13 2001-02-06 Motorola Method and apparatus for digital signal compression without decoding
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法

Also Published As

Publication number Publication date
DE60303346D1 (de) 2006-04-13
CN1510661A (zh) 2004-07-07
JP2004206129A (ja) 2004-07-22
DE60303346T2 (de) 2006-11-02
EP1441330A2 (en) 2004-07-28
EP1441330B1 (en) 2006-01-25
US20040176961A1 (en) 2004-09-09
CN1249669C (zh) 2006-04-05
EP1441330A3 (en) 2005-04-27
KR20040055916A (ko) 2004-06-30
KR100524065B1 (ko) 2005-10-26
ATE316679T1 (de) 2006-02-15

Similar Documents

Publication Publication Date Title
JP3824607B2 (ja) 時間−周波数相関性を利用した改善されたオーディオ符号化及び/または復号化方法とその装置
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
KR101171098B1 (ko) 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
CA2608030C (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
JP4922296B2 (ja) 低ビット率オーディオ信号の符号化/復号化方法及び装置
JP5485909B2 (ja) オーディオ信号処理方法及び装置
Ravelli et al. Union of MDCT bases for audio coding
US20160254005A1 (en) Method and apparatus to encode and decode an audio/speech signal
TWI576832B (zh) 產生帶寬延伸訊號的裝置與方法
US20090192792A1 (en) Methods and apparatuses for encoding and decoding audio signal
KR20080059279A (ko) 오디오 압축
Zhen et al. Psychoacoustic calibration of loss functions for efficient end-to-end neural audio coding
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
JP5544370B2 (ja) 符号化装置、復号装置およびこれらの方法
JP3348759B2 (ja) 変換符号化方法および変換復号化方法
Hang et al. A scalable variable bit rate audio codec based on audio attention analysis
KR20080092823A (ko) 부호화/복호화 장치 및 방법
AU2011205144B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
JP2008026372A (ja) 符号化データの符号化則変換方法および装置
Ravelli et al. Extending fine-grain scalable audio coding to very low bitrates using overcomplete dictionaries
AU2011221401B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
Reyes et al. A new perceptual entropy-based method to achieve a signal adapted wavelet tree in a low bit rate perceptual audio coder

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060627

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090707

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100707

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110707

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110707

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120707

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120707

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130707

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees