JP6302071B2 - 無損失符号化方法及び無損失復号化方法 - Google Patents

無損失符号化方法及び無損失復号化方法 Download PDF

Info

Publication number
JP6302071B2
JP6302071B2 JP2016542648A JP2016542648A JP6302071B2 JP 6302071 B2 JP6302071 B2 JP 6302071B2 JP 2016542648 A JP2016542648 A JP 2016542648A JP 2016542648 A JP2016542648 A JP 2016542648A JP 6302071 B2 JP6302071 B2 JP 6302071B2
Authority
JP
Japan
Prior art keywords
encoding
mode
decoding
lossless
quantization index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016542648A
Other languages
English (en)
Other versions
JP2016535317A (ja
Inventor
チュー,キ−ヒョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority claimed from PCT/KR2014/008586 external-priority patent/WO2015037961A1/ko
Publication of JP2016535317A publication Critical patent/JP2016535317A/ja
Application granted granted Critical
Publication of JP6302071B2 publication Critical patent/JP6302071B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Description

本発明は、オーディオ信号あるいはスピーチ信号の符号化及び復号化に係り、さらに具体的には、複雑度の上昇、及び復元された音質の劣化なしに、限定されたビット範囲で、スペクトルのエネルギー情報を符号化するのに所要するビット数を減少させることによって、スペクトルの実際周波数成分を符号化するのに所要するビット数を増加させることができるエネルギー無損失符号化方法及びその装置、信号符号化方法及びその装置、エネルギー無損失復号化方法及びその装置、信号復号化方法及びその装置、並びにそれを採用したマルチメディア機器に関する。
オーディオ信号あるいはスピーチ信号の符号化時、スペクトルの実際周波数成分以外に、エネルギーあるいはエンベロープのような付加情報が、ビットストリームに含まれもする。このとき、損失を最小化しながら、付加情報の符号化に割り当てられるビット数を低減させることによって、スペクトルの周波数成分符号化に割り当てられるビット数を増加させることができる。
すなわち、オーディオ信号あるいはスピーチ信号を符号化したり復号化したりする場合、特に、低いビット率において、限定されたビットを効率的に利用することにより、当該ビット範囲において最上の音質を有するオーディオ信号あるいはスピーチ信号の復元が要求される。
本発明が解決しようとする課題は、複雑度の上昇、及び復元された音質の劣化なしに、限定されたビット範囲において、スペクトルのエネルギーあるいはエンベロープを符号化するのに所要するビット数を低減させる一方、スペクトルの実際周波数成分を符号化するのに所要するビット数を増加させることができるエネルギー無損失符号化方法、信号符号化方法、エネルギー無損失復号化方法及び信号復号化方法を提供するところにある。
本発明が解決しようとする他の課題は、複雑度の上昇、及び復元された音質の劣化なしに、限定されたビット範囲において、スペクトルのエネルギーを符号化するのに所要するビット数を低減させる一方、スペクトルの実際周波数成分を符号化するのに所要するビット数を増加させることができるエネルギー無損失符号化装置、信号符号化装置、エネルギー無損失復号化装置及び信号復号化装置を提供するところにある。
本発明が解決しようとする他の課題は、エネルギー無損失符号化方法、信号符号化方法、エネルギー無損失復号化方法あるいは信号復号化方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体を提供するところにある。
本発明が解決しようとする他の課題は、エネルギー無損失符号化装置、信号符号化装置、エネルギー無損失復号化装置あるいは信号復号化装置を採用するマルチメディア機器を提供するところにある。
前記課題を達成するための本発明の一実施形態による無損失符号化方法は、エネルギーの量子化インデックスが表現される範囲に基づいて、第1符号化方式と第2符号化方式とのうち一つを選択する段階と、前記選択された符号化方式を利用して、前記量子化インデックスを符号化する段階と、を含んでもよい。
前記課題を達成するための本発明の一実施形態による信号符号化方法は、時間領域のオーディオ信号から生成されるスペクトル係数から、バンド単位で得られるエネルギーを量子化する段階と、エネルギーの量子化インデックスを表現するビット数と、前記エネルギーの量子化インデックスをラージシンボル符号化方式及びスモールシンボル符号化方式によって符号化した結果として発生するビット数と、を考慮し、前記量子化インデックスの符号化方式を選択して無損失符号化する段階と、復元されたエネルギーに基づいて、前記バンド単位で符号化のためのビットを割り当てる段階と、前記割り当てられたビットに基づいて、前記スペクトル係数を量子化及び無損失符号化する段階と、を含んでもよい。
前記課題を達成するための本発明の一実施形態による無損失復号化方法は、ビットストリームに含まれたエネルギーの差分量子化インデックスの符号化方式を決定する段階と、前記決定された符号化方式に対応し、前記差分量子化インデックスを、エネルギーの量子化インデックスが表現される範囲に基づいた第1復号化方式及び第2復号化方式のうち一つによって復号化する段階と、を含んでもよい。
前記課題を達成するための本発明の一実施形態による無損失復号化方法は、ビットストリームから得られるエネルギーの符号化された差分量子化インデックスの符号化方式を決定し、決定された符号化方式に対応し、前記符号化された差分量子化インデックスを、ラージシンボル復号化方式及びスモールシンボル復号化方式のうち一つによって復号化する段階と、前記復号化された差分量子化インデックスを逆量子化し、復元されたエネルギーに基づいて、前記バンド単位で復号化のためのビットを割り当てる段階と、前記ビットストリームから得られるスペクトル係数を無損失復号化する段階と、前記無損失復号化されたスペクトル係数を、前記割り当てられたビットに基づいて、逆量子化する段階と、を含んでもよい。
エネルギーを示す量子化インデックスにおいて、表現範囲が大きいシンボルをパルスモード及びスケールモードのうち一つで符号化することを可能にすることにより、エネルギー符号化に使用されるビット数を節減し、スペクトル符号化にさらに多くのビット数を割り当てることができる。
一実施形態によるオーディオ符号化装置の構成を示したブロック図である。 一実施形態によるオーディオ復号化装置の構成を示したブロック図である。 一実施形態によるエネルギー無損失符号化装置の構成を示したブロック図である。 図3に図示された第1無損失符号化部の細部的な構成を示したブロック図である。 一実施形態による符号化方式及び符号化モードを示すテーブルである。 ラージシンボル符号化方式で使用されるハフマン符号化テーブルの一例を示す図面である。 パルスモードに対するビット割り当ての一例を示す図面である。 図3に図示された第2無損失符号化部の細部的な構成を示したブロック図である。 図8に図示された上位ビット符号化部の細部的な構成を示したブロック図である。 図9に図示された第1ハフマンモード符号化部で使用されるコンテクストのグルーピングの一例である。 一実施形態による符号化方式を決定するためのビット計算過程について説明するフローチャートである。 一実施形態によるエネルギー無損失復号化装置の構成を示したブロック図である。 図12に図示された第1無損失復号化部の細部的な構成を示したブロック図である。 図12に図示された第2無損失復号化部の細部的な構成を示したブロック図である。 図13に図示された上位ビット復号化部の細部的な構成を示したブロック図である。 スモールシンボル符号化方式について説明する図面である。 本発明の一実施形態によるマルチメディア機器の構成を示したブロック図である。 本発明の他の実施形態によるマルチメディア機器の構成を示したブロック図である。 本発明の他の実施形態によるマルチメディア機器の構成を示したブロック図である。
本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって具体的に説明する。しかし、それらは、本発明を特定の実施形態について限定するものではなく、本発明の技術的思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解されるのである。本発明についての説明において、関連公知技術に係わる具体的な説明が本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。
第1、第2のような用語は、多様な構成要素についての説明に使用されるが、構成要素は、用語によって限定されるものではない。用語は、1つの構成要素を他の構成要素から区別する目的のみに使用される。
本発明で使用した用語は、単に特定の実施形態について説明するために使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明での機能を考慮しながら、可能な限り現在広く使用される一般的な用語を選択したが、それは当分野に携わる技術者の意図、判例、または新たな技術の出現などによって異なる。また、特定の場合は、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分において詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味と、本発明の全般にわたった内容とを基に定義されなければならない。
単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するものであり、一つまたはそれ以上の他の特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性を事前に排除するものではないと理解されなければならない。
以下、本発明の実施形態について、添付図面を参照して詳細に説明するが、添付図面を参照しての説明において、同一であるか対応する構成要素は、同一図面番号を付し、それについての重複説明は省略する。
図1は、本発明の一実施形態による信号符号化装置の構成を示したブロック図である。図1に図示された信号符号化装置100は、変換部110、エネルギー量子化部120、エネルギー無損失符号化部130、ビット割当て部140、スペクトル量子化部150、スペクトル無損失符号化部160及び多重化部170を含んでもよい。多重化部170は、オプションとして含まれ、ビットパッキング機能を遂行する他の構成要素で代替されもする。または、無損失符号化されたエネルギーデータ、及び無損失符号化されたスペクトルデータが、別途のビットストリームを形成して保存されたり伝送されたりする。一方、スペクトル量子化過程後、あるいはその以前、エネルギー値を利用して正規化(normalization)を行う正規化部(図示せず)をさらに具備することができる。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。ここで、信号は、オーディオ、ミュージックまたはスピーチ、あるいはそれらの混合信号を示すサウンドなどのメディア信号を意味するが、以下では、説明の便宜のために、オーディオ信号とする。信号符号化装置100に入力される時間ドメインのオーディオ信号は、多様なサンプリングレートを有し、サンプリングレート別に、スペクトル量子化に使用されるエネルギーのバンド構成が異なる。それにより、無損失符号化が行われる量子化されたエネルギーの個数が変動される。サンプリングレートの例としては、7.2kHz、8kHz、13.2kHz、16.4kHz、32kHZ、48kHzなどがあるが、それらに限定されるものではない。サンプリングレート及びターゲットビット率が決定された時間ドメインのオーディオ信号は、変換部110に提供される。
図1において、変換部110は、時間ドメインのオーディオ信号、例えば、PCM(pulse code modulation)信号を周波数ドメインに変換し、オーディオスペクトルを生成することができる。そのとき、時間/周波数ドメイン変換は、MDCT(modified discrete cosine transform)のような公知の多様な方法を使用して行うことができる。変換部110から得られるオーディオスペクトルの変換係数、例えば、MDCT係数は、エネルギー量子化部120及びスペクトル量子化部150に提供される。
エネルギー量子化部120は、変換部110から提供される変換係数から、バンド単位でエネルギーを獲得することができる。バンドは、オーディオスペクトルのサンプルをグルーピングした単位であり、臨界帯域を反映し、均一長あるいは非均一長を有することができる。非均一である場合、1フレームについて、開始サンプルから最後のサンプルに至るまで、1つのバンドに含まれるサンプルの個数がだんだんと増加するようにバンドを設定することができる。また、多重ビット率を支援する場合、互いに異なるビット率において対応する各バンドに含まれるサンプルの数が同一になるように設定することができる。1フレームに含まれるバンドの個数、あるいはバンドに含まれるサンプルの個数は、事前に決定されている。エネルギー値は、バンドに含まれる変換係数のエンベロープを示し、平均振幅、平均エネルギー、パワーあるいはnorm値などを意味する。ここで、バンドは、パラメーターバンドあるいはスケールファクタバンドを意味する。
バンドbのエネルギーE(b)は、例えば、下記数式(1)によって算出される。
Figure 0006302071
ここで、X(k)は、スペクトル係数を意味し、kstart(b)及びkend(b)は、それぞれバンドの開始サンプル及び最後のサンプルを意味する。
エネルギー量子化部120は、獲得されたエネルギーに対して量子化を行い、インデックスを生成することができる。一実施形態によれば、量子化に先立り、トランジェントモードでは、量子化されるエネルギーをリオーダリングすることにより、例えば、偶数サブフレーム(インデックスm=0,2)に対応するエネルギーは、周波数が増加する順序になり、奇数サブフレーム(インデックスm=1,3)に対応するエネルギーは、周波数が減少する順序になるようにリオーダリングすることにより、効率的な差分エネルギー符号化を可能にする。各フレームにおいて、エネルギーは、量子化ステップサイズ、例えば、ユニホームスカラ量子化器値qintにスカラ量子化される。qintは、可変的であり、例えば、帯域幅及びモードに基づいて選択される。
エネルギーの量子化インデックスI(b)は、例えば、下記数式(2)によって算出される。
Figure 0006302071
一実施形態によれば、サブベクトルエネルギーの量子化インデックスは、差分的に符号化されるが、そのために、現在バンドについて、現在バンドの量子化インデックスと、以前バンドの量子化インデックスとの差、すなわち、差分インデックス(differential index)を得ることができる。そのとき、フレームにおいて最初のバンドは、以前バンドが存在しないために、最初のバンドの量子化インデックスから所定値を差し引いて差分インデックスを得ることができる。そのような最初のバンドの差分インデックス△I(0)、残りのバンドの差分インデックス△I(b)は、例えば、下記数式(3)によって算出される。
Figure 0006302071
ここで、Irefは、基準バンドエネルギーに該当し、24に設定される。
一実施形態によれば、差分インデックス△I(b)は、所定範囲、例えば、[−256、256]の範囲に制限される。それは、下記数式(4)でのように、まず負数の差分インデックスを調整した後、正数の差分インデックスを調整することによって達成することができる。
Figure 0006302071
エネルギー無損失符号化部130は、エネルギー量子化部120から提供されるインデックス、差分インデックス、あるいは制限された差分インデックスに対して無損失符号化を行うことができる。一実施形態によれば、エネルギー無損失符号化部130は、差分インデックスを表現することができる能力(capability)、あるいは範囲(range)及びビット消費(bit consumption)によって、第1符号化方式と第2符号化方式とのうち一つを利用して、フレーム単位において無損失符号化を行うことができる。ここで、第1符号化方式は、ラージシンボル符号化方式(large symbol coding method)であり、第2符号化方式においてより、さらにインデックスを表現することができるシンボルの数が相対的に多い場合に適用し、第2符号化方式は、スモールシンボル符号化方式(small symbol coding method)であり、第1符号化方式においてより、さらにインデックスを表現することができるシンボルの数が相対的に少ない場合に適用される。符号化方式として、ラージシンボル符号化方式が選択された場合、バンドエネルギーは、パルスモード及びスケールモードのうち一つで符号化される。符号化方式として、スモールシンボル符号化方式が選択された場合、上位ビットと下位ビットとに区分して符号化を行い、上位ビットは、コンテクスト基盤ハフマン符号化モードと、リサイズドハフマン符号化モードとのうち一つで符号化され、下位ビットは、ビットパッキングによって処理される。符号化方式を示す符号化方式インデックス、すなわち、フラグビットDENG_CMODEと、各符号化方式で符号化モードを示す符号化モードインデックス、すなわち、フラグビットLC_MODEは、ビットストリームに付加情報として含まれ、デコーダ端に伝送される。そのようなエネルギー符号化モードあるいはエンベロープ符号化モードは、図5でのように示すことができる。
一実施形態によれば、エネルギー無損失符号化部130は、スモールシンボル符号化方式において、コンテクスト基盤ハフマン符号化モード及びリサイズドハフマン符号化モードそれぞれの場合に消費するビット量の推定値に基づいて、符号化モードを選択することができる。
ビット割当て部140は、エネルギー量子化部120から提供される量子化インデックスに対して逆量子化を行い、エネルギーを復元することができる。ビット割当て部140は、ターゲットビット率による全体ビット数に対して、各バンド単位で復元されたエネルギーを利用して、マスキング臨界値を計算し、マスキング臨界値を利用して、各バンドの知覚的符号化に必要な割り当てビット数を、整数単位あるいは小数点単位で決定することができる。具体的には、ビット割当て部140は、各バンド単位で復元されたエネルギーを利用して、許容ビット数を推定してビットを割り当て、割り当てビット数が許容ビット数を超えないように制限することができる。そのとき、エネルギーが大きいバンドから順次にビットを割り当てることができる。また、各バンドのエネルギーに対して、各バンドの知覚的重要度によって加重値を付与することにより、知覚的に重要なバンドにさらに多くのビットが割り当てられるように調整することができる。知覚的重要度は、一例として、ITU−T G.719でのような心理音響加重を介して決定することができる。
スペクトル量子化部150は、変換部110から提供される変換係数に対して、各バンド単位で決定された割り当てビット数を利用して量子化を行い、スペクトルの量子化インデックスを生成することができる。
スペクトル無損失符号化部160は、スペクトル量子化部150から提供されるスペクトルの量子化インデックスに対して無損失符号化を行うことができる。無損失符号化アルゴリズムの一例として、ハフマン符号化あるいはFPC(factorial pulse coding)のように公知のアルゴリズムを使用することができる。無損失符号化の結果として得られるデータは、ビットストリームに含まれて保存されたり伝送されたりする。
多重化部170は、エネルギー無損失符号化部130から提供されるエネルギーデータと、スペクトル無損失符号化部160から提供されるスペクトルデータとをビットストリームに生成することができる。
図2は、本発明の一実施形態によるオーディオ復号化装置の構成を示したブロック図である。図2に図示されたオーディオ復号化装置200は、逆多重化部210)、エネルギー無損失復号化部220、エネルギー逆量子化部230、ビット割当て部240、スペクトル無損失復号化部250、スペクトル逆量子化部260及び逆変換部270を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。オーディオ符号化装置100におけるところと同様に、逆多重化部210は、オプションとして具備され、ビットアンパッキング機能を遂行する他の構成要素で代替されもする。一方、スペクトル逆量子化過程後あるいはそれ以前、エネルギー値を利用して逆正規化(denormalization)を行う逆正規化部(図示せず)をさらに具備することができる。
図2において、逆多重化部210は、ビットストリームをパージングして符号化されたエネルギーデータは、エネルギー無損失復号化部220に提供し、符号化されたスペクトルデータは、スペクトル無損失復号化部250に提供することができる。
エネルギー無損失復号化部220は、符号化されたエネルギーデータに対して無損失復号化を行い、エネルギーの量子化インデックスを得ることができる。一実施形態によれば、符号花壇で差分符号化が行われた場合、差分量子化インデックスを得ることができる。そのように、差分量子化インデックスが得られた場合、下記数式(5)によって、各バンドの量子化インデックスを復元することができる。
Figure 0006302071
エネルギー逆量子化部230は、エネルギー無損失復号化部220から提供されるエネルギーの量子化インデックスに対して逆量子化を行い、エネルギーを復元することができる。具体的には、エネルギー逆量子化部230は、エネルギーの量子化インデックスに、量子化ステップサイズ、例えば、ユニホームスカラ量子化器値qintを乗じ、エネルギーを復元することができる。
ビット割当て部240は、エネルギー逆量子化部230から提供される復元されたエネルギーを利用して、各周波数バンド単位で、整数単位あるいは小数点単位のビット割り当てを行うことができる。具体的には、エネルギーが大きいバンドから順次に、サンプル別にビットを割り当てる。すなわち、優先的に最大エネルギーを有するバンドに対して、サンプル当たりビットを割り当て、当該バンドのエネルギーを所定単位ほど減少させ、他のバンドにビットを割り当てることができるように優先順位を変更する。そのような過程は、与えられたフレームで使用可能な全体ビット数がいずれも消尽するまで反復的に遂行される。ビット割当て部240の動作は、オーディオ符号化装置100のビット割当て部140と実質的に同一である。
スペクトル無損失復号化部250は、符号化されたスペクトルデータに対して無損失復号化を行い、スペクトル量子化インデックスを得ることができる。
スペクトル逆量子化部260は、スペクトル無損失復号化部250から提供されるスペクトル量子化インデックスに対して、各バンド単位で決定された割り当てビット数を利用して逆量子化を行い、スペクトル変換係数を復元することができる。
逆変換部270は、スペクトル逆量子化部260から提供されるスペクトル変換係数に対して逆変換を行い、時間ドメインのオーディオ信号を復元することができる。
図3は、本発明の一実施形態によるエネルギー無損失符号化装置の構成を示したブロック図である。図3に図示されたエネルギー無損失符号化装置300は、符号化方式決定部310、第1無損失符号化部330及び第2無損失符号化部350を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。無損失符号化の入力は、量子化インデックスあるいは差分量子化インデックスいずれでもよいが、ここでは、差分量子化インデックスを使用することを例として挙げる。
図3において、符号化方式決定部310は、差分量子化インデックスに対する符号化方式を、第1符号化方式と第2符号化方式とのうち一つで決定することができる。第1符号化方式として選択された場合、差分量子化インデックスを第1無損失符号化部330に提供することができる。第2符号化方式として選択された場合、差分量子化インデックスを第2無損失符号化部350に提供することができる。符号化方式決定部310は、1フレームの全バンドに存在するいずれか1つの量子化インデックスでも、所定範囲、例えば、[−32,31](最初のインデックスの場合[46,17])によって表現されない場合、量子化インデックスの符号化方式を第1符号化方式と決定することができる。具体的には、第1符号化方式は、64個よりさらに多い256あるいは512シンボルでもって表現することができるデータを符号化することができ、第2符号化方式は、64個シンボルに限定されるデータを符号化することができる。第1符号化方式を必要としない場合、第1符号化方式と第2符号化方式とのうちビット消費が少ない符号化方式を選択することができる。具体的には、現在フレームにおいて、全バンドに対して量子化インデックスを、第2符号化方式の複数個のモードで符号化し、符号化の結果、使用された最も少ないビットと、第1符号化方式の遂行結果、使用されたビットとを比較し、比較結果により、再び第1符号化方式と第2符号化方式とのうち一つに決定することができる。符号化方式の決定結果に対応し、差分量子化インデックスの符号化方式を示す1ビットの付加情報D0が生成され、ビットストリームに含められる。符号化方式決定部310は、符号化方式が第2符号化方式と決定された場合、Nビットの差分量子化インデックスに対して、N0ビットの上位ビットと、N1ビットの下位ビットとに分離し、第2無損失符号化部350に提供することができる。ここで、N0は、N−N1と示し、N1は、N−N0と示すことができる。一実施形態によれば、Nは、6に設定し、N0は、5に設定し、N1は、1に設定することができる。
第1無損失符号化部330は、符号化方式決定部310において、第1符号化方式、すなわち、ラージシンボル符号化方式と決定された場合、パルスモード及びスケールモードのうち一つを選択し、量子化インデックスを符号化することができる。パルスモードは、[−4,3]範囲を超える量子化インデックスが存在しない場合に適する。もしその範囲を超える場合、パルスモードは使用されず、代わりにスケールモードが常に使用される。また、最初のインデックスが[−64,63]範囲を超える場合、スケールモードが常に使用される。一方、ラージシンボル符号化方式においては、図6と同じ8個のシンボルを有するハフマン符号化テーブルによるハフマン符号化モードが使用される。
パルスモードでは、2つの指示子が存在する。一つは、最初のインデックスが独立して伝送されるか否かということを示す第1指示子indpIoであり、他の一つは、範囲[−4,3]を超える量子化インデックス、すなわち、パルスが存在するか否かということを示す第2指示子indplsである。もし最初のインデックスが、範囲[−4,3]内に存在する場合、第1指示子は、0に設定され、最初のインデックスは、他のインデックスと共に、図6に図示されたハフマンテーブルを利用してハフマン符号化される。
一方、最初のインデックスが、範囲[−4,3]を外れる場合、第1指示子は、1に設定され、最初のインデックスに64を加算した後、7ビットを利用して、パッキングされる。
一方、現在フレームにパルスが存在する場合、第2指示子は、1に設定され、パルス位置plspos及びパルスサイズplsampは、それぞれ5ビットと7ビットとを利用して伝送される。その後、他の全てのインデックスは、図6でのようにハフマンテーブルを利用して符号化される。パルスモードでのビット割り当ての一例は、図7に図示された通りである。図7において、cmdは、符号化方法を示し、cmdは、パルスモードあるいはスケールモードを示し、△I(0)は、最初のインデックスを示す。
スケールモードにおいては、全てのインデックスの最大及び最小により、インデックスを、3個の上位ビットと、いくつかの下位ビットとにスプリットする。3個の上位ビットは、図6でのようなハフマンテーブルを利用して符号化され、下位ビットは、パッキングされる。下位ビットの数は、bitshiftと定義される。bitshiftは、量子化インデックスをスケールすることにより、全ての量子化インデックスが、範囲[−4,3]内に入るように算出される。スケーリング結果、全ての量子化インデックスは、3ビットで表現される。
第2無損失符号化部350は、差分量子化インデックスに対して、上位ビットと下位ビットとに分離し、上位ビットに対しては、ハフマン符号化モードを適用し、下位ビットに対しては、ビットパッキングで処理することができる。
図4は、図3に図示された第1無損失符号化部の細部的な構成を示したブロック図である。
図4に図示された第1無損失符号化部400は、パルスモード符号化部410及びスケールモード符号化部430から構成される。図4を参照すれば、パルスモード符号化部410は、入力される差分量子化インデックスベクトル内に、一部分のデータが有限領域の表現範囲を外れるとき、効率的に活用されるモードとして、その一部分のデータ、すなわち、パルスを異なるように符号化し、残りのデータは、ハフマン符号化モードで符号化するのである。具体的には、パルスモードは、最初の量子化インデックスを分離して伝送するか否かということに係わる情報、伝送するように決定された場合、最初の量子化インデックス△I(0)、パルスの有無に係わる情報、パルスが存在する場合、パルスの位置及び大きさに係わる情報を付加情報として伝送する。そのような方式で伝送されない残りの量子化インデックスは、ハフマン符号化方式に基づいて伝送される。
スケールモード符号化部430は、差分量子化インデックスベクトルが多数個の大きい値を有するときに活用されるモードであり、全てのベクトルを、ハフマン符号化モードで表現可能な範囲に値を減らして上位ビットに割り当て、減らす過程において除去されたビットで下位ビットを構成するのである。具体的には、スケールモードは、入力される差分量子化インデックスベクトルの全ての値をスケーリングし、ハフマン符号化方式で伝送自在な範囲に減らし、スケーリングのためにライトシフトされたビット数を、スケール情報として伝送し、スケーリング時に除去される下位ビット、例えば、最下位ビットは、ビットパッキングを介して伝送され、スケーリングを介して減少された値は、ハフマン符号化方式に基づいて伝送される。
図8は、図3に図示された第2無損失符号化部の細部的な構成を示したブロック図である。図8に図示された第2無損失符号化部800は、上位ビット符号化部810と、下位ビット符号化部830とから構成される。
図8を参照すれば、上位ビット符号化部810は、差分量子化インデックスの上位ビットを符号化し、下位ビット符号化部830は、差分量子化インデックスの下位ビットをパッキング処理することができる。
ここで、差分量子化インデックスは、上位ビットと下位ビットとにスプリットされる以前に、最初のバンドには、46を加え、他のバンドには32を加えて正数の値を有するように調整される。具体的には、数式(4)によって得られた差分量子化インデックスは、最初のバンドについては、46のオフセットを加え、他のバンドには、32のオフセットを加え、[0,63]の範囲に制限させることができる。現在フレームがトランジェントフレームではない場合、制限された差分量子化インデックスが[0,63]の範囲を超え、現在フレームがトランジェントフレームである場合、制限された差分量子化インデックスが[0,31]の範囲を超える場合、ラージシンボル符号化方式を利用するようにする。
具体的には、上位ビット符号化部810は、N0ビットで表現される上位ビットについて、2N0個のシンボルを構成し、複数個のハフマン符号化モードのうち、少ないビットが必要となるモードで符号化することができる。上位ビット符号化部810は、例えば、2種のハフマン符号化モードを有することができる。その場合、上位ビットの符号化モードを示す1ビットの付加情報D1が生成され、符号化方式を示す1ビットの付加情報D0と共に、ビットストリームに含まれる。
一方、下位ビット符号化部830は、N1ビットで表現される下位ビットについて、ビットパッキング方式を適用して符号化を行うことができる。1つのフレームがN個のバンドからなる場合、全体N1×N個のビットを使用して、下位ビットを符号化することができる。
図9は、図8に図示された上位ビット符号化部の細部的な構成を示したブロック図である。図9に図示された上位ビット符号化部900は、第1ハフマンモード符号化部910と第2ハフマンモード符号化部930とから構成される。
図9を参照すれば、第1ハフマンモード符号化部910は、コンテクスト基盤ハフマン符号化に基づき、第2ハフマンモード符号化部930は、リサイズハフマン符号化に基づいて、差分量子化インデックスの上位ビットを符号化することができる。
第1ハフマンモード符号化部910は、一実施形態によれば、コンテクストで使用される以前バンドの差分量子化インデックスの範囲を複数個のグループに分け、各グループ別に事前に決定されたハフマン符号化テーブルを基準にして、現在バンドの差分量子化インデックスに対するハフマン符号化を行うことができる。ここで、ハフマン符号化テーブルは、例えば、大型データベースを利用したトレーニングプロセスを介して生成することができ、所定の基準に基づいてデータを収集し、収集されたデータに基づいて生成することができる。一実施形態によれば、以前バンドの差分量子化インデックスの範囲に基づいて、現在バンドの差分量子化インデックスの頻度数に係わるデータを収集し、各グループ別にハフマンテーブルを生成することができる。
以前バンドの差分量子化インデックスをコンテクストとして使用して得られた現在バンドの差分量子化インデックスの確率分布に係わる分析結果を利用して、多様な分布モデルを選択することができ、従って、類似の分布モデルを有する量子化レベルのグルーピングが行われる。各グループインデックス0ないし2のパラメータは、図10に図示されたようになっている。
一方、各グループでの確率分布について述べれば、グループインデックス0及び2の確率分布が類似しており、x軸によって実質的に反転(あるいは、フリップ)されるということが分かる。それは、符号化効率に対する損失なしに、2つのグループインデックス0及び2については、同一確率モデルを使用してもよいということを意味する。すなわち、グループインデックグ0は、グループインデックス2と同一ハフマンテーブルを使用することができる。それによれば、グループインデックス1に係わるハフマン符号化テーブル1、すなわち、確率モデル1と、グループインデックス0及び2が共有するハフマンテーブル0、すなわち、確率モデル0とが使用される。そのとき、グループインデックス0に係わるコードのインデックスは、グループインデックス2に対して反対に表現すればよい。すなわち、コンテクストである以前バンドの差分量子化インデックスによって、現在バンドの差分量子化インデックスに係わるハフマン符号化テーブルが、グループインデックス0と決定された場合、符号化端におけて、現在バンドの差分量子化インデックスd(i)は、反転処理過程、すなわち、d’(i)=A−d(i)の値に変更され、グループインデックス2のハフマン符号化テーブルを参照し、ハフマン符号化を行うことができる。一方、復号化端においては、グループインデックス2のハフマン復号化テーブルを参照し、ハフマン復号化を行った後、d’(i)は、d(i)=A−d’(i)の変換過程を経て、最終d(i)値を抽出する。ここで、A値は、グループインデックス0と2との確率分布が対称になるようにする値に設定される。A値は、符号化過程及び復号化過程で抽出されるものではなく、事前に最適値に設定されるのである。一方、グループインデックス2のハフマン符号化テーブルの代わりに、グループ0のハフマン符号化テーブルを活用し、グループインデックス2において、差分量子化インデックスを変更させて遂行することもできる。一実施形態によれば、d(i)が、範囲[0,31]の値を有する場合、A値は、31を使用することができる。
コンテクスト基盤ハフマン符号化モードについてさらに具体的に説明すれば、3個グループの差分量子化インデックスの確率分布によって決定された2種ハフマン符号化テーブルを利用する。ここで、現在バンドの差分量子化インデックスd(i)をハフマン符号化するにおいて、以前バンドの差分量子化インデックスd(i−1)をコンテクストとして活用して、グループインデックス1に係わるハフマンテーブル1と、グループインデックス2に係わるハフマンテーブル0とが使用されることを例として挙げる。
まず、以前バンドの差分量子化インデックスd(i−1)が、グループインデックス1に属するか否かということを判断する。以前バンドの差分量子化インデックスd(i−1)が、グループインデックス1に属する場合、ハフマンテーブル1から、現在バンドの差分量子化インデックスd(i)に係わるコードを選択する。以前バンドの差分量子化インデックスd(i−1)が、グループインデックス1に属さない場合、以前バンドの差分量子化インデックスd(i−1)が、グループインデックス0に属するか否かということを判断する。
以前バンドの差分量子化インデックスd(i−1)が、グループインデックス0に属さない場合、すなわち、グループインデックス2に属する場合、ハフマンテーブル0から、現在バンドの差分量子化インデックスd(i)に係わるコードを選択する。以前バンドの差分量子化インデックスd(i−1)が、グループインデックス0に属する場合、現在バンドの差分量子化インデックスd(i)を反転処理し、ハフマンテーブル0から、反転処理された現在バンドの差分量子化インデックスd’(i)に係わるコードを選択する。
それぞれ選択されたコードを利用して、現在バンドの差分量子化インデックスd(i)に対してハフマン符号化を行う。
第2ハフマンモード符号化部930は、コンテクストなしにハフマン符号化を行い、一般的なハフマン符号化に比べ、さらに少ない数のシンボルでもってハフマン符号化テーブルを構成することができる。第2ハフマンモード符号化部930は、差分量子化インデックスの完全復元を可能にしながら、差分量子化インデックスのスパンを減少させることによって、新たな差分量子化インデックス△I’(b)を得ることができる。現在バンドの差分量子化インデックスのスパンは、以前バンド(preceding band)の差分量子化インデックスと、所定の臨界値とに基づいて修正される。ハフマン符号化のための新たな差分量子化インデックス△I’(b)の範囲は、Range=[RangeMin,RangeMax]=[Min(△I’(b)),Max(I’(b))]、(ここで、bは、1,…,Nbands−1である)のように得られる。
そのように得られた範囲に基づいて、範囲差RangeDiffは下、記数式(6)でのように算出される。
Figure 0006302071
第2ハフマンモード符号化部930において行われるリサイズドハフマン符号化は、範囲差RangeDiffが所定値、例えば、11以下である場合、新たな差分量子化インデックスについて使用される。もし範囲差RangeDiffが所定値より大きい場合には、リサイズドハフマン符号化は、使用されることがない。
図11は、無損失符号化のためのコーディング方式及びコーディングモードを決定するためにビットを計算する過程を示すフローチャートであり、フレーム単位で動作する。要約すれば、符号化方式0、すなわち、ラージシンボル符号化方式及び符号化方式1、すなわち、スモールシンボル符号化方式それぞれの最適ビットを計算し、そのうち小さい値を有する方式に決定する。
図11において、まず、符号化方式0、すなわち、ラージシンボル符号化方式について説明すれば、次の通りである。
1151段階においては、パルスモードが可能であるか否かということを確認し、パルスモードが可能であるならば、1153段階においてパルスモードを遂行して使用ビット(ebit0)を計算した後、続けて、スケールモードを遂行して使用ビット(ebit1)を計算する。一方、1155段階においては、パルスモードが可能ではないならば、スケールモードを遂行して使用ビット(ebit1)を計算する。1157段階においては、ebit0及びebit1のうち小さい値をebitに割り当て、小さい値に対応する符号化モードを、符号化方式0の符号化モードとして決定する。
次に、符号化方式1、すなわち、スモールシンボル符号化方式について説明すれば、次の通りである。
1110段階においては、符号化方式1が可能であるか否かということを確認し、差分量子化インデックスが、符号化方式1が可能な入力で構成されている場合、必要ビットを計算する。例えば、N=6(N0=5,N1=1)ビットで表現可能な値であるか否かということを確認し、6ビットで表現可能ではない値である場合には、ラージシンボル符号化方式に決定して使用ビットを求め(1171段階)、符号化方式ビットを0に設定した後、ebitに対応する情報をビットストリームに保存する。一方、6ビットで表現可能な値である場合、1131段階及び1133段階においては、ハフマン符号化モード0とハフマン符号化モード1とをそれぞれ遂行して使用ビット(hbit0,hbit1)を計算する。1135段階においては、hbit0及びhbit1のうち小さい値をhbitに割り当て、小さい値に対応する符号化モードを、符号化方式1の符号化モードとして決定する。ここで、hbitの算出時、符号化モードを示す1ビット、下位ビット符号化に使用されるビット、及びNbが20である場合、20ビットをさらに考慮することができる。
1173段階においては、1135段階で計算されたhbitと、1157段階で計算されたebitとのうち小さいビットを使用する符号化方式を決定し、それに対応して符号化方式ビットを設定する。
図12は、本発明の一実施形態によるエネルギー無損失復号化装置の構成を示したブロック図である。図12に図示されたエネルギー無損失復号化装置1200は、復号化方式決定部1210、第1無損失復号化部1230及び第2無損失復号化部1250を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
図12において、復号化方式決定部1210は、ビットストリームをパージングし、付加情報から符号化方式及び符号化モードに係わる情報を得ることができる。すなわち、符号化方式及び関連フラグビットから、ラージシンボル復号化方式及びスモールシンボル復号化方式のうち一つを決定することができる。もしラージシンボル復号化方式と決定された場合、伝送された差分量子化インデックスは、第1無損失復号化部1230に提供し、スモールシンボル復号化方式と決定された場合、伝送された差分量子化インデックスは、第2無損失復号化部1250に提供することができる。
第1無損失復号化部1230は、復号化方式決定部1210から提供された差分量子化インデックスに対して、ラージシンボル復号化方式に基づいて復号化を行うことができる。ラージシンボル復号化方式に基づいた無損失復号化のために、無損失符号化時のパルスモードあるいはスケールモードの逆処理を使用することができる。
第2無損失復号化部1250において、復号化方式決定部1210から提供された差分量子化インデックスに対して、スモールシンボル復号化方式に基づいて復号化を行うことができる。そのために、差分量子化インデックスの上位ビット及び下位ビットに対して、別途に無損失復号化を行うことができる。
図13は、図12に図示された第1無損失復号化部の細部的な構成を示したブロック図である。図13に図示された第1無損失復号化部1300は、パルスモード復号化部1310及びスケールモード復号化部1330から構成される。図13を参照すれば、パルスモード復号化部1310は、ビットストリームに含まれた符号化モード及び関連フラグビットから、パルスモードと決定された場合、差分量子化インデックスを復号化し、図4のパルスモード符号化部410の逆過程を遂行することができる。
スケールモード復号化部1330は、ビットストリームに含まれた符号化モード及び関連フラグビットから、スケールモードと決定された場合、差分量子化インデックスを復号化し、図4のスケールモード符号化部430の逆過程を遂行することができる。
図14は、図12に図示された第2無損失復号化部の細部的な構成を示したブロック図である。図14に図示された第2無損失復号化部1400は、上位ビット復号化部1410及び下位ビット復号化部1430から構成される。図14を参照すれば、上位ビット復号化部1410は、差分量子化インデックスの上位ビットを復号化することができ、下位ビット復号化部1430は、差分量子化インデックスの下位ビットをアンパッキングして復元された下位ビットを得ることができる。
図15は、図14に図示された上位ビット復号化部の細部的な構成を示したブロック図である。図15に図示された上位ビット復号化部は、第1ハフマンモード復号化部1510及び第2ハフマンモード復号化部1530から構成される。図15を参照すれば、第1ハフマンモード復号化部1510は、コンテクスト基盤ハフマン復号化に基づき、第2ハフマンモード復号化部1530は、リサイズハフマン復号化に基づいて、差分量子化インデックスの上位ビットを復号化することができる。
具体的には、ビットストリームに含まれた符号化方式及び関連フラグビットがスモール符号化方式を示す場合、符号化モード及び関連フラグビットを抽出することができる。符号化モードは、コンテクスト基盤ハフマン符号化モード及びリサイズドハフマン符号化モードのうち一つである。
第1ハフマンモード復号化部1510は、一実施形態によれば、図9の第1ハフマンモード符号化部910におけるところと同様に、、3個グループの差分量子化インデックスの確率分布によって決定された2種ハフマン復号化テーブルを利用する。ここで、現在バンドの差分量子化インデックスd(i)をハフマン復号化するにおいて、以前バンドの差分量子化インデックスd(i−1)をコンテクストとして活用し、グループインデックス1に係わるハフマン復号化テーブル1と、グループ2に係わるハフマン復号化テーブル0とが使用されることを例として挙げる。
まず、以前バンドの差分量子化インデックスd(i−1)が、グループインデックス1に属するか否かということを判断する。以前バンドの差分量子化インデックスd(i−1)が、グループインデックス1に属する場合、ハフマン復号化テーブル1から、現在バンドの差分量子化インデックスd(i)に係わるコードを選択する。一方、以前バンドの差分量子化インデックスd(i−1))が、グループインデックス1に属さない場合、以前バンドの差分量子化インデックスd(i−1)が、グループインデックス0に属するか否かということを判断する。
以前バンドの差分量子化インデックスd(i−1)が、グループインデックス0に属さない場合、すなわち、グループインデックス2に属する場合、ハフマン復号化テーブル0から、現在バンドの差分量子化インデックスd(i)に係わるコードを選択する。一方、以前バンドの差分量子化インデックスd(i−1)が、グループインデックス0に属する場合、現在バンドの差分量子化インデックスd(i)を反転処理し、ハフマン復号化テーブル0から、反転処理された現在バンドの差分量子化インデックスd’(i)に係わるコードを選択する。
それぞれ選択されたコードを利用して、現在バンドの差分量子化インデックスd(i)に対してハフマン復号化を行う。
第2ハフマンモード復号化部1530は、一実施形態によれば、図9の第2ハフマンモード符号化部930におけるところと同様に、、現在フレームがトランジェントフレームであるか否かということによって、互いに異なる方式で、差分量子化インデックスに対してハフマン復号化を行うことができる。
図16は、第1符号化方式、すなわち、スモールシンボル符号化方式によって符号化されるエネルギー量子化インデックスについて説明する図面であり、Nが6、N0が5、N1が1である場合を例として挙げたものである。図16を参照すれば、上位5ビットは、ハフマン符号化モードを使用し、下位1ビットは、単純にビットをパッキングすることができる。
図17は、本発明の一実施形態による符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。図17に図示されたマルチメディア機器1700は、通信部1710及び符号化モジュール1730を含んでもよい。また、符号化の結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部1750をさらに含んでもよい。また、マルチメディア機器1700は、マイクロフォン1770をさらに含んでもよい。すなわち、保存部1750とマイクロフォン1770は、オプションとして具備される。一方、図17に図示されたマルチメディア機器1700は、任意の復号化モジュール(図示せず)、例えば、一般的な復号化機能を遂行する復号化モジュール、あるいは本発明の一実施形態による復号化モジュールをさらに含んでもよい。ここで、符号化モジュール1730は、マルチメディア機器1700に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
図17を参照すれば、通信部1710は、外部から提供されるオーディオと、符号化されたビットストリームとのうち少なくとも一つを受信するか、あるいは復元されたオーディオと、符号化モジュール1730の符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。
通信部1710は、無線インターネット、無線イントラネット、無線電話網、無線LAN(local area network)、Wi−Fi(wireless fidelity)、WFD(Wi−Fi direct)、3G(3rd generation)、4G(4th generation)、ブルートゥース(登録商標(Bluetooth))、赤外線通信(IrDA:infrared data association)、RFID(radio frequency identification)、UWB(ultra wideband)、ジグビー(ZigBee)、NFC(near field communication)のような無線ネットワーク;または有線電話網、有線インターネットのような有線ネットワークを介して、外部のマルチメディア機器とデータを送受信することができるように構成される。
符号化モジュール1730は、一実施形態によれば、通信部1710あるいはマイクロフォン1770を介して提供される時間ドメインのオーディオ信号を、周波数ドメインのオーディオスペクトルに変換し、周波数ドメインのオーディオスペクトルから得られるエネルギー量子化インデックスの符号化方法を、ラージシンボル符号化方式及びスモールシンボル符号化方式のうち一つで決定し、符号化方式決定結果に対応し、エネルギー量子化インデックスを符号化することができる。具体的には、符号化方式の決定において、差分コーディングが適用される場合、現在フレームに含まれた全てのバンドの差分量子化インデックスが、所定ビットで表現されるか否かということによって、ラージシンボル符号化方式及びスモールシンボル符号化方式のうち一つに決定することができる。一方、現在フレームに含まれた全てのバンドの差分量子化インデックスが、所定ビットで表現されても、差分量子化インデックスをラージシンボル符号化方式によって符号化した結果と、スモールシンボル符号化方式によって符号化した結果とによって、ラージシンボル符号化方式及びスモールシンボル符号化方式のうちビット消費が少ない方式を選択することができる。ここで、ラージシンボル符号化方式は、パルスモード及びスケールモードを含んでもよい。スモールシンボル符号化方式は、差分量子化インデックスを、上位ビット及び下位ビットに分離して符号化を行い、上位ビットは、複数のハフマン符号化モードを含んでもよく、下位ビットは、ビットパッキングを使用することができる。差分量子化インデックスについて決定された符号化方式及び符号化モードは、付加情報として生成することができる。
保存部1750は、符号化モジュール1730で生成される符号化されたビットストリームを保存することができる。一方、保存部1750は、マルチメディア機器1700の運用に必要な多様なプログラムを保存することができる。
マイクロフォン1770は、ユーザあるいは外部のオーディオ信号を符号化モジュール1730に提供することができる。
図18は、本発明の一実施形態による復号化モジュールを含むマルチメディア機器の構成を示したブロック図である。
図18に図示されたマルチメディア機器1800は、通信部1810及び復号化モジュール1830を含んでもよい。また、復号化の結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部1850をさらに含んでもよい。また、マルチメディア機器1800は、スピーカ1870をさらに含んでもよい。すなわち、保存部1850とスピーカ1870は、オプションとして具備される。一方、図18に図示されたマルチメディア機器1800は、任意の符号化モジュール(図示せず)、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による符号化モジュールをさらに含んでもよい。ここで、復号化モジュール1830は、マルチメディア機器1800に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1つの以上のプロセッサ(図示せず)でもっても具現される。
図18を参照すれば、通信部1810は、外部から提供される符号化されたビットストリームとオーディオ信号とのうち少なくとも一つを受信するか、あるいは復号化モジュール1830の復号化の結果として得られる復元されたオーディオ信号と、符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。一方、通信部1810は、図17の通信部1710と実質的に類似して具現される。
復号化モジュール1830は、一実施形態によれば、通信部1810を介して提供されるビットストリームを受信し、ビットストリームに含まれた付加情報に基づいて、エネルギーの差分量子化インデックスの符号化方式及び符号化モードを判断し、符号化方式及び符号化モードの判断結果に対応し、差分量子化インデックスを復号化することができる。ラージシンボル復号化方式は、パルスモード及びスケールモードを含んでもよい。スモールシンボル復号化方式は、差分量子化インデックスを、上位ビットと下位ビットとに分離して復号化を行い、上位ビットは、複数のハフマン復号化モードを含んでもよく、下位ビットは、ビットアンパッキングを使用することができる。
保存部1850は、復号化モジュール1830で生成される復元されたオーディオ信号を保存することができる。一方、保存部1850は、マルチメディア機器1800の運用に必要な多様なプログラムを保存することができる。
スピーカ1870は、復号化モジュール1830で生成される復元されたオーディオ信号を外部に出力することができる。
図19は、本発明の一実施形態による符号化モジュールと復号化モジュールとを含むマルチメディア機器の構成を示したブロック図である。
図19に図示されたマルチメディア機器1900は、通信部1910、符号化モジュール1920及び復号化モジュール1930を含んでもよい。また、符号化の結果として得られるオーディオビットストリーム、あるいは復号化の結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリーム、あるいは復元されたオーディオ信号を保存する保存部1940をさらに含んでもよい。また、マルチメディア機器1900は、マイクロフォン1950あるいはスピーカ1960をさらに含んでもよい。ここで、符号化モジュール1920と復号化モジュール1930は、マルチメディア機器1900に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
図19に図示された各構成要素は、図17に図示されたマルチメディア機器1700の構成要素、あるいは図18に図示されたマルチメディア機器1800の構成要素と重複するので、その詳細な説明は省略する。
図17ないし図19に図示されたマルチメディア機器1700,1800,1900には、電話、モバイルフォンなどを含む音声通信専用端末;TV(television)、MP3プレーヤなどを含む放送専用装置または音楽専用装置;あるいは音声通信専用端末と、放送専用装置あるいは音楽専用装置との融合端末装置が含まれるが、それらに限定されるものではない。また、マルチメディア機器1700,1800,1900は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器として使用される。
一方、マルチメディア機器1700,1800,1900が、例えば、モバイルフォンである場合、図示されていないが、キーパッドのようなユーザ入力部;ユーザインターフェース、あるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部;モバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも1以上の構成要素とをさらに含んでもよい。
一方、マルチメディア機器1700,1800,1900が、例えば、TVである場合、図示されていないが、キーパッドのようなユーザ入力部;受信された放送情報をディスプレイするディスプレイ部;TVの全般的な機能を制御するプロセッサをさらに含んでもよい。また、TVは、TVで必要とする機能を遂行する少なくとも1以上の構成要素をさらに含んでもよい。
前記実施形態は、コンピュータで実行されるプログラムによって作成可能であり、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に、多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種の保存装置を含んでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media);CD(compact disc)−ROM(read only memory)、DVD(digital versatile disc)のような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto-optical media);及びROM、RAM(random access memory)、フラッシュメモリのような、プログラム命令を保存して遂行するように特別に構成されたハードウェア装置が含まれてもよい。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。
以上のように、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明したにしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、それらは、本発明が属する分野で当業者であるならば、そのような記載から、多様な修正及び変形が可能でああろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価的な変形は、いずれも本発明の技術的思想範疇に属するものである。

Claims (13)

  1. ビット所要量とエネルギーの差分量子化インデックスが表現される第1範囲に基づいて、第1符号化方式と第2符号化方式とのうち一つを選択する段階と、
    前記選択された符号化方式に関する符号化モードを利用して、前記差分量子化インデックスを符号化する段階と、を含み、
    前記第1符号化方式は、すべてハフマン符号化を使用するパルスモードとスケールモードを含み、
    前記差分量子化インデックスが第2範囲を超えているかどうかに応じて、前記パルスモードと前記スケールモードのいずれかが選択される無損失符号化方法
  2. 前記方法は、フレーム単位で遂行されることを特徴とする請求項1に記載の無損失符号化方法。
  3. 前記符号化方式を選択する段階は、
    現在フレームに含まれた全てのバンドの少なくとも1つの差分量子化インデックスが、所定ビットで表現されない場合、前記第1符号化方式を選択する段階と、
    前記現在フレームに含まれた全てのバンドの差分量子化インデックスが、所定ビットで表現される場合、前記第1符号化方式と前記第2符号化方式とのうち少ないビット消費に該当する方式を選択する段階と、
    前記選択された符号化方式を示す付加情報を生成する段階と、を含むことを特徴とする請求項1に記載の無損失符号化方法。
  4. 前記第2符号化方式は、前記差分量子化インデックスを、上位ビットと下位ビットとに分けて符号化を行うことを特徴とする請求項1に記載の無損失符号化方法。
  5. 前記上位ビットは、複数個のハフマン符号化モードのうち一つを使用して符号化を行い、上位ビットの符号化モードを示す付加情報を生成することを特徴とする請求項4に記載の無損失符号化方法。
  6. 前記上位ビットは、複数個のハフマン符号化モードは、コンテクストを使用するモードと、使用していないモードとを含むことを特徴とする請求項5に記載の無損失符号化方法。
  7. 前記下位ビットは、ビットパッキングによって符号化が行われることを特徴とする請求項5に記載の無損失符号化方法。
  8. ビットストリームから得られる情報に基づいて、エネルギーの符号化された差分量子化インデックスの復号化方式を決定する段階と、
    前記決定された復号化方式に関する復号化モードを利用して、前記符号化され差分量子化インデックスを復号化する段階と、を含み、
    前記ビットストリームから得られる情報は、第1符号化方式と第2符号化方式とのうち、ビット所要量とエネルギーの差分量子化インデックスが表現される第1範囲に基づいて選択された符号化方式と、すべてハフマン符号化を使用するパルスモードとスケールモードとのうち、前記差分量子化インデックスが第2範囲を超えているかどうかに応じて選択された符号化モードを含む無損失復号化方法。
  9. 前記方法は、フレーム単位で遂行されることを特徴とする請求項8に記載の無損失復号化方法。
  10. 記復号化方式は、差分量子化インデックスを、上位ビットと下位ビットとに分けて復号化を行うことを特徴とする請求項8に記載の無損失復号化方法。
  11. 前記上位ビットは、前記ビットストリームに含まれた符号化モードに対応し、複数個のハフマン復号化モードのうち一つを使用して復号化を行うことを特徴とする請求項10に記載の無損失号化方法。
  12. 前記複数個のハフマン復号化モードは、コンテクストを使用するモードと、使用していないモードとを含むことを特徴とする請求項11に記載の無損失復号化方法。
  13. 前記下位ビットは、ビットアンパッキングによって復号化が行われることを特徴とする請求項10に記載の無損失復号化方法。
JP2016542648A 2013-09-13 2014-09-15 無損失符号化方法及び無損失復号化方法 Active JP6302071B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361877540P 2013-09-13 2013-09-13
US61/877,540 2013-09-13
PCT/KR2014/008586 WO2015037961A1 (ko) 2013-09-13 2014-09-15 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018036831A Division JP6585753B2 (ja) 2013-09-13 2018-03-01 無損失符号化装置及び無損失復号化装置

Publications (2)

Publication Number Publication Date
JP2016535317A JP2016535317A (ja) 2016-11-10
JP6302071B2 true JP6302071B2 (ja) 2018-03-28

Family

ID=56116151

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016542648A Active JP6302071B2 (ja) 2013-09-13 2014-09-15 無損失符号化方法及び無損失復号化方法
JP2018036831A Active JP6585753B2 (ja) 2013-09-13 2018-03-01 無損失符号化装置及び無損失復号化装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018036831A Active JP6585753B2 (ja) 2013-09-13 2018-03-01 無損失符号化装置及び無損失復号化装置

Country Status (6)

Country Link
US (2) US10699720B2 (ja)
EP (3) EP4134951A1 (ja)
JP (2) JP6302071B2 (ja)
CN (2) CN105723454B (ja)
ES (1) ES2934591T3 (ja)
PL (1) PL3660843T3 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128684A (ja) * 2013-09-13 2018-08-16 サムスン エレクトロニクス カンパニー リミテッド 無損失符号化装置及び無損失復号化装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10468033B2 (en) 2013-09-13 2019-11-05 Samsung Electronics Co., Ltd. Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus
CN111083484A (zh) 2018-10-22 2020-04-28 北京字节跳动网络技术有限公司 基于子块的预测
CN111083489A (zh) 2018-10-22 2020-04-28 北京字节跳动网络技术有限公司 多次迭代运动矢量细化
WO2020098647A1 (en) 2018-11-12 2020-05-22 Beijing Bytedance Network Technology Co., Ltd. Bandwidth control methods for affine prediction
CN113170171B (zh) * 2018-11-20 2024-04-12 北京字节跳动网络技术有限公司 组合帧间帧内预测模式的预测细化
EP3861742A4 (en) 2018-11-20 2022-04-13 Beijing Bytedance Network Technology Co., Ltd. DIFFERENCE CALCULATION BASED ON SPATIAL POSITION
EP3915259A4 (en) 2019-03-06 2022-03-30 Beijing Bytedance Network Technology Co., Ltd. USE OF A CONVERTED UNIVERSITY PREDICTION CANDIDATE
KR20230169434A (ko) 2019-04-02 2023-12-15 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 디코더 측 움직임 벡터 유도
US11509897B2 (en) * 2020-08-07 2022-11-22 Samsung Display Co., Ltd. Compression with positive reconstruction error
JPWO2022201632A1 (ja) * 2021-03-23 2022-09-29

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9509831D0 (en) * 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
KR100354531B1 (ko) 1998-05-06 2005-12-21 삼성전자 주식회사 실시간 복호화를 위한 무손실 부호화 및 복호화 시스템
NZ506840A (en) 1999-01-07 2004-08-27 Konink Philips Electronics N Efficient coding of side information in a lossless encoder
KR100908116B1 (ko) * 2002-12-12 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
DE102004009955B3 (de) * 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
KR100561869B1 (ko) 2004-03-10 2006-03-17 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
JP4822816B2 (ja) * 2005-11-14 2011-11-24 キヤノン株式会社 オーディオ信号符号化装置および方法
KR100736607B1 (ko) * 2005-03-31 2007-07-09 엘지전자 주식회사 오디오 부호화 방법 및 장치
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
MX2008010836A (es) * 2006-02-24 2008-11-26 France Telecom Un metodo para codificacion binaria de indices de cuantificacion de una envoltura de señal, un metodo para descodificar una envoltura de señal, y modulos de codificacion y descodificacion correspondiente.
EP1852849A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
US7756350B2 (en) * 2006-11-13 2010-07-13 Global Ip Solutions, Inc. Lossless encoding and decoding of digital data
KR100903109B1 (ko) 2006-12-13 2009-06-16 한국전자통신연구원 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101188878B (zh) * 2007-12-05 2010-06-02 武汉大学 立体声音频信号的空间参数量化及熵编码方法和所用系统
KR101671005B1 (ko) 2007-12-27 2016-11-01 삼성전자주식회사 트렐리스를 이용한 양자화 부호화 및 역양자화 복호화 방법및 장치
US8724734B2 (en) 2008-01-24 2014-05-13 Nippon Telegraph And Telephone Corporation Coding method, decoding method, apparatuses thereof, programs thereof, and recording medium
CN101826326B (zh) 2009-03-04 2012-04-04 华为技术有限公司 一种立体声编码方法、装置和编码器
CN101615911B (zh) * 2009-05-12 2010-12-08 华为技术有限公司 一种编解码方法和装置
CN101615910B (zh) * 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
CN101937680B (zh) * 2010-08-27 2011-12-21 太原理工大学 码书分类重排矢量量化方法及其矢量量化器
US9881625B2 (en) * 2011-04-20 2018-01-30 Panasonic Intellectual Property Corporation Of America Device and method for execution of huffman coding
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
TWI585749B (zh) 2011-10-21 2017-06-01 三星電子股份有限公司 無損編碼方法
US10468033B2 (en) 2013-09-13 2019-11-05 Samsung Electronics Co., Ltd. Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus
CN105723454B (zh) 2013-09-13 2020-01-24 三星电子株式会社 能量无损编码方法和设备、信号编码方法和设备、能量无损解码方法和设备及信号解码方法和设备
CN110867190B (zh) 2013-09-16 2023-10-13 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
WO2016018058A1 (ko) 2014-07-28 2016-02-04 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128684A (ja) * 2013-09-13 2018-08-16 サムスン エレクトロニクス カンパニー リミテッド 無損失符号化装置及び無損失復号化装置

Also Published As

Publication number Publication date
CN105723454B (zh) 2020-01-24
ES2934591T3 (es) 2023-02-23
US20200066285A1 (en) 2020-02-27
JP2016535317A (ja) 2016-11-10
US10699720B2 (en) 2020-06-30
US10909992B2 (en) 2021-02-02
EP3046105A4 (en) 2017-04-05
PL3660843T3 (pl) 2023-01-16
US20200294514A1 (en) 2020-09-17
EP3046105B1 (en) 2020-01-15
EP3660843A1 (en) 2020-06-03
EP3046105A1 (en) 2016-07-20
CN105723454A (zh) 2016-06-29
JP2018128684A (ja) 2018-08-16
EP4134951A1 (en) 2023-02-15
JP6585753B2 (ja) 2019-10-02
CN111179946A (zh) 2020-05-19
EP3660843B1 (en) 2022-11-09
CN111179946B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
JP6585753B2 (ja) 無損失符号化装置及び無損失復号化装置
KR102248253B1 (ko) 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치
KR102401002B1 (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
TW201738881A (zh) 音訊解碼方法、裝置及電腦可讀取記錄媒體

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180301

R150 Certificate of patent or registration of utility model

Ref document number: 6302071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250