本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって具体的に説明する。しかし、それは、本発明を特定の実施形態について限定するものではなく、本発明の技術的思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解される。本発明の説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。
第1、第2のような用語は、多様な構成要素の説明に使用されるが、構成要素は、用語によって限定されるものではない。該用語は、1つの構成要素を他の構成要素から区別する目的のみに使用される。
本発明で使用した用語は、ただ特定の実施形態の説明に使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明での機能を考慮しながら、可能な限り、現在汎用される一般的な用語を選択したが、それは当分野の当業者の意図、判例、または新たな技術の出現などによって異なる。また、特定の場合は、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分で、詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味と、本発明の全般にわたる内容とを基に定義されなければならない。
単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するもんであり、一つまたはそれ以上の他の特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性をあらかじめ排除するものではないと理解されなければならない。
以下、本発明の実施形態について、添付図面を参照し、詳細に説明する。
図1A及び図1Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の一例による構成をそれぞれ示したブロック図である。
図1Aに図示されたオーディオ符号化装置110は、前処理部112、周波数ドメイン符号化部114及びパラメータ符号化部116を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図1Aにおいて、前処理部112は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。入力信号は、オーディオ、ミュージック、スピーチ、あるいはそれらの混合信号を示すサウンドなどのメディア信号を意味するが、以下では、説明の便宜のために、オーディオ信号とする。
周波数ドメイン符号化部114は、前処理部112から提供されるオーディオ信号に対して時間・周波数変換を行い、オーディオ信号のチャンネル数、符号化帯域及びビット率に対応して符号化ツールを選択し、選択された符号化ツールを利用して、オーディオ信号に対する符号化を行うことができる。時間・周波数変換は、MDCT(modified discrete cosine transform)、MLT(modulated lapped transform)あるいはFFT(fast Fourier transform)を使用するが、それらに限定されるものではない。ここで、与えられたビット数が十分な場合、全体帯域に対して一般的な変換符号化方式を適用し、与えられたビット数が十分ではない場合、一部帯域については、帯域拡張方式を適用することができる。一方、オーディオ信号が、ステレオあるいはマルチチャンネルである場合、与えられたビット数が十分であるならば、各チャンネル別に符号化し、十分ではなければ、ダウンミキシング方式を適用することができる。周波数ドメイン符号化部114からは、符号化されたスペクトル係数が生成される。
パラメータ符号化部116は、周波数ドメイン符号化部114から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化することができる。パラメータは、例えば、サブバンド別あるいはバンド別に抽出され、以下では、説明の簡素化のために、サブバンドとする。各サブバンドは、スペクトル係数をグルーピングした単位であり、臨界帯域を反映し、均一長あるいは不均一長を有することができる。不均一長を有する場合、低周波数帯域に存在するサブバンドの場合、高周波数帯域と比較し、相対的に短い長さを有することができる。1フレームに含まれるサブバンドの個数及び長さは、コーデックアルゴリズムによって異なり、符号化性能に影響を及ぼす。一方、パラメータは、サブバンドのスケールファクタ、パワー、平均エネルギーあるいはnormを例として挙げることができるが、それらに限定されるものではない。符号化の結果として得られるスペクトル係数とパラメータは、ビットストリームを形成し、記録媒体に保存されるか、あるいはチャンネルを介して、例えば、パケット状で伝送される。
図1Bに図示されたオーディオ復号装置130は、パラメータ復号部132、周波数ドメイン復号部134及び後処理部136を含んでもよい。ここで、周波数ドメイン復号部134は、フレーム消去隠匿(FEC:frame erasure concealment)アルゴリズムあるいはパケット損失隠匿(PLC:packet loss concealment)アルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図1Bにおいて、パラメータ復号部132は、受信されたビットストリームから符号化されたパラメータを復号し、復号されたパラメータから、フレーム単位で、消去あるいは損失のようなエラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいは消去フレームまたは損失フレームであるかということに係わる情報を、周波数ドメイン復号部134に提供する。以下では、説明の簡素化のために、消去フレームまたは損失フレームをエラーフレームとする。
周波数ドメイン復号部134は、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成することができる。一方、周波数ドメイン復号部134は、現在フレームがエラーフレームである場合、FECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介してスケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部134は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号を生成することができる。
後処理部136は、周波数ドメイン復号部134から提供される時間ドメイン信号に対して、音質向上のためのフィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部136は、出力信号として、復元されたオーディオ信号を提供する。
図2A及び図2Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
図2Aに図示されたオーディオ符号化装置210は、前処理部212、モード決定部213、周波数ドメイン符号化部214、時間ドメイン符号化部215及びパラメータ符号化部216を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図2Aにおいて、前処理部212は、図1Aの前処理部112と実質的に同一であるので、説明を省略する。
モード決定部213は、入力信号の特性を参照し、符号化モードを決定することができる。入力信号の特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに対する長区間特性などを利用して、入力信号の特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードに決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードに決定することができる。モード決定部213は、入力信号の特性が音楽モードあるいは周波数ドメインモードに該当する場合には、前処理部212の出力信号を周波数ドメイン符号化部214に提供し、入力信号の特性が音声モードあるいは時間ドメインモードに該当する場合、時間ドメイン符号化部215に提供することができる。
周波数ドメイン符号化部214は、図1Aの周波数ドメイン符号化部114と実質的に同一であるので、説明を省略する。
時間ドメイン符号化部215は、前処理部212から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行うことができる。具体的には、ACELP(algebraic CELP)を使用することができるが、それに限定されるものではない。
パラメータ符号化部216は、周波数ドメイン符号化部214あるいは時間ドメイン符号化部215から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部216は、図1Aのパラメータ符号化部116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。
図2Bに図示されたオーディオ復号装置230は、パラメータ復号部232、モード決定部233、周波数ドメイン復号部234、時間ドメイン復号部235及び後処理部236を含んでもよい。ここで、周波数ドメイン復号部234と時間ドメイン復号部235は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図2Bにおいて、パラメータ復号部232は、パケット状で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位でエラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン復号部234あるいは時間ドメイン復号部235に提供する。
モード決定部233は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン復号部234あるいは時間ドメイン復号部235に提供する。
周波数ドメイン復号部234は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介してスケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部234は、合成されたスペクトル係数に対して周波数・時間変換を行い、時間ドメイン信号を生成することができる。
時間ドメイン復号部235は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号過程を介して復号を行い、時間ドメイン信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音声モードあるいは時間ドメインモードである場合、時間ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを遂行することができる。
後処理部236は、周波数ドメイン復号部234あるいは時間ドメイン復号部235から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部236は、出力信号として、復元されたオーディオ信号を提供する。
図3A及び図3Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
図3Aに図示されたオーディオ符号化装置310は、前処理部312、LP(linear prediction)分析部313、モード決定部314、周波数ドメイン励起符号化部315、時間ドメイン励起符号化部316及びパラメータ符号化部317を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図3Aにおいて、前処理部312は、図1Aの前処理部112と実質的に同一であるので、説明を省略する。
LP分析部313は、入力信号に対してLP分析を行ってLP係数を抽出し、抽出されたLP係数から励起信号を生成する。該励起信号は、符号化モードによって、周波数ドメイン励起符号化部315と時間ドメイン励起符号化部316とのうちいずれか一方に提供される。
モード決定部314は、図2Bのモード決定部213と実質的に同一であるので、説明を省略する。
周波数ドメイン励起符号化部315は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、図1Aの周波数ドメイン符号化部114と実質的に同一であるので、説明を省略する。
時間ドメイン励起符号化部316は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、図2Aの時間ドメイン符号化部215と実質的に同一であるので、説明を省略する。
パラメータ符号化部317は、周波数ドメイン励起符号化部315あるいは時間ドメイン励起符号化部316から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部317は、図1Aのパラメータ符号化部116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。
図3Bに図示されたオーディオ復号装置330は、パラメータ復号部332、モード決定部333、周波数ドメイン励起復号部334、時間ドメイン励起復号部335、LP合成部336及び後処理部337を含んでもよい。ここで、周波数ドメイン励起復号部334と時間ドメイン励起復号部335は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図3Bにおいて、パラメータ復号部332は、パケット状で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位でエラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン励起復号部334あるいは時間ドメイン励起復号部335に提供する。
モード決定部333は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン励起復号部334あるいは時間ドメイン励起復号部335に提供する。
周波数ドメイン励起復号部334は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介してスケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン励起復号部334は、合成されたスペクトル係数に対して周波数・時間変換を行い、時間ドメイン信号である励起信号を生成することができる。
時間ドメイン励起復号部335は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号過程を介して復号を行い、時間ドメイン信号である励起信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音声モードあるいは時間ドメインモードである場合、時間ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを遂行することができる。
LP合成部336は、周波数ドメイン励起復号部334あるいは時間ドメイン励起復号部335から提供される励起信号に対してLP合成を行い、時間ドメイン信号を生成する。
後処理部337は、LP合成部336から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部337は、出力信号として、復元されたオーディオ信号を提供する。
図4A及び図4Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
図4Aに図示されたオーディオ符号化装置410は、前処理部412、モード決定部413、周波数ドメイン符号化部414、LP分析部415、周波数ドメイン励起符号化部416、時間ドメイン励起符号化部417及びパラメータ符号化部418を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。図4Aに図示されたオーディオ符号化装置410は、図2Aのオーディオ符号化装置210と、図3Aのオーディオ符号化装置310とを結合したものと見ることができるので、共通部分の動作説明は省略する一方、モード決定部413の動作について説明する。
モード決定部413は、入力信号の特性及びビット率を参照し、入力信号の符号化モードを決定することができる。モード決定部413は、入力信号の特性によって、現在フレームが音声モードであるか、あるいは音楽モードであるかということにより、また現在フレームに効率的な符号化モードが時間ドメインモードであるか、あるいは周波数ドメインモードであるかということによって、CELPモードと、それ以外のモードとに決定することができる。もし入力信号の特性が音声モードである場合には、CELPモードに決定し、音楽モードでありながら、高ビット率である場合、FDモードに決定し、音楽モードでありながら、低ビット率である場合、オーディオモードに決定することができる。モード決定部413は、FDモードである場合、入力信号を周波数ドメイン符号化部414に提供し、オーディオモードである場合、LP分析部415を介して、周波数ドメイン励起符号化部416に提供し、CELPモードである場合、LP分析部415を介して、時間ドメイン励起符号化部417に提供することができる。
周波数ドメイン符号化部414は、図1Aのオーディオ符号化装置110の周波数ドメイン符号化部114、あるいは図2Aのオーディオ符号化装置210の周波数ドメイン符号化部214に対応し、周波数ドメイン励起符号化部416あるいは時間ドメイン励起符号化部417は、図3Aのオーディオ符号化装置310の周波数ドメイン励起符号化部315あるいは時間ドメイン励起符号化部316に対応する。
図4Bに図示されたオーディオ復号装置430は、パラメータ復号部432、モード決定部433、周波数ドメイン復号部434、周波数ドメイン励起復号部435、時間ドメイン励起復号部436、LP合成部437及び後処理部438を含んでもよい。ここで、周波数ドメイン復号部434、周波数ドメイン励起復号部435及び時間ドメイン励起復号部436は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。図4Bに図示されたオーディオ復号装置430は、図2Bのオーディオ復号装置230と、図3Bのオーディオ復号装置330とを結合したものと見ることができるので、共通部分の動作説明は省略する一方、モード決定部433の動作について説明する。
モード決定部433は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン復号部434、周波数ドメイン励起復号部435あるいは時間ドメイン励起復号部436に提供する。
周波数ドメイン復号部434は、図1Bのオーディオ符号化装置130の周波数ドメイン復号部134、あるいは図2Bのオーディオ復号装置230の周波数ドメイン復号部234に対応し、周波数ドメイン励起復号部435あるいは時間ドメイン励起復号部436は、図3Bのオーディオ復号装置330の周波数ドメイン励起復号部334あるいは時間ドメイン励起復号部335に対応する。
図5は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。
図5に図示された周波数ドメインオーディオ符号化装置510は、トランジェント検出部511、変換部512、信号分類部513、エネルギー符号化部514、スペクトル正規化部515、ビット割当て部516、スペクトル符号化部517及び多重化部518を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。ここで、周波数ドメインオーディオ符号化装置510は、図2に図示された周波数ドメイン符号化部214の全ての機能と、パラメータ符号化部216の一部機能とを遂行することができる。一方、周波数ドメインオーディオ符号化装置510は、信号分類部513を除いては、ITU−T G.719標準に開示されたエンコーダの構成で代替され、そのとき、変換部512は、50%のオーバーラップ区間を有する変換ウィンドウを使用することができる。また、周波数ドメインオーディオ符号化装置510は、トランジェント検出部511及び信号分類部513を除いては、ITU−T G.719標準に開示されたエンコーダの構成でも代替される。各場合において、図示されてはいないが、ITU−T G.719標準のように、スペクトル符号化部517の後端に、ノイズレベル推定部をさらに具備し、ビット割当て過程において、ゼロビットが割り当てられたスペクトル係数のためのノイズレベルを推定してビットストリームに含めることができる。
図5を参照すれば、トランジェント検出部511は、入力信号を分析し、トランジェント特性を示す区間を検出し、検出結果に対応して、各フレームに対するトランジェントシグナリング情報を生成することができる。そのとき、トランジェント区間の検出には、公知の多様な方法を使用することができる。一実施形態によれば、トランジェント検出部511は、まず、現在フレームがトランジェントフレームであるか否かということを一次的に判断し、トランジェントフレームであると判断された現在フレームに対して、二次的に検証を行う。トランジェントシグナリング情報は、多重化部518を介して、ビットストリームに含まれる一方、変換部512に提供される。
変換部512は、トランジェント区間の検出結果によって、変換に使用されるウィンドウサイズを決定し、決定されたウィンドウサイズに基づいて、時間・周波数変換を行う。一例として、トランジェント区間が検出されたサブバンドの場合、短区間ウィンドウ(short window)を適用し、検出されていないサブバンドの場合、長区間ウィンドウ(long window)を適用することができる。他の例として、トランジェント区間を含むフレームについて、短区間ウィンドウを適用することができる。
信号分類部513は、変換部512から提供されるスペクトルをフレーム単位に分析し、各フレームがハーモニックフレームに該当するか否かということを判断することができる。そのとき、ハーモニックフレームの判断には、公知の多様な方法を使用することができる。一実施形態によれば、信号分類部513は、変換部512から提供されるスペクトルを複数のサブバンドに分け、各サブバンドに対して、エネルギーのピーク値と平均値とを求めることができる。次に、各フレームに対して、エネルギーのピーク値が平均値より所定比率以上大きいサブバンドの数を求め、求められたサブバンドの数が、所定値以上であるフレームをハーモニックフレームと決定することができる。ここで、所定比率及び所定値は、実験あるいはシミュレーションを介して、前もって決定することができる。ハーモニックシグナリング情報は、多重化部518を介し、てビットストリームに含まれてもよい。
エネルギー符号化部514は、各サブバンド単位でエネルギーを求め、量子化及び無損失符号化することができる。一実施形態によれば、エネルギーとして、各サブバンドの平均スペクトルエネルギーに該当するNorm値を使用することができ、スケールファクタあるいはパワーを代わりに使用することができるが、それらに限定されるものではない。ここで、各サブバンドのNorm値は、スペクトル正規化部515及びビット割当て部516に提供される一方、多重化部518を介して、ビットストリームに含まれてもよい。
スペクトル正規化部515は、各サブバンド単位で求められたNorm値を利用して、スペクトルを正規化することができる。
ビット割当て部516は、各サブバンド単位で求められたNorm値を利用して、整数単位あるいは小数点単位で、ビット割り当てを行うことができる。また、ビット割当て部516は、各サブバンド単位で求められたNorm値を利用して、マスキング臨界値を計算し、マスキング臨界値を利用して、知覚的に必要なビット数、すなわち、許容ビット数を推定することができる。次に、ビット割当て部516は、各サブバンドに対して、割当てビット数が許容ビット数を超えないように制限することができる。一方、ビット割当て部516は、Norm値が大きいサブバンドから順次にビットを割り当て、各サブバンドのNorm値に対して、各サブバンドの知覚的重要度によって、加重値を付与することにより、知覚的に重要なサブバンドに、さらに多くのビットが割り当てられるように調整することができる。そのとき、Norm符号化部514からビット割当て部516に提供される量子化されたNorm値は、ITU−T G.719と同様に、心理音響加重(psycho-acoustical weighting)及びマスキング効果を考慮するために、あらかじめ調整された後、ビット割り当てに使用される。
スペクトル符号化部517は、正規化されたスペクトルに対して、各サブバンドの割当てビット数を利用して量子化を行い、量子化された結果に対して、無損失符号化を行うことができる。一例として、スペクトル符号化に、TCQ(trellis coded quantizer)、USQ(uniform scalar quantizer)、FPC(factorial puls ecoder)、AVQ(analog vector quantizer)、PVQ(predictive vector quantizer)、あるいはそれらの組み合わせと、各量子化器に対応する無損失符号化器とを使用することができる。また、当該コーデックが搭載される環境、あるいはユーザの必要によって、多様なスペクトル符号化技法を適用することができる。スペクトル符号化部517で符号化されたスペクトルに係わる情報は、多重化部518を介して、ビットストリームに含まれてもよい。
図6は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。図6に図示されたオーディオ符号化装置600は、前処理部610、周波数ドメイン符号化部630、時間ドメイン符号化部650及び多重化部670を含んでもよい。周波数ドメイン符号化部630は、トランジェント検出部631、変換部633及びスペクトル符号化部635を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図6において、前処理部610は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。前処理部610は、信号特性に基づいて、符号化モードを決定することができる。信号特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに対する長区間特性などを利用して、信号特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードに決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードに決定することができる。前処理部610は、信号特性が音楽モードあるいは周波数ドメインモードに該当する場合には、入力信号を周波数ドメイン符号化部630に提供し、信号特性が音声モードあるいは時間ドメインモードに該当する場合、入力信号を時間ドメイン符号化部650に提供することができる。
周波数ドメイン符号化部630は、前処理部610から提供されるオーディオ信号を、変換符号化に基づいて処理することができる。具体的には、トランジェント検出部631は、オーディオ信号からトランジェント成分を検出し、現在フレームがトランジェントフレームであるか否かということを判断することができる。変換部633は、トランジェント検出部631から提供されるフレームタイプ、すなわち、トランジェント情報に基づいて、変換ウィンドウの長さあるいは形態を決定し、決定された変換ウィンドウに基づいて、オーディオ信号を周波数ドメインに変換することができる。変換技法としては、MDCT、FFTあるいはMLTを適用することができる。一般的に、トランジェント成分を有するフレームについては、短い長さの変換ウィンドウを適用することができる。スペクトル符号化部635は、周波数ドメインに変換されたオーディオスペクトルに対して、符号化を行うことができる。スペクトル符号化部635については、図7及び図9を参照し、さらに具体的に説明する。
時間ドメイン符号化部650は、前処理部610から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行うことができる。具体的には、ACELP(algebraic CELP)を使用することができるが、それらに限定されるものではない。
多重化部670は、周波数ドメイン符号化部630あるいは時間ドメイン符号化部650において、符号化の結果として生成されるスペクトル成分あるいは信号成分と、多様なインデックスとを多重化してビットストリームを生成し、ビットストリームは、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。
図7は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。図7に図示された装置は、図6のスペクトル符号化部635に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。
図7に図示されたスペクトル符号化装置700は、エネルギー推定部710、エネルギー量子化及び符号化部720、ビット割当て部730、スペクトル正規化部740、スペクトル量子化及び符号化部750及びノイズフィリング部760を含んでもよい。
図7を参照すれば、エネルギー推定部710は、本来のスペクトル係数をサブバンドに分離し、各サブバンド別エネルギー、例えば、Norm値を推定することができる。ここで、1つのフレームにおいて、各サブバンドは、同一大きさを有するか、低域から高域に行くほど、各サブバンドに含まれるスペクトル係数の数を増加させることができる。
エネルギー量子化及び符号化部720は、各サブバンドについて推定されたNorm値を量子化及び符号化することができる。そのとき、Norm値は、ベクトル量子化、スカラー量子化、TCQ、LVQ(lattice vector quantization)など多様な方式によって量子化される。エネルギー量子化及び符号化部720は、さらなる符号化効率を向上させるために、無損失符号化をさらに行うことができる。
ビット割当て部730は、サブバンド別に量子化されたNorm値を利用して、フレーム当たり許容ビットを考慮しながら、符号化に必要なビットを割り当てることができる。
スペクトル正規化部740は、サブバンド別に量子化されたNorm値を利用して、スペクトルに対する正規化を行うことができる。
スペクトル量子化及び符号化部750は、正規化されたスペクトルに対して、サブバンド別に割り当てられたビットに基づいて、量子化及び符号化を行うことができる。
ノイズフィリング部760は、スペクトル量子化及び符号化部750において、許容ビットの制約によって0に量子化された部分に、適切なノイズを追加することができる。
図8は、サブバンド分割の例を示す図面である。図8を参照すれば、入力信号が、48kHzのサンプリング周波数を使用し、20msのフレーム大きさを有する場合、毎フレーム当たり処理するサンプルの個数は、960個になる。すなわち、入力信号を、MDCTを利用して、50%のオーバーラッピングを適用して変換すれば、960個のスペクトル係数が得られる。ここで、オーバーラッピングの比率は、符号化方式によって多様に設定される。周波数ドメインでは、理論的に、24kHzまで処理可能であるが、人間の可聴帯域を考慮し、20kHzまでの帯域を表現する。低域である0〜3.2kHzまでは、8個のスペクトル係数を1つのサブバンドにまとめて使用し、3.2〜6.4kHzの帯域では、16個のスペクトル係数を1つのサブバンドにまとめて使用する。6.4〜13.6kHzの帯域では、24個のスペクトル係数を1つのサブバンドにまとめて使用し、13.6〜20kHzの帯域では、32個のスペクトル係数を、1つのサブバンドにまとめて使用する。実際のNorm値を求めて符号化を行う場合、符号化器において決められた帯域までNormを求めて符号化することができる。決定された帯域後の特定高域では、帯域拡張のような多様な方式に基づいた符号化が可能である。
図9は、一実施形態によるスペクトル量子化装置の構成を示すブロック図である。図9に図示された装置は、量子化器選択部910)、USQ 930及びTCQ 950を含んでもよい。
図9において、量子化器選択部910は、入力信号、すなわち、量子化される信号の特性によって、多様な量子化器のうち最も効率的な量子化器を選択することができる。入力信号の特性としては、バンド別ビット割当て情報、バンドの大きさ情報などが使用可能である。選択結果によって、量子化される信号をUSQ 930及びTCQ 950のうち一つに提供され、対応する量子化を行うことができる。
図10は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。図10に図示された装置は、図7のスペクトル量子化及び符号化部750に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。
図10に図示された装置は、符号化方式選択部1010、ゼロ符号化部1020、スケーリング部1030、ISC符号化部1040、量子化成分復元部1050及び逆スケーリング部1060を含んでもよい。ここで、量子化成分復元部1050及び逆スケーリング部1060は、オプションとして具備される。
図10において、符号化方式選択部1010は、入力信号特性を考慮し、符号化方式を選択することができる。入力信号特性は、バンド別に割り当てられたビットを含んでもよい。正規化されたスペクトルは、バンド別に選択された符号化方式に基づいて、ゼロ符号化部1020あるいはスケーリング部1030に提供される。一実施形態によれば、バンドの各サンプルに割り当てられた平均ビット数が、所定値、例えば、0.75以上である場合、当該バンドは、非常に重要であると判断され、USQが使用される一方、全ての他のバンドは、TCQが使用される。ここで、平均ビット数は、バンド長あるいはバンド大きさを考慮して決定することができる。選択された符号化方式は、1ビットのフラグを利用して設定される。
ゼロ符号化部1020は、割り当てられたビットが0であるバンドに対して、全てのサンプルを0に符号化することができる。
スケーリング部1030は、バンドに割り当てられたビットに基づいて、スペクトルに対するスケーリングを行うことにより、ビット率を調節することができる。そのとき、正規化されたスペクトルが使用される。スケーリング部1030は、バンドに含まれた各サンプル、すなわち、スペクトル係数に割り当てられた平均ビット数を考慮し、スケーリングを行うことができる。例えば、平均ビット数が多いほど、さらに大きいスケーリングが行われる。
一実施形態によれば、スケーリング部1030は、バンド別にビット割り当てによって、適切なスケーリング値を決定することができる。
具体的には、まず、バンド長(band length)及びビット割当て情報を利用して、現在バンドのためのパルス個数を推定することができる。ここで、パルスは、単位パルスを意味する。まず、下記数式(1)に基づいて、現在バンドで実際に必要なビットbを算出することができる。
ここで、nは、バンド長を示し、mは、パルス個数(number of pulses)を意味し、iは、ISC(the important spectral component)を有するノンゼロ位置の数を意味する。
一方、ノンゼロ位置の個数は、例えば、下記数式(2)のように、確率に基づいて得られる。
そして、ノンゼロ位置のために必要なビット数は、下記数式(3)のように推定される。
最終的に、パルスの個数は、各バンドに割り当てられたビットに最も近い値を有するb値によって選択される。
次に、バンド別に求められたパルス個数推定値と、入力信号の絶対値とを利用して、初期スケーリングファクタを決定することができる。入力信号は、初期スケーリングファクタによってスケーリングされる。もしスケーリングされた原信号、すなわち、量子化された信号に対するパルス個数の和がパルス個数推定値の同じではない場合には、アップデートされたスケーリングファクタを利用して、パルス再分配(redistribution)処理を行うことができる。パルス再分配処理は、現在バンドに対して選択されたパルス個数が、バンド別に求められたパルス個数推定値より少ない場合には、スケーリングファクタを減少させてパルス個数を増加させ、反対に多い場合には、スケーリングファクタを増加させてパルス個数を減少させる。そのとき、原信号との歪曲を最小化する位置を選択し、あらかじめ決定された値ほど増加させるか、あるいは減少させることができる。
TSQのための歪曲関数は、正確な距離よりは、相対的な大きさを必要とするために、下記の数式(4)のように、各バンドにおいて、それぞれ量子化及び逆量子化された値の自乗距離の和として得られる。
ここで、piは、実際値であり、qiは、量子化された値を示す。
一方、USQのための歪曲関数は、最善の量子化された値を決定するために、ユークリッド距離を使用することができる。そのとき、複雑度を最小化するために、スケーリングファクタを含む修正された数式を使用し、歪曲関数は、下記数式(5)によって算出される。
もしバンド当たりパルス個数が要求される値とマッチングしない場合、最小メトリックを維持しながら、所定数のパルスを加減する必要がある。それは、1つのパルスを加減する過程を、パルス個数が要求される値に至るまで反復する方法によって遂行される。
1つのパルスを加減するために、最適の歪曲値を求めるためのn個の歪曲値を求める必要がある。例えば、歪曲値jは、下記数式(6)のように、バンドにおいてj番目の位置にパルスを追加することに該当する。
前記数式(6)をn回遂行することを避けるために、下記数式(7)のように、同じ偏差(deviation)を使用することができる。
は、1回だけ計算すればよい。一方、nは、バンド長、すなわち、バンドにある係数数を示し、pは、原信号、すなわち、量子化器の入力信号を示し、qは、量子化された信号を示し、gは、スケーリングファクタを示す。最終的に、歪曲dを最小化する位置jが選択され、qjがアップデートされる。
一方、ビット率を制御するために、スケーリングされたスペクトル係数を使用して、適切なISCを選択して符号化することができる。具体的には、量子化するためのスペクトル成分は、各バンドのビット割り当てを使用して選択される。そのとき、スペクトル成分の分布及び分散による多様な組み合わせに基づいて、スペクトル成分を選択することができる。次に、実際のノンゼロ位置を算出することができる。ノンゼロ位置は、スケーリング量と再分配動作とを分析して得ることができ、そのように選択されたノンゼロ位置は、他の言い方でISCとすることができる。要約すれば、スケーリングと再分配過程とを経た信号の大きさを分析し、最適スケーリングファクタと、ISCに該当するノンゼロ位置情報とを求めることができる。ここで、ノンゼロ位置情報は、ノンゼロ位置の個数及び位置を意味する。もしスケーリングと再分配過程とを介して、パルス個数が調節されない場合、選択されたパルスを、実際のTCQ過程を介して量子化し、その結果を利用して、余剰ビットを調整することができる。その過程は、次のような例が可能である。
ノンゼロ位置数と、バンド別に求められたパルス個数推定値とが同じではなく、ノンゼロ位置の個数が、所定値、例えば、1より大きく求められた量子化器選択情報がTCQを示す条件の場合、実際のTCQ量子化を介して、余剰ビットを調整することができる。具体的には、前記条件に該当する場合、余剰ビットを調整するために、まず、TCQ量子化過程を経る。前もってバンド別に求められたパルス個数推定値に比べ、実際のTCQ量子化を介して求められた現在バンドのパルス個数がさらに少ない場合には、以前に決定されたスケーリングファクタに、1より大きい値、例えば、1.1を乗じてスケーリングファクタを増加させ、反対の場合には、1より少ない値、例えば、0.9を乗じてスケーリングファクタを減少させる。そのような過程を反復し、バンド別に求められたパルス個数推定値と、TCQ量子化を介して求められた現在バンドのパルス個数とが同じになる場合、実際のTCQ量子化過程で使用されたビットを計算し、余剰ビットをアップデートする。そのように求められたノンゼロ位置が、ISCに該当する。
ISC符号化部1040では、最終的に選択されたISCの個数情報及びノンゼロ位置情報を符号化することができる。その過程において、符号化効率を高めるために、無損失符号化を適用することもできる。ISC符号化部1040は、割り当てられたビットが0ではないノンゼロバンドに対して選択された量子化器を利用して、符号化を行うことができる。具体的には、ISC符号化部1040は、正規化されたスペクトルに対して、各バンド別にISCを選択し、各バンド別に選択されたISCの情報を、数、位置、大きさ及び符号に基づいて符号化することができる。そのとき、ISCの大きさは、数、位置及び符号とは異なる方式によって符号化することができる。一例を挙げれば、ISCの大きさは、USQ及びTCQのうち一つを利用して量子化して算術符号化する一方、ISCの数、位置及び符号については、算術符号化を行うことができる。特定バンドが重要な情報を含んでいると判断される場合、USQを使用し、そうではない場合、TCQを使用することができる。実施形態によれば、信号特性に基づいて、TCQ及びUSQのうち一つを選択することができる。ここで、信号特性は、各バンドに割り当てられたビットあるいはバンド長を含んでもよい。もしバンドに含まれた各サンプルに割り当てられた平均ビット数が臨界値、例えば、0.75以上である場合、当該バンドは、非常に重要な情報を含んでいると判断することができるので、USQが使用される。一方、バンド長が短い低域の場合にも、必要によっては、USQが使用される。他の実施形態によれば、帯域幅によって、第1ジョイント方式と第2ジョイント方式とのうち一つが使用される。例えば、NB及びWBについては、各バンドに対する本来のビット割当て情報だけではなく、以前に符号化されたバンドからの余剰ビットに対する二次ビット割当て処理をさらに利用して、量子化器選択が行われる第1ジョイント方式が使用され、SWB及びFBについては、USQを使用すると決定されたバンドに対して、LSB(least significant bit)については、TCQを使用する第2ジョイント方式が使用される。第1ジョイント方式において、二次ビット割当て処理は、以前符号化されたバンドからの余剰ビットを分配することにより、2バンドを選択することができる。一方、第2ジョイント方式において、残りのビットは、USQを使用することができる。
量子化成分復元部1050は、量子化された成分に、ISCの位置、大きさ及び符号情報を付加し、実際の量子化された成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに符号化されたスペクトル係数には、0が割り当てられる。
逆スケーリング部1060は、復元された量子化成分に対して逆スケーリングを行い、正規化された入力スペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。スケーリング部1030及び逆スケーリング部1060においては、同一スケーリングファクタを使用することができる。
図11は、一実施形態によるISC符号化装置の構成を示すブロック図である。図11に図示された装置は、ISC選択部1110及びISC情報符号化部1130を含んでもよい。図11の装置は、図10のISC符号化部1040に対応するか、あるいは独立した装置として具現される。
図11において、ISC選択部1110は、ビット率を調節するために、スケーリングされたスペクトルから、所定基準に基づいてISCを選択することができる。ISC選択部1110は、スケーリングされたスペクトルから、スケーリングされた程度を分析し、実際のノンゼロ位置を求めることができる。ここで、ISCは、スケーリング以前の実際のノンゼロスペクトル係数に該当する。ISC選択部1110は、バンド別に割り当てられたビットに基づいて、スペクトル係数の分布及び分散を考慮し、符号化するスペクトル係数、すなわち、ノンゼロ位置を選択することができる。ISC選択のためにT、CQを使用することができる。
ISC情報符号化部1130は、選択されたISCに基づいて、ISC情報、すなわち、ISC個数情報、位置情報、大きさ情報及び符号を復号することができる。
図12は、一実施形態によるISC情報符号化装置の構成を示すブロック図である。図12に図示された装置は、位置情報符号化部1210、大きさ情報符号化部1230及び符号符号化部1250を含んでもよい。
図12において、位置情報符号化部1210は、ISC選択部1110(図11)で選択されたISCの位置情報、すなわち、ノンゼロスペクトル係数の位置情報を符号化することができる。位置情報は、選択されたISCの数及び位置を含んでもよい。位置情報の符号化には、算術符号化(arithmetic coding)が使用される。一方、選択されたISCを集め、新たなバッファを構成することができる。ISC収集のために、ゼロバンドと、選択されていないスペクトルは、除外される。
大きさ情報符号化部1230は、新たに構成されたISCの大きさ情報に対して、符号化を行うことができる。そのとき、TCQ及びUSQのうち一つを選択して量子化を行い、次に、算術符号化を追加して行うことができる。算術符号化の効率を高めるために、ノンゼロ位置情報、及びISCの数が使用される。
符号情報符号化部1250は、選択されたISCの符号情報に対して、符号化を行うことができる。符号情報の符号化には、算術符号化が使用される。
図13は、他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。図13に図示された装置は、図7のスペクトル量子化及び符号化部750に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。
図13に図示された装置は、スケーリング部1330、ISC符号化部1340、量子化成分復元部1350及び逆スケーリング部1360を含んでもよい。図10と比較するとき、ゼロ符号化部1020と符号化方式選択部1010とが省略され、ISC符号化部1340は、TCQを使用することができるということを除いては、各構成要素の動作は同一である。
図14は、他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。図14に図示された装置は、図7のスペクトル量子化及び符号化部750に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。
図14に図示された装置は、符号化方式選択部1410、スケーリング部1430、ISC符号化部1440、量子化成分復元部1450及び逆スケーリング部1460を含んでもよい。図10と比較するとき、ゼロ符号化部1020が省略されているということを除いては、各構成要素の動作は同一である。
図15は、一実施形態によるISC収集過程及び符号化過程の概念を示す図面であり、まず、ゼロバンド(zero band)すなわち、0に量子化されるバンドは除く。次に、ノンゼロバンドに存在するスペクトル成分のうち選択されたISCを利用して、新たなバッファを構成することができる。新たに構成されたISCに対して、バンド単位でTCQを遂行し、対応する無損失符号化(lossless encoding)を行うことができる。
図16は、他の実施形態によるISC収集過程及び符号化過程ISC収集過程の概念を示す図面であり、まず、ゼロバンド、すなわち、0に量子化されるバンドは除く。次に、ノンゼロバンドに存在するスペクトル成分のうち選択されたISCを利用して、新たなバッファを構成することができる。新たに構成されたISCに対して、バンド単位で、USCあるいはTCQを遂行し、対応する無損失符号化を行うことができる。
図17は、本発明で使用されたTCQの一例を示す図面であり、2つのゼロレベルを有する8ステート4コセットのトレリス構造に該当する。当該TCQについての詳細な説明は、US7605727に開示されている。
図18は、本発明が適用される周波数ドメインオーディオ復号装置の構成を示したブロック図である。
図18に図示された周波数ドメインオーディオ復号装置1800は、フレームエラー検出部1810、周波数ドメイン復号部1830、時間ドメイン復号部1850及び後処理部1870を含んでもよい。周波数ドメイン復号部1830は、スペクトル復号部1831、メモリ更新部1833、逆変換部1835及びOLA(overlap and add)部1837を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図18を参照すれば、フレームエラー検出部1810は、受信されたビットストリームから、フレームエラーが発生したか否かということを検出することができる。
周波数ドメイン復号部1830は、符号化モードが、音楽モードあるいは周波数ドメインモードである場合に動作し、フレームエラーが発生した場合、FECアルゴリズムあるいはPLCアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的な変換復号過程を介して、時間ドメイン信号を生成する。具体的には、スペクトル復号部1831は、復号されたパラメータを利用してスペクトル復号を行い、スペクトル係数を合成することができる。スペクトル復号部1831については、図19及び図20を参照し、さらに具体的に説明する。
メモリ更新部1833は、正常フレームである現在フレームに対して合成されたスペクトル係数、復号されたパラメータを利用して得られた情報、現在まで連続したエラーフレームの個数、各フレームの信号特性あるいはフレームタイプ情報などを、次のフレームのために更新することができる。ここで、信号特性は、トランジェント特性、ステーショナリ特性を含んでもよく、フレームタイプは、トランジェントフレーム、ステーショナリフレームあるいはハーモニックフレームを含んでもよい。
逆変換部1835は、合成されたスペクトル係数に対して、時間・周波数逆変換を行い、時間ドメイン信号を生成することができる。
OLA部1837は、以前フレームの時間ドメイン信号を利用して、OLA処理を行い、その結果、現在フレームに対する最終時間ドメイン信号を生成し、後処理部1870に提供することができる。
時間ドメイン復号部1850は、符号化モードが、音声モードあるいは時間ドメインモードである場合に動作し、フレームエラーが発生した場合、FECアルゴリズムあるいはPLCアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的なCELP復号過程を介して、時間ドメイン信号を生成する。
後処理部1870は、周波数ドメイン復号部1830あるいは時間ドメイン復号部1850から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部1670は、出力信号として、復元されたオーディオ信号を提供する。
図19は、一実施形態によるスペクトル復号装置の構成を示すブロック図である。図19に図示された装置は、図18のスペクトル復号部1831に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。
図19に図示されたスペクトル復号装置1900は、エネルギー復号及び逆量子化部1910、ビット割当て部1930、スペクトル復号及び逆量子化部1950、ノイズフィリング部1970及びスペクトルシェーピング部1990を含んでもよい。ここで、ノイズフィリング部1970は、スペクトルシェーピング部1990の後端に位置することもできる。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図19を参照すれば、エネルギー復号及び逆量子化部1910は、符号化過程において無損失符号化が行われたパラメータ、例えば、Norm値のようなエネルギーに対して無損失復号を行い、復号されたNorm値に対して逆量子化を行うことができる。符号化過程において、Norm値の量子化された方式に対応する方式を使用して逆量子化を行うことができる。
ビット割当て部1930は、量子化されたNorm値、あるいは逆量子化されたNorm値に基づいて、サブバンド別に必要とするビット数を割り当てることができる。その場合、サブバンド単位に割り当てられたビット数は、符号化過程で割り当てられたビット数と同一である。
スペクトル復号及び逆量子化部1950は、符号化されたスペクトル係数に対して、サブバンド別に割り当てられたビット数を使用して無損失復号を行い、復号されたスペクトル係数に対して逆量子化過程を行い、正規化されたスペクトル係数を生成することができる。
ノイズフィリング部1970は、正規化されたスペクトル係数のうち、サブバンド別にノイズフィリングを必要とする部分に対して、ノイズを充填することができる。
スペクトルシェーピング部1990は、逆量子化されたNorm値を利用して、正規化されたスペクトル係数をシェーピングすることができる。スペクトルシェーピング過程を介して、最終的に復号されたスペクトル係数が得られる。
図20は、一実施形態によるスペクトル逆量子化装置の構成を示すブロック図である。図20に図示された装置は、逆量子化期選択部2010、USQ 2030及びTCQ 2050を含んでもよい。
図20において、逆量子化期選択部2010は、入力信号、すなわち、逆量子化される信号の特性によって、多様な逆量子化器のうち、最も効率的な逆量子化器を選択することができる。入力信号の特性としては、バンド別ビット割当て情報、バンドの大きさ情報などが使用可能である。選択結果によって、逆量子化される信号をUSQ 2030及びTCQ 2050のうち一つに提供し、対応する逆量子化を行うことができる。
図21は、一実施形態によるスペクトル復号装置の構成を示すブロック図である。図21に図示された装置は、図19のスペクトル復号及び逆量子化部1950に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。
図21に図示された装置は、復号方式選択部2110、ゼロ復号部2130、ISC復号部2150、量子化成分復元部2170及び逆スケーリング部2190を含んでもよい。ここで、量子化成分復元部2170及び逆スケーリング部2190は、オプションとして具備される。
図21において、復号方式選択部2110は、バンド別に割り当てられたビットに基づいて、復号方式を選択することができる。正規化されたスペクトルは、バンド別に選択された復号方式に基づいて、ゼロ復号部2130あるいはISC復号部2150に提供される。
ゼロ復号部2130は、割り当てられたビットが0であるバンドに対して、全てのサンプルを0に復号することができる。
ISC復号部2150は、割り当てられたビットが0ではないバンドに対して選択された逆量子化器を利用して、復号を行うことができる。ISC復号部2150は、符号化されたスペクトルの各バンド別に、重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて復号することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号することができる。一例を挙げれば、重要周波数成分の大きさは、算術復号し、USQ及びTCQのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して、算術復号を行うことができる。逆量子化器選択は、図10に図示されたISC符号化部1040と同一結果を利用して行うことができる。ISC復号部2150は、割り当てられたビットが0ではないバンドに対して、TCQ及びUSQのうち一つを利用して逆量子化を行うことができる。
量子化成分復元部2170は、復元されたISCの位置、大きさ及び符号情報に基づいて、実際の量子化成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに復号されたスペクトル係数である量子化されていない部分には、0が割り当てられる。
さらに、逆スケーリング部(図示せず)を含んで復元された量子化成分に対して、逆スケーリングを行い、正規化されたスペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。
図22は、一実施形態によるISC復号装置の構成を示すブロック図である。図22の装置は、パルス数推定部2210及びISC情報復号部2230を含んでもよい。図22の装置は、図21のISC復号部2150に対応するか、あるいは独立した装置で具現される。
図22において、パルス数推定部2210は、バンド大きさとビット割当て情報とを利用して、現在バンドで必要なパルス個数推定値を決定することができる。すなわち、現在フレームのビット割当て情報がエンコーダと同一であるので、同一ビット割当て情報を利用して、同一パルス個数推定値を導き出して復号を進める。
ISC情報復号部2230は、推定されたパルス数に基づいて、ISC情報、すなわち、ISC個数情報、位置情報、大きさ情報及び符号を復号することができる。
図23は、一実施形態によるISC情報復号装置の構成を示すブロック図である。図23に図示された装置は、位置情報復号部2310、大きさ情報復号部2330及び符号復号部2350を含んでもよい。
図23において、位置情報復号部2310は、ビットストリームに含まれた位置情報と係わるインデックスを復号し、ISCの数及び位置を復元することができる。位置情報の復号には、算術復号が使用される。大きさ情報復号部2330は、ビットストリームに含まれた大きさ情報と係わるインデックスに対して算術復号を行い、復号されたインデックスに対して、TCQ及びUSQのうち一つを選択し、逆量子化を行うことができる。算術復号の効率を高めるために、ノンゼロ位置情報、及びISCの数が使用される。符号復号部2350は、ビットストリームに含まれた符号情報と係わるインデックスを復号し、ISCの符号を復元することができる。符号情報の復号には、算術復号が使用される。一実施形態によれば、ノンゼロバンドが必要とするパルス数を推定し、位置情報、大きさ情報あるいは符号情報復号に使用することができる。
図24は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。図24に図示された装置は、図19のスペクトル復号及び逆量子化部1950に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。
図24に図示された装置は、ISC復号部2450、量子化成分復元部2470及び逆スケーリング部2490を含んでもよい。図21と比較するとき、復号方式選択部2110とゼロ復号部2130とが省略されており、ISC復号部2450がTCQを使用するということを除いては、各構成要素の動作は同一である。
図25は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。図25に図示された装置は、図19のスペクトル復号及び逆量子化部1950に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。
図25に図示された装置は、復号方式選択部2510、ISC復号部2550、量子化成分復元部2570及び逆スケーリング部2590を含んでもよい。図21と比較するとき、ゼロ復号部2130が省略されているということを除いては、各構成要素の動作は同一である。
図26は、他の実施形態によるISC情報符号化装置の構成を示すブロック図である。図26の装置は、確率算出部2610と無損失符号化部2630とを含んでもよい。
図26において、確率算出部2610は、ISC個数、パルス個数、TCQ情報を利用して、下記数式(8),(9)によって、大きさ符号化のための確率値を計算することができる。
は、各バンドで伝送されるISC個数のうち符号化されて残った個数を意味し、
は、各バンドで伝送されるパルスの個数のうち、符号化されて残った個数を示し、Msは、トレリス状態で存在する大きさの集合を意味する。そして、jは、大きさのうち符号化されたパルス個数を意味する。
無損失符号化部2630は、その求められた確率値を利用して、TCQ大きさ情報、すなわち、大きさと経路情報とを無損失符号化することができる。各大きさのパルス個数は、
値は、以前大きさの最後のパルスの確率を意味する。そして、
値は、それ以外の他のパルスに該当する確率を意味する。最終的に、そのように求められた確率値によって、符号化されたインデックスを出力する。
図27は、他の実施形態によるISC情報復号装置の構成を示すブロック図である。図27の装置は、確率算出部2710と無損失復号部2730とを含んでもよい。
図27において、確率算出部2710は、ISC情報(個数i、位置)、TCQ情報、パルス個数m、及びバンドの大きさnを利用して、大きさ(magnitude)符号化のための確率値を計算することができる。それのために、まず、求められたパルス個数とバンド大きさとを利用して、必要なビット情報bを求める。そのとき、前記数式(1)のように求めることができる。その後、求められたビット情報b、ISC個数、ISC位置そしてTCQ情報を利用して、前記数式(8),(9)に基づいて、大きさ符号化のための確率値を計算する。
無損失復号部2730は、符号化装置と同一に求められた確率値と、伝送されたインデックス情報とを利用して、TCQ大きさ情報、すなわち、大きさ(magnitude)情報と経路(path)情報とを無損失復号することができる。それのために、まず、確率値を利用して、個数情報に係わる算術符号化モデルを作り、その求められたモデルを利用して、TCQ大きさ情報の算術復号を遂行してTCQ大きさ情報を復号する。具体的には、各大きさのパルス個数は、
値は、以前大きさの最後のパルス確率を意味する。そして、
値は、それ以外の他のパルスに該当する確率を意味する。最終的に、そのように求められた確率値によって復号されたTCQ情報、すなわち、大きさ情報と経路情報とを出力する。
図28は、本発明の一実施形態による符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。
図28に図示されたマルチメディア機器2800は、通信部2810と符号化モジュール2830とを含んでもよい。また、符号化の結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部2850をさらに含んでもよい。また、マルチメディア機器2800は、マイクロホン2870をさらに含んでもよい。すなわち、保存部2450とマイクロホン2870は、オプションとして具備される。一方、図28に図示されたマルチメディア機器2800は、任意の復号モジュール(図示せず)、例えば、一般的な復号機能を遂行する復号モジュール、あるいは本発明の一実施形態による復号モジュールをさらに含んでもよい。ここで、符号化モジュール2830、マルチメディア機器2800に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図28を参照すれば、通信部2810は、外部から提供されるオーディオと、符号化されたビットストリームとのうち少なくとも一つを受信するか、復元されたオーディオと、符号化モジュール2830の符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。
通信部2810は、無線インターネット、無線イントラネット、無線電話網、無線LAN(local area network)、Wi−Fi(wireless fidelity)、WFD(Wi−Fi direct)、3G(3rd generation)、4G(4th generation)、ブルートゥース(Bluetooth(登録商標))、赤外線通信(IrDA:infrared data association)、RFID(radio frequency identification)、UWB(ultra wideband)、ジグビー(ZigBee(登録商標))、NFC(near field communication)のような無線ネットワーク、または有線電話網、有線インターネットのような有線ネットワークを介して、外部のマルチメディア機器あるいはサーバとデータを送受信することができるように構成される。
符号化モジュール2830は、一実施形態によれば、正規化されたスペクトルに対して、各バンド別に重要周波数成分を選択し、各バンド別に選択された重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて符号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって符号化することができ、一例を挙げれば、重要周波数成分の大きさは、USQ及びTCQのうち一つを利用して量子化して算術符号化する一方、重要周波数成分の数、位置及び符号に対して、算術符号化を行うことができる。一実施形態によれば、正規化されたスペクトルを、各バンド別に割り当てられたビットに基づいてスケーリングを行い、スケーリングされたスペクトルに対して、重要周波数成分を選択することができる。
保存部2850は、マルチメディア機器2800の運用に必要な多様なプログラムを保存することができる。
マイクロホン2870は、ユーザ、あるいは外部のオーディオ信号を符号化モジュール2830に提供することができる。
図29は、本発明の一実施形態による復号モジュールを含むマルチメディア機器の構成を示したブロック図である。
図29に図示されたマルチメディア機器2900は、通信部2910と復号モジュール2920とを含んでもよい。また、復号の結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部2960をさらに含んでもよい。また、マルチメディア機器2900は、スピーカ2970をさらに含んでもよい。すなわち、保存部2960とスピーカ2970は、オプションとして具備される。一方、図29に図示されたマルチメディア機器2900は、任意の符号化モジュール(図示せず)、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による符号化モジュールをさらに含んでもよい。ここで、復号モジュール2920は、マルチメディア機器2900に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1つの以上のプロセッサ(図示せず)としても具現される。
図29を参照すれば、通信部2910は、外部から提供される符号化されたビットストリームと、オーディオ信号とのうち少なくとも一つを受信するか、あるいは復号モジュール2920の復号結果として得られる復元されたオーディオ信号と、符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。一方、通信部2910は、図28の通信部2810と実質的に類似して具現される。
復号モジュール2920は、一実施形態によれば、通信部2910を介して提供されるビットストリームを受信し、符号化されたスペクトルの各バンド別に、重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて復号することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号することができ、一例を挙げれば、重要周波数成分の大きさは、算術復号し、USQ及びTCQのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して、算術復号を行うことができる。
保存部2960は、復号モジュール2920で生成される復元されたオーディオ信号を保存することができる。一方、保存部2960は、マルチメディア機器2900の運用に必要な多様なプログラムを保存することができる。
スピーカー2970は、復号モジュール2920で生成される復元されたオーディオ信号を外部に出力することができる。
図30は、本発明の一実施形態による符号化モジュールと復号モジュールとを含むマルチメディア機器の構成を示したブロック図である。
図30に図示されたマルチメディア機器3000は、通信部3010、符号化モジュール3020及び復号モジュール3030を含んでもよい。また、符号化の結果として得られるオーディオビットストリーム、あるいは復号結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリーム、あるいは復元されたオーディオ信号を保存する保存部3040をさらに含んでもよい。また、マルチメディア機器3000は、マイクロホン3050あるいはスピーカ3060をさらに含んでもよい。ここで、符号化モジュール3020と復号モジュール3030は、マルチメディア機器3000に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
図30に図示された各構成要素は、図28に図示されたマルチメディア機器2800の構成要素、あるいは図29に図示されたマルチメディア機器2900の構成要素と重複するので、その詳細な説明は省略する。
図28ないし図30に図示されたマルチメディア機器2800,2900,3000には、電話、モバイルフォンなどを含む音声通信専用端末;TV(television)、MP3プレーヤなどを含む放送専用装置あるいは音楽専用装置;あるいは音声通信専用端末と、放送専用装置あるいは音楽専用装置との融合端末装置;テレカンファレンシングシステムあるいはインタラクションシステムのユーザ端末が含まれてもよいが、それらに限定されるものではない。また、マルチメディア機器2800,2900,3000は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器としても使用される。
一方、マルチメディア機器2800,2900,3000が、例えば、モバイルフォンである場合、図示されてはいないが、キーパッドのようなユーザ入力部;ユーザインターフェース、あるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部;モバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも1以上の構成要素とをさらに含んでもよい。
一方、マルチメディア機器2800,2900,3000が、例えば、TVである場合、図示されてはいないが、キーパッドのようなユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、TVの全般的な機能を制御するプロセッサをさらに含んでもよい。また、TVは、TVで必要とする機能を遂行する少なくとも1以上の構成要素をさらに含んでもよい。
図31は、一実施形態による、スペクトルの微細構造符号化方法の動作を示したフローチャートである。図31を参照すれば、3110段階においては、符号化方式が選択される。そのために、各バンドに係わる情報及びビット割当て情報が使用される。ここで、符号化方式は、量子化方式を含んでもよい。
3130段階においては、現在バンドが、ビット割り当てがゼロであるバンド、すなわち、ゼロバンドであるか否かということを判断し、ゼロバンドである場合、3250段階に進み、ノンゼロバンドである場合、3270段階に進む。
3150段階においては、ゼロバンドにある全てのサンプルをゼロに符号化することができる。
3170段階においては、ゼロバンドではないバンドが選択された量子化方式に基づいて符号化することができる。一実施形態によれば、バンド長及びビット割当て情報を使用して、バンド当たりパルス個数を推定し、ノンゼロ位置個数を決定し、ノンゼロ位置の必要ビット数を推定し、最終パルス数を決定することができる。次に、バンド当たりパルス個数と、入力信号の絶対値とに基づいて、初期スケーリングファクタを決定し、初期スケーリングファクタによるスケーリング及びパルス再分配過程を介して、スケーリングファクタをアップデートすることができる。最終アップデートされたスケーリングファクタを利用して、スペクトル係数をスケーリングし、スケーリングされたスペクトル係数を使用して、適切なISCが選択される。量子化するスペクトル成分は、各バンドのビット割当て情報に基づいて選択される。次に、収集されたISCの大きさが、USCジョイント方式及びTCQジョイント方式によって量子化されて算術符号化される。ここで、算術符号化の効率を高めるために、ノンゼロ位置とISCの数とが使用される。USCジョイント方式及びTCQジョイント方式は、帯域幅によって、第1ジョイント方式と第2ジョイント方式とを有する。第1ジョイント方式は、以前バンドからの余剰ビットに対する二次ビット割当て処理を利用して、量子化器選択が行われるものであり、NB及びWBに使用され、第2ジョイント方式は、USQと決定されたバンドについて、LSBについては、TCQを使用し、残りのビットは、USQを使用する方式であり、SWB及びFBに使用することができる。一方、選択されたISCの符号情報は、正負の符号に対して同一確率で算術復号される。
3170段階以後、追加して量子化成分を復元する段階と、バンドを逆スケーリングする段階とを具備することができる。各バンドの実際の量子化成分を復元するために、量子化成分に、位置、符号、大きさ情報が付加されてもよい。ゼロ位置には、ゼロが割り当てられる。一方、スケーリング時に使用されたものと同一スケーリングファクタを使用して、逆スケーリングファクタを抽出し、復元された実際の量子化成分に対して、逆スケーリングを行うことができる。逆スケーリングされた信号は、正規化されたスペクトル、すなわち、入力信号と同一レベルを有することができる。
図31の各段階については、必要によって、前述の符号化装置の各構成要素の動作がさらに付加されてもよい。
図32は、一実施形態による、スペクトルの微細構造復号方法の動作を示したフローチャートである。図32の方法によれば、正規化されたスペクトルの微細構造を逆量子化するために、各バンドに対して、ISCと、選択されたISCに係わる情報とが位置、数、符号及び大きいによって復号される。ここで、大きさ情報は、算術復号、並びにUSQジョイント方式及びTCQジョイント方式によって復号され、位置、数、符号情報は、算術復号によって復号される。
具体的には、図32を参照すれば、3210段階においては、復号方式が選択される。そのために、各バンドに係わる情報及びビット割当て情報が使用される。ここで、復号方式は、逆量子化方式を含んでもよい。逆量子化方式は、前述の符号化装置で適用された量子化方式選択と同一過程を介して選択される。
3230段階においては、現在バンドが、ビット割り当てがゼロであるバンド、すなわち、ゼロバンドであるか否かということを判断し、ゼロバンドである場合、3250段階に進み、ノンゼロバンドである場合、3270段階に進む。
3250段階においては、ゼロバンドにある全てのサンプルをゼロに復号することができる。
3270段階においては、ゼロバンドではないバンドが選択された逆量子化方式に基づいて復号することができる。一実施形態によれば、バンド長及びビット割当て情報を使用して、バンド当たりパルス個数を推定あるいは決定することができる。それは、前述の符号化装置で適用されたスケーリングと同一過程を介して遂行される。次に、ISCの位置情報、すなわち、ISCの数及び位置を復元することができる。それは、前述の符号化装置と類似して処理され、適切な復号のために、同一確率値が使用される。次に、収集されたISCの大きさが、算術復号によって復号され、USCジョイント方式及びTCQジョイント方式によって逆量子化される。ここで、ノンゼロ位置とISCの数とが算術復号のために使用される。USCジョイント方式及びTCQジョイント方式は、帯域幅によって第1ジョイント方式と第2ジョイント方式とを有する。第1ジョイント方式は、以前バンドからの余剰ビットに対する二次ビット割当て処理を追加して利用して、量子化器選択が遂行されるものであり、NB及びWBに使用され、第2ジョイント方式は、USQと決定されたバンドに対して、LSBについては、TCQを使用し、残りのビットは、USQを使用する方式であり、SWB及びFBに使用することができる。一方、選択されたISCの符号情報は、正負の符号に対して、同一確率で算術復号される。
3270段階以後、追加して量子化成分を復元する段階と、バンドを逆スケーリングする段階とを具備することができる。各バンドの実際の量子化成分を復元するために、量子化成分に位置、符号、大きさ情報が付加されてもよい。伝送されるデータがないバンドは、ゼロで充填される。次に、ノンゼロバンドにあるパルス数が推定され、ISCの数及び位置を含む位置情報が、推定されたパルス数に基づいて復号される。大きさ情報については、無損失復号、並びにUSCジョイント方式及びTCQジョイント方式による復号が行われる。ノンゼロ大きさ値については、符号及び量子化された成分が最終的に復元される。一方、復元された実際の量子化成分に対して、伝送されたnorm情報を使用し、て逆スケーリングが行われる。
図32の各段階については、必要によって、前述の復号装置の各構成要素の動作がさらに付加されてもよい。
前記実施形態は、コンピュータで実行されるプログラムに作成可能で、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種の保存装置を含んでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media);CD(compact disc)−ROM(read only memory)、DVD(digital versatile disc)のような光記録媒体(optical media);フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical media);及びROM、RAM(random access memory)、フラッシュメモリのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。
以上、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたとしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、それらは、本発明が属する分野で当業者であるならば、そのような記載から多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価的な変形は、いずれも本発明の技術的思想範疇に属するものである。