JP2012098759A - スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック - Google Patents

スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック Download PDF

Info

Publication number
JP2012098759A
JP2012098759A JP2012036055A JP2012036055A JP2012098759A JP 2012098759 A JP2012098759 A JP 2012098759A JP 2012036055 A JP2012036055 A JP 2012036055A JP 2012036055 A JP2012036055 A JP 2012036055A JP 2012098759 A JP2012098759 A JP 2012098759A
Authority
JP
Japan
Prior art keywords
timbre
components
residual
time
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012036055A
Other languages
English (en)
Other versions
JP5291815B2 (ja
Inventor
Dmitry V Shmunk
ドミトリー ヴィー シュムンク
J BEATON Richard
リチャード ジェイ ビートン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS BVI Ltd
Original Assignee
DTS BVI Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS BVI Ltd filed Critical DTS BVI Ltd
Publication of JP2012098759A publication Critical patent/JP2012098759A/ja
Application granted granted Critical
Publication of JP5291815B2 publication Critical patent/JP5291815B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/28Programmable structures, i.e. where the code converter contains apparatus which is operator-changeable to modify the conversion process
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

【課題】任意に規定されたデータ転送速度を有するスケール調節されたビットストリームを形成するようにスケール調節できるマスタービットストリームを形成すること、および該スケール調節されたビットストリームをデコード化してオーディオ信号を再構成することである。
【解決手段】階層的フィルタバンク(2100)は、入力信号を、エンコーダがそこから音色成分(2106)および残余成分(2117)の両方を効率的に抽出できる多重分解能の時間/周波数表現に分解し、同じマスキング関数または異なる音響心理学的基準を参照して量子化する。選択された音色成分は適切にコード化され、残余成分を構成する時間−サンプルおよびスケール因子成分も、ジョイントチャンネルコーディングによりコード化される。デコーダは、逆階層的フィルタバンクにより、スケール調節されたビットストリーム中の音色成分および残余成分からオーディオ信号を再構築する。
【選択図】図21

Description

本発明は、オーディオ信号のスケール調節可能なコード化に関し、より詳細には、このデータ転送速度スケール調節を、階層的フィルタリング、音色成分のジョイントコーディング、および残余信号における時間ドメイン成分のジョイントチャンネルコーディングを含む、多チャンネルオーディオ信号のための効率的な方法で実行する方法に関する。
オーディオ圧縮アルゴリズムの主な目的は、可能な限り少ないデジタルビットを使用して、入力オーディオ信号の音響的に許容可能な表現を作製することである。これは、入力オーディオ信号の低データ転送速度バージョンを、インターネットのような制限されたバンド幅の送信チャンネル上で配信することを可能にし、また入力されたオーディオ信号の将来の再生のための保存に要する保存量を低減させることを可能にする。送信チャンネルのデータ容量が固定され且つ経時的に変化せず、またはオーディオの保存を必要とする量(分)が予め既知で且つ増大しないようなこれらの応用について、従来のオーディオ圧縮法では、圧縮コード化時のデータ転送速度、従ってオーディオ品質のレベルが固定される。元の信号を低データ転送速度で記録し、または圧縮されたオーディオ信号を復元し、次いでこの復元された信号を低データ転送速度で再圧縮することなしには、データ転送速度の更なる低下を行うことはできない。これらの方法は、チャンネル容量を変化させること、追加の内容を固定されたメモリー上に保存すること、または異なるアプリケーションについて変化するデータ転送速度でビットストリームを読取ることの問題に対処するために「スケール調節可能」ではない。
スケール調節可能な特性を備えたビットストリームを作製し、且つ先に述べた限界を回避するために使用される一つの技術は、入力オーディオ信号を、低速データ転送ビットストリームのサブセットで構成される高データ転送速度ビットストリームとしてコード化する。これらコード化された低データ転送速度ビットストリームは、コード化された信号から抽出され、且つ組合されて、そのデータ転送速度が広範囲のデータ転送速度に亘って調節可能な出力ビットストリームを提供することができる。この概念を実行するための一つのアプローチは、最初にデータを最低のサポートされたデータ転送速度でコード化し、次いで、元の信号と、該最低データ転送速度のビットストリームのデコード化バージョンとの間のエラーをコード化することである。このコード化されたエラーは保存され、サポートされた最低データ転送速度のビットストリームと組合わされて、二番目に低いデータ転送速度のビットストリームが作製される。元の信号と、この2番目に低いデータ転送速度の信号のデコード化バージョンとの間のエラーが保存され、2番目に低いデータ転送速度のビットストリームに加えられて、3番目に低いデータ転送速度のビットストリームが形成され、以下同様に行われる。このプロセスは、こうして誘導された各エラー信号のビットストリームに関連したデータ転送速度と、サポートされた最低データ転送速度のビットストリームのデータ転送速度との合計が、サポートされるべき最大データ転送速度のビットストリームに等しくなるまで反復される。この最終的なスケール調節可能な高データ転送速度のビットストリームは、最低データ転送速度のビットストリームおよび各コード化されたエラービットストリームで構成される。
広く離れた最低データ転送速度および最高データ転送速度の間の、少数の異なるデータ転送速度を支持するために通常使用される第二の技術は、二以上の圧縮アルゴリズムを用いて、「階層化された」スケール調節可能なビットストリームを作製することである。この方法でコード化されたビットストリームに対してスケール調節操作を実行する装置は、出力データ転送速度要件に応じて、コード化されたオーディオ出力として使用するために、階層化されたビットストリームの中に担持される複数のビットストリームの何れか一つを選択する。コード化効率を改善し、広範囲のスケール調節されたデータ転送速度を提供するために、低速ビットストリームに担持されたデータは高速ビットストリームにより使用されて、追加のより高品質で、より高速のビットストリームを形成することができる。
本発明は、任意に規定されたデータ転送速度を有するスケール調節されたビットストリームを形成するようにスケール調節できるマスタービットストリームを形成するために、および該スケール調節されたビットストリームをデコード化してオーディオ信号を再構成するために、オーディオ入力信号をコード化するための方法を提供する。
これは一般には、オーディオ入力信号を圧縮し、これらをアレンジしてマスタービットストリームを形成することにより達成される。このマスタービットストリームは量子化された成分を含んでおり、これらは、デコード化された信号の品質に対するそれらの相対的寄与に基づいて順位付けされる。該入力信号は、それを複数の音色成分および残余成分に分離し、次いでこれら成分を順位付けおよび量子化することにより、適切に圧縮される。分離は、階層的フィルタバンクを使用して適切に実行される。これら成分は、同じマスキング機能または異なる音響心理学的基準を参照して、適切に順位付けおよび量子化される。次いで、効率的なスケール調節を容易にするために、これら成分はそれらの順位付けに基づいて並べられてよい。望ましいデータ転送速度よりも低いか、または概略これに等しいスケール調節されたデータ速度を有するスケール調節されたビットストリームを形成するために、前記マスタービットストリームは、充分な数の前記低い順位付けの成分を除去することによってスケール調節される。このスケール調節されたビットストリームは、周波数スペクトルにおける当該成分の位置を示す情報を含んでいる。スケール調節されたビットストリームは、この位置情報に基づいて量子化された成分を配列し、失われた成分を無視し、アレンジされた成分をデコード化して出力ビットストリームを生じさせることにより、逆階層的フィルタバンクを使用して適切にデコード化される。
一つの実施形態において、エンコーダは、階層的フィルタバンクを使用して入力信号を多重分解能の時間/周波数表現に分解する。該エンコーダは、HFBの各反復において異なる周波数分解能で音色成分を抽出し、これらの音色成分を入力信号から除去して残余信号を次のHFB反復へと通過させ、次いで最後の残余信号から残余成分を抽出する。音色成分は、周波数分解能当り少なくとも一つの周波数副ドメインにグループ化され、それらのコード化された信号の品質に対する音響心理学的重要度に従って順位付けされる。残余成分は、時間サンプル成分(例えばグリッドG)、および該時間サンプル成分を修飾するスケール因子成分(例えばグリッドG0、G1)を含んでいる。時間サンプル成分は、少なくとも一つの時間−サンプル副ドメインにグループ化され、当該ドメイン信号の品質に対するそれらの寄与に従って順位付けされる。
デコーダでは、逆階層的フィルタバンクが、一つの効率的フィルタバンク構造内で音色成分および残余成分の両方を抽出するために使用されてよい。全ての成分が逆量子化され、またスケール因子を時間サンプルに適用することによって残余信号が再構築される。周波数サンプルが再構築され、出力オーディオ信号を生じるために該再構築された時間サンプルに加えられる。なお、コード化プロセスの際に階層的フィルタバンクが使用されたかどうかに関係なく、逆階層的フィルタバンクがデコーダで使用されてよい。
一つの例示的実施形態では、多重チャンネルオーディオ信号における選択された音色成分が、異なるコーディングを使用してコード化される。各音色成分について一つのチャンネルが主チャンネルとして選択される。該主チャンネルのチャンネル数、およびその振幅および位相がビットストリームの中に保存される。他のチャンネルの何れが示された音色成分を含み、従って副チャンネルとしてコード化されるべきかを指示するビットマスクが保存される。次いで、主振幅と副振幅との間の差および位相がエントロピーコード化され、前記音色成分が存在する各副チャンネルについて保存される。
一つの例示的実施形態において、残余信号を形成する時間−サンプルおよびスケール因子成分は、多重チャンネルオーディオにまで拡張されたジョイントチャンネルコーディング(JCC)を使用してコード化される。チャンネルのグループ化プロセスは、最初に、何れの多重チャンネルが一緒にコード化され得るかを決定し、また全てのチャンネルがグループに形成され、最後のグループは恐らく不完全である。
本発明の更なる目的、特徴および利点は、以下の例示的実施形態の議論に含まれるが、この議論は添付の図面と共に読まれるべきである。これらの例示的実施形態はオーディオデータに関するものであるが、ビデオ、マルチメディアおよび他の種類のデータもまた、同様の方法で処理されてよいことが理解されるであろう。
図1は、本発明による残余コーディングトポロジーを使用した、スケール調節可能なビットストリームエンコーダのブロック図である。 図2aは、階層的フィルタバンクと共に使用するためのシュムンク・ウインドウの周波数および時間ドメイン表現である。 図2bは、階層的フィルタバンクと共に使用するためのシュムンク・ウインドウの周波数および時間ドメイン表現である。 図3は、そこから本発明を用いて音色成分および残余成分を抽出できる入力信号の多重分解能の時間/周波数表現を提供するための、階層的フィルタバンクの図である。 図4は、階層的フィルタバンクに関連したステップのフローチャートである。 図5a〜図5cは、「重なり加算」ウインドウ機能を示している。 図6は、階層的フィルタバンクにおける周波数応答のプロットである。 図7は、エンコーダに使用するための、階層的分析フィルタバンクの実施例を示すブロック図である。 図8aは、3段階の階層的フィルタバンクの単純化されたブロック図、および1段階のより詳細なブロック図である。 図8bは、3段階の階層的フィルタバンクの単純化されたブロック図、および1段階のより詳細なブロック図である。 図9は、音色成分の差動コーディングを多重チャンネルオーディオに拡張するためのビットマスクである。 図10は、本発明のエンコーダの一実施形態において使用される残余エンコーダの詳細な実施形態を表している。 図11は、多重チャンネルオーディオをコードするジョイントチャンネルのためのブロック図である。 図12は、本発明のスケール調節可能なビットストリームエンコーダによって作製されたデータのスケール調節可能なフレームを概略的に表している。 図13は、本発明に使用されるデコーダの一実施例の詳細なブロック図を示している。 図14は、本発明に従って、時間サンプル成分および周波数成分の両方から時間シリーズのデータを再構成するための、逆階層的フィルタバンクの説明図である。 図15は、逆階層的フィルタバンクの一実施例のブロック図である。 図16は、デコーダにおいて逆階層的フィルタバンクを使用して、音色成分および残余成分を組合せるブロック図である。 図17aは、3段階逆階層的フィルタバンクの単純化されたブロック図、および1段階の詳細なブロック図である。 図17bは、3段階逆階層的フィルタバンクの単純化されたブロック図、および1段階の詳細なブロック図である。 図18は、残余デコーダの詳細なブロック図である。 図19は、G1マッピング表である。 図20は、基本関数合成の補正係数の表である。 図21は、エンコーダの機能ブロック図であり、オーディオ・エンコーダにおける階層的フィルタバンクにおける多重分解能の時間/周波数表現の適用を図示している。 図22は、デコーダの機能ブロック図であり、オーディオデコーダにおける階層的フィルタバンクの多重分解時間/周波数表現の適用を図示している。
本発明は、任意に規定されたデータ転送速度を有するスケール調節可能なビットストリームを形成するようにスケール調節できるマスタービットストリームを形成するために、オーディオ入力信号を圧縮およびコード化し、また前記オーディオ信号を再構築するために前記スケール調節されたビットストリームをデコード化する方法を提供する。階層的フィルタバンク(HFB)が入力信号の多重分解能の時間/周波数表現を提供し、エンコーダは、そこから音色成分および残余信号の両者を効率的に抽出できる。多重チャンネルオーディオのために、音色成分のジョイントコーディングおよび残余信号における残余成分のジョイントチャンネルコーディングが実施される。これらの成分は、デコード化された信号品質に対するそれらの相対的な寄与に基づいて順位付けされ、マスキング機能を基準に量子化される。該マスタービットストリームは、望ましいデータ転送速度よりも低いか、または概略これに等しいスケール調節されたデータ転送速度を有するスケール調節されたビットストリームを形成するために、充分な数の低順位成分を排除することによってスケール調節される。該スケール調節されたビットストリームは、位置情報に基づいて量子化された成分をアレンジし、失われた成分を無視し、前記配列された成分をデコード化して出力ビットストリームを作製することにより、逆階層的フィルターバンクを使用して適切にデコード化される。一つの可能な応用において、マスタービットストリームは保存され、次いで、もう一つ媒体に記録されるために、またはバンドが制限されたチャンネル上での送信のために、望ましいデータ転送速度までスケールダウンされる。多重スケール調節されたビットストリームが媒体上に保存されるもう一つの応用では、全てのビットストリームに対する集合データ転送速度制約を満たしながら、知覚される品質を最大にするために、各ストリームのデータ転送速度は独立に且つ動的に制御される。
ここで使用する「ドメイン」、「副ドメイン」および「成分」の用語は、ビットストリームにおけるスケール調節可能な要素の階層を記述するものである。その例には下記のものが含まれる。
Figure 2012098759
<残余コーディングトポロジーを備えたスケール調節可能なビットストリームエンコーダ>
図1に示すように、一つの例示的実施形態において、スケール調節可能なビットストリームエンコーダは、コア成分(音色成分)および/または残余成分(時間−サンプルおよびスケール因子)から最低順位の成分を選択的に排除することによって、ビットストリームを任意のデータ転送速度にスケール調節するために、残余コーディングトポロジーを使用する。該エンコーダは、階層的フィルタバンクを使用して入力信号を多重分解能の時間/周波数表現へと効率的に分解し、該エンコーダはそこから音色成分および残余成分を効率的に抽出することができる。多重分解能の時間/周波数表現を提供するためにここに記載する階層的フィルタバンク(HFB)は、入力信号のこのような表現が望ましい他の多くのアプリケーションで使用することができる。階層的フィルタバンクの一般的説明およびオーディオエンコーダで使用するためのその構成、並びに特定のオーディオエンコーダによって使用される修飾されたHFBが以下で説明される。
入力信号100が、マスキング計算機101および多元音色抽出器102に適用される。マスキング計算機101は入力信号100を分析し、周波数の関数としてマスキングレベルを同定する(入力信号101中に存在するそれよりも低い周波数は人間の耳には聞こえない)。多元音色抽出器102は、例えば多重重なりFFTを使用して、入力信号101の中に存在する周波数を認識し、または図示のようなMDCTに基づく階層的フィルタバンク(音色について定義された音響心理学的基準に合致する)が、該基準に従って音色を選択し、これら選択された音色の振幅、周波数、位相および位置成分を量子化し、音色リストの中にこれら音色を配置する。各反復またはレベルにおいて、選択された音色が該入力信号から除去され、残余信号が前方へと通される。完了したら、音色についての基準に合致しない全ての他の周波数が入力信号から抽出され、多元音色抽出器102、特に階層的フィルタバンクMDCTの最終段階(256)から、最終残余信号としてライン111上の時間ドメインで出力される。
多元音色抽出器102は、例えば、最大から出発して最小まで小さくなる五次元の重なり変換器を使用し、基本関数の使用により音色を検出する。サンプリング速度が44100Hzのオーディオ信号について、サイズがそれぞれ8192、4096、2048、1024および512の変換器が使用される。他の変換サイズを選択することもできるであろう。図7は、これら変換器が如何にして相互に重なるかを図示している。基本関数は次式により定義される。
Figure 2012098759
ここで:
i=振幅=(Rei・Rei+Imi・Imi
−(Rei+1・Rei+1+Imi+1・Imi+1)
t=時間 (t∈N 正の整数値である)
l=パワーが2の時の変換サイズ(l∈512、1024、…、8192)
Φ=位相
f=周波数
Figure 2012098759
各変換サイズで検出された音色は、本発明のデコーダで使用されるのと同じデコードプロセスを使用して、ローカルにデコード化される。これらのローカルにデコード化された音色は位相を反転され、時間ドメイン合算を通して元の入力信号と組合されて残余信号を形成し、該残余信号はHFBの次の反復またはレベルに通される。
マスキング計算機101からのマスキングレベルおよび多元音色抽出器102からの音色リストは、音色セレクタ103への入力である。音色セレクタ103は、先ず、マスキング計算機101により与えられるマスキングレベルに対する相対的パワーによって、多元音色抽出器102から提供される音色リストをグループ化する。次いで、反復プロセスを使用して、何れの音色成分がマスタービットストリーム中のコード化されたデータのフレームに適合するかを決定する。音色成分のためにフレーム中で利用可能な空間の量は、スケール調節前の、コード化されたマスタービットストリームの予め定められたデータ転送速度に依存する。全体のフレームが音色成分のために配分されれば、残余コード化は行われない。一般に、利用可能なデータ転送速度の或る部分は音色成分のために配分され、残り(マイナスオーバーヘッド)は残余成分のためにリザーブされる。
チャンネル群は、多重チャンネル信号のため、および知覚品質への寄与のような測定基準に従って、各チャンネル群内で同定されたチャンネルのために適切に選択される。選択された音色成分は、好ましくは、差動コーディングを使用して保存される。ステレオオーディオについて、2ビットフィールドは主チャンネルおよび副チャンネルを示す。振幅/位相および差動振幅/位相が、主チャンネルおよび副チャンネルのためにそれぞれ保存される。多重チャンネルオーディオについて、主チャンネルはその振幅および位相と共に保存され、またビットマスク(図9参照)は、全ての副チャンネルについて、含められた副チャンネルのための差動振幅/位相と共に保存される。該ビットマスクは、何れの他のチャンネルが主チャンネルと共にコード化されて、主チャンネルにおける各音色成分についてのビットストリームの中に保存されるかを指示する。
この反復プロセスの際に、フレームに適合しないと決定される音色成分の幾つかまたは全部が、時間ドメインへと逆変換されて、残余信号111と組合されてよい。しかし、該データ転送速度が低ければ、相対的に強い「選択解除された」音色成分が適切に残余成分から除外される。これにより、低データ転送速度における知覚品質を改善されることが分かっている。信号110によって表される選択解除された音色成分は、それらをライン114上の時間ドメインに逆変換するために、ローカルデコーダ104を介してローカルにデコード化され、コンバイナ105において多元音色抽出器102からの残余信号111と組合されて、合体された残余信号113が形成される。なお、この組合せプロセスは、容易に実行できるように、ライン114および111上に現れる信号は両者共に時間ドメイン信号である。合体された残余信号113は、残余エンコーダ107によって更に処理される。
残余エンコーダ107によって行われる最初の動作は、該信号を臨界的にサンプリングされた時間ドメイン周波数副バンドへと細分割するフィルタバンクを通して、合体された残余信号113を処理することである。好ましい実施形態では、音色成分を抽出するために階層的フィルタバンドが使用されるときは、これらの時間サンプル成分を階層的フィルタバンクから直接読取ることができ、それによって残余信号処理専用の第二のフィルタバンクの必要性を排除することができる。この場合、図21に示すように、コンバイナ104は、階層的フィルタバンクの最終段階(MDCT(256))からの出力上で動作して、「選択解除され」且つデコード化された音色成分114を残余信号111と合体させた後、副バンド時間サンプルを生じるIMDCT2106を計算する(図7のステップ3906、3908および3910も参照のこと)。次いで、これら副バンドの音響心理学的に関連した順序への更なる分解、量子化およびアレンジが行われる。この残余成分(時間サンプルおよびスケール因子)は、ジョイントチャンネルコーディングを使用して適切にコード化され、ここでは時間サンプルがグリッドGによって表され、またスケール因子がグリッドG0およびG1によって表される(図11参照)。この残余信号のジョイントコーディングは、チャンネル群に適用される部分グリッドを使用するが、これは主チャンネル群および副チャンネル群間における信号エネルギーの比を表す。これらのグループは、相互相関または他の測定基準を介して選択される(動的または静的に)。二以上のチャンネルを合体して、主チャンネルとして使用することができる(例えばL+R主チャンネル、C副チャンネル)。時間/周波数ディメンジョンでのスケール因子グリッド部分G0、G1の使用は、これら多重チャンネル群に適用されるときは新規であり、また二以上の副チャンネルが所定の主チャンネルに関連する可能性がある。個々のグリッド要素および時間サンプルが周波数によって順位付けされ、低い周波数には高い順位付けが与えられる。このグリッドは、ビット速度に従って順位付けされる。副チャンネル情報は、主チャンネル情報よりも低い優先度で順位付けされる。
コードストリング発生器108は、ライン120上の音色セレクタ103およびライン122上の残余エンコーダ107から入力を取り、これら二つの入力からの値を、当該技術で周知のエントロピーコーディングを使用して、ビットストリーム124へとコード化する。ビットストリームフォーマッタ109は、音色セレクタ103および残余エンコーダ107からの音響心理学的要素が、コードストリング発生器108を介してコード化された後に、マスタービットストリーム126における適切な位置に出現することを保証する。「順位付け」は、異なる成分のオーダリングによって、マスタービットストリームの中に暗示的に含められる。
スケーラ115は、エンコーダにより生じたマスタービットストリーム126の各フレームから、充分な数の最低ランクのコード化された成分を除去して、望ましいデータ転送速度未満または略これに等しいデータ転送速度を有するスケール調節されたビットストリーム116を形成する。
<階層的フィルタバンク>
多元音色抽出器102は、好ましくは「修飾された」階層的フィルタバンクを使用して、そこから音色成分および残余成分の両方を効率的に抽出できる多重分解能の時間/周波数分解能を提供する。HFBは、連続的な各反復において、入力信号を逐次的により低い周波数分解能で変換係数に分解し、また逐次的により精細な時間スケール分解能で時間ドメイン副バンドサンプルに戻す。階層的フィルタバンクによって発生された音色成分は、多重重なりFFTによって発生されたものと正確に同じであるが、コンピュータ処理の負荷は遥かに低い。階層的フィルタバンクは、入力信号を異なる時間/周波数分解能で同時に分析し、略任意の時間/周波数分解を達成することによって、ヒト聴覚系の等しくない時間/周波数分解能をモデル化する問題を取扱う。階層的フィルタバンクは、既知の分解能では見られない内部変換において、ウインドウ化および重なり加算ステップを使用する。該ウインドウ機能のこのステップおよび新規な設計は、望ましい分解を達成するために、この構造が任意のツリーにおいて反復されることを可能にし、また信号適応性で行われることができるであろう。
図21に示すように、信号−チャンネル・エンコーダ2100は、各反復2101a、…2101eにおける変換係数から音色成分を抽出し、該抽出された音色成分を量子化し、音色リスト2106の中に保存する。以下に、多重チャンネル信号のための音色信号および残余信号のジョイントコード化について述べる。各反復において、時間ドメイン入力信号(残余信号)が引出され2107、N点NDCTが適用されて2108、変換係数を生じる。該変換係数から音色が抽出され2109、量子化され2110、音色リストに追加される。選択された音色成分がローカルにデコード化され2111、変換係数から差引かれ2112、その後に逆変換が行われて2113、時間ドメイン副バンドサンプルが発生され、該サンプルはHFBの次の反復のための残余信号2114を形成する。最後のHFB反復よりも比較的低周波分解能を備えた最後の逆変換2115は、最終的な組合された残余113に対して実行され、ウインドウ化されて、残余成分G2117が抽出される。先に述べたように、何れかの「選択解除された」音色がローカルにデコード化され104、最終逆変換のコンピュータ剃りの前に残余信号111と組合される。該残余成分は時間サンプル成分(グリッドG)およびスケール因子成分(グリッドG0、G1)を含んでおり、これらは2118および2119のグリッドGから抽出される。グリッドGは再計算され2120、グリッドGおよびG1は量子化される2121,2122。グリッドG,G1およびG0の計算を以下に説明する。音色リスト上の量子化された音色はグリッドGおよびスケール因子グリッドG1は、全てコード化され、マスタービットストリームの中に配置される。各反復における入力信号からの選択された音色の除去、および最終逆変換のコンピュータ処理は、オーディオエンコーダによってHFBに課される変更である。
オーディオコーディングにおける基本的な困難は、人間の知覚における時間/周波数分解能のモデリングである。手拍子のような一過性の信号は、時間ドメインにおける高分解能を必要とする一方、管楽器のような調和的な信号は、コード化されたビットストリームによって正確に表されるため、周波数ドメインにおける高分解能を必要とする。しかし、時間分解能および周波数分解能が相互に逆であり、一つの変換は、両方のドメインにおける高精度を同時に与えることはできないことが周知の原理である。有効なオーディオコーデックは、時間および周波数分解能の間のこのトレードオフをバランスさせることを必要とする。
この問題に対する既知の解決策は、ウインドウの切り替えを利用し、変換サイズを入力信号の一時的性質に適合させる(K. Brandenburg et al., "The ISO-MPEG-Audio Codec: A Generic Standard for Coding of High Quality Digital Audio", Journal of Audio Engineering Society, Vol. 42, No. 10, October, 1994参照)。この分析ウインドウサイズの適合は、更なる複雑さを導入し、入力信号における一時的事象の検出を必要とする。アルゴリズムの複雑さを管理するために、先行技術のウインドウ切り替え方位方は、典型的には異なるウインドウサイズの数を二つに限定する。ここで述べる階層的フィルタバンクは、複数の時間/周波数分解能を並列に与えるフィルタバンクによって、信号/聴覚特徴に対するこの粗略な調節を回避する。
ハイブリッドフィルタバンクとして知られている多くのフィルタバンクが存在し、これは、入力信号を与えられた時間/周波数表現に分解する。例えば、ISO/IEC11172−3に記載されたMPEG層3アルゴリズムは、各副バンドにおいて擬直交ミラーフィルタバンクに続くMDCT変換を利用して、望ましい周波数分解能を提供する。我々の階層的フィルタバンクにおいて、我々は、スペクトルライン群に対して、MDCTのような変換に続く逆変換(例えばIMDCT)を利用して、入力信号の融通性のある時間/周波数変換を実行する。
ハイブリッドフィルタバンクと異なり、階層的フィルタバンクは、二つの連続的かつ重なった外側の変換からの結果を使用して、「重なった」内側の変換を計算する。階層的フィルタバンクを用いれば、最初の変換の頂部に二以上の変換を集めることが可能である。これはまた、先行技術のフィルタバンク(例えばツリー様フィルタバンク)を用いても可能であるが、レベル数の増大に伴う周波数ドメイン分離の迅速な劣化のため実際的ではない。階層的フィルタバンクは、幾らかの時間ドメイン劣化を犠牲にして、この周波数ドメインの劣化を回避する。しかし、この時間ドメインの劣化は、ウインドウ形状の適切な選択を介して制御することができる。適切な分析ウインドウを選択すると、内側変換の係数もまた、時間シフト対して不変で、内側変換のサイズに等しくすることができる(従来のアプローチのように最も外側の変換のサイズではない)。
ここでは「シュマンク・ウインドウ(Shmunk window)」と称される、階層的フィルタバンクと共に使用するための適切なウインドウW(x)は、次式によって定義される。
Figure 2012098759
ここで、xは時間ドメインサンプル指数(0<x≦L>であり、またLはサンプル中のウインドウの長さである。
通常使用されるカイゼル−ベッセルに誘導されたウインドウ2602と比較したときの周波数レスポンス2603が、図2aに示されている。二つのウインドウは形状が類似しているが、副ローブの減衰は本提案になるウインドウの方が大きいことが見て取れる。シュマンク・ウインドウの時間ドメインレスポンス2604は、図2bに示されている。
時間/周波数分解を提供するための一般的に適用可能な階層的フィルタバンクが、図3および図4に示されている。このHFBは、オーディオ・コーデックに使用するために、上記で述べたように改変されなければならないであろう。図3において、各点線における数字は、各レベルでの等間隔の周波数ビンの数を表す(しかし、これらビンの全てが計算される訳ではない)。下に向う矢印は、N/2副バンドを生じるN点MDCT変換を表す。上に向う矢印は、N/8副バンドを取り、それらを一つの副バンド内でN/4時間サンプルへと変換するIMDCTを表す。各正方形は一つの副バンドを表す。各長方形はN/2副バンドを表す。この階層的フィルタバンクは以下のステップを実行入する:
(a)図5aに示すように、入力信号サンプル2702がNサンプル2704のフレームの中にバッファーされ、各フレームはNサンプルウインドウ関数(図5b)2706を乗じられて、Nウインドウ化されたサンプル2708(図5c)を生じる(ステップ2900);
(b)図3に示すように、N点変換(図3において下向きの矢印2802で表される)がウインドウ化されたサンプル2708に適用されて、N/2変換係数2804を生じる(ステップ2902);
(c)任意に、1以上の隣接変換係数の線型結合を適用することによって、リンギング除去が1以上入の変換係数2804に適用される;
(d)N/2変換係数2804がP群のMi係数に分割され、ここでのMi係数の総和はN/2である。即ち、
Figure 2012098759
(e)P群の各々について(2*Mi)点逆変換が前記変換係数に適用され、各群から(2*Mi)副バンドサンプルを生じる(ステップ2906);
(d)各副バンドにおいて、(2*Mi)点ウインドウ関数2706により(2*Mi)副バンドサンプルが適用される(ステップ2908);
(e)各副バンドにおいて、Miの先のサンプルが重ねられ、対応する現在の値に付加されて、各副バンドについてMiの新たなサンプルを生じる(ステップ2910);
(f)Nが、先のMiに等しく設定され、PおよびMiについて新たな値を選択する; (g)望ましい時間/変換分解能が達成されるまで(ステップ2914)、Nについての連続的に小さくなる変換サイズを使用して、Miの新規なサンプルの1以上の副バンドに対して上記ステップが反復される(ステップ2912)。なお、ステップは全ての副バンド、最低の副バンドのみ、またはこれらの何れか望ましい組み合わせに対して反復されてよいことに留意されたい。これらのステップが全ての副バンドに対して反復されれば該HFBは均一であり、そうでなければそれは不均一である。
図3および上記で述べたフィルタバンクの実行における周波数レスポンス3300プロットが、図6(ここではN=128、Mi=16、およびP=4)に示されており、これらステップは各段階における最も低い二つの副バンドに対して反復される。
この階層的フィルタバンクの潜在的な応用は、オーディオを越えて、ビデオおよび他のタイプの信号(例えば地震、医療、他の時間シリーズの信号)の処理にまで及ぶ。ビデオのコード化および圧縮は、時間/周波数分解についての同様の要件を有し、階層的フィルタバンクにより与えられる該分解の任意的性質は、個別のコサイン変換およびウエーブレット分解に基づく現在の技術の状態に対して顕著な利点を有する。フィルタバンクはまた、地震もしくは機械的な測定値、生物医学的信号処理、天然もしくは生理学的な信号の処理、スピーチ、または他の時間シリーズ信号の分析および処理にも適用されてよい。周波数ドメイン情報は、連続的に低くなる周波数分解能で、各反復において生じた変換係数から抽出されることができる。同様に、時間ドメイン情報は、連続的に更に精細になる時間スケールで、各反復において生じた時間ドメイン副バンドサンプルから抽出することができる。
<階層的フィルタバンク:均一に離間された副バンド>
図7は、均一に離間した副バンドフィルタバンクを実行する、階層的フィルタバンクの例示的実施形態3900のブロック図である。均一なフィルタバンクについては、Mi=M=N/(2*P)である。副バンド信号3914への入力信号の分解について以下に述べる:
1.入力時間サンプル3902が、N点(50%が重なるフレーム3904)においてウインドウ化される。
2.N点MDCT3906が、各フレームに対して実行される。
3.得られたMDCT係数が、各群において、P群3908のM係数にグループ化される。
4.各群に対して(2*M)点のIMDCT3910が実行され、(2*M)副バンド時間サンプル3911が形成される。
5.得られた時間サンプル3911は、(2*M)点、50%重なりフレーム、および重なり加算(OLA)でウインドウ化され、各副バンドにおいてM倍のサンプルが形成される。
例示的実施例では、N=256、P=32、およびM=4である。なお、N,PおよびMについての異なる選択によって表される異なる変換サイズおよび副バンドグルーピングもまた、望ましい時間/周波数分解を達成するために用いることができる。
<階層的フィルタバンク:不均一に離間されたサブバンド>
階層的フィルタバンク3000のもう一つの実施形態が、図8aおよび図8bに示されている。この実施形態では、異なる周波数分解能を表す変換係数を備えた三つの異なる周波数範囲を用いた変換を生じさせるためには、幾つかのフィルタバンク段階が不完全である。時間ドメイン信号は、一連のカスケード化された単一要素のフィルタバンクを使用して、これらの変換係数へと分解される。詳細なフィルタバンク要素は、望ましい時間/周波数分解を生じるように何回も反復されてよい。なお、バッファーサイズ、変換サイズ、およびウインドウサイズについての数字、並びに変換のためのMDCT/IMDCTの使用は、例示的実施形態だけのためのものであり、本発明の範囲を限定するものではない。他のバッファーウインドウおよび変換サイズ、並びに他の変換タイプもまた有用であり得る。一般に、Miは相互に異なるが、Miの合計がN/2に等しいとの制約条件を満たす。
図8bに示すように、単一のフィルタバンク要素バッファ3022は、サンプル3020を入力して、256のサンプル3024のバッファを形成し、これは該サンプルに256サンプルのウインドウ関数を乗じることによってウインドウ化される。このウインドウ化されたサンプル3028は、256点MDCT3030を介して変換され、128の変換係数3032を形成する。これら128の係数のうち、96の最も高い周波数係数が出力3037のために選択され3034、更に処理されることはない。この32の最も低い周波数係数は、次いで逆変換3042されて、64の時間ドメインサンプルを生じ、次いで、これはサンプル3046にウインドウ化され、先の出力フレームを重なり加算3048されて、32の出力サンプル3050を生じる。
図8aに示した例では、フィルタバンクは、256サンプルの入力バッファサイズで1回反復された一つのフィルタバンク要素3004に続き、これも256サンプルの入力バッファサイズで反復された一つのフィルタバンク要素3010で構成されている。最終段階3010は、短縮された単一のフィルタバンク要素を表しており、バッファリング3022、ウインドウイング3026、およびMDCT3030ステップのみで構成されて、0〜1378Hzの最低周波数範囲を表す128周波数ドメイン係数を出力する。
従って、44100Hzのサンプル速度を備えた入力3002を想定すれば、図示のフィルタバンクは、「Out1」3008における周波数範囲5513〜22050Hzを表す96係数、「Out1」3014における周波数範囲1379〜5512Hzを表す96係数、および「Out3」3018における周波数範囲0〜1378Hzを表す128係数を生じる。
なお、周波数変換/逆変換のためのMDCT/IMDCTの使用は例示であり、本発明の一部として、他の時間/周波数変換を適用できることに留意すべきである。このアプローチでは、上記で述べた階層における何れかのブランチを選択的に拡張することによって、変換サイズについての他の値も可能であり、他の分解も可能である。
<音色成分および残余成分の多重チャンネルジョイントコーディング>
図1における音色セレクタ103は、入力として、マスク計算機101からのデータおよび多元音色抽出器102からの音色リストを取る。音色セレクタ103は、最初に、マスク計算機101に対する相対的出力によって音色リストを保存し、音響心理学的重要度による序列を形成する。用いられる式は下記により与えられる:
Figure 2012098759
ここで、
k=スペクトル線振幅
ik=iのマスク副フレームにおけるkのスペクトル線についてのマスキングレベル
l=マスク副フレームの項における基本関数の長さ
である。
合計は、スペクトル成分が非ゼロ値を有する副フレームに対して行われる。
次いで、音色セレクタ103は反復プロセスを使用して、当該フレームのために保存された音色リストから、何れの音色成分がビットストリームに適合するかを決定する。二以上のチャンネルにおいて音色の振幅が概略同じであるステレオもしくは多重チャンネルオーディオ信号において、完全な振幅および位相のみが主チャンネルに保存される;該主チャンネルは、音色成分について最大振幅を備えたチャンネルである。同様の音色特性を有する他のチャンネルは、主チャンネルからの相違を保存する。
各変換サイズについてのデータは、副フレームの数を包含し、最も小さい変換サイズは2つの副フレーム;二番目は4つの副フレーム;3番目は8つの副フレーム;四番目は16の副フレーム;5番目は32の副フレームをカバーする。1フレームには16の副フレームが存在する。音色データは、音色情報が見出される変換のサイズによってグループ化される。各変換サイズについて、以下の音色成分データが量子化され、エントロピーコード化されて、ビットストリームの中に配置される:エントロピーコードされた副フレーム位置、エントロピーコードされたスペクトル位置、エントロピーコードされた量子化振幅、および量子化された位相。
多重チャンネルオーディオの場合、各音色成分について一つのチャンネルが主チャンネルとして選択される。何れのチャンネルを主チャンネルとすべ気化の決定は、固定されてもよく、または信号特性または知覚基準に基づくものであってよい。主チャンネルのチャンネル数、並びにその振幅および位相はビットストリームの中に保存される。図9に示すように、他のチャンネルの何れが指示された音色成分を含み、従って副チャンネルとしてコード化されるべきかを示すビットマスク3602が保存される。次いで、主および副の振幅および位相の間の差がエントロピーコード化され、その中に音色成分が存在する各副チャンネルについて保存される。この特定の例は7チャンネルを仮定しており、主チャンネルはチャンネル3である。ビットマスク3602は、副チャンネル1,4,および5上に音色成分の存在を指示する。主チャンネルのために使用されたビットは存在しない。
多元音色抽出器102は、1以上の分解能でのMDCT係数のフレームで成り立っている。音色セレクタ103は、コードストリング発生器108により、それらのデコード化された信号品質に対する関係に基づいて、ビットストリーム出力フレームの中への挿入のために何れの音色成分が保持され得るかを決定する。当該フレーム中に適合しないと決定されたこれら音色成分は、ローカルデコーダ104への出力110である。該ローカルデコーダ104は、音色セレクタ103の出力を取り、対照表(図20)からの合成係数2000でスケール調節された各音色成分を加えることによって全ての音色成分を合成し、MDCT係数のフレームを生じさせる(図16参照)。これらの係数は、コンバイナ105において多元音色抽出器102の出力111に加えられて、階層的フィルタバンクの最後の反復のMDCT分解で残余信号113を生じる。
図10に示すように、各チャンネルについての残余信号113は、図7に示したウインドウ化および重なり加算3904、並びにIMDCT3910のステップの前に、階層的フィルタバンク3900のMDCT係数3908として残余エンコーダ107へと通される。IMDCT3910、ウインドウ化および重なり加算3912の後続のステップが実行され、各チャンネルのための時間ドメインにおいて、32の等間隔で臨界サンプリングされた周波数副バンド3914を生じる。時間サンプル成分を構成するこの32の副バンドは、グリッドGと称される。なお、上記で概説したもの以外の異なる時間/周波数分解を実施するためのエンコーダにおいて、階層的フィルタバンクの他の実施形態を使用することもでき、また音色成分を抽出するために他の変換を使用することもできるであろう。音色成分を抽出するために階層的フィルタバンクが使用されないならば、もう一つの形態のフィルタバンクを使用して副バンドを抽出することができるが、より高いコンピュータ負荷を伴う。
ステレオもしくは多重チャンネルオーディオのために、チャンネル選択ブロック501において幾つかの計算が行われ、音色成分をコード化するための主チャンネルおよび副チャンネル、並びに音色成分をコード化するための方法(例えば左−右、中央−側部)を決定する。図11に示すように、チャンネルグループ化プロセス3702は、最初に、多重チャンネルの何れが一緒にコード化され得るかを決定し、また全てのチャンネルが群に形成され、最後の群はおそらく不完全である。このグループ化は、聴取者の知覚的基準およびコード化効率によって決定され、チャンネル群は三つ以上のチャンネルの組合せで構成されてよい。例えば、L,R,Ls,RsおよびCチャンネルで構成される5チャンネル信号は、{L,R}、{Ls,Rs}、{L+R,C}としてグループ化されてよい。次いで、これらの群は主チャンネルおよび副チャンネルとして整理される。例示的多重チャンネルの実施形態において、主チャンネルの選択は、フレーム全体に亘るチャンネルの相対的パワーに基づいて行われる。以下の式は、相対的パワーを定義する。
Figure 2012098759
グループ化モードはまた、図11のステップ3704に示したようにして決定される。音色成分は、左−右または中央−側部の表現としてコード化されてよく、或いは、このステップの出力は、点線で示すように一つの主チャンネルのみを生じてもよい。左−右の表現において、副バンドのための最も高いパワーを持ったチャンネルは主チャンネルとみなされ、また右チャンネルが最高パワーのチャンネルであれば、副バンドのためのビットストリーム3706において単一ビットが設定される。以下の条件が副バンドについて満たされるときに、中央−側部コード化が該副バンドのために使用いされる:
Figure 2012098759
多重チャンネル信号の場合、各チャンネル群について上記が実行される。
ステレオ信号の場合、グリッド計算502がステレオパンニンググリッドを提供し、ここではステレオパンニングが概略的に再構成されて、残余信号に適用されることができる。該ステレオグリッドは、4副バンド×4時間の間隔であり、該ステレオグリッドにおける各副バンドは、3kHzを越える周波数バンドで出発して、四つの副バンドおよびフィルタバンク500の出力からの32のサンプルをカバーする。他のグリッドサイズ、カバーされた周波数副バンド、および時間分割が選択され得るであろう。ステレオグリッドのセルにおける値は、該セルによってカバーされた値の範囲について、主チャンネルのパワーに対する所定のチャンネルのパワーの比率である。次いで、この比率は、音色成分をコード化するために使用されたのと同じ表に量子化される。多重信号の場合、上記ステレオグリッドは各チャンネル群について計算される。
多重チャンネル信号の場合、グリッド計算502は複数のスケール因子グリッド(各チャンネル群当り一つ)を提供し、これらは空間ドメインにおけるそれらの音響心理学的重要度の序列でビットストリームの中に挿入される。4副バンド×32サンプルの各郡についての主チャンネルに対する、所定のチャンネルのパワーの比率が計算される。次いで、この比率は量子化され、この量子化された値プラス該パワー比率の対数符号が、前記ビットストリームの中に挿入される。
スケール因子計算503はグリッドG1を計算し、これはビットストリームの中に置かれる。次に、G1を計算する方法を説明する。G0が、最初にGから誘導される。G0は全部で32の副バンドを含んでいるが、Gの時間分解能の半分に過ぎない。G0におけるセルの内容は、Gから与えられた副バンドの二つの隣接値の最大値の量子化された値である。量子化(以下の式ではQuantizeと称する)は、多元音色抽出器102における音色成分をコード化するために使用したのと同じ修飾された対数量子化表を使用して実行される。従って、G0における各セルは、次式によって決定される:
Figure 2012098759
ここで、
mは副バンドの数であり、
nはG0の欄番号である。
G1は、G0から誘導される。G1は、11の重なり副バンドおよびG0の1/8時間分解を有しており、11×8次元のグリッドを形成する。G1における各セルは、音色成分のために使用されたのと同じ表を使用して量子化され、次式を使用して見出される:
Figure 2012098759
ここで、WIは、図19における表1から得られた重み値である。
G0は、ローカルグリッドデコーダ506におけるG1から再計算される。時間サンプル量子化ブロック507において、出力時間サンプル(「時間サンプル成分」)が階層的フィルタバンク(グリッドG)から抽出され、これは量子化レベル選択ブロック504を通過し、時間サンプル成分をローカルグリッドデコーダ506から再計算されたG0におけるそれぞれの値で割ることによってスケール調節され、量子化レベル選択ブロック504によって決定された副バンドの関数として量子化レベルの数に量子化される。次いで、これら量子化された時間サンプルは、量子化されたグリッドG1と共にコード化されたビットストリームの中に配置される。全ての場合において、ビットストリーム保存操作のための優先度を決定するために、これら成分の音響心理学的重要度を反映するモデルが使用される。
幾つかの信号についてコード化利得を改善するための追加の向上ステップにおいては、量子化およびコード化の前に、二次元個別コサイン変換(DCT)を適用することによって、G,G1および部分グリッドを含むグリッドを更に処理してよい。
<スケール調節可能なビットストリームおよびスケール調節機構>
典型的には、マスタービットストリームの各フレームは、(a)入力信号の異なる周波数分解能での周波数ドメイン内容を表す複数の量子化された音色成分、(b)再構築された音色成分と入力信号の間の相違から形成された時間ドメイン残余を表す、量子化された残余時間サンプル成分、および(c)入力信号の周波数範囲に亘る、残余信号の信号エネルギーを表すケール因子グリッドを含んでいる。多重チャンネル信号については、各フレームが、d)チャンネル群内での残余信号チャンネルの信号エネルギー比率を表す部分グリッド、およびe)音色成分のための副チャンネルの共同コード化を特定する各主チャンネルについてのビットマスクを含んでいる。通常は、各フレームにおける利用可能なデータ転送速度の一部は、音色成分(a)から割当てられ、また一部は残余成分(b、c)のために割当てられる。しかし、幾つかの場合には、利用可能な転送速度の全てが、音色成分をコード化するために割り当てられてよい。或いは、利用可能な転送速度の全てが、残余成分をコード化するために割り当てられてよい。極端な場合、スケール因子グリッドだけがコード化されてよく、この場合にはデコーダがノイズ信号を使用して、出力信号を再構築する。実際の応用の殆ど全てにおいて、該スケール調節されたビットストリームは、音色成分を含む少なくとも幾つかのフレーム、およびスケール因子グリッドを含む幾つかのフレームを含むであろう。
マスタービットストリームの中に配置された成分の構造および序列は、本発明によって定義されたように、広いビット範囲の、微細に粒状化された、ビットストリームスケール調節可能性を提供する。外部機構によってビットストリームを滑らかにスケール調節することを可能にするのは、この構造および序列である。図12は、図1のオーディオ成分コーデックに基づく成分の構造および序列を描いており、これは元のビットストリームを音響心理学的に関連した成分の特定の組に分解する。この例において使用されるスケール調節可能なビットストリームは、多くの資源交換ファイルフォーマット、またはRIFF、即ち、「チャンク」と呼ばれるデータ構造で構成されるが、他のデータ構造を使用いすることもできる。当業者に周知のこのファイルフォーマットは、チャンクによって運ばれるデータのタイプ、並びにチャンクによって運ばれるデータ量の同定を可能にする。なお、その定義されたビットストリームデータ構造の中に担持されるデータの量および種類に関する情報を運ぶ如何なるビットストリームフォーマットも、本発明を実施するために使用できることに留意すべきである。
図12は、スケール調節可能なデータ転送速度フレームチャンク900を、該フレームチャンク900内に担持される音響心理学的データを含む副チャンク902、903、904、905、906、906、907、908、909、910および912と共に示している。図12は、フレームチャンクのためのチャンクIDおよびチャンク長さのみを描いているが、副チャンクIDおよび副チャンク長さのデータが各副チャンク内に含められる。図12は、スケール調節可能なビットストリームのフレームにおける副チャンクの序列を示している。これらの副チャンクは、コード化されたビットストリームの各副ドメインのために使用されるユニークな副チャンクと共に、スケール調節可能なビットストリームによって生じた音響心理学的成分を含んでいる。論理的決定または計算によって、音響心理学的重要度で整列された副チャンクに加えて、副チャンク内の成分もまた、音響心理学的重要度で配列される。当該フレームにおける最後のチャンクであるゼロチャンク911は、当該フレームが一定もしくは特定のサイズであることが必要とされる場合に、チャンクを埋めるために使用される。従って、チャンク911は音響心理学的関連を有しておらず、最も低い重要度の音響心理学的チャンクである。時間サンプル2チャンク910は当該図の右手側に現れ、また最も重要な音響心理学的チャンク、即ちグリッド1チャンク902は、当該図の左手側に現れる。ビットストリームの最後にある最も音響心理学的関連性の低いチャンク、即ちチャンク910からのデータを最初に除去するように操作し、該ビットストリームの最初に向って徐々により大きな音響心理学的関連を有する成分、即ちチャンク902を除去する方向で作業することによって、データ転送速度における各連続的な低下について可能な最高品質が維持される。なお、該ビットストリームによってサポートされることが可能な最高のデータ転送速度、および最高のオーディオ品質は、コード化時間において定義される。しかし、スケール調節後の最低データ転送速度は、アプリケーションによる使用のために許容可能なオーディオ品質のレベルによって、またはチャンネルまたはメディア上に置かれる速度制約によって定義される。
除去された各音響心理学的成分は、同じビット数を利用しない。本発明の現時点での実施のためのスケール調節分解能は、音響学的重要度が最低の成分についての1ビットから、音響学的重要度が最高の成分についての32ビットにまで亘っている。該ビットストリームをスケール調節するための機構は、全体のチャンクを一度に除去することを必要としない。先に述べたように、各チャンク内の成分は、音響学的に最も重要なデータが該チャンクの最初に配置されるように配列される。この理由で、除去された各成分について可能な最良のオーディオ品質を維持しながら、成分はチャンクの最後から、スケール調節機構によって一度に一つの成分だけ除去されることができる。本発明の一実施形態においては、スケール調節機構によって全体の成分が除去される一方、他の実施形態においては、幾つかまたは全ての成分が除去されてよい。該スケール調節機構は、必要に応じてチャンク内の成分を除去し、当該成分が除去された特定のチャンク、即ち、フレームチャンク長さ915およびフレームチェックサム901のチャンク長さフィールドを更新する。本発明の例示的実施形態の詳細な議論から分かるように、スケール調節された各チャンクについての更新されたチャンク長さ、並びにデコーダに利用可能な更新されたフレームチャンク長さおよびフレームチェックサム情報を用いれば、該デコーダは、該ビットストリーム内に失われた成分であるチャンク、並びに前記ビットストリームから完全に失われるチャンクが存在したとしても、スケール調節されたビットストリームを適性に処理し、DACへ送達するための固定されたサンプル速度オーディオ出力信号を自動的に生じることができる。
<残余コード化技術のためのスケール調節可能なビットストリームデコーダ>
図13は、デコーダのためのブロック図を示している。ビットストリームパーサ600は、コード化前のコード化される信号のヘルツでのサンプル速度、該ストリームの元のデータ転送速度、およびコード化されたデータ転送速度からなる初期副情報を読取る。この初期副情報は、元の信号の完全なデータ転送速度を再構築することを可能にする。ビットストリーム599における更なる成分は、ビットストリームパーサ600によって構文解析され、適切なデコード要素:音色デコーダ601または残余デコーダ602へと回される。音色デコーダ601を介してデコード化された成分は、信号を時間ドメインへと戻し変換する逆周波数変換604を通して処理される。重なり加算ブロック608は、先にデコード化されたフレームの最後の半分の値を、逆周波数変換604の出力である丁度デコード化されたばかりのフレームの最初の半分の値に加える。ビットストリームパーサ600が残余デコード化プロセスの一部であると決定する成分は、残余デコーダ602を通して処理される。時間ドメイン中に表された32の周波数副バンドを含む残余デコーダ602の出力は、逆フィルタバンク605を通して処理される。逆フィルタバンク605は、32の副バンドを、コンバイナ607において重なり加算608の出力と組合される一つの信号に再合体させる。コンバイナ607の出力は、デコード化された出力信号614である。
コンピュータ処理負荷を低減するために、信号を時間ドメインへと戻し変換する逆周波数変換604および逆フィルタバンク605を、これら動作をコンバイナ607と一体化させてデコード化された時間ドメイン出力オーディオ信号614を形成する逆階層的フィルタバンクと共に実装することができる。デコーダでの階層的フィルタバンクで音色成分が残余成分と合体される方法での、デコーダにおける階層的フィルタバンクの使用は新規である。残余信号は、各副バンドにおけるMDCTを使用して順方向変換され、次いで、この音色成分が再構築されて、最終段階のIMDCTの前で合体される。多重分解能アプローチは、他の用途のためにも一般化することができるであろう(例えば、多重レベルの異なる分解は、本発明のこの側面によってカバーされるであろう)。
<逆階層的フィルタバンク>
デコーダの複雑さを低減するために、階層的フィルタバンクを使用して、逆周波数変換604、逆フィルタバンク605、重なり加算608およびコンバイナ607のステップを合体してもよい。図15に示すように、残余デコーダ602は逆階層的フィルタバンク4000の最初の段階へと通される一方、音色デコーダ601の出力は、最終逆変換4010の前の高周波数分解能段階において、残余サンプルに加えられる。次いで、こうして得られた逆変換されたサンプルが重なり加算されて、線型出力サンプル4016を生じる。
HFB2400を使用した単一チャンネルについてのデコーダの全体的な動作が、図22に示されている。音色信号および残余信号の多重チャンネルデコード化についての追加のステップが、図10、図11および図18に示されている。量子化グリッドG1およびG’は、ビットストリームパーサ600によってビットストリーム599から読み取られる。残余デコーダ602は、グリッドG’およびG12404を逆量子化(Q-1)2401、2402し、グリッドG1からG0を再構築する2405。グリッドG0は、各グリッドにおける対応する要素を掛け合わせることによって、グリッドG’に適用され、スケール調節されたグリッドGが形成され、これは階層的フィルタバンク2401での次の段階に入力される副バンド時間サンプル4002からなっている。多重チャンネル信号の場合は、副チャンネルをデコード化するために部分グリッド508が使用されるであろう。
最低周波数分解能(P=16、M=256)の音色成分(T5)2407が、ビットストリームパーサ600によってビットストリームから読取られる。音色デコーダ601は、音色成分を逆量子化2408および合成2409し、P群のM周波数ドメイン係数を発生させる。
グリッドG時間サンプル4002は、図15に示すようにしてウインドウ化および重なり加算2410され、次いでP(2*M)点MDCT2411により順方向変換されてP群のM周波数ドメインン係数が形成され、これは次いで、図16に示した音色成分から合成されたP群のM周波数ドメイン係数と合体2412される。この合体された周波数ドメイン係数は、次いで、長さ−N・IMDCT2413によって濃縮および逆変換され、ウインドウ化および重なり加算2414されてN個の出力サンプル2415を発生し、これは当該階層的フィルタバンクの次の段階へと入力される。
次に低い周波数分解能音色成分(T4)がビットストリームから読み出され、上記で述べたようにして階層的フィルタバンクの先の段階の出力と組み合わされ、次いで、全ての周波数成分が当該ビットストリームから読み出され、合体および再構成されるまで、P=8,4,2,1およびM=512,1024,2048,4096についてこの反復が継続される。
該デコーダの最終段階において、この逆変換は、デコードされた出力614として出力されるN個の完全バンド幅の時間サンプルを生じる。先のP,MおよびNの値は、一つの例示的実施形態についてのものに過ぎず、本発明の範囲を限定するものではない。他のバッファサイズ、ウインドウサイズおよび変換のサイズ、並びに他の変換タイプもまた使用されてよい。
説明したように、デコーダは、音色成分、時間サンプル成分およびスケール因子グリッドを含むフレームを受信することを予想している。しかし、これらの1以上がスケール調節されたビットストリームから失われれば、該デコーダはこのデコード化された出力を連続的に再構築する。例えば、フレームが音色成分のみを含んでいれば、4002での時間−サンプルはゼロであり、残余成分は、逆HFBの最初の段階において合成された音色成分との合体2403はされない。1以上の音色成分T5,…T1が失われていれば、当該反復においてゼロ値が合体される2403。当該フレームが、スケール因子グリッドのみを含んでいれば、該デコーダはグリッドGの代りにノイズ信号で置換して、出力信号をデコード化する。その結果、スケール調節されたビットストリームの各フレームの組成は、信号の内容、変化するデータ転送速度制約などによって変化し得るので、該デコーダは、デコード化された出力信号を連続的に再構築することができる。
図16は、図15の逆階層的フィルタバンク内において、音色成分が如何にして組合されるかを、より詳細に示している。この場合、副バンド残余信号4004がウインドウ化および重なり加算され4006、順方向変換され4008、全ての副バンドから得られた係数がグループされて、係数の単一フレーム4010が形成される。次いで、各音色係数は、音色成分振幅エンベロープ4120に合成係数の群4104(通常は表照合により与えられる)を乗じることによって、またその結果を所定の音色成分周波数4106の回りにセンタリングされた係数に加えることによって、残余係数のフレームと組合される。これらの音色合成係数の追加は、音色成分の全長に亘って同じ周波数領域のスペクトル線上で実行される。この方法で全ての音色成分が追加された後に、最終IMDCTが実行され、その結果がウインドウ化され、且つ先のフレームに重なり加算されて、出力時間サンプル4016を生じる。
逆階層的フィルタバンク2850の一般的形態が図14に示されており、これは図3に示した階層的フィルタバンクに適合する。各入力フレームは、Pの副バンドの各々にMiの時間サンプルを含んでおり、Miの係数の合計がN/2であるようになっている:
Figure 2012098759
図14において、上向きの矢印はN−点のIMDCT変換を表し、これはN/2のMDCTを取って、それらをN個の時間ドメインサンプルへと変換する。下向きの矢印はMDCTを表し、これは一つの副バンド内のN/4サンプルを取って、それらをN/8のMDCT係数に変換する。各正方形は一つの副バンドを表す。各長方形は、N/2のMDCT係数を表す。以下のステップが図14に示されている:
(a)各副バンドにおいて、Miの先のサンプルがバッファーされ、現在のMiサンプルと連結されて、各副バンドについての(2*Mi)の新たなサンプルを生じる2828; (b)各副バンドにおいて、(2*Mi)の副バンドサンプルは、(2*Mi)点ウインドウ関数を乗じられる2706(図5a〜図5c);
(c)(2*Mi)点変換(下向き矢印2826で表される)が適用されて、各副バンドについてMiの変換係数を生じる;
(d)各副バンドについてのMiの変換係数が濃縮されて、N/2の係数の一つの群2824が形成される;
(e)N点逆変換(上向き矢印2822で表される)が前記連結された係数に適用されて、Nのサンプルを生じる;
(f)Nサンプルの各フレーム2704は、N−サンプルウインドウ関数2706を乗じられ、Nウインドウ化されたサンプル2708を生じる。
(g)得られたウインドウ化されたサンプル2708が重なり加算されて、所定の副バンドレベルでN/2の新たな出力サンプルを生じる。
(h)上記ステップは、全ての副バンドが処理されてしまうまで、現在のレベルおよび全ての後続レベルにおいて反復されて、元の時間サンプル2840が再構築される。
<逆解創意的フィルタバンク:均一に離間された副バンド>
図15は、図7に示した順方向フィルタバンクと適合する、逆階層的フィルタバンク4000の例示的実施形態のブロック図を示している。デコード化された出力信号の合成を、以下で更に詳細に説明する:
1.各入力フレーム4002は、Pの副バンドの各々の中にM個の時間サンプルを含んでいる。
2.各副バンド4004をバッファーし、Mの新たなサンプルの中にシフトし、(2*M)点ウインドウを、50%重なり加算(OLA)4006を適用して、Mの新たな副バンドサンプルを生じる。
3.(2*M)点MDCT4006が各副バンド内で実行されて、Pの福バンドの各々において、MのMDCT係数の一つのフレームが形成される。
4.得られたMDCT係数がグループ化されて、(N/2)のMDCT係数の一つのフレーム4010が形成される。
5.各フレーム上で、N点IMDCT4012が実行される。
6.IMDCT出力は、N点の50%重なりフレームでウインドウ化され、重なり加算4014されて、N/2の新たな出力サンプル4016が形成される。
一つの例示的実施形態においては、N=256、P=32、およびN=4である。なお、N,P,およびMについての異なる選択によって表される異なる変換サイズおよび副バンドグループ化もまた、望ましい時間/周波数分解を達成するために用いることができる。
<逆階層的フィルタバンク:不均一に離間した副バンド>
逆階層的フィルタバンクのもう一つの実施形態が図17a〜17bに示されており、これは図8a〜8bに示したフィルタバンクと適合する。この実施形態において、詳述されたフィルタバンク要素の幾つかは、三つの異なる周波数範囲を用い、各範囲において異なる周波数分解能を表す変換係数を用いて変換を生じるためには不完全である。これら変換係数からの時間ドメイン信号の再構築について、次の通り説明する。
この場合、第一の合成要素3110は、図17bに示された詳述した要素のバッファリング3122、ウインドウ化3124、およびMDCT3126のステップを省略している。その代りに、入力3102が単一組の係数を形成し、該係数は逆変換されて256の時間サンプルを生じ、これはウインドウ化され3132、また先のフレームを重なり加算3134されて、この段階について128の新たな時間サンプルの出力3136を生じる。
第一の要素3110の出力および96の係数3106が、第二の要素3112へと入力され、図17bに示すように組合されて、フィルタバンクの第三の要素3114への入力のための128の時間サンプルを生じる。図17aにおける第二の要素3112および第三の要素3114は、図17bの完全に詳述された要素を組込んでおり、128の新たな時間サンプル出力を生じるようにカスケードされる。なお、該バッファサイズおよび変換サイズは単なる例として提供されるものであり、他のサイズが使用されてもよい。特に、詳述された要素への入力におけるバッファリング3122は、一般的フィルタバンクの階層においてそれが使用される場所に応じて、異なる入力サイズに適応するように変化してよいことに留意すべきである。
次に、デコーダブロックに関する更なる詳細を説明する。
ビットストリームパーサ600
ビットストリームパーサ600は、ビットストリームからIFFチャンク情報を読取り、該情報の要素を適切なデコーダ、音色デコーダ601または残余デコーダ602上に回す。該デコーダに到達する前に、ビットストリームがスケール調節されていることも可能である。用いられるスケール調節の方法に応じて、チャンクの最後にある音響心理学的データ要素は、失われたビットに起因して無効にされてよい。音色デコーダ601および残余デコーダ602は、チャンクの最後において無効であることが分かったデータを適切に無視する。当該要素のビットが失われている時に、全体の音響心理学的データ要素を無視する音色デコーダ601および残余デコーダ602に対する代替法は、これらデコーダを得て、存在しないビットにおける読取り、残りの失われたビットにはゼロ、ランダムパターン、または先の音響心理学的データ要素に基づくパターンを充填することにより、可能な限り多くの要素を修復することである。よりコンピュータ処理集約的ではあるが、結果として得られるデコード化されたオーディオが元のオーディオ信号に更に密接にマッチすることができるので、先の音響心理学的データ要素に基づくデータを使用する方が好ましい。
音色デコーダ601
ビットストリームパーサ600によって見出された音色情報は、音色デコーダ601を介して処理される。音色成分の再合成は、先に述べたような階層的フィルタバンクを使用して実行される。或いは、逆迅速フーリエ変換を使用することができ、そのサイズは、エンコーダにおいて音色成分を抽出するために使用された最小変換サイズと同じサイズである。
音色デコード化のために、以下の工程が実行される:
a)周波数ドメイン副フレームを、ゼロ値で初期化する;
b)音色成分の必要な部分を、最小変換サイズから周波数ドメイン副フレームに再合成する;
c)必要な位置において、他の四つの変換サイズからの音色成分を同じ副フレームに再合成する。これら他の四つの変換サイズの再合成は、如何なる順序でも生じることができる。
音色デコーダ601は、各変換サイズグルーピングのために以下の値をデコード化する:即ち、量子化された振幅、量子化された位相、グルーピングのための先の音色成分からのスペクトル距離、および完全なフレーム内での該成分の位置である。多重チャンネル信号については、主チャンネル値からの相違として二次情報が保存され、またビットストリームから得られた値を主チャンネルについて得た値に加えることによって、絶対値に復元される必要がある。多重チャンネル信号については、チャンネル当りの音色成分の「存在」もまたビットマスク3602によって与えられ、これはビットストリームからデコード化される。副チャンネル上での更なる処理は、主チャンネルとは独立に行われる。音色デコーダ601は、チャンクから音色を再構成するために必要な要素を完全に取得できず、音色要素が廃棄される。前記量子化された振幅は、エンコーダにおいて値を量子化するために使用される表の逆を使用して脱量子化される。前記量子化された位相は、エンコーダにおいて位相を量子化するために使用された線型量子化の逆を使用して、脱量子化される。ビットストリームから得られた相違値を先にデコード化された値に加えることによって、絶対的周波数スペクトル位置が決定される。Amplitudeを脱量子化された振幅と定義し、Phaseを脱量子化された位相と定義し、Freqを絶対的周波数位置と定義すると、以下の擬コードは、最小変換サイズの音色成分の再合成を記述する:
Re[Freq]
+= Amplitude * sin(2*Pi*Phase/8);
Im[Freq]
+= Amplitude * cos(2*Pi*Phase/8);
Re[Freq + 1]
+= Amplitude * sin(2*Pi*Phase/8);
Im[Freq + 1]
+= Amplitude * cos(2*Pi*Phase/8);
より長い基本関数の再合成は、より多くの副フレームに亘って広がり、従って、振幅および位相の値は、周波数および基本関数の長さに従って更新される必要がある。以下の擬コードは、これが如何にしてなされるかを記述する:
xFreq=Freq>>(Group−1);
CurrentPhase=Phase−2*(2*xFreq+1);
for(i=0;i<length;i=i+1)

CurrentPhase += 2*(2*Freq+1)/length;
CurrentAmplitude
= Amplitude*Envelope[Group][i];
Re[i][xFreq] +=
CurrentAmplitude*
sin(2*Pi*CurrentPhase/8);
Im[i][xFreq] +=
CurrentAmplitude*
cos(2*Pi*CurrentPhase/8);
Re[i][xFreq+1] +=
CurrentAmplitude*
sin(2*Pi*CurrentPhase/8);
Im[i][xFreq+1] +=
CurrentAmplitude*
cos(2*Pi*CurrentPhase/8);

ここで、
Amplitude、FreqおよびPhaseは先に定義したのと同じである。
Groupは、基本関数変換サイズを表す数字であり、最小の変換については1であり、最大の変換については5である。
lengthは、Groupについての副フレームであり、
length = 2^(Group−1)
によって与えられる。
>>は、右シフトオペレータである。
CurrentAmplitude、およびCurrentPhaseは、次の副フレームのために保存される。
Envelope[Group][i]は、各群についての適切な長さ(length)の三角形状のエンベロープであり、両端ではゼロ値であり、中央では1の値である。
上記で述べた方法を介しての、最大の三つの変換サイズにおける低い波数の再合成は、出力オーディオにおいて聴取可能な歪みを生じ、従って、グループ3、4、および5において60未満のスペクトル線に対して、以下の経験に基づく補正が適用される:
xFreq=Freq>>(Group−1);
CurrentPhase=Phase−2*(2*xFreq+1);
f_dlt=Freq−(xFreq<<(Group−1));
for(i=0;i<length;i=i+1)
{
CurrentPhase += 2*(2*Freq+1)/length;
CurrentAmplitude
=Amplitude*Envelope[Group][i];

Re_Amp=CurrentAmplitude*
sin(2*Pi*CurrentPhase/8);
Im_Amp=CurrentAmplitude*
cos(2*Pi*CurrentPhase/8);

a0 = Re_Amp * CorrCf[f_dlt][0];
b0 = Im_Amp * CorrCf[f_dlt][0];
a1 = Re_Amp * CorrCf[f_dlt][1];
b1 = Im_Amp * CorrCf[f_dlt][1];
a2 = Re_Amp * CorrCf[f_dlt][2];
b2 = Im_Amp * CorrCf[f_dlt][2];
a3 = Re_Amp * CorrCf[f_dlt][3];
b3 = Im_Amp * CorrCf[f_dlt][3];
a4 = Re_Amp * CorrCf[f_dlt][4];
b4 = Im_Amp * CorrCf[f_dlt][4];

Re[i][abs(xFreq−2)] −= a4;
Im[i][abs(xFreq−2)] −= b4;
Re[i][abs(xFreq−1)] += (a3−a0);
Im[i][abs(xFreq−1)] += (b3−b0);
Re[i][xFreq] += Re_Amp−a2−a3;
Im[i][xFreq] += Im_Amp−b2−b3;
Re[i][xFreq+1] += a1+a4−Re_Amp;
Im[i][xFreq + 1] += b1+b4−Im_Amp;
Re[i][xFreq + 2] += a0−a1;
Re[i][xFreq + 3] += a2;
Im[i][xFreq + 3] += a2;

ここで、
Amplitude、Freq、Phase、Envelope[Group][i]、Group、およびLengthは、全て先に定義した通りである。
CorrCfは、表2(図20)によって与えられる。
abs(val)は、valの絶対値を戻す関数である。
ビットストリームは、コード化された音色成分の数に関して如何なる情報も含まないので、当該デコーダは、各変換サイズについての音色データを、該サイズのためのデータを使い果たすまで読取るだけである。従って、外部手段によってビットストリームから除去された音色成分は、当該ビットストリームの中に未だ含まれているデータを取扱うデコーダの能力に対して影響を持たない。ビットストリームから要素を除去することは、除去されたデータ成分の量だけオーディオ品質を正に劣化させる。音色チャンクもまた除去されることができ、この場合、デコーダは当該変換サイズのための音色成分の如何なる再構築作業も行わない。
逆周波数変換604
逆周波数変換604は、エンコーダにおける周波数ドメイン表現を作成するために使用される変換の逆である。現在の実施形態では、上記で述べた逆階層的フィルタバンクを用いる。或いは、逆迅速フーリエ変換を使用することができ、これは、重なりFFTがコード時間で使用されたとすれば、エンコーダにより音色を抽出するために使用された最小FFTの逆である。
残余デコーダ602
残余デコーダ602の詳細なブロック図が、図18に示されている。ビットストリームパーサ600は、ビットストリームからのG1要素を、ライン610上でグリッドデコーダ702へと通す。グリッドデコーダ702は、G1をデコードして、64時間間隔による32の周波数ウ副バンドであるG0を再生する。該ビットストリームは、量子化されたG1値およびこれら値の間の距離を含む。ビットストリームからのG1値は、音色成分振幅を脱量子化するために使用したのと同じ脱量子化表を使用して脱量子化される。ビットストリームからの値の間の線型補間は、各G1副バンドについて8の最終G1振幅へと導く。G1の副バンド0および1はゼロに初期化され、ゼロ値は、これら二つの副バンドについての情報がビットストリームの中に見出されたときに置換えられる。次いで、これら振幅は、図19における表1から得られるマッピング重みを使用して、再生されたG0グリッドの中に重み付けされる。G0についての一般式は下記によって与えられる:
Figure 2012098759
ここで、
mは、副バンド数であり、
Wは、表1化らのエントリーであり、
nは、G0カラム数であり、
kは、11のG1副バンドに亘る。
脱量子化器700
ビットストリームパーサ600によって認められた時間サンプルは、脱量子化器700において脱量子化される。脱量子化器700は、エンコーダの逆プロセスを使用して、ビットストリームからの時間サンプルを脱量子化する。副バンドゼロからの時間サンプルは16のレベルに、副バンド1および副バンド2は8のレベルに、副バンド11〜25は3のレベルに、また副バンド26〜31は2のレベルに脱量子化される。如何なる失われた時間サンプルまたは無効の時間サンプルも、白−ノイズ・スペクトルエネルギー分布を有する−1〜1の範囲にある値の擬ランダム配列で置換される。このような値の配列は、ゼロ値での置換よりも元の信号に更に密接に似た特性を有するので、これはスケール調節されたビットストリームオーディオの品質を改善する。
チャンネル分離器(Channel Demuxer)701
ビットストリームにおける副チャンネル情報は、ビットストリームにおけるフラッグ組に依存して、幾つかの副バンドについて主チャンネルからの差として保存される。これら副バンドのために、チャンネル分離器701は、主チャンネルにおける値およびビットストリームにおける相違値から、副チャンネルにおける値を修復する。副チャンネル情報が失われていれば、主チャンネル情報いを副チャンネルの中に複製し、また後述するステレオグリッドを使用することによって、ビットストリーム副チャンネル情報は主チャンネルから概略的に修復されることができる。
チャンネル再構築706
ステレオ再構築706は、副チャンネル情報(時間サンプル)がビットストリームの中に見出されないときに、副チャンネルに対して適用される。グリッドデコーダ702によって再構築されたステレオグリッドは、チャンネル間の元のステレオパワー比率を維持するために、主チャンネル時間サンプル情報を複製することによリ回復された二次時間サンプルに適用される。
多重チャンネル再構築
多重チャンネル再構築706は、副チャンネルについての二次情報(時間サンプルまたはグリッド)がビットストリームの中に存在しないときに、副チャンネルに対して適用される。このプロセスは、グリッドデコーダ702によって再構築された部分グリッドが各チャンネル群内の副チャンネルの時間サンプルに適用され、副チャンネル内における適性なパワーレベルを維持するように主チャンネル時間サンプル情報を複製することによって回復されることを除き、ステレオ再構築706に類似している。この部分グリッドは、グリッドGの時間サンプルに各副チャンネルについての部分グリッドの対応する要素を乗じることによって、スケール調節ステップ703でのグリッドG0を含む他のスケール因子グリッドによるスケール調節に続き、再構築されたチャンネル群における各副チャンネルに個別的に適用される。グリッドG0、部分グリッドは、本発明に即して如何なる順序で適用されてもよい。
本発明の幾つかの例示的実施例を示し、説明してきたが、多くの変形例およびだいたいれいが当業者に生じるであろう。このような変形例および代替例は、添付の特許請求の範囲に定義された本発明の精神および範囲を逸脱することなく行うことができる。

Claims (45)

  1. 入力信号をコード化する方法であって:
    階層的フィルタバンク(HFB)を使用して、入力信号(100)を多重分解能の時間/周波数表現に分解すること(2101a、…210Ie)と;
    前記時間/周波数表現から、多重周波数分解能で音色成分を抽出すること(2109)と;
    前記時間/周波数表現から残余成分を抽出すること(2117,2118,2119)と;
    前記成分を、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けすること(102,107,108)と;
    充分な数の最低順位のコード化された成分を除去して(115)、望ましいデータ転送速度未満または概略これに等しいデータ転送速度を有するスケール調節されたビットストリーム(116)を形成すること
    を含んでなる方法。
  2. 請求項1に記載の方法であって、前記成分は、最初に音色成分を異なる周波数分解能で少なくとも一つの周波数副ドメイン(903,904,905,906,907)にグループ化し、また残余成分を異なる時間スケールおよび/または周波数分解能で少なくとも一つの残余副ドメイン(908,909,910)にグループ化し、これら副ドメインを、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けし、また各副ドメイン内の前記成分を、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けすることによって順位付けされる方法。
  3. 請求項2に記載の方法であって、更に、
    その中で前記副ドメインおよび各副ドメイン内の成分がそれらの順位付け(109)に基づいて並べられるマスタービットストリーム(126)を形成することを含み、前記低順位付け成分は、最低順位の副ドメイン内における最低順位の成分から出発して、望ましいデータ転送速度が達成されるまで(115)、順序に従って成分を排除することにより除去される方法。
  4. 請求項1に記載の方法であって、更に、
    順位付けされた量子化成分(109)を含むマスタービットストリーム(126)を形成することを含んでなり、該マスタービットストリームは、充分な数の低順位成分を除去してスケール調節されたビットストリーム(115)を形成することにより、スケール調節される方法。
  5. 請求項4に記載の方法であって、前記スケール調節されたビットストリーム(116)は、制約として望ましいデータ転送速度を有するチャンネル上に記録され、または該チャンネル上を送信される方法。
  6. 請求項5に記載の方法であって、前記スケール調節されたビットストリーム(116)は複数のスケール調節されたビットストリームの一つであり、また、各個別のビットストリームのデータ転送速度は独立に制御されるが、個々のデータ転送速度の総和は最大の合計データ転送速度を超えてはならず、且つ前記各データ転送速度はデコード化信号品質に従ってインタイムで且つ動的に制御されるとの制約条件を伴う方法。
  7. 請求項1に記載の方法であって、前記残余成分は、前記入力信号および音色成分の間の残余信号(113)から誘導され、それによって前記スケール調節されたビットストリームを形成するために排除される音色成分は、前記残余信号(2114)からも除去される(2112)方法。
  8. 請求項1に記載の方法であって、前記残余成分は時間サンプル成分(2117)と、該時間サンプル成分を異なる時間スケールおよび/または周波数分解能で修飾するスケール因子成分(2118,2119)とを含む方法
  9. 請求項8に記載の方法であって、前記時間サンプル成分は、グリッドG(2117)によって表され、また前記スケール因子成分は、前記グリッドGを時間/周波数平面内のG0およびG1のグリッド要素で分割することにより時間サンプル成分に適用される、複数の時間スケールおよび周波数分解能での一連の1以上のグリッドG0,G1(2118,2119)を含んでなり、各グリッドG0、G1は時間および/または周波数における異なる数のスケール因子を有する方法。
  10. 請求項8に記載の方法であって、前記スケール因子は、前記スケール因子成分に対して二次元変換を適用し、且つ前記変換係数を量子化することによってコード化される(107)方法。
  11. 請求項10に記載の方法であって、前記変換は、二次元離散コサイン変換である方法。
  12. 請求項1に記載の方法であって、前記HFBは、連続的に低下する周波数分解能レベルで、連続的反復において前記入力信号を変換係数に分解し、また前記音色成分および残余成分は、
    各反復において、前記変換係数から音色成分を抽出し(2109)、該抽出された音色成分を量子化(2110)および音色リストに保存すること(2106)と;
    前記入力信号から前記音色成分(2111,2112)を除去して、残余信号(2114)をHFBの次の反復へと通過させることと;
    前記HFBの最終反復よりも比較的低い周波数分解能を備えた最終逆変換(2115)を、前記残余信号(113)に適用して、前記残余成分(2117)を抽出すること
    によって抽出される方法。
  13. 請求項12に記載の方法であって、更に、
    前記最終反復の後に、前記音色リストから音色成分(114)の幾つかを除去することと;
    前記除去された量子化音色成分(114)をローカルにデコード化および逆量子化(104)し、最終反復においてそれらを残余信号(111)と合体させること
    を含んでなる方法。
  14. 請求項13に記載の方法であって、前記リストから除去された比較的強い音色成分の少なくとも幾つかは、ローカルにデコード化および合体されない方法。
  15. 請求項12に記載の方法であって、各周波数分解能での前記音色成分は、
    知覚モデルの適用を介して、望ましい音色成分を同定すること;
    知覚的に最も有意な変換係数を選択すること;
    各選択された変換係数のパラメータを音色成分として保存し、前記パラメータは振幅、周波数、位相、および対応する変換係数のフレームにおける位置を含むこと;および
    前記音色リストにおける各音色成分について、前記パラメータをビットストリームへの挿入のために量子化およびコード化(2110)すること
    によって抽出(2109)される方法。
  16. 請求項12に記載の方法であって、前記残余成分はグリッドG(2117)で表された時間サンプル成分を含み、前記残余成分の抽出は更に、
    異なる時間/周波数分解能の1以上のスケール因子グリッド(2118,2119)であって、その要素が、時間/周波数領域における最大信号値または信号エネルギーを表すグリッドを構築すること;
    時間−サンプルグリッドGの要素を、スケール因子グリッドの対応する要素で割って、スケール調節された時間サンプルグリッドG(2120)を生じさせることと;
    前記スケール調節された時間サンプルグリッドG(2122)およびスケール因子グリッド(2121)を、前記コード化されたビットストリームの中に挿入するために量子化およびコード化すること
    を含んでなる方法。
  17. 請求項1に記載の方法であって、前記入力信号が分解され、前記音色成分および残余成分は、
    (a)前記入力信号のサンプルを、Nサンプルのフレームの中にバッファーすること(2900);
    (b)前記各フレームにおけるNサンプルに、N−サンプルウインドウ関数を乗じること(2900);
    (c)N−点変換を適用して、N/2の元の変換係数を生じること(2902);
    (d)前記N/2の元の変換係数から音色成分を抽出し(2109)、該抽出された音色成分を量子化(2110)および音色リストの中に保存すること(2106);
    (e)前記音色成分を逆量子化によって差引き(2111)、得られた音色変換係数を元の変換係数から差引いて(2112)、N/2の残余変換係数を得ること;
    (f)該N/2の残余変換係数をP群のMi係数に分割し、Mi係数の総和がN/2になるようにすること(2906);
    Figure 2012098759
    (g)P群の各々について、(2*Mi)点逆変換を前記変換係数に適用して、各群から(2*Mi)副バンドサンプルを生じること(2906);
    (h)各副バンドにおいて、(2*Mi)副バンドサンプルに、(2*Mi)点ウインドウ関数を乗じること(2908);
    (i)各副バンドにおいて、Miの先のサンプルを重ならせ、対応する値を付加して、各副バンドについてMiの新たなサンプルを生じること(2910);
    (j)望ましい時間/変換分解能が得られるまで(29014)、連続的に小さくなる変換サイズNを用いて、Miの新たなサンプルの副バンドの1以上に対して上記のステップ(a)〜(i)を反復すること(2912);および
    (k)比較的低い周波数分解能Nを備えた最終逆変換を、最終反復において出力された各副バンドについてのMiの新たなサンプルに適用して(2115)、副バンドのグリドGにおける時間サンプルの副バンド、および各副バンドにおける複数の時間サンプルを生じること
    によって抽出される方法。
  18. 請求項1に記載の方法であって、前記入力信号は多重チャンネル入力信号であり、前記音色成分は前記チャンネルの群を形成することによって、また前記各群について、
    主チャンネル、および副チャンネルの存在を同定する各ビットを用いてビットマスクを介して同定される(3602)少なくとも一つの副チャンネルを選択すること;
    前記主チャンネルを量子化およびコード化すること(102,108);および
    前記主チャンネルおよび各副チャンネルの間の差を量子化およびコード化すること
    によって一緒にコード化される方法。
  19. 請求項18に記載の方法であって、各チャンネル群をコード化するためのジョイントチャンネルモードは、デコード化された出力信号における望ましいデータ転送速度について、何れのモードが知覚される最小の歪みを与えるかを示す測定基準に基づいて選択される方法。
  20. 請求項1に記載の方法であって、前記入力信号は多重チャンネル信号であり、更に、
    前記抽出された音色成分を各チャンネルについての入力信号から差引いて、残余信号を形成すること(2109a,..2109e);
    残余信号のチャンネルを、知覚基準およびコード化効率によって決定される群に形成すること(3702);
    前記の各残余信号群について、主チャンネルおよび副チャンネルを決定すること(3704);
    部分グリッド(508)を計算して、各残余信号群における各主/副チャンネル対の間の相対的空間情報をコード化すること(502);
    各群における主チャンネルのための残余成分を、夫々のグリッドGとして量子化およびコード化すること(2110a);
    前記部分グリッドを量子化およびコード化して、必要なデータ転送速度を低下させること(2110a);および
    前記コード化された部分グリッドおよび各群についてのグリッドGを、スケール調節されたビットストリームの中に挿入すること(3706)
    を含んでなる方法。
  21. 請求項20に記載の方法であって、前記副チャンネルが1以上のチャンネルの線型結合から構築される(3704)方法。
  22. オーディオ入力信号をコード化する方法であって:
    オーディオ入力信号(100)を多重分解能の時間/周波数表現に分解すること(2101a、…210Ie)と;
    各周波数分解能で音色成分を抽出すること(2109)と;
    前記時間/周波数表現から音色成分を除去して(2111,2112)、残余信号を形成すること(113)と;
    前記残余信号から残余成分を抽出すること(2117,2118,2119);
    前記音色成分を、少なくとも一つの周波数副ドメインにグループ化すること(903,904,905,906,907)と;
    前記残余成分を、少なくとも一つの残余副ドメインにグループ化すること(908,909,910)と;
    前記副ドメインを、音響心理学的重要度に基づいて順位付けすること(103,107,109)と;
    各副ドメイン内の前記成分を、音響心理学的重要度に基づいて順位付けすること(903,904,905,906,907)と;
    各副ドメイン内の成分を量子化およびコード化すること(102,107,108)と;
    充分な数の最低順位のコード化された成分を除去して(115)、望ましいデータ転送速度未満または概略これに等しいデータ転送速度を有するスケール調節されたビットストリーム(116)を形成すること
    を含んでなる方法。
  23. 請求項22に記載の方法であって、前記音色成分は、異なる周波数分解能で複数の周波数副ドメイン(903,904,905,906,907)にグループ化され、また前記残余成分は、異なる時間スケールおよび/または周波数分解能で複数の残余副ドメイン(908,909,910)にグループ化されるグリッドを含んでいる方法。
  24. 請求項22に記載の方法であって、更に、
    その中で前記副ドメインおよび各副ドメイン内の成分がそれらの順位付けに基づいて並べられるマスタービットストリーム(126)を形成することを含み、前記低順位付け成分は、最低順位の副ドメイン内における最低順位の成分から出発して、望ましいデータ転送速度が達成されるまで、順序に従って成分を排除することにより除去される(115)方法。
  25. 入力オーディオ信号をコード化し、スケール調節可能なビットストリームを形成するためのスケール調節可能なビットストリームエンコーダであって:
    入力オーディオ信号を、連続的に低下する周波数分解能レベルで変換係数に分解し(2108)、また連続的反復で、連続的に精細になる時間スケールで時間ドメイン副バンドサンプルに戻す階層的フィルタバンク(HFB)(2100)と;
    音色エンコーダ(102)であって、(a)各反復において前記変換係数から音色成分を抽出し(2109)、それらを量子化(2110)および音色リストの中に保存し(2106)、(b)前記入力オーディオ信号から前記音色成分を除去し、残余信号(2114b)をHFBの次の反復へと通過させ、(c)全ての前記抽出された音色成分を、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けする音色エンコーダと;
    HFBの最終反復(2101e)よりも相対的に低い周波数分解能で、最終の残余信号(113)に最終逆変換(2115)を適用して、残余成分(2117,2118,2119)を抽出し、該残余成分を、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けする残余エンコーダ(107)と;
    前記音色成分および残余成分をフレーム毎のベースでアセンブリングして、マスタービットストリーム(126)を形成するビットストリームフォーマット器(109)と;
    前記マスタービットストリームの各フレームから、充分な数の低順位でコード化された成分を除去して、望ましいデータ転送速度未満またはこれに概略等しいデータ転送速度を有するスケール調節されたビットストリーム(116)を形成する、スケール調節器と
    を含んでなるスケール調節可能なビットストリームエンコーダ。
  26. 請求項25に記載のエンコーダであって、前記音色エンコーダは、異なる周波数分解能で前記音色成分を周波数副ドメインにグループ化して(903,904,905,906,907)、これら成分を各副ドメインと共に順位付けし、また前記残余エンコーダは、異なる時間スケールおよび/または周波数分解能で前記残余成分を残余副ドメインにグループ化して(908,909,910)、これら成分を各副ドメインと共に順位付けし、また前記ビットストリームフォーマット器は、前記副ドメインを、デコード化された信号品質に対するそれらの相対的寄与に基づいて順位付けするエンコーダ。
  27. 請求項26に記載のエンコーダであって、前記ビットストリームフォーマット器は、各副ドメイン内の前記副ドメインおよび前記成分を、それらの順位に基づいて整列させ、前記スケール調節器(115)は、最低順位の副ドメイン内における最低順位の成分で出発して、望ましいデータ転送速度が達成されるまで(115)順序に従って成分を排除するエンコーダ。
  28. 請求項25に記載のエンコーダであって、前記入力オーディオ信号は多重チャンネル入力オーディオ信号であり、前記音色エンコーダは、前記チャンネルの群を形成することによって、また前記の各群について、
    主チャンネル、および副チャンネルの存在を同定する各ビットを用いてビットマスクを介して同定される(3602)少なくとも一つの副チャンネルを選択すること;
    前記主チャンネルを量子化およびコード化すること(102,108);および
    前記主チャンネルおよび各副チャンネルの間の差を量子化およびコード化すること(102,108)
    によって一緒にコード化されるエンコーダ。
  29. 請求項25に記載のエンコーダであって、前記入力信号は多重チャンネルオーディオ信号であり、前記残余エンコーダは、
    残余信号のチャンネルを、知覚基準およびコード化効率によって決定される群に形成し(3702);
    前記の各残余信号群について、主チャンネルおよび副チャンネルを決定し(3704);
    部分グリッド(508)を計算して、各残余信号群における各主/副チャンネル対の間の相対的空間情報をコード化し(502);
    各群における主チャンネルのための残余成分を、夫々のグリッドGとして量子化およびコード化し(2110a);
    前記部分グリッドを量子化およびコード化して、必要なデータ転送速度を低下させ(2110a);および
    前記コード化された部分グリッドおよび各群についてのグリッドGを、スケール調節されたビットストリームの中に挿入する(3706)
    エンコーダ。
  30. 請求項25に記載のエンコーダであって、前記残余エンコーダは、グリッドG(2117)によって表された前記時間サンプル成分、および複数の時間スケールおよび周波数分解能での一連の1以上のグリッドG0,G1(2118,2119)を抽出し、これらは前記グリッドGを時間/周波数平面内のG0およびG1のグリッド要素で分割する(2120)ことにより時間サンプル成分に適用され、各グリッドG0、G1は時間および/または周波数における異なる数のスケール因子を有するエンコーダ。
  31. コード化されたビットストリームから時間ドメイン出力信号を再構築する方法であって:
    所定の範囲内の予め定められたデータ転送速度を有するスケール調節されたビットストリーム(599)をフレームのシーケンスとして受信し、各フレームは次の(a)〜(c)の少なくとも一つを含んでいること:(a)入力信号の異なる周波数分解能において周波数ドメイン内容を表す複数の量子化された音色成分(2407)、(b)再構成された音色成分と入力信号の間の差から形成された時間ドメイン残余を表す、量子化された残余時間サンプル成分(2403)、および(c)入力信号の周波数範囲に少なくとも部分的に広がる残余信号の信号エネルギーを表すスケール因子グリッド(2404);
    各フレームについて、前記周波数配位内での前記量子化された成分および/またはグリッドの位置に関する情報を受信すること;
    前記スケール調節されたビットストリームのフレームを、前記成分およびグリッドに構文解析すること(600);
    全ての音色成分デコード化して、変換係数を形成すること(2408);
    全ての時間サンプル成分および全てのグリッドをデコード化すること(2401〜2405);
    前記時間サンプル成分にグリッド要素を乗じて、時間ドメインサンプルを形成すること(2406);および
    前記変換係数(2407)および時間ドメインサンプル(4002)に逆階層的フィルタバンク(2400)を適用して、時間ドメイン出力信号(614)を再構成すること
    を含んでなる方法。
  32. 請求項31に記載の方法であって、前記時間ドメインサンプルが、
    前記ビットストリームを、スケール因子グリッドG1(2404)および時間サンプル成分(2403)に構文解析すること;
    グリッドG1スケール因子グリッドをデコードおよび逆量子化して、G0スケール因子グリッド(2405)を生じさせること;および
    前記時間サンプル成分をデコード化および逆量子化し、これら時間サンプル値にG0スケール因子グリッド値を乗じて(2406)、再構築された時間サンプルを生じさせること(4002)
    によって形成される方法。
  33. 請求項32に記載の方法であって、前記信号は残余チャンネルがグループ化およびコード化されている多重チャンネル信号であり、前記の各フレームはまた、d)チャンネルグループ内における前記残余信号チャンネルの信号エネルギー比率を表す部分グリッドを含んでおり、更に、
    前記ビットストリームを部分グリッド(508)に構文解析すること;
    前記部分グリッドをデコード化および逆量子化すること(2401);および
    前記再構築された時間サンプルに、チャンネル群における各副チャンネルに適用される前記部分グリッド(508)を乗じて、再構築された時間ドメインサンプルを生じさせること
    を含んでなる方法。
  34. 請求項31に記載の方法であって、前記入力信号は多重チャンネルであり、その中では音色成分軍が主チャンネルおよび1以上の副チャンネルを含んでおり、前記各フレームはまた、e)各群における主チャンネルに付随したビットマスクを含んでおり、ここでの各ビットは前記主チャンネルと一緒にコード化された副チャンネルの存在を同定し、
    前記ビットストリームをビットマスクに構文解析し(3602);
    各群における主チャンネルについて前記音色成分(601)をデコード化し;
    各群において、前記一緒にコード化された音色成分(601)をデコード化し;
    各群について、前記ビットマスクを使用して、前記各副チャンネルのための音色成分を、前記主チャンネルの音色成分および一緒にコード化された音色成分(601)から再構築する方法。
  35. 請求項34に記載の方法であって、前記副チャンネル音色成分が、主周波数および副周波数の間の差情報をデコード化することによってデコード化され、前記音色成分が存在する各副チャンネルについて振幅および位相がエントロピーコード化されて保存される方法。
  36. 請求項31に記載の方法であって、前記階層的フィルタバンク(2400)は、時間ドメインサンプル(4002)を残余変換係数(2411)に変換し、それを低周波数分解能で一組の音色成分(2407)についての変換係数(2409)と組み合せ(2412)、この組合された変換係数を逆変換(2413)して部分的に再構築された出力信号を形成し(2415)、該部分的に再構築された出力信号に対して、出力信号(614)が再構築されるまで、次に高い周波数分解能のもう一つの組の音色成分についての変換係数を用いてこれらステップを反復することにより、出力信号(614)を再構築する方法。
  37. 請求項36に記載の方法であって、前記時間ドメインサンプルが副バンドとして表され、前記逆階層的フィルタバンクは、下記a)〜g)により時間ドメイン出力信号を再構築する方法:
    a)前記入力フレームの時間ドメイン副バンドの各々において信号をウインドウ化して、ウインドウ化された時間ドメイン副バンドを形成すること(2410);
    b)前記ウインドウ化された時間ドメイン副バンドの各々に対して時間から周波数メインへの変換を適用し、変換係数を形成すること(2411);
    c)得られた変換係数を連結して、より大きな組の残余変換係数を形成すること(2411);
    d)前記一組の音色成分から前記変換係数を合成すること(2409);
    e)前記音色成分および時間ドメイン成分から再構築された変換係数を、単一組の合体された変換係数に組み合せること(2412);
    f)前記合体された変換係数に逆変換を適用し、ウインドウ化し、先のフレームと重なり加算して(2414)、部分的に再構築された時間ドメイン信号を再構築すること(2415);
    g)時間ドメイン出力信号(614)が再構築されるまで、前記部分的に再構築された時間ドメイン信号に対して、次の組の音色成分を使用してステップ(a)〜(f)の連続的反復を適用すること(2407)。
  38. 請求項36に記載の方法であって、各入力フレームがPの副バンドの各々の中にMiの時間サンプルを含み、前記逆階層的フィルタバンクが以下のステップを実行する方法:
    a)各副バンドiにおいて、Miの先のサンプルをバッファーし、現在のMiサンプルと連結して、2*Miの新たなサンプルを生じること(4004)
    b)各副バンドiにおいて、前記2*Miの副バンドサンプルに2*Mi点ウインドウ関数を乗じること(4006);
    c)前記副バンドサンプルに(2*Mi)点変換を適用して、各副バンドiのためのMiの変換係数を生じること(4008);
    d)各副バンドiのための前記Miの変換係数を連結して、一組のN/2の係数を形成すること(4010);
    e)前記デコード化および逆量子化された一組の音色成分から音色変換係数を合成し、それらを先のステップの前記連結された係数と組み合せて、一組の組合され連結された係数を形成すること(2407,2408,2409,2412);
    f)前記組合され連結された係数にN点逆変換を適用して、Nのサンプルを生じさせること(4012);
    g)Nのサンプルの各フレームにNのサンプルウインドウ関数を乗じて、Nのウインドウサンプルを生じさせること(4014)
    h)得られた前記ウインドウ化されたサンプルを重なり加算し(4014)、部分的に再構築された出力信号として、所定の副バンドレベルでN/2の新たな出力サンプルを生じること(4016);
    i)全ての副バンドが処理され且つNの元の時間サンプルが出力信号(614)として再構築されるまで、前記N/2の新たな出力サンプルに対して、次の組の音色成分を使用してステップ(a)〜(h)を反復すること(2407)。
  39. コード化されたビットストリームから時間ドメイン出力オーディオ信号を再構築するためのデコーダであって:
    スケール調節されたビットストリームの各フレームを、そのオーディオ成分に構文解釈するためのビットストリームパーサ(600)であって、各フレームは次の(a)〜(c)の少なくとも一つを含んでいるビットストリームパーサ:(a)入力信号の異なる周波数分解能において周波数ドメイン内容を表す複数の量子化された音色成分、(b)再構成された音色成分と入力信号の間の差から形成された時間ドメイン残余を表す、量子化された残余時間サンプル成分、および(c)入力信号の周波数範囲に少なくとも部分的に広がる残余信号の信号エネルギーを表すスケール因子グリッド;
    全ての時間サンプル成分および全てのグリッドをデコード化して、時間サンプルを再構築するための残余デコーダ(602);
    全ての音色成分をデコード化して変換係数を形成するための音色デコーダ(601);および
    時間サンプルを残余変換係数に変換し、それらを低周波数分解能で一組の音色成分のための変換係数と組み合せ、組合された変換係数を逆変換して部分的に再構築された出力信号を形成し、この部分的に再構築された出力信号に対して、次の最高周波数分解能でのもう一つの組の音色成分のための変換係数を用いて、前記オーディオ信号が再構築されるまでこれらステップを反復することによって、出力信号を再構築する逆階層的フィルタバンク(2400)
    を含んでなるデコーダ。
  40. 請求項39に記載のデコーダであって、各入力フレームがPの副バンドの各々の中にMiの時間サンプルを含み、前記逆階層的フィルタバンクが以下のステップを実行するデコーダ:
    a)各副バンドiにおいて、Miの先のサンプルをバッファーし、現在のMiサンプルと連結して、2*Miの新たなサンプルを生じること(4004)
    b)各副バンドiにおいて、前記2*Miの副バンドサンプルに2*Mi点ウインドウ関数を乗じること(4006);
    c)前記副バンドサンプルに(2*Mi)点変換を適用して、各副バンドiのためのMiの変換係数を生じること(4008);
    d)各副バンドiのための前記Miの変換係数を連結して、一組のN/2の係数を形成すること(4010);
    e)前記デコード化および逆量子化された一組の音色成分から音色変換係数を合成し、それらを先のステップの前記連結された係数と組み合せて、一組の組合され連結された係数を形成すること(2407,2408,2409,2412);
    f)前記組合され連結された係数にN点逆変換を適用して、Nのサンプルを生じさせること(4012);
    g)Nのサンプルの各フレームにNのサンプルウインドウ関数を乗じて、Nのウインドウサンプルを生じさせること(4014)
    h)得られた前記ウインドウ化されたサンプルを重なり加算し(4014)、部分的に再構築された出力信号として、所定の副バンドレベルでN/2の新たな出力サンプルを生じること(4016);
    i)全ての副バンドが処理され且つNの元の時間サンプルが出力信号(614)として再構築されるまで、前記N/2の新たな出力サンプルに対して、次の組の音色成分を使用してステップ(a)〜(h)を反復すること(2407)。
  41. 入力信号を階層的にフィルタリングして、ほぼ任意の時間/周波数分解を達成する方法であって:
    (a)前記入力信号のサンプルを、Nサンプルのフレームの中にバッファーするステップ(2900)と;
    (b)前記各フレームにおけるNサンプルに、N−サンプルウインドウ関数を乗じるステップ(2900)と;
    (c)N−点変換を適用して、N/2の元の変換係数を生じるステップ(2902); (d)該N/2の残余変換係数をP群のMi係数に分割し、Mi係数の総和がN/2になるようにするステップ(2906)と;
    Figure 2012098759
    (e)P群の各々について、(2*Mi)点逆変換を前記変換係数に適用して、各群から(2*Mi)副バンドサンプルを生じるステップ(2906)と;
    (f)各副バンドにおいて、(2*Mi)副バンドサンプルに、(2*Mi)点ウインドウ関数を乗じるステップ(2908)と;
    (g)各副バンドにおいて、Miの先のサンプルを重ならせ、対応する値を付加して、各副バンドについてMiの新たなサンプルを生じるステップ(2910)と;
    (h)望ましい時間/変換分解能が達成されるまで(2914)、Miの新たなサンプルの1以上の副バンドに対して、連続的に小さくなる変換サイズNを使用してステップ(a)〜(g)を反復するステップ(2912)
    を含んでなる方法。
  42. 請求項41に記載の方法であって、前記変換がMDCT変換である方法。
  43. 請求項41に記載の方法であって、Miの全ての副バンドに対してステップ(a)〜(g)が反復される方法。
  44. 請求項41に記載の方法であって、Miの低周波数右副バンドの定義された組に対してのみ、ステップ(a)〜(g)が反復される方法。
  45. 入力信号の時間サンプルを階層的に再構築する方法であって、各入力フレームがPの副バンドの各々の中にMiの時間サンプルを含み、以下のステップを実行することを含んでなる方法:
    a)各副バンドiにおいて、Miの先のサンプルをバッファーし、現在のMiサンプルと連結して、2*Miの新たなサンプルを生じること(4004)
    b)各副バンドiにおいて、前記2*Miの副バンドサンプルに2*Mi点ウインドウ関数を乗じること(4006);
    c)前記ウインドウ化された副バンドサンプルに(2*Mi)点変換を適用して、各副バンドiのためのMiの変換係数を生じること(4008);
    d)各副バンドiのための前記Miの変換係数を連結して、一つのN/2の係数群を形成すること(4010);
    e)前記連結された係数にN点逆変換を適用して、Nのサンプルを生じさせること(4012);
    f)Nのサンプルの各フレームにN−サンプルウインドウ関数を乗じて、Nのウインドウサンプルを生じさせること(4014)
    g)得られた前記ウインドウ化されたサンプルを重なり加算し(4014)、所定の副バンドレベルでN/2の新たな出力サンプルを生じること(4016);および
    h)全ての副バンドが処理され且つNの元の時間サンプルが再構築されるまで、ステップ(a)〜(g)を反復すること。
JP2012036055A 2005-06-17 2012-02-22 階層的フィルタバンクを用いたスケール調節可能なコーディング Active JP5291815B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US69155805P 2005-06-17 2005-06-17
US60/691,558 2005-06-17
US11/452,001 2006-06-12
US11/452,001 US7548853B2 (en) 2005-06-17 2006-06-12 Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008516455A Division JP5164834B2 (ja) 2005-06-17 2006-06-16 スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック

Publications (2)

Publication Number Publication Date
JP2012098759A true JP2012098759A (ja) 2012-05-24
JP5291815B2 JP5291815B2 (ja) 2013-09-18

Family

ID=37883522

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008516455A Active JP5164834B2 (ja) 2005-06-17 2006-06-16 スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック
JP2012036055A Active JP5291815B2 (ja) 2005-06-17 2012-02-22 階層的フィルタバンクを用いたスケール調節可能なコーディング

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008516455A Active JP5164834B2 (ja) 2005-06-17 2006-06-16 スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック

Country Status (15)

Country Link
US (1) US7548853B2 (ja)
EP (2) EP2479750B1 (ja)
JP (2) JP5164834B2 (ja)
KR (1) KR101325339B1 (ja)
CN (1) CN101199121B (ja)
AU (1) AU2006332046B2 (ja)
CA (2) CA2608030C (ja)
ES (1) ES2717606T3 (ja)
HK (2) HK1117655A1 (ja)
IL (1) IL187402A (ja)
NZ (3) NZ563337A (ja)
PL (2) PL2479750T3 (ja)
RU (1) RU2402160C2 (ja)
TR (3) TR200708666T1 (ja)
WO (1) WO2007074401A2 (ja)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333929B1 (en) 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR20050087368A (ko) * 2004-02-26 2005-08-31 엘지전자 주식회사 무선 단말기의 벨소리 처리 장치
EP1571647A1 (en) * 2004-02-26 2005-09-07 Lg Electronics Inc. Apparatus and method for processing bell sound
KR100636906B1 (ko) * 2004-03-22 2006-10-19 엘지전자 주식회사 미디 재생 장치 그 방법
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
CN100539437C (zh) * 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
JP4640020B2 (ja) * 2005-07-29 2011-03-02 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
US7643561B2 (en) * 2005-10-05 2010-01-05 Lg Electronics Inc. Signal processing using pilot based coding
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
TWI297488B (en) * 2006-02-20 2008-06-01 Ite Tech Inc Method for middle/side stereo coding and audio encoder using the same
US20070270987A1 (en) * 2006-05-18 2007-11-22 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
US20080059201A1 (en) * 2006-09-03 2008-03-06 Chih-Hsiang Hsiao Method and Related Device for Improving the Processing of MP3 Decoding and Encoding
US20080120114A1 (en) * 2006-11-20 2008-05-22 Nokia Corporation Method, Apparatus and Computer Program Product for Performing Stereo Adaptation for Audio Editing
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009007639A1 (fr) * 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
JP4372184B2 (ja) * 2007-09-20 2009-11-25 株式会社東芝 サンプルレート変換器
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
EP2220646A1 (en) * 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
EP2227682A1 (en) * 2007-11-06 2010-09-15 Nokia Corporation An encoder
US9082397B2 (en) * 2007-11-06 2015-07-14 Nokia Technologies Oy Encoder
US8386271B2 (en) * 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US8855440B2 (en) * 2008-08-04 2014-10-07 Saudi Arabian Oil Company Structure-independent analysis of 3-D seismic random noise
US9053701B2 (en) 2009-02-26 2015-06-09 Panasonic Intellectual Property Corporation Of America Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method
US20110301946A1 (en) * 2009-02-27 2011-12-08 Panasonic Corporation Tone determination device and tone determination method
US8204718B2 (en) * 2009-12-29 2012-06-19 Mitsubishi Electric Research Laboratories, Inc. Method for reconstructing sparse streaming signals using greedy search
CN102918590B (zh) * 2010-03-31 2014-12-10 韩国电子通信研究院 编码方法和装置、以及解码方法和装置
BR122020007923B1 (pt) 2010-04-13 2021-08-03 Ge Video Compression, Llc Predição interplano
KR102311520B1 (ko) 2010-04-13 2021-10-13 지이 비디오 컴프레션, 엘엘씨 이미지들의 멀티-트리 서브-디비젼을 이용한 비디오 코딩
DK2991355T3 (en) * 2010-04-13 2018-02-19 Ge Video Compression Llc Inheritance in sampler array multitree subdivision
KR102360146B1 (ko) 2010-04-13 2022-02-08 지이 비디오 컴프레션, 엘엘씨 샘플 영역 병합
CN101848002B (zh) * 2010-06-18 2012-09-19 上海交通大学 Rs级联网格调制码的迭代译码装置及其译码方法
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9015042B2 (en) 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
WO2012122303A1 (en) 2011-03-07 2012-09-13 Xiph. Org Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
US9075159B2 (en) * 2011-06-08 2015-07-07 Chevron U.S.A., Inc. System and method for seismic data inversion
RU2505921C2 (ru) * 2012-02-02 2014-01-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и устройство кодирования и декодирования аудиосигналов (варианты)
WO2013142650A1 (en) 2012-03-23 2013-09-26 Dolby International Ab Enabling sampling rate diversity in a voice communication system
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
RU2652468C2 (ru) 2012-07-02 2018-04-26 Сони Корпорейшн Декодирующее устройство, способ декодирования, кодирующее устройство, способ кодирования и программа
RU2649944C2 (ru) * 2012-07-02 2018-04-05 Сони Корпорейшн Устройство декодирования, способ декодирования, устройство кодирования, способ кодирования и программа
WO2014049192A1 (en) * 2012-09-26 2014-04-03 Nokia Corporation A method, an apparatus and a computer program for creating an audio composition signal
US9373337B2 (en) * 2012-11-20 2016-06-21 Dts, Inc. Reconstruction of a high-frequency range in low-bitrate audio coding using predictive pattern analysis
US8908796B1 (en) * 2013-05-15 2014-12-09 University Of South Florida Orthogonal frequency division multiplexing (OFDM) transmitter and receiver windowing for adjacent channel interference (ACI) suppression and rejection
KR102228994B1 (ko) * 2013-06-05 2021-03-17 돌비 인터네셔널 에이비 오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치
BR112015032174B1 (pt) 2013-06-21 2021-02-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V escalador de tempo, descodificador de áudio, método e um programa de computador utilizando um controle de qualidade
CA2964368C (en) 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
US9564136B2 (en) 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US9747922B2 (en) * 2014-09-19 2017-08-29 Hyundai Motor Company Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus
KR102547480B1 (ko) * 2014-12-09 2023-06-26 돌비 인터네셔널 에이비 Mdct-도메인 에러 은닉
CN107771346B (zh) 2015-06-17 2021-09-21 三星电子株式会社 实现低复杂度格式转换的内部声道处理方法和装置
US10497379B2 (en) 2015-06-17 2019-12-03 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
CN105070292B (zh) * 2015-07-10 2018-11-16 珠海市杰理科技股份有限公司 音频文件数据重排序的方法和系统
WO2017064264A1 (en) 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
US9990317B2 (en) * 2015-11-24 2018-06-05 Qualcomm Incorporated Full-mask partial-bit-field (FM-PBF) technique for latency sensitive masked-write
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
EP3276620A1 (en) * 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
EP3514791B1 (en) * 2016-09-15 2021-07-28 Nippon Telegraph and Telephone Corporation Sample sequence converter, sample sequence converting method and program
BR112019009315A2 (pt) * 2016-11-08 2019-07-30 Fraunhofer Ges Forschung aparelho e método para mixagem de redução ou mixagem de aumento de um sinal de múltiplos canais com o uso de compensação de fase
WO2018201112A1 (en) 2017-04-28 2018-11-01 Goodwin Michael M Audio coder window sizes and time-frequency transformations
CN117133297A (zh) 2017-08-10 2023-11-28 华为技术有限公司 时域立体声参数的编码方法和相关产品
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
CN114708874A (zh) * 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
EP3644313A1 (en) * 2018-10-26 2020-04-29 Fraunhofer Gesellschaft zur Förderung der Angewand Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction
CN111341303B (zh) * 2018-12-19 2023-10-31 北京猎户星空科技有限公司 一种声学模型的训练方法及装置、语音识别方法及装置
JP7479457B2 (ja) * 2019-09-20 2024-05-08 北京字節跳動網絡技術有限公司 ビデオ・データを処理する方法、装置及び記憶媒体
EP4229631A2 (en) * 2020-10-13 2023-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009513992A (ja) * 2003-06-25 2009-04-02 ドルビー スウェーデン アクチボラゲット オーディオ信号を符号化する装置と方法および符号化されたオーディオ信号を復号化する装置と方法

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5388209A (en) * 1991-08-02 1995-02-07 Sony Corporation Apparatus for high-speed recording compressed digital data with increased compression
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US5347611A (en) * 1992-01-17 1994-09-13 Telogy Networks Inc. Apparatus and method for transparent tone passing over narrowband digital channels
US5377302A (en) * 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
US5632003A (en) 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5451954A (en) * 1993-08-04 1995-09-19 Dolby Laboratories Licensing Corporation Quantization noise suppression for encoder/decoder system
US5623003A (en) * 1994-03-29 1997-04-22 Kansai Paint Co., Ltd. Coating compositions containing polyester resin, epoxy resins and an anticorrosion pigment
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
GB9509831D0 (en) * 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US5987181A (en) * 1995-10-12 1999-11-16 Sharp Kabushiki Kaisha Coding and decoding apparatus which transmits and receives tool information for constructing decoding scheme
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP2000506686A (ja) * 1995-10-25 2000-05-30 サーノフ コーポレイション オーバラップブロック動き補償及びゼロツリーウェーブレット符号化を用いる低ビットレートビデオ符号化器
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5890106A (en) * 1996-03-19 1999-03-30 Dolby Laboratories Licensing Corporation Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation
FR2747225B1 (fr) * 1996-04-03 1998-04-30 France Telecom Systeme de codage et systeme de decodage d'un signal, notamment d'un signal audionumerique
US5845249A (en) * 1996-05-03 1998-12-01 Lsi Logic Corporation Microarchitecture of audio core for an MPEG-2 and AC-3 decoder
US5781144A (en) * 1996-07-03 1998-07-14 Litton Applied Technology Wide band video signal denoiser and method for denoising
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
JP3622365B2 (ja) * 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
SG54383A1 (en) * 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
EP0879465B1 (en) * 1996-11-07 2005-11-16 Koninklijke Philips Electronics N.V. Data processing of a bitstream signal
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100266578B1 (ko) * 1997-06-11 2000-09-15 구자홍 자동 음색보정 방법 및 장치
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
US6091773A (en) * 1997-11-12 2000-07-18 Sydorenko; Mark R. Data compression method and apparatus
US6081783A (en) * 1997-11-14 2000-06-27 Cirrus Logic, Inc. Dual processor digital audio decoder with shared memory data transfer and task partitioning for decompressing compressed audio data, and systems and methods using the same
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
AU4218299A (en) * 1998-05-27 1999-12-13 Microsoft Corporation System and method for masking quantization noise of audio signals
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6216107B1 (en) * 1998-10-16 2001-04-10 Ericsson Inc. High-performance half-rate encoding apparatus and method for a TDM system
JP2000268509A (ja) * 1999-03-19 2000-09-29 Victor Co Of Japan Ltd 符号化装置
JP2000268510A (ja) * 1999-03-19 2000-09-29 Victor Co Of Japan Ltd 符号化装置
GB2351884B (en) * 1999-04-10 2002-07-31 Peter Strong Data transmission method
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US6434519B1 (en) * 1999-07-19 2002-08-13 Qualcomm Incorporated Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
JP4055336B2 (ja) * 2000-07-05 2008-03-05 日本電気株式会社 音声符号化装置及びそれに用いる音声符号化方法
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6868114B2 (en) * 2001-01-18 2005-03-15 The Titan Corporation Interference suppression in a spread spectrum communications system using non-linear frequency domain excision
SE0101175D0 (sv) * 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
JP4622164B2 (ja) * 2001-06-15 2011-02-02 ソニー株式会社 音響信号符号化方法及び装置
US20060008000A1 (en) * 2002-10-16 2006-01-12 Koninikjkled Phillips Electronics N.V. Fully scalable 3-d overcomplete wavelet video coding using adaptive motion compensated temporal filtering
JP2006508386A (ja) * 2002-11-27 2006-03-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ サウンドフレームを正弦波成分と残留ノイズとに分離する方法
CN1717718A (zh) * 2002-11-27 2006-01-04 皇家飞利浦电子股份有限公司 正弦波音频编码
KR100940531B1 (ko) * 2003-07-16 2010-02-10 삼성전자주식회사 광대역 음성 신호 압축 및 복원 장치와 그 방법
US20070153731A1 (en) * 2006-01-05 2007-07-05 Nadav Fine Varying size coefficients in a wireless local area network return channel

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009513992A (ja) * 2003-06-25 2009-04-02 ドルビー スウェーデン アクチボラゲット オーディオ信号を符号化する装置と方法および符号化されたオーディオ信号を復号化する装置と方法

Also Published As

Publication number Publication date
WO2007074401A3 (en) 2007-11-29
TR200806842T1 (tr) 2008-11-21
HK1117655A1 (en) 2009-01-16
EP1891740A4 (en) 2011-09-14
CN101199121B (zh) 2012-03-21
IL187402A0 (en) 2008-02-09
ES2717606T3 (es) 2019-06-24
EP1891740B1 (en) 2019-01-09
NZ563337A (en) 2011-03-31
JP5291815B2 (ja) 2013-09-18
JP5164834B2 (ja) 2013-03-21
NZ593517A (en) 2011-11-25
EP2479750B1 (en) 2014-03-12
US20070063877A1 (en) 2007-03-22
TR200806843T1 (tr) 2008-10-21
AU2006332046A1 (en) 2007-07-05
NZ590418A (en) 2011-08-26
HK1171859A1 (en) 2013-04-05
WO2007074401A2 (en) 2007-07-05
PL2479750T3 (pl) 2014-08-29
CA2853987C (en) 2017-09-12
CA2608030C (en) 2015-08-11
CA2608030A1 (en) 2007-07-05
US7548853B2 (en) 2009-06-16
EP2479750A1 (en) 2012-07-25
KR101325339B1 (ko) 2013-11-08
TR200708666T1 (tr) 2008-11-21
AU2006332046B2 (en) 2011-08-18
CN101199121A (zh) 2008-06-11
CA2853987A1 (en) 2007-07-05
JP2008547043A (ja) 2008-12-25
KR20080025377A (ko) 2008-03-20
IL187402A (en) 2011-07-31
RU2008101778A (ru) 2009-07-27
EP1891740A2 (en) 2008-02-27
RU2402160C2 (ru) 2010-10-20
PL1891740T3 (pl) 2019-07-31

Similar Documents

Publication Publication Date Title
JP5164834B2 (ja) スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック
US7333929B1 (en) Modular scalable compressed audio data stream
JP4950210B2 (ja) オーディオ圧縮
JP2018013796A (ja) 復号装置、復号方法およびコンピュータプログラム
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
JP2001521648A (ja) スペクトル帯域複製を用いた原始コーディングの強化
KR20070037945A (ko) 오디오 신호의 부호화/복호화 방법 및 장치
EP1873753A1 (en) Enhanced audio encoding/decoding device and method
GB2357231A (en) Encoding and decoding speech signals
US20040083094A1 (en) Wavelet-based compression and decompression of audio sample sets
AU2011205144B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
AU2011221401B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
Spanias et al. Analysis of the MPEG-1 Layer III (MP3) Algorithm using MATLAB
Reyes et al. A new perceptual entropy-based method to achieve a signal adapted wavelet tree in a low bit rate perceptual audio coder
Ning Analysis and coding of high quality audio signals
Pollak et al. Audio Compression using Wavelet Techniques
Ning et al. Wideband audio compression using a combined wavelet and WLPC representation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130607

R150 Certificate of patent or registration of utility model

Ref document number: 5291815

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250