JP2008539462A

JP2008539462A - オーディオエンコーダを並列に動作させる方法及びシステム

Info

Publication number: JP2008539462A
Application number: JP2008508857A
Authority: JP
Inventors: カウデリー、ジェイムス・ステュアート
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2005-04-28
Filing date: 2006-03-23
Publication date: 2008-11-13
Also published as: ATE509346T1; EP1878011B1; CA2605423C; KR20080002853A; US7418394B2; CA2605423A1; US20060247928A1; AU2006241420B2; CN101167127B; AU2006241420A1; WO2006118695A1; CN101167127A; EP1878011A1

Abstract

入力オーディオストリームをオーディオ情報ブロックの２つ以上の重複するセグメントに分割し、並列的にエンコードされたセグメントを生成させるために書くセグメントにエンコーディング処理を適用し、エンコードされたセグメントを加え合わせることにより１つのエンコードされた出力信号を形成させることによりこのオーディオストリームをエンコードするために必要な時間を削減する。このエンコーディング処理は、１以上のコントロールパラメータに対応する。所定のブロックに適用されるコントロールパラメータは、１以上の先行するブロックのオーディオ情報から算出される。隣り合うセグメント間の重なり合う長さは、重複期間の終点におけるコントロールパラメータ値とそれに対応する参照値との差が、エンコードされた出力信号をデコーディングすることで生じる信号中の可聴なアーティファクトの発生を避けるのに十分小さくなるように選定される。

Description

本発明は一般にオーディオコーディングに関し、具体的には、オーディオ情報ストリームのセグメントに２つ以上のオーディオエンコーディング処理を並列的に適用して、オーディオ情報にエンコードする方法及びシステムに関する。

元の信号を適切に表現するために必要とされる情報量を減少させるために、オーディオコーディングシステムがしばしば用いられる。必要情報容量を減少させることにより、狭い帯域幅のチャンネルで信号を伝送することができ、媒体の少ないスペースに信号を保存することができる。知覚オーディオコーディングを使って、冗長な成分又は適切でない成分を削除することにより元のオーディオ信号の必要情報容量を減少させることができる。この種のコーディングは、スペクトル成分の基底系を用いてもとの信号をデコリレーションすることにより冗長性を減少させるためにしばしばフィルターバンクを用い、心理聴覚の原理によりスペクトル成分を適応的に量子化することにより不適切成分を減少させる。

このフィルターバンクは、例えば、離散フーリエ変換（ＤＦＴ）又は離散コサイン変換（ＤＣＴ）のような種々の変換を含む多くの方法により、実施される。元のオーディオ信号のスペクトル内容を表す１組の変換係数又はスペクトル成分は、元のオーディオ信号の時間区間を表す時間領域サンプルのブロックに変換を適用することにより取得することができる。Proc．of the 1987 International Conference on Acoustics，Speech and Signal Processing (ICASSP)，May 1987，pp．2161-64のPrincen等による、「Subband/Transform
Coding Using Filter Bank Designs Based on time Domain Aliasing Cancellation」に記載された修正離散コサイン変換（ＭＤＣＴ）が、隣接する信号ブロックを互いに重複させながらクリティカルサンプリングを行う能力を含む、いくつかの非常に魅力的なオーディオコーディングの特性を持っているので、広く用いられている。ＭＤＣＴフィルターバンクを適切に動作させるには、重複した元の信号ブロックと一定の条件を満たす窓関数を使うことが要求される。ＭＤＣＴフィルターバンクを用いるコーディングシステムの２つの例として、J. Audio Eng. Soc, vol. 45, no, 10, October 1997, pp. 789-
814のBosi等による、「ISO/EEC MPEG-2 Advanced Audio Coding」に記載された進化したオーディオコーダ（ＡＡＣ）標準に従うシステムと、ドルビーデジタルによりエンコードされたビットストリーム標準に従うシステムとがある。このコーディング標準は、しばしば、ＡＣ−３と呼ばれ、２００１年８月２０日に発行された、表題が「Revision A to Digital Audio Compression (AC-3) Standard」であるAdvanced Television Systems Committee(ATSC)のA/52A書面に記載されている。両方の参考文献は、参照として本明細書に組み込まれる。

量子化分解能を改変したコーディング処理は、信号の不適切性を削減するが、その信号に可聴レベルの量子化誤差又は「量子化ノイズ」をもたらすこともある。知覚コーディングシステムにより、この量子化ノイズが「マスク」されるよう、あるいは、信号のスペクトル内容により知覚できなくするよう量子化分解能の制御が試みられる。これらのシステムは、一般に、元の信号によりマスクされる量子化ノイズのレベルを予測するために知覚モデルを用い、全体のビット配置が割り当て制限を満足するよう、各量子化されたスペクトル成分を表現するためのビット数を変化させながら配置することにより、量子化分解能を制御する。

知覚コーディングシステムは、特殊目的ハードウェア、ディジタル信号処理（ＤＳＰ）コンピュータ、及び汎用コンピュータを含む様々な方法で実施される。多くのコーディングシステムで用いられるこのフィルターバンク及びビット配置処理は、かなりの計算資源を必要とする。その結果、今日普通に利用可能な通常のＤＳＰ及び汎用コンピュータで実行されるエンコーダは、「リアルタイム」よりずっと速く元のオーディオ信号をエンコードすることはできず、これは、元のオーディオ信号をエンコードするために必要な時間は、しばしば、元のオーディオ信号を表現又は「再生」するのに必要な時間と同じか又はそれより長くなることを意味する。ＤＳＰ及び汎用コンピュータの処理速度は速くなっているが、エンコーディング処理が複雑化することにより課せられた処理速度の要求は、ハードウェア・プロセッサにおける速度の増加を帳消しにしてしまう。その結果、ＤＳＰ又は汎用コンピュータにより実行するエンコーダが、リアルタイムよりずっと速く元のオーディオ信号をエンコードすることができるようになるとは思えない。

ＡＣ−３コーディングシステムへの１つの応用例は、ＤＶＤ上の動画に対するサウンドトラックのエンコーディングである。一般的な動画のサウンドトラックの長さはおよそ２時間である。もしこのコーディング処理をＤＳＰ又は汎用コンピュータにより実行するならば、このコーディングもまた約２時間かかるであろう。このエンコーディング時間を削減する１つの方法は、異なった部分のエンコーディング処理を異なったプロセッサ又はコンピュータにより実行することである。しかしながら、複数のプロセッサで動作させるためにエンコーディング処理の再設計が必要となり、プロセッサの数を変えながら効率的な動作を行うエンコーディング処理の設計は難しいか、さもなければ不可能であり、このような再設計したエンコーディング処理は長さの短い元の信号に対しても複数のコンピュータを必要とするので、この方法は魅力的ではない。

必要なのは、任意の数の従来型のオーディオエンコーディング処理を用いて、エンコーディング時間を短縮することができる方法である。

本発明は、元のオーディオ信号をエンコードするのに必要な時間を短縮する従来のオーディオエンコーディング処理の複数のインスタンスを用いる方法を提供する。

本発明は、ブロックの順列に構成されたオーディオサンプルからなるオーディオ情報のストリームであり、整数のブロックに等しい重複区間でお互いに重複したオーディオ情報のストリームの最初のセグメントと２番目のセグメントとを特定するステップと、最初のエンコードされたオーディオ情報のブロックと最初のコントロールパラメータとを生成するために前記オーディオ情報のストリームの最初のセグメントに最初のエンコーディング処理を適用するステップと、２番目のエンコードされたオーディオ情報のブロックと２番目のコントロールパラメータとを生成するために前記オーディオ情報のストリームの２番目のセグメントに２番目のエンコーディング処理を適用するステップと、前記最初のエンコードされたオーディオ情報のブロックと前記２番目のエンコードされたオーディオ情報のブロックとを出力信号にアセンブルするステップとにより、エンコードされることを１つの特徴とする。最初のエンコーディング処理では、オーディオ情報の最初のセグメント中のオーディオサンプルの全てのブロックに応答して、最初のエンコードされたオーディオ情報のブロックと最初のコントロールパラメータとを生成する。２番目のエンコーディング処理では、オーディオ情報の２番目のセグメント中のオーディオサンプルの全てのブロックに応答して２番目のコントロールパラメータを生成するが、重複区間に続くオーディオサンプルのブロックに対してのみ２番目のエンコードされたオーディオ情報のブロックを生成することができる。重複区間の長さは、重複区間の最後のブロックの最初のパラメータ値と２番目のパラメータ値との差が目標の閾値より小さくなるよう選定する。このコントロールパラメータは、出力信号にアセンブルしてもよく、最初のエンコーディング処理と２番目のエンコーディング処理の動作を改変させるために用いてもよい。最初のエンコーディング処理と２番目のエンコーディング処理とは、同じであることが好ましい。

本発明のさまざまな特徴とその好ましい実施の形態は、以下の説明と、図中類似の参照番号で類似の要素を示した添付図を参照することによりよく理解できるであろう。以下の説明と図面の内容は例示のためのものであり、本発明の技術範囲を限定するためのものと解釈すべきでない。

Ａ．序論
図１は、本発明の種々の特徴と共に用いることのできるオーディオエンコーディングトランスミッター１０の１つの実施の形態を示す。この実施の形態において、トランスミッター１０は、元の信号のスペクトル内容を表すスペクトル成分を生成するために経路１から受け取った元の信号に分析フィルターバンク２を適用し、経路５に沿って１以上のコントロールパラメータとを生成するために、コントローラ４中の元の信号又はスペクトル成分を分析し、コントロールパラメータに応答して改変することのできるエンコーディング処理を用いてエンコードされた情報を生成するためにエンコーダ６中のスペクトル成分をエンコードし、そして、経路９に沿って出力信号を生成するためにエンコードされた情報にフォーマッタ８を適用する。この出力信号は、さらなる処理を行うために他の装置に提供することもでき、また、直ちに記憶媒体に記憶させることもできる。経路７は、任意的であり、以下に説明する。

分析フィルターバンク２は、広範囲のフィルター技術、ウェーブレット変換、及びブロック変換を含む種々の方法で実行することができる。ブロック変換ではなく、多相フィルターのようなディジタルフィルターの形式により実施される分析フィルターバンクは、入力信号を分割し１組のサブ帯域信号にする。各サブ帯域信号は、特定の周波数サブ帯域内の入力信号のスペクトル内容を時間ベースで表現するものである。サブ帯域信号は、各サブ帯域信号が、単位時間区間のサブ帯域信号中のサンプルの数に比例する帯域幅を有するように、間引きすることが好ましい。種々の形式の分析フィルターバンク２の実施の形態を、オーディオ情報の連続した入力ストリームに適用することが可能であるが、ブロックスケーリング、心理音響モデルに基づく適応量子化、又はエントロピーコーディングのような種々の形式のエンコーディング処理を容易にするためにオーディオ情報のブロックにこれらの実施の形態を適用することが一般的である。

ブロック変換により実施される分析フィルターバンクは、入力信号のブロック又は区間を信号の区間のスペクトル内容を表す１組の変換係数に変換する。１以上の隣り合う変換係数のグループは、そのグループ中の係数の数に相応する帯域幅を有する特定の周波数のサブ帯域内のスペクトル内容を表す。

図２Ａから図２Ｃは、スペクトル成分を生成させるために分析フィルターバンクにより処理することのできる一連のブロック中に構成したディジタルオーディオ情報のストリームの概念的図である。各ブロックは、オーディオ信号の時間区間を表すディジタルサンプルを含有する。図２Ａにおいて、隣り合うブロック又は時間区間１１〜１４は、一連のブロックにおいてお互いに隣接する。例えば、ブロック１２は、ブロック１１のすぐ後に隣接している。図２Ｂにおいて、隣り合うブロック又は時間区間１１〜１５は、一連のブロックにおいて、ブロック長の８分の１だけお互いに重なり合っている。例えば、ブロック１２は、ブロック１１のすぐ後でブロック１１と重なり合っている。図２Ｃにおいて、、隣り合うブロック又は時間区間１１〜１８は、一連のブロックにおいて、ブロック長の半分だけお互いに重なり合っている。例えば、ブロック１２は、ブロック１１のすぐ後でブロック１１と重なり合っている。これらの図に示した重なり合っている量は例示として示したものである。本発明において特定の重なり量が重要であるということではない。

以下は、分析フィルターバンクとしてＭＤＣＴを用いるエンコーディングトランスミッター１０の実施の形態をさらに詳しく説明するものである。この変換は、図２Ｃに示すようにブロック長の半分がお互いに重なり合っている一連のブロックに適用される。この説明において、「スペクトル成分」の語は変換係数を意味し、「周波数サブ帯域」及び「サブ帯域信号」の語は、１以上の隣接する変換係数のグループに関する。しかしながら、本発明の原理を、他の形式の実施の形態に適用することもでき、そこでは、「周波数サブ帯域」及び「サブ帯域信号」の語はまた、信号の全帯域幅の一部分のスペクトル内容を表す信号に関し、「スペクトル成分」の語は、一般に、サブ帯域信号のサンプル又は要素を示すと理解することができる。知覚コーディングシステムは、人間の聴覚システムの臨界帯域幅と呼ばれる帯域幅と釣り合った帯域幅を有する周波数サブ帯域を提供するために、通常、分析フィルターバンクを導入している。

コントローラ４には、１以上のコントロールパラメータを生成させるために広く様々な処理を導入することができる。図１に示す実施の形態において、これらのコントロールパラメータは、経路５に沿ってエンコーダ６及びフォーマッタ８に送られる。他の実施の形態において、このコントロールパラメータは、エンコーダ６にのみ又はフォーマッタ８にのみ送ることもできる。１実施の形態において、コントローラ４は、元の信号のマスク効果の推定値を表す「マスキングカーブ」を取得するために知覚モデルをスペクトル成分に適用し、このスペクトル成分から、スペクトル成分を量子化するためのビットを配分するために、マスキングカーブと共にエンコーダ６が用いる１以上のコントロールパラメータを導き出す。もし、補完的なデコーディング処理により、出力信号により伝達される他の情報からコントロールパラメータを導き出すことができるのなら、この実施の形態のために、コントロールパラメータをフォーマッタ８に送る必要はない。もう１つの実施の形態において、コントローラ４は、少なくともスペクトル成分のいくつかから１以上のコントロールパラメータを導き出し、それらを、経路９に沿って送られた出力信号中のエンコードされた情報に含めるために、フォーマッタ８に送る。これらのコントロールパラメータは、エンコードされた情報からオーディオ信号を復元及び再生するために、相補的なデコーディング処理で用いることができる。

エンコーダ６は本質的に、特定のアプリケーションに必要とされるどの様なエンコーディング処理にも組み込むことができる。本説明において、「エンコーダ」や「エンコーディング」のような語は、特定の形式の情報処理を意味するものではない。例えば、エンコーディングは、しばしば、必要情報容量を減少させるために用いられる。しかしながら、本明細書中これらの語は、必ずしもこの種の処理を指すものではない。エンコーダ６は、基本的に、必要とされるどんなタイプの処理も実行することができる。上述の１つの実施の形態において、エンコードされた情報は、知覚モデルにより取得してマスキングカーブに従いスペクトル成分を量子化することにより生成される。エントロピーコーディング又は、信号帯域幅の一部分のスペクトル成分を廃棄し、エンコードされた情報と共に廃棄した部分のスペクトルエンベロープの推定値を算出するような他のタイプの処理をエンコーダ６で実行することもできる。本発明では、エンコーディングの形式は重要ではない。

フォーマッタ８は、エンコードされた情報を、特定のアプリケーションに適した形式の出力信号にアセンブルするために、多重化又は他の公知の処理を行うために使うことができる。コントロールパラメータもまた、必要に応じて出力信号にアセンブルしてもよい。

Ｂ．模範的な実施の形態
先に引用したＡＴＳＣ・Ａ／５２Ａ書面に記載された標準に準拠したビットストリームを生成するエンコーディングトランスミッター１０の１つの実施の形態では、そのフィルターバンク２をＭＤＣＴにより実行する。この特有の変換は、１以上のチャンネルのオーディオ情報のストリームに適用される。特定のチャンネルへのストリームは、図２Ｃに示したように隣り合うブロックが半分ずつお互いに重なり合う一連のブロックに構成したオーディオサンプルから成り立っている。全てのチャンネルへのブロックは、お互いに時間について位置合わせされている。各チャンネルに対して、お互いに時間について位置合わせされている６つの隣接するブロックの組が、オーディオ情報の１つの「フレーム」を構成する。

エンコーダ６は、オーディオ情報のフレームを表すスペクトル成分のブロックにエンコーディング処理を適用することによりエンコードされた情報を生成する。コントローラ４は、ブロック又はフレーム毎にエンコーディング処理を改変するために用いられる１つ以上のコントロールパラメータを生成する。コントローラ４はまた、デコーディングレシーバーで用いるために経路９に沿って生成される出力信号に、各ブロック又はフレームをアセンブルするために、１以上のコントロールパラメータを生成する。ブロック又はフレームのコントロールパラメータは、それぞれのブロック又はフレーム内だけのオーディオ情報に応答して生成される。コントロールパラメータのこの形式の一例としては、ここではタイプＩパラメータと呼ばれる、特定のブロックについて計算したマスキングカーブを定める値のアレーである。（ＡＴＳＣ・Ａ／５２Ａ仕様書のアレー「マスク」参照のこと。）それぞれのブロック又はフレームの他のコントロールパラメータは、それぞれのブロック又はフレームに先行するオーディオ情報に応答して生成される。コントロールパラメータのこの形式の一例としては、ここではタイプＩＩパラメータと呼ばれる、デコードされた信号の再生レベルに圧縮した値である。（ＡＴＳＣ・Ａ／５２Ａ仕様書のパラメータ「圧縮」参照のこと。）所定のブロック又はフレームのタイプＩＩパラメータは、所定のブロック又はフレームに先行するオーディオ情報のみならずそのブロック又はフレーム内のオーディオ情報に応じて生成される。エンコーディングトランスミッター１０がオーディオ情報のストリームを処理するとき、それぞれのブロック又はフレームに対するタイプＩパラメータの値は、そのブロック又はフレームとは独立に計算されるが、タイプＩＩパラメータは、先のブロック又はフレーム内のオーディオ情報に依存するような方法で計算される。説明を簡単にするために、以下の説明では、個々のフレーム又は個々のフレーム内のすべてのブロックに適用するコントロールパラメータのみについて言及する。これらの例と基本的な原理は個々のブロックに適用するコントロールパラメータに適用する。

図３は、フレーム２１及び２２にグループ化したオーディオ情報のブロックの概念図である。コントローラ４によって計算されたフレーム２２に対するタイプＩコントロールパラメータ値は、フレーム２２内だけのオーディオ情報に依存するが、フレーム２２に対するタイプＩＩパラメータ値は、フレーム２１内のオーディオ情報と、おそらくフレーム２１に先行する他のフレームとに依存する。フレーム２２のタイプＩＩパラメータ値もまた、そのフレームのオーディオ情報に依存することがある。説明を簡単にするために、以下の例では、特定のフレームのタイプＩＩパラメータ値は、そのフレームと１以上の先行するフレームのオーディオ情報から導き出されることを前提とする。

Ｃ．並列処理
エンコーディングトランスミッター１０の多くの実施の形態において、入力オーディオストリームを演奏するのに必要な時間量とほぼ同じ時間量で、複数入力オーディオストリームをエンコードすることができる。図４に示した、入力フレーム３１で始まり入力フレーム３５で終わる、例えば２時間演奏するオーディオストリーム３０を、出力フレーム４１で始まり出力フレーム４５で終わるフレームに構成したエンコードされた情報のブロックをもつ出力信号を出力するために、約２時間でエンコーディングトランスミッター１０によりエンコードすることができる。

エンコーディングのための時間は、ほぼ同じ長さのＮ個のセグメントにオーディオストリームを分割し、それぞれのエンコーディングトランスミッターにより各セグメントをエンコーディングしてＮ個のエンコードされた信号セグメントを並列的に生成し、このエンコードされた信号セグメントを出力信号を算出するためにお互いに加え合わせることにより、ほぼ係数Ｎの分だけ減少させることができる。図５に記載の例では、オーディオストリーム３０を２つのセグメント３０−１及び３０−２に分割し、エンコーディングトランスミッター１０−１及び１０−２によりこの２つのセグメントをそれぞれ並列的にエンコードして２つのエンコードされた信号セグメント４０−１及び４０−２にし、エンコードされた信号セグメント４０−１の後ろにエンコードされた信号セグメント４０−２を付加して出力信号４０’を取得する。残念ながら、出力信号４０’からデコードされたオーディオ信号は、単一のエンコーディングトランスミッター１０により生成された出力信号４０からデコードされたオーディオ信号とは、一般的に聞こえ方が違う。この聞こえ方の相違は、エンコーディングトランスミッター１０が各セグメントの最初の部分で用いるタイプＩＩパラメータ値が異なることに起因する。この問題の原因と解決方法を以下に説明する。以下の例は、エンコーディングトランスミッターの全ての事例は、入力オーディオストリームから同一の出力信号を生成するような方法でエンコーディングトランスミッターが組み込まれていることを前提としている。

図４及び５に示した例を参照すると、各出力フレームのエンコードされた情報のブロックは、対応する入力フレーム中のオーディオ情報ブロックに応答し、対応する入力フレーム中のオーディオ情報から算出された１以上のタイプＩパラメータに応答し、そして、対応する入力フレーム中と１以上の先行するフレーム中のオーディオ情報から算出された１以上のタイプＩＩパラメータとに応答して生成される。例えば、出力フレーム４３のエンコードされた情報ブロックは、入力フレーム３３中のオーディオ情報のブロックに応答し、入力フレーム３３中のオーディオ情報から算出されたタイプＩパラメータに応答し、そして、入力フレーム３３中と１以上の先行する入力フレーム中のオーディオ情報から算出されたタイプＩＩパラメータに応答して生成される。出力フレーム４１のブロックは、入力フレーム３１中のオーディオ情報のブロックに応答し、入力フレーム３１中のオーディオ情報から算出されたタイプＩパラメータに応答し、そして、入力フレーム３１中のオーディオ情報から算出されたタイプＩＩパラメータに応答して生成される。入力フレーム３１のタイプＩＩパラメータは、入力フレーム３１が入力オーディオストリーム３０の最初のフレームであり、先行する入力フレームがないので、先行するフレームのオーディオ情報に依存しない。入力フレーム３１中のブロックのタイプＩＩパラメータは、入力フレーム３１中でのみ伝達されたオーディオ情報により初期化される。出力フレーム４１から始まり出力フレーム４３までの出力信号４０の出力フレーム中のエンコードされた情報は、エンコーディングトランスミッター１０とエンコーディングトランスミッター１０−１とは、入力フレーム３１から始まり入力フレーム３３までの入力オーディオストリーム中と同一のオーディオ情報のブロックを受け取り処理するので、エンコードされた信号セグメント４０−１の出力フレームに対応するエンコードされた情報と同一である。

出力フレーム４４から始まる後半の出力信号４０の出力フレーム中のエンコードされた情報は、一般に、出力フレーム４４’から始まる出力信号４０’の後半の出力フレームのエンコードされた情報とは同一でない。図４を参照して、出力フレーム４４中のエンコードされた情報のブロックは、入力フレーム３４のオーディオ情報のブロックに応答し、入力フレーム３４中のオーディオ情報から算出されるタイプＩパラメータに応答し、そして、入力フレーム３４中と先行する１以上の入力フレーム中のオーディオ情報から算出されるタイプＩＩパラメータに応答して生成される。図５を参照して、出力フレーム４４’中の情報のブロックは、入力フレーム３４のオーディオ情報のブロックに応答し、入力フレーム３４中のオーディオ情報から算出されるタイプＩパラメータに応答し、そして、入力フレーム３４中のオーディオ情報から算出されるタイプＩＩパラメータに応答して生成される。入力フレーム３４のタイプＩＩパラメータは、入力フレーム３４がセグメント３０−２の最初のフレームであり、先行する入力フレームがないので、先行するフレームのオーディオ情報に依存しない。入力フレーム３４中のブロックのタイプＩＩパラメータは、入力フレーム３４中に伝達されたオーディオ情報により初期化される。一般に、エンコーディングトランスミッター１０及び１０−２に用いられるタイプＩＩパラメータは同一ではないので、それらにより生成されたエンコードされた情報のフレームも同一ではない。

図６は、エンコーディングトランスミッター１０の１つの実施の形態において、仮想的なタイプＩＩパラメータの値「Ｘ」がどのように変化するかを示したものである。基準線５１，５３，５４，及び５５は、それそれ、入力フレーム３１，３３，３４及び３５の開始時間に対応する点を示す。曲線６１は、入力フレーム３１で始まり入力フレーム３５で終わる入力オーディオストリーム３０のオーディオ情報のブロックを処理することにより、図４のエンコーディングトランスミッター１０が算出した「Ｘ」パラメータの値を表す。この曲線は、以下で「Ｘ」パラメータの参照値と呼ばれる値を定める。曲線６４は、入力フレーム３４から始まる入力オーディオストリーム３０−２中のオーディオ情報の処理ブロックにより、図５のエンコーディングトランスミッター１０−２が算出した「Ｘ」パラメータの値を表す。曲線６１と６４とが直線５４と交わる点同士の垂直距離は、入力フレーム３４中のオーディオ情報のブロックをエンコードするための２つのエンコーディングトランスミッターに用いられるタイプＩＩパラメータの値「Ｘ」同士の差を表す。

出力信号４０中の出力フレーム４３及び４４内のエンコードされた情報がデコードされ演奏されたとき、直線５３から５４での曲線６１の小さな増加に示されるとおり、「Ｘ」パラメータの値の変化は非常に小さいので、「Ｘ」パラメータの影響を受けたオーディオ情報はほんの少ししか変化しない。一方、出力信号４０’中の出力フレーム４３及び４４’内のエンコードされた情報がデコードされ演奏されたとき、直線５３での曲線６１と直線５４での曲線６４との間で大きな減少が示されている通り、「Ｘ」パラメータの値の変化が大きいので、「Ｘ」パラメータの影響を受けたオーディオ情報は非常に大きく変化する。もし、例えば仮想的な「Ｘ」パラメータが上述の「圧縮」パラメータであれば、このような大きな変化により、再生レベルにおいて大きな突然の変化が生じるであろう。他のタイプＩＩパラメータであれば、クリック音、ポップ音、又はサンプ音のような他のタイプのアーティファクトを生じる。

この問題は、図７に示すように、上述のように、エンコーディングトランスミッター１０−１に、セグメント３０−１中のオーディオ情報を処理させて、出力フレーム４１，４２，及び４３を持つエンコードされたセグメント４０−１を生成させ、そして、エンコーディングトランスミッター１０−３に、フレーム３４のタイプＩＩパラメータ値が、そのフレームに対応する参照値と大きく異ならないように、入力フレーム３４に先行する１以上のフレーム中のオーディオ情報ブロックを持つ、セグメント３０−３中のオーディオ情報を処理させることにより解決することができる。図６を参照して、曲線６２は、入力フレーム３２から始まるセグメント３０−３中のオーディオ情報のブロックを処理することによりエンコーディングトランスミッター１０−３が算出した「Ｘ」パラメータの値を表す。直線５４での曲線６１の「Ｘ」パラメータの参照値は、対応する直線５４での曲線６４のパラメータの値と比較して、直線５４での曲線６２の「Ｘ」パラメータの値にはるかに接近している。直線５４での曲線６１と曲線６２との間の差が十分小さければ、エンコードされた信号セグメント４０−１にエンコードされた信号セグメント４０−３を付加することにより得られた出力信号４０”をデコードして演奏したオーディオ信号に、可聴アーティファクトは生じない。

入力フレーム３４に先行するオーディオ情報ブロックに応答して、エンコーディングトランスミッター１０−３が生成することのできるどんなエンコードされた情報にもエンコードされた信号セグメント４０−３は含まれない。これは様々な方法で達成することができる。図８に示したシステム８０により実行する１つの方法は、信号セグメンタ８１を使って入力オーディオストリーム３０を図７に示すような重複したセグメントに分割する。入力フレーム３１から始まり入力フレーム３３で終わるオーディオ情報を持つセグメント３０−１は、経路１−１に沿ってエンコーディングトランスミッター１０−１に送られる。入力フレーム３２から始まり入力フレーム３５で終わるオーディオ情報を持つセグメント３０−３は、経路１−３に沿ってエンコーディングトランスミッター１０−３に送られる。信号セグメンタ８１は、入力フレーム３４の位置を示す制御信号を経路８３に沿って生成する。信号アセンブラ８２は、エンコーディングトランスミッター１０−１により生成された最初の出力信号セグメントを経路９−１から受け取り、エンコーディングトランスミッター１０−３により生成された２番目の出力信号セグメントを経路９−３から受け取り、経路８３から受け取った制御信号に応答して２番目の信号セグメント中のフレーム４４”に先行する出力フレームを廃棄し、そして、エンコーディングトランスミッター１０−１から受け取った最初の出力信号セグメントに、２番目の出力信号セグメント中のフレーム４４”から始まり３４”で終わる残りの出力フレームを付加する。

図９に示したシステム９０により実施される他の方法では、図１に概略的に図示したエンコーディングトランスミッター１０の修正した実施の形態を用いる。この修正した実施の形態によれば、エンコーディングトランスミッター１０は、経路７から制御信号を受け取り、それに応答して、フォーマッタ８に出力フレームの生成を抑制させる。加えて、エンコーダ６は、タイプＩＩパラメータの計算に必要としない処理を抑制することにより、対応してもよい。システム９０は、信号セグメンタ９１を用いて入力オーディオストリーム３０を図７に示すような重複させたセグメントに分割する。最初のセグメント３０−１のオーディオ情報は、経路１−１に沿ってエンコーディングトランスミッター１０−１に送られる。２番目のセグメント３０−３は、経路１-３に沿ってエンコーディングトランスミッター１０−３に送られる。信号セグメンタ９１は、エンコーディングトランスミッター１０−１によりエンコードされるべき最初のセグメント３０−１中の全てのオーディオ情報を示す最初の制御信号を経路７−１に沿って生成する。信号セグメンタ９１は、エンコーディングトランスミッター１０−３によりエンコードされるべき入力フレーム３４から始まる２番目のセグメント３０−３中のオーディオ情報のみを示す２番目の制御信号を経路７−３に沿って生成する。エンコーディングトランスミッター１０−３は、２番目のセグメント３０−３の全ての入力フレーム中のオーディオ情報を処理して、タイプＩＩパラメータを算出するが、入力フレーム３４から始まるセグメントの一部でしかない部分のオーディオ情報をエンコードする。信号アセンブラ９２は、エンコーディングトランスミッター１０−１により生成された出力信号セグメント４０−１を経路９−１から受け取り、エンコーディングトランスミッター１０−３により生成された出力信号セグメント４０−３を経路９−３から受け取り、２つの信号セグメントを加え合わせて望ましい出力信号を生成する。

Ｄ．細分化
入力オーディオストリームの細分化を制御するために種々の処理を用いることができる。いくつかの模範的な処理については、「初期化区間」の語を２つの隣接するセグメントの間での重なりと定義することにより、より容易に説明することができる。所定のセグメントの初期化区間は、そのセグメントの先頭で始まり、先のセグメント中の最後のブロックのすぐ後のブロックの先頭で終わる。図７の例では、２つのセグメント３０−１及び３０−２に分割された１つの入力オーディオストリーム３０を示している。最初のセグメントは入力フレーム３１で始まり、入力フレーム３３で終わっていて、２番目のセグメントは入力フレーム３２で始まり、入力フレーム３５で終わっている。２番目のセグメント３０−２の初期化区間は、入力フレーム３２中の最初のブロックの先頭で始まり、入力フレーム３４中の最初のブロックの先頭で終わっている。隣り合うフレームが、例えば、図３に示すように重なり合っている場合、それに続くセグメントの初期化区間は、先のセグメントの最後のフレーム内の点で終わる。

一般に、初期化区間が長いほど、初期化区間の終点でのタイプＩＩパラメータ値と対応する参照値との差が減少するが、入力オーディオストリームセグメントをエンコードするのに必要とする時間を増加させる。初期化区間の長さは、初期化区間の終点での全てのタイプＩＩパラメータの値とそれに対応する参照値との間の差が閾値より小さくなるような範囲で、できるだけ小さくなるよう選ぶことが好ましい。例えば、出力信号からデコードされるオーディオ情報中の可聴なアーティファクトが生じないように閾値を定めてもよい。タイプＩＩパラメータ値における許容できる最大の差異は、経験的又は代替的に、再生音量の変化が約１ｄＢ以下となるようなパラメータの値に制限することができる差異に定めてもよい。適切なタイプＩＩパラメータ値が量子化された場合は、量子化されたタイプＩＩパラメータ値と対応する量子化された参照値との差が指定された量子化ステップの数より大きくならないような範囲でできるだけ短くなるよう、初期化区間を選択することができる。

以下の例では、先に引用したＡＴＳＣＡ／５２Ａ書面に記載された標準に準拠する処理を実行し出力信号を生成するエンコーディングトランスミッター１０を想定する。この実施の形態において、入力オーディオストリームは、５１２サンプルのブロックで構成される。このストリーム中の隣り合うブロックは、２分の１のブロック長さで互いに重なり合い、オーディオチャンネルごとに６つのブロックを有するフレームで構成される。初期化区間は、全入力フレームの整数値に等しい。動画のサウンドトラックのエンコーディングを含む多くのアプリケーションにおける適切な最初の初期化区間は、約３５秒であり、それは、オーディオサンプルレートが４８ｋＨｚであれば約１，０９４入力フレームでありオーディオサンプルレートが４４．１ｋＨｚであれば約１，００５入力フレームである。

Ｅ．実施の形態
本発明の種々の特徴を組み込んだ装置は、コンピュータ又は汎用コンピュータで見られるものと類似の部品と接続したディジタル信号プロセッサ（ＤＳＰ）のような専門化した部品を含む他の装置により実行するソフトウェアを含む種々の方法で実行することができる。図１０は、本発明の特徴を実行するために用いることができる装置７０の概略ブロック線図である。プロセッサ７２は、計算原資を提供する。ＲＡＭ７３は、処理用のプロセッサで用いられるシステムランダムアクセスメモリである。ＲＯＭ７４は、装置７０を動作させ本発明の種々の特徴をおそらく実行させるために必要なプログラムを記憶する読み出し専用メモリ（ＲＯＭ）のような永続性のある記憶装置を表す。Ｉ／Ｏコントロール７５は、通信チャンネル７６，７７を経由して信号を受信し伝送するインターフェース回路を表す。記載の実施の形態において、全ての主なシステム部品はバス７１に、これは２以上の物理バス又はロジカルバスであってもよいが、接続されている。しかしながら、バスアーキテクチャーが本発明の実施に必要というわけではない。

汎用コンピュータシステムに組み込まれた実施形態において、キーボード又はマウス、及びディスプレーのような装置とインターフェースするために、及び、磁気テープ又はディスク、又は光媒体のような記憶媒体を有する記憶装置を制御するために、付加的な部品を具備してもよい。この記憶媒体は、オペレーティングシステム、ユーティリティー、及びアプリケーションの命令プログラムを記憶するために用いることができ、本発明の種々の特徴を実行するプログラムを含めることができる。

本発明のさまざまな特徴を実行するために必要な機能は、個別の論理要素、集積回路、１以上のＡＳＩＣｓ及び／又はプログラム制御されるプロセッサを含む広くさまざまな方法に用いられる構成要素により実行される。これらの構成要素を用いる方法は本発明にとって重要ではない。

本発明を実施するソフトウェアは、超音波から赤外周波数を含む範囲のスペクトルでのベースバンド通信経路又は変調通信経路のような機械的に読み出し可能なさまざまな媒体、又は、磁気テープ、磁気カード、磁気ディスク、光学カード又は光学ディスク、及び紙を含む媒体上の検出可能なマーキングを含んで、原則としてあらゆる記憶技術を含む、情報を伝達する記憶媒体により伝達することができる。

本発明の種々の特徴を組み込むことのできるコーディングシステムに用いるエンコーディングトランスミッターの概略ブロック線図である。ブロックの順列に構成したオーディオ情報の概念図である。ブロックの順列に構成したオーディオ情報の概念図である。ブロックの順列に構成したオーディオ情報の概念図である。オーディオ情報の隣り合うフレームに構成したオーディオ情報のブロックの概念図である。エンコードされた出力信号を生成するために入力オーディオ情報をそりするエンコーディングトランスミッターの概略ブロック線図である。オーディオ信号セグメントを並列的にエンコードするために構成した複数のエンコーディングトランスミッターの概略ブロック線図である。仮想的なタイプＩＩパラメータの値をグラフで示したものである。重複したオーディオ信号セグメントを並列的にエンコードするために構成した複数のエンコーディングトランスミッターの概略ブロック線図である。並列的に動作する複数のエンコーディングトランスミッターを制御するためのシステムの概略ブロック線図である。並列的に動作する複数のエンコーディングトランスミッターを制御するためのシステムの概略ブロック線図である。本発明の種々の特徴を実行するために用いることのできる装置の概略ブロック線図である。

Claims

各ブロックがそれぞれ始まりと終わりを有するブロックの順列に構成されたオーディオサンプルからなるオーディオ情報のストリームをエンコードする方法であって、最初のブロックは２番目のブロックに先行し、２番目のブロックに３番目のブロックが続き、３番目のブロックに４番目のブロックがすぐ続き、４番目のブロックに５番目のブロックが続き、
（ａ）重複区間でお互いに重複したオーディオ情報のストリームの最初のセグメントと２番目のセグメントとを特定するステップであって、
（１）前記最初のセグメントは、前記最初のブロックで始まり前記３番目のブロックで終わる複数のブロックを具備し、
（２）前記２番目のセグメントは、前記２番目のブロックで始まり、前記４番目のブロックを含み、前記５番目のブロックで終わる複数のブロックを具備し、
（３）前記重複区間は、前記２番目のブロックの始まりから前記４番目のブロックの始まりまで広がっている、
ことを特徴とするステップと、
（ｂ）最初のエンコードされたオーディオ情報のブロックと、前記３番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する最初のコントロールパラメータとを生成するために、前記オーディオ情報のストリームの前記最初のセグメントに最初のエンコーディング処理を適用するステップであって、
（１）ブロック中の前記最初のエンコードされたオーディオ情報は、前記３番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
（２）前記ブロック中の前記最初のコントロールパラメータは、前記最初のブロックから前記３番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックとに応答して生成される、
ことを特徴とするステップと、
（ｃ）２番目のエンコードされたオーディオ情報と４番目のブロックから５番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する２番目のコントロールパラメータを生成し、前記３番目のブロック中のオーディオサンプルに対応する２番目のコントロールパラメータを生成するために、前記オーディオ情報のストリームの２番目のセグメントに２番目のエンコーディング処理を適用するステップであって、
（１）ブロック中の前記２番目のエンコードされたオーディオ情報は、前記４番目のブロックから前記５番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記２番目のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
（２）前記ブロック中の前記２番目のコントロールパラメータは、前記２番目のブロックから前記５番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記２番目のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックに応答して生成され、
（３）前記重複区間は、前記３番目のブロックの前記最初のコントロールパラメータの値と前記２番目のコントロールパラメータの値との差が閾値以下になるような区間である、
ことを特徴とするステップと、
（ｄ）前記最初のエンコードされたオーディオ情報のブロックと前記２番目のエンコードされたオーディオ情報のブロックとを出力信号にアセンブルするステップであって、
（１）前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、出力信号にアセンブルされ、又は
（２）前記最初のエンコーディング処理は、前記最初のコントロールパラメータに応答して前記最初のエンコードされたオーディオ情報を生成し、前記２番目のエンコーディング処理は、前記２番目のコントロールパラメータに応答して前記２番目のエンコードされたオーディオ情報を生成する、
ことを特徴とするステップと、
を具備することを特徴とする方法。
前記オーディオ情報のストリームは、フレームに構成され、各フレームは複数のブロックを有し、それぞれのフレーム中の最初のブロックと、２番目のブロックと、４番目のブロックは始まりのブロックであり、それぞれのフレーム中の３番目のブロックと５番目のブロックは終わりのブロックであることを特徴とする請求項１に記載の方法。
前記最初のエンコーディング処理と前記２番目のエンコーディング処理は、エンコードされたオーディオ情報に適用した相補的なデコーディング処理により時間領域でエイリアシング・アーティファクトを生じさせるようなオーディオサンプルのブロックに、フィルターバンクを適用することにより該エンコードされたオーディオ情報を生成させ、前記ブロックの順列中の前記オーディオサンプルのブロックは、相補的なデコーディング処理による時間領域でのエイリアシング・アーティファクトによる影響を緩和させる量だけ相互に重複していることを特徴とする、請求項１に記載の方法。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、前記出力信号にアセンブルされ、前記重複区間は、３５秒より大きいことを特徴とする請求項１に記載の方法。
前記最初のエンコーディング処理と前記２番目のエンコーディング処理は、それぞれ、前記最初のコントロールパラメータと前記２番目のコントロールパラメータとに応答し、前記重複区間は、４，５００ミリ秒より大きいことを特徴とする請求項１に記載の方法。
前記閾値の量は、前記最初のコントロールパラメータに従い前記３番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号と、前記２番目のコントロールパラメータに従い前記３番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号との差が、感知できない程度であることを特徴とする請求項１に記載の方法。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、前記最初のエンコーディング処理と前記２番目のエンコーディング処理とに相補的なデコーディング処理に用いられる係数の値を表し、前記記閾値の量は該係数における１ｄＢに等しい変化を表すことを特徴とする請求項１に記載の方法。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、量子化ステップサイズに従って量子化された値で表され、前記記閾値の量は０以上の量子化ステップサイズの整数値であることを特徴とする請求項１に記載の方法。
各ブロックがそれぞれ始まりと終わりを有するブロックの順列に構成されたオーディオサンプルからなるオーディオ情報のストリームをエンコードする装置であって、最初のブロックは２番目のブロックに先行し、２番目のブロックに３番目のブロックが続き、３番目のブロックに４番目のブロックがすぐ続き、４番目のブロックに５番目のブロックが続き、
（ａ）重複区間でお互いに重複したオーディオ情報のストリームの最初のセグメントと２番目のセグメントとを特定する手段であって、
（１）前記最初のセグメントは、前記最初のブロックで始まり前記３番目のブロックで終わる複数のブロックを具備し、
（２）前記２番目のセグメントは、前記２番目のブロックで始まり、前記４番目のブロックを含み、前記５番目のブロックで終わる複数のブロックを具備し、
（３）前記重複区間は、前記２番目のブロックの始まりから前記４番目のブロックの始まりまで広がっている、
ことを特徴とする手段と、
（ｂ）最初のエンコードされたオーディオ情報のブロックと、前記３番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する最初のコントロールパラメータとを生成するために、前記オーディオ情報のストリームの前記最初のセグメントに最初のエンコーディング処理を適用する手段であって、
（１）ブロック中の前記最初のエンコードされたオーディオ情報は、前記３番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
（２）前記ブロック中の前記最初のコントロールパラメータは、前記最初のブロックから前記３番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックとに応答して生成される、
ことを特徴とする手段と、
（ｃ）２番目のエンコードされたオーディオ情報と４番目のブロックから５番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する２番目のコントロールパラメータを生成し、前記３番目のブロック中のオーディオサンプルに対応する２番目のコントロールパラメータを生成するために、前記オーディオ情報のストリームの２番目のセグメントに２番目のエンコーディング処理を適用する手段であって、
（１）ブロック中の前記２番目のエンコードされたオーディオ情報は、前記４番目のブロックから前記５番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記２番目のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
（２）前記ブロック中の前記２番目のコントロールパラメータは、前記２番目のブロックから前記５番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記２番目のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックに応答して生成され、
（３）前記重複区間は、前記３番目のブロックの前記最初のコントロールパラメータの値と前記２番目のコントロールパラメータの値との差が閾値以下になるような区間である、
ことを特徴とする手段と、
（ｄ）前記最初のエンコードされたオーディオ情報のブロックと前記２番目のエンコードされたオーディオ情報のブロックとを出力信号にアセンブルする手段であって、
（１）前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、出力信号にアセンブルされ、又は
（２）前記最初のエンコーディング処理は、前記最初のコントロールパラメータに応答して前記最初のエンコードされたオーディオ情報を生成し、前記２番目のエンコーディング処理は、前記２番目のコントロールパラメータに応答して前記２番目のエンコードされたオーディオ情報を生成する、
ことを特徴とする手段と、
を具備することを特徴とする装置。
前記オーディオ情報のストリームは、フレームに構成され、各フレームは複数のブロックを有し、それぞれのフレーム中の最初のブロックと、２番目のブロックと、４番目のブロックは始まりのブロックであり、それぞれのフレーム中の３番目のブロックと５番目のブロックは終わりのブロックであることを特徴とする請求項９に記載の装置。
前記最初のエンコーディング処理と前記２番目のエンコーディング処理は、エンコードされたオーディオ情報に適用した相補的なデコーディング処理により時間領域でエイリアシング・アーティファクトを生じさせるようなオーディオサンプルのブロックに、フィルターバンクを適用することにより該エンコードされたオーディオ情報を生成させ、前記ブロックの順列中の前記オーディオサンプルのブロックは、相補的なデコーディング処理による時間領域でのエイリアシング・アーティファクトによる影響を緩和させる量だけ相互に重複していることを特徴とする、請求項９に記載の方法。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、前記出力信号にアセンブルされ、前記重複区間は、３５秒より大きいことを特徴とする請求項９に記載の装置。
前記最初のエンコーディング処理と前記２番目のエンコーディング処理は、それぞれ、前記最初のコントロールパラメータと前記２番目のコントロールパラメータとに応答し、前記重複区間は、４，５００ミリ秒より大きいことを特徴とする請求項９に記載の装置。
前記閾値の量は、前記最初のコントロールパラメータに従い前記３番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号と、前記２番目のコントロールパラメータに従い前記３番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号との差が、感知できない程度であることを特徴とする請求項９に記載の装置。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、前記最初のエンコーディング処理と前記２番目のエンコーディング処理とに相補的なデコーディング処理に用いられる係数の値を表し、前記記閾値の量は該係数における１ｄＢに等しい変化を表すことを特徴とする請求項９に記載の装置。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、量子化ステップサイズに従って量子化された値で表され、前記記閾値の量は０以上の量子化ステップサイズの整数値であることを特徴とする請求項９に記載の装置。
各ブロックがそれぞれ始まりと終わりを有するブロックの順列に構成されたオーディオサンプルからなるオーディオ情報のストリームをエンコードする方法を実施するための装置で実行可能な命令のプログラムを運ぶ媒体であって、ここで、最初のブロックは２番目のブロックに先行し、２番目のブロックに３番目のブロックが続き、３番目のブロックに４番目のブロックがすぐ続き、４番目のブロックに５番目のブロックが続き、該方法は、
（ａ）重複区間でお互いに重複したオーディオ情報のストリームの最初のセグメントと２番目のセグメントとを特定するステップであって、
（１）前記最初のセグメントは、前記最初のブロックで始まり前記３番目のブロックで終わる複数のブロックを具備し、
（２）前記２番目のセグメントは、前記２番目のブロックで始まり、前記４番目のブロックを含み、前記５番目のブロックで終わる複数のブロックを具備し、
（３）前記重複区間は、前記２番目のブロックの始まりから前記４番目のブロックの始まりまで広がっている、
ことを特徴とするステップと、
（ｂ）最初のエンコードされたオーディオ情報のブロックと、前記３番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する最初のコントロールパラメータとを生成するために、前記オーディオ情報のストリームの前記最初のセグメントに最初のエンコーディング処理を適用するステップであって、
（１）ブロック中の前記最初のエンコードされたオーディオ情報は、前記３番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
（２）前記ブロック中の前記最初のコントロールパラメータは、前記最初のブロックから前記３番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックとに応答して生成される、
ことを特徴とするステップと、
（ｃ）２番目のエンコードされたオーディオ情報と４番目のブロックから５番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する２番目のコントロールパラメータを生成し、前記３番目のブロック中のオーディオサンプルに対応する２番目のコントロールパラメータを生成するために、前記オーディオ情報のストリームの２番目のセグメントに２番目のエンコーディング処理を適用するステップであって、
（１）ブロック中の前記２番目のエンコードされたオーディオ情報は、前記４番目のブロックから前記５番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記２番目のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
（２）前記ブロック中の前記２番目のコントロールパラメータは、前記２番目のブロックから前記５番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記２番目のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックに応答して生成され、
（３）前記重複区間は、前記３番目のブロックの前記最初のコントロールパラメータの値と前記２番目のコントロールパラメータの値との差が閾値以下になるような区間である、
ことを特徴とするステップと、
（ｄ）前記最初のエンコードされたオーディオ情報のブロックと前記２番目のエンコードされたオーディオ情報のブロックとを出力信号にアセンブルするステップであって、
（１）前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、出力信号にアセンブルされ、又は
（２）前記最初のエンコーディング処理は、前記最初のコントロールパラメータに応答して前記最初のエンコードされたオーディオ情報を生成し、前記２番目のエンコーディング処理は、前記２番目のコントロールパラメータに応答して前記２番目のエンコードされたオーディオ情報を生成する、
ことを特徴とするステップと、
を具備することを特徴とする媒体。
前記オーディオ情報のストリームは、フレームに構成され、各フレームは複数のブロックを有し、それぞれのフレーム中の最初のブロックと、２番目のブロックと、４番目のブロックは始まりのブロックであり、それぞれのフレーム中の３番目のブロックと５番目のブロックは終わりのブロックであることを特徴とする請求項１７に記載の媒体。
前記最初のエンコーディング処理と前記２番目のエンコーディング処理は、エンコードされたオーディオ情報に適用した相補的なデコーディング処理により時間領域でエイリアシング・アーティファクトを生じさせるようなオーディオサンプルのブロックに、フィルターバンクを適用することにより該エンコードされたオーディオ情報を生成させ、前記ブロックの順列中の前記オーディオサンプルのブロックは、相補的なデコーディング処理による時間領域でのエイリアシング・アーティファクトによる影響を緩和させる量だけ相互に重複していることを特徴とする、請求項１７に記載の媒体。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、前記出力信号にアセンブルされ、前記重複区間は、３５秒より大きいことを特徴とする請求項１７に記載の媒体。
前記最初のエンコーディング処理と前記２番目のエンコーディング処理は、それぞれ、前記最初のコントロールパラメータと前記２番目のコントロールパラメータとに応答し、前記重複区間は、４，５００ミリ秒より大きいことを特徴とする請求項１７に記載の媒体。
前記閾値の量は、前記最初のコントロールパラメータに従い前記３番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号と、前記２番目のコントロールパラメータに従い前記３番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号との差が、感知できない程度であることを特徴とする請求項１７に記載の媒体。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、前記最初のエンコーディング処理と前記２番目のエンコーディング処理とに相補的なデコーディング処理に用いられる係数の値を表し、前記記閾値の量は該係数における１ｄＢに等しい変化を表すことを特徴とする請求項１７に記載の媒体。
前記最初のコントロールパラメータと前記２番目のコントロールパラメータとは、量子化ステップサイズに従って量子化された値で表され、前記記閾値の量は０以上の量子化ステップサイズの整数値であることを特徴とする請求項１７に記載の媒体。