JP4290997B2

JP4290997B2 - プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善

Info

Publication number: JP4290997B2
Application number: JP2002590350A
Authority: JP
Inventors: クロケット、ブレット・ジー
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-05-10
Filing date: 2002-04-25
Publication date: 2009-07-08
Anticipated expiration: 2022-04-25
Also published as: KR20040034604A; CN1552060A; EP1386312A1; CA2445480A1; MXPA03010237A; JP2004528597A; AU2002307533B2; US20040133423A1; ATE387000T1; KR100945673B1; CN1312662C; WO2002093560A1; DE60225130T2; ES2298394T3; CA2445480C; DE60225130D1; HK1070457A1; EP1386312B1; DK1386312T3; US7313519B2

Description

本発明は、一般的に音楽や音声のようなオーディオ信号を表現する情報の低ビットレートディジタル変換によるコーディングとデコーディングの分野に関する。とりわけ、本発明は、このようなコーディングとデコーディングにより生み出されるオーディオ信号の流れにおけるシグナルトランジエントに先立つひずみによるアーティファクト（「プレノイズ」）の縮減に関する。

タイムスケーリング
タイムスケーリングは、スペクトル内容(音色の認識)、もしくは、知覚された信号のピッチ(ここでピッチとは、周期的なオーディオ信号に関連する特徴である)を変化させないで、オーディオ信号の時間的展開又は継続時間を変化させることに関するものである。ピッチスケーリングは、オーディオ信号の時間展開又は継続時間に影響を与えないで、オーディオ信号のスペクトル内容、もしくは、知覚された信号のピッチを変化させることに関するものである。タイムスケーリング及びピッチスケーリングは、お互いに二元的な方法である。例えば、オーディオ信号を５％タイムスケーリングし（信号継続時間を増加させ）、そして、５％高いサンプルレートで(例えば再サンプルにより)サンプル値を読み取り、それによりそのオリジナルな信号継続時間を維持させるようにしながら、ディジタル化されたオーディオシグナルのピッチをその継続時間に影響を与えることなく５％スケールアップすることが可能である。この結果としての信号は、オリジナルの信号と同じ継続時間となるが、修正されたピッチあるいはスペクトル特性となる。一定の出力サンプリングレート又は入出力サンプリングレートを同じにすることが要求されないなら、再サンプリングは、タイムスケーリング又はピッチスケーリング本質的なステップではない。

本発明の特徴では、オーディオの流れに対してタイムスケーリング処理が採用されている。しかし、上述の通り、タイムスケーリングは、お互いに一対のものであるから、ピッチスケーリングの技術も使って実行される。このように、ここで「タイムスケーリング」の用語が使われるときは、タイムスケーリングを実行するためのピッチスケーリングを用いた技術もまた採用されている。

低ビットレートオーディオコーディング
信号の質を知覚できるほど落とさないで、信号を表現するのに必要な情報量を最小限にすることは、信号処理の分野で大きな関心がもたれている。要求情報量を減らすことによって、信号伝達チャンネルや記憶媒体に対する情報処理容量の要求が低くなる。ディジタルコーディング技術に関しては、情報処理要求を最小限にすることは、２進ビットの必要量を最小限にすることと同義となる。

人に聞かせることを意図するオーディオ信号のコーディング技術についての先行技術では、サイコアコースティックな効果を活用することにより、聴覚的な質の低下なしで要求情報量を減らそうとする。人間の耳は、様々な中心周波数を持った非対称の高度に調整されたフィルターの特性に似た周波数特性を発揮する。人間の耳が音色の違いを検知する能力は、一般には、音色同士の周波数の違いが大きくなるにつれて大きくなる。しかし、耳の分解能は、上述のフィルターのバンド幅より小さい周波数の差に対しては、実質的に一定である。したがって、人間の耳の周波数分解能は、オーディオスペクトル全体にわたるこれらのフィルターのバンド幅に従い変化する。このような聴覚的フィルターの効果の大きいバンド幅をクリティカルバンドと称する。クリティカルバンド内における優位な信号は、クリティカルバンドの外にある周波数の他の信号より、クリティカルバンド内の他のどの信号に対しても可聴性をマスクするのに適している。優位な信号は、同時に発生した他の信号のみならず、このマスキング信号より前又は後に発生した信号に対してもマスクすることができる。クリティカルバンド内のプレ及びポストマスキング効果の継続時間は、マスキング信号の振幅に依存するが、プレマスキング効果は、普通、ポストマスキング効果に比べてかなり短い継続時間となる。一般技術として「the Audio Engineering Handbook」K. Blair Benson編著 McGraw-Hill, San Francisco, 1988, 1.40 - 1.42及び4.8 - 4.10ページ参照。

有用な信号バンド幅を耳のクリティカルバンドに近似したバンド幅の周波数バンドに分割する録音及び伝達技術は、バンド幅を広げる技術よりサイコアコースティックな効果を活用することができる。サイコアコースティックなマスキング効果を活用する技術により、PCMコーディングに要求されるビットレートよりも低いビットレートを用いても、元の入力信号と見分けのつかない信号をエンコードし再生することができる。

クリティカルバンド技術は、信号バンド幅を周波数バンドに分割すること、各周波数バンドにおいて信号処理を行うこと、そして、各周波数バンドにおいて処理された信号から元の信号の複製を再構築することからなる。２つのこのような技術としては、サブバンドコーディングとトランスフォームコーディングとがある。サブバンド及びトランスフォームコーダーは、特定の周波数バンドで伝達する情報要求量を減らすことができ、そこでは精度の低いコーディングの結果（ノイズ）は、エンコードされた信号の品質を落とさずに、近隣の周波数成分によりサイコアコースティックにマスクされる。

ディジタルバンドパスフィルターバンクはサブバンドコーディングの要求を満たす。トランスフォームコーディングは、ディジタルバンドパスフィルターバンクを提供する不連続な時間領域から周波数領域へのどんな変換によっても実行され得る。残りの議論は特にトランスフォームコーダーに関するので、サブバンドコーダーによるものであろうと、トランスフォームコーダーによるものであろうと、「サブバンド」の語は、ここでは全信号のバンド幅における選択された部分をいう。トランスフォームコーダーにより実行されたサブバンドは１以上の隣り合う変換係数のセットにより定義される。したがって、サブバンドのバンド幅は、バンド幅変換係数の複合体である。変換係数のバンド幅は、入力信号のサンプリングレートに比例し、入力信号を再現するための変換により発生する係数の数に逆比例する。

サイコアコースティックなマスキングは、可聴なスペクトル全体にわたるサブバンドのバンド幅が、同じスペクトルにおいて、人間のクリティカルバンド幅の約半分であれば、トランスフォームコーダーにより実施され得る。これは、サブバンド及びトランスフォームコーダーは典型的に固定されたサブバンドの中心周波数を持つのに対し、人間の耳のクリティカルバンドは音の刺激に順応して変化する中心周波数を持つからである。サイコアコースティックなマスキング効果を最適化するために、優位な信号の存在の結果生ずるひずみアーティファクトは、優位な信号を含むサブバンド内に制限すべきである。もし、サブバンドのバンド幅がクリティカルバンドの約半分以下であり、フィルターの選択性能が十分高ければ、周波数がサブバンドのパスバンドバンド幅の端近くにあっても、好ましくないひずみの発生に対するマスキングには好都合である。もし、サブバンドのバンド幅がクリティカルバンドの半分以上であれば、優位な信号が耳のクリティカルバンドにコーダーのサブバンドからのずれを起こさせ、耳のクリティカルバンド幅の外側にある好ましくないひずみの発生がマスクされない。この効果は耳のクリティカルバンド幅が狭くなる低周波においてもっとも好ましくない事象である。

優位な信号が耳のクリティカルバンドにコーダーのサブバンドからのずれを起こさせ、これにより、同じコーダーのサブバンドにおける他の信号がカバーされない可能性は、一般的に、耳のクリティカルバンド幅が狭くなる低周波において大きくなる。トランスフォームコーダーにおいて、最も狭いサブバンドは１つの変換係数であり、したがって、サイコアコースティックなマスキングは、もし、変換係数のバンド幅が耳の最狭のクリティカルバンドにおけるバンド幅の２分の１を超えなければもっと簡単に実行されるであろう。変換の長さを増大することは、変換係数のバンド幅を減少させる可能性がある。変換の長さを増大させることの１つの不利益は、変換を計算し、より多くの数の狭いサブバンドをエンコードするための、処理の複雑さを増大させることである。他の不利益については以下に説明する。

もちろん、もし、これらのサブバンドの中心周波数が優位な信号成分に応じて、耳のクリティカルバンドの中心周波数がずれるのと同じようにずれるのなら、サイコアコースティックなマスキングは、広いサブバンドに用いることができる。

サイコアコースティックなマスキング効果を活用する能力は、変換により実行されるフィルターバンクの選択性にも依存する。フィルターの「選択性」は、ここで使われている用語のように、サブバンドのバンドパスフィルターとしての２つの特性をいう。１番目は、フィルターのパスバンドとストップバンドの間の領域のバンド幅（伝達バンドの幅）である。２番目は、ストップバンドにおける減衰の程度である。このように、フィルターの選択性とは、トランジッションバンド内でのフィルター応答曲線の急峻さ（トランジッションバンドのロールオフの急峻さ）と、ストップバンドにおける減衰の程度（ストップバンドリジェクジョンの深さ）を言う。

フィルターの選択性は、以下に論ずる３つのファクター、すなわち、ブロック長さ、重み付け窓関数、及び変換、を含めた数多くのファクターにより直接的に影響を受ける。ごく一般的には、ブロック長さはコーダーの時間的および周波数的分解能に影響し、窓と変換はコーディングのゲインに影響を及ぼす。

低ビットレートのコーディング／ブロック長さ
エンコードされる入力信号は、サンプルリングされ、サブバンドフィルタリングの前に「信号サンプルブロック」にセグメント化される。信号サンプルにおけるサンプルの数が信号サンプルブロック長さとなる。

変換フィルターバンクによりつくられた係数の数（変換長さ）が信号サンプルブロック長さに等しくなることは一般的であるが、必ずしもその必要はない。重複ブロック変換が使われ、これは、長さN信号サンプルブロックを２Nのサンプルを持った信号サンプルブロックに変換する変換技術としてたまに記述されている。この変換は、また、Nの一意的な係数を発生させる２Nの長さを変換させるものとして記載されることもある。なぜなら、ここで論ずるすべての変換は信号サンプルブロック長さと同じ長さを持つと考えることができ、この二つの長さは一般にここではお互いに同じ意味で使われるからである。

信号サンプルブロックは、変換コーダーの時間的および周波数的分解能に影響する。短いブロック長さに用いられる変換コーダーは、離散的な変換係数のビット幅が広くそしてフィルターの選択性が低いため、貧弱な周波数分解能（低いトランジッション・バンド・ロールオフと減少したストップバンド・リジェクション）を持つ。このようなフィルター特性の低下は信号のスペクトル成分のエネルギーを近傍の変換係数に拡散させてしまう。この好ましくないスペクトルエネルギーの拡散は、「サイドローブリーケージ（sidelobe leakage）」と呼ばれ、フィルターの特性の低下をもたらす。

量子化誤差により、変換コーダー／デコーダーシステムは、信号サンプルブロック全長にわたってサンプルされた信号の周波数成分が「不鮮明」になるので、長いブロック長さに用いる変換コーダーは、時間的分解能が貧弱となる。逆変換により回復した信号中のひずみによるアーティファクトは、信号サンプルブロック長さに比べてはるかに短い時間内に存在する信号振幅の大きな変化の結果、概して可聴なものとなる。このような振幅の変化をここでは「トランジエント」と称す。このようなひずみは、エコー又はリンギングとなって、トランジエントの直前（プレトランジエントノイズ又は「プレノイズ」）又は直後（ポストトランジエントノイズ）に現れる。オーディオ機器のトランジエントの高周波成分が、それが発生したオーディオコーダーブロックの長さにわたって一時的に不鮮明になるとき、プレノイズが発生する。本発明はプレノイズを最小限にすることに関するものである。ポストトランジエントノイズは、おおむねマスクされるので本発明の対象ではない。

固定ブロック長さ変換コーダーは、時間的分解能が周波数分解能に対して二律背反関係にある妥協的なブロック長さを用いる。短いブロック長さは、サブバンドフィルターの選択性を劣化させ、低周波数領域又は全領域で耳のクリティカルバンド幅を超えるバンド幅の名目的なパスバンドフィルターとなってしまうかもしれない。たとえこの名目的なサブバンドのバンド幅が耳のクリティカルバンド幅より狭くても、広いトランジッション・バンド及び／又は貧弱なストップバンド・リジェクションとして表現される劣化した特性は、耳のクリティカルバンド幅の外側に、著しい信号アーティファクトをもたらすであろう。一方、長いブロック長さは、フィルターの選択性を改善するが時間的分解能を低下させ、耳のサイコアコースティックな時間的なマスキングの時間間隔の外側に、可聴な信号ひずみを起こさせる結果となるかもしれない。

窓関数
有限時間の信号セグメントつまり信号サンプルブロック内で作用するので、離散的な変換は全く正確な信号係数を生み出すわけではない。厳密にいえば、離散的変換は、無限のサンプルブロック長さの信号サンプルを必要とする真の周波数領域を表現するというより、入力時間領域における時間と周波数の関係を表現する。しかしここでは議論を簡単にするため、離散的変換の出力は周波数領域を表現するものとする。実質的に、離散的変換は信号サンプルブロック長さの約数となる周期の周波数成分のみを持つサンプル信号であると想定する。これは、有限長さの信号が周期的であるという想定と等価である。この想定は一般的にはもちろん正しくない。この想定された周期は、信号サンプルブロックの端で不連続性を生み、変換により実体のないスペクトル成分を生み出す原因となる。

このような影響を最小限に抑える技術の１つは、変換の前に信号サンプルブロックの端近くのサンプルがゼロ又はゼロ付近になるような信号サンプルに対する重み付けを行って不連続性を減少させる技術である。信号サンプルブロックの中央にあるサンプルは、原則として変化させずに、つまり係数１の重み付けを行って、通過する。この重み付け関数は「分析窓（analysis window）」と呼ばれる。窓の形は直接的にフィルターの選択性に影響を及ぼす。

ここで用いたように、「分析窓」の用語は、正変換の適用に先立って実行される窓関数のみをいう。分析窓は時間領域の関数である。窓の効果に対する補償がなければ、復元された又は「合成された（synthesized）」信号は、分析窓の形に応じてひずむ。１つの補償方法はオーバーラップアド（overlap-add）として芸術の分野でよく知られている。この方法は入力信号サンプルのブロックに重複して変換するコーダーを必要とする。２つの隣り合う窓が一体となるよう重複しながらつながるよう注意深く分析窓を設計することで、窓の効果は完全に相殺される。

窓の形は、フィルターの選択性に大きな影響を与える。一般技術としてHarrisの「On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform」Proc IEEE, vol. 66, January, 1978, 51 - 83ページ参照のこと。一般的に、窓に形成され重複期間の大きい「スムーサー」はよい選択性をもたらす。例えば、カイザー‐ベッセル窓は正弦波の傾きを持った方形窓より良い選択性を提供する。

離散フーリエ変換（DFT）のようなタイプの変換を用いると、重複期間における信号部分は、重複した２つの信号サンプルブロックの各々について１回、つまり２度変換し送信しなければならないので、オーバーラップアドは、信号を表現するのに必要なビット数を増やす。オーバーラップアドに用いるこのような変換に使うシステムのための信号の分析／合成は注意深くサンプルされた（critically sampled）ものではない。「注意深くサンプルされた（critically sampled）」の用語は、１周期にわたって、受け取った入力信号サンプルの数と同じ数の周波数係数を発生させる信号の分析／合成をいう。したがって、注意深くサンプルされたものでないシステムは、コード化された信号情報に対する要求を最小限にするために、できるだけ重複期間を小さくするよう窓を設計することが望ましい。

いくつかの変換においては、逆変換による合成出力が窓化されることも要求される。合成窓は、各合成された信号ブロックに用いられる。したがって、合成された信号は分析及び合成窓の両方により重み付けされる。この２つのステップによる重み付けは、サンプルごとに分析および合成窓の出力と同じ形の窓により元の信号に対し１度重み付けをするのと数学的に同等である。したがって、窓によるひずみを補償するためのオーバーラップアドに用いるために、２つの窓は、両者の合計がオーバーラップアドの周期にわたって一貫するように設計されなければならない。窓の最適化を評価するために用いる単一の基準がないので、窓を使ったフィルターの選択性が「良い」と考えられれば、その窓は一般的に「良い」と考えられる。したがって、うまく設計された分析窓（分析窓のみを用いた変換に対して）又は分析／合成窓のペア（分析窓及び合成窓の両方を用いた変換に対して）はサイドローブリーケージを減らすことができる。

ブロック切り替え
固定ブロック長さの変換コーダーにおける時間と周波数の分解能に関する妥協に対応する一般的な解決手段は、トランジエントの検出とブロック長さの切り替えである。この解決手段において、信号トランジエントの存在とその位置は、様々なトランジエント検出法を用いて検出される。信号コーダーブロック長さの長いものを用いると、プレノイズが発生しそうなトランジエント・オーディオ信号が検出されたとき、低ビットレートのコーダーが、効率の良い長いブロック長さから効率が劣る短いブロック長さに切り替える。これは、エンコードされたオーディオ信号の周波数分解能とコーディング効率を下げる一方、コーディングプロセスにより発生する過渡的なプレノイズの長さも短くし、低ビットレートでのデコーディングにおけるオーディオの知覚される質を改善する。ブロック長さを切り替える技術は、米国特許5,394,473、5,848,391、及び6,226,608B1に開示されており、これらは、全体的に参照用として本出願に組み込まれる。しかし、本発明はブロック切り替えの複雑さや不都合なしに、プレノイズを減らすもので、ブロック切り替えとともにあるいはブロック切り替えに付け加えて用いられる。

本発明の第１の特徴によれば、コーディングブロックに用いる低ビットレートのオーディオコーディングシステムを基本とする変換により処理されるオーディオ信号の流れにおける信号トランジエントに先立つひずみアーティファクトを縮減する方法であって、オーディオ信号の流れにおけるトランジエントの検出と、コーディングブロックに関してトランジエントの時間的な関係をひずみアーティファクトの継続時間を縮減するように切り替えることとを具備する。

オーディオ信号は分析されトランジエント信号の位置は特定される。次いで、デコードされたオーディオ信号内のプレノイズの量を減らすために、低ビットレートのオーディオエンコーダーを基本とする変換における量子化に先立って、トランジエントが一時的に位置を変えるような方法で、オーディオデータがタイムスケールされる。このような、エンコーディングやデコーディングに先立つ処理をここでは「プレプロセッシング」という。

このように、量子化処理は、不要なプレノイズアーティファクトを発生しエンコーディングブロック全体にわたってトランジエントを不鮮明にするので、エンコーダーにおける量子化に先立って、トランジエントは、タイムスケーリング（時間圧縮又は時間伸張）を用いてブロックエンドに対してよい位置に移行される。このようなプレプロセッシングは「トランジエントタイムシフティング」と称しても良い。トランジエントタイムシフティングは、トランジエントの特定を必要とし、また、ブロックエンドからの一時的な相対位置に関する情報も必要とする。原則として、トランジエントタイムシフティングは、時間領域において前向きの変換の適用に先立って、あるいは周波数領域において正変換の適用に続いて、しかし、量子化の前に実行することができる。実際には、トランジエントタイムシフティングは、特に、以下に述べる補償のためのタイムスケーリングを行うときは、時間領域において正変換の適用に先立って実行するのがより簡単であろう。

トランジエントとオーディオの流れはもはや元の相対時間位置にないから、すなわち、オーディオの流れにおける時間展開は、トランジエントの前のオーディオの流れに対する時間圧縮又は時間伸張の結果変化しているから、トランジエントタイムシフティングの結果、可聴となるかもしれない。リスナーは、例えば音楽の一部としてのリズムが変化したように感じるであろう。

このようなオーディオの流れにおける時間展開の変化を減らすための、本発明の特徴となるいくつかの補償技術がある。これらの補償技術は、オーディオ信号における時間展開の多少の変動をほとんどのリスナーは認識しないため、任意的なものである。補償技術については、本発明の第２の特徴について論じた後に論ずる。

本発明の第２の特徴によれば、コーディングブロックに用いる低ビットレートのオーディオコーディングシステムを基本とする変換によるエンコーダーにおいて、逆変換に続くオーディオ信号の流れにおける信号トランジエントに先立つひずみアーティファクトを縮減する方法であって、オーディオ信号の流れにおけるトランジエントの検出と、少なくともひずみアーティファクトの部分を、ひずみアーティファクトの継続時間を縮減するように時間圧縮することとを具備する。

かかる処理により、ここでは「ポストプロセッシング」と称し、プレプロセッシングを採用しようとしないとにかかわらず、採用した場合は、エンコーダーがポストプロセッシングに有効なメタデータを送ろうと送らないとにかかわらず、低ビットレートのオーディオエンコーディングに耐えるどのようなオーディオの質の改善も可能となる。トランジエント信号の位置を特定し、過渡的なプレノイズアーティファクトの継続時間を推定するために、低ビットレートのオーディオエンコーディング及びデコーディングに耐えるあらゆるオーディオ信号が分析される。次いで、トランジエント信号のプレノイズを除去するため又はその持続時間を短くするため、タイムスケールのポストプロセッシングがオーディオに対して実行される。

前述の通り、オーディオの流れでの時間展開における変質を少なくするため、いくつかの補償技術が存在する。これらのタイムスケーリングを補償する技術は、オーディオのサンプル数を一定に保つという有益な効果も持つ。

最初にタイムスケーリングを補償する技術は、プレプロセッシングに関連して有用であり、正変換に先立って実行される。トランジエントに続くオーディオの流れに補償のためのタイムスケーリングが適用され、ここでのタイムスケーリングはトランジエントの位置をずらすために適用されるタイムスケーリングとは反対の意図を持っており、実質的にトランジエントの位置をずらすタイムスケーリングと同じ継続時間を持つことが好ましい。議論を容易にするため、このタイプの補償をここでは、「サンプル数補償」と称する。なぜなら、オーディオのサンプル数を一定に保つことができるからであるが、元のオーディオ信号の流れの時間展開を全部記憶することはできない（トランジエントとトランジエントの近傍の信号の流れを一時的にその場所の外に残す）。サンプル数を補償することに供するタイムスケーリングは、トランジエントによって時間的にポストマスキングされるようなトランジエントのすぐ後に続くことが好ましい。

サンプル数補償によりトランジエントは元の時間的位置から移動されるが、タイムスケーリングの補償に続くオーディオの流れは元の時間的相対位置に戻される。このように、トランジエントは依然として元の位置のからずれているため、タイムシフティングのトランジエントが可聴となる可能性は減少するが、トランジエントは消去されない。それにもかかわらず、これは可聴性を十分減少させることができ、標準的な修正されないデコーダーを用いて低ビットレートオーディオのエンコーディングに先立って実行されるという有利な点を持っている。以下に説明するように、オーディオ信号の流れの時間展開の完全な復元はデコーダーの処理中又はデコーダーの後でのみ実行することができる。トランジエントタイムシフティングが可聴となる可能性を減らすことに加え、正変換に先立つタイムスケーリング補償はオーディオサンプル数を一定に保つという有利な点を持っており、これは処理及び／又は処理に用いられたハードウエアの運転のために重要であろう。正変換に先立つタイムスケーリング補償を最適化するために、トランジエントの位置及びトランジエントタイムシフティングの時間的な長さに関する情報は補償処理において採用されるべきである。

もし、トランジエントタイムシフティングがブロッキングの後で（しかし、正変換の前に）適用されると、ブロック長さが同じに保たれるようにトランジエントタイムシフティングが行われるようなブロックと同じブロック内でサンプル数補償を適用することが必要となる。したがって、ブロッキングの前にトランジエントタイムシフティングとサンプル数補償を実行することが望ましい。

サンプル数補償は、ポストプロセッシングに関連して、逆変換（デコーダーの中あるいはデコーディングの後のどちらか）の後に適用しても良い。この場合は、補償の実行に有用な情報は、（情報はエンコーダー及び／又はデコーダーに起因しているかもしれない）デコーダーから補償処理に伝達される。

元のオーディオサンプル数の復元を伴うもっと完全なオーディオ信号の流れの時間展開の復元は、補償のためのタイムスケーリングを適用することにより、逆変換（デコーダーの中あるいはデコーディングの後のどちらか）の後に実行しても良い。ここでのタイムスケーリングはトランジエントの位置をずらすために適用されるタイムスケーリングとは反対の意図を持っており、実質的にトランジエントの位置をずらすタイムスケーリングと同じ継続時間を持つことが好ましい。議論を容易にするため、このタイプの補償をここでは「時間展開補償」と称する。このタイムスケーリング補償は、元の時間的相対位置にたいするトランジエントを含めてオーディオの流れ全体を復元するのに著しく有利である。このように、２つのタイムスケーリング自身が可聴なアーティファクトの原因になるので、タイムスケーリング処理における可聴性を削除できないが、可聴となる可能性を大幅に削減することができる。

時間展開の補償を最適化するために、トランジエントの位置、ブロックエンドの位置、トランジエントタイムシフティングの長さ、及びプレノイズの長さのような種々の情報が有効となる。プレノイズの長さは、時間展開の補償におけるタイムスケーリングがプレノイズ中に起こらないこと、例えばプレノイズの時間的長さを拡大する可能性がないことを確かなものとするために有益である。もしオーディオの流れを元の時間的相対位置に戻すことが要求されるのなら、またサンプル数を一定に保持することが要求されるのなら、トランジエントタイムシフティングの長さは、有益である。トランジエントの位置は、プレノイズの長さがコーディングブロックの終端に関連してトランジエントの元の位置から決定されるので、有益である。プレノイズの長さは、高周波成分のような信号パラメーターの計測により推定されるかあるいは初期設定値が用いられる。もし補償がデコーダーの中あるいはデコーディングの後に実行されるなら、有益な情報はエンコードされたオーディオとともにメタデータとしてエンコーダーにより送られる。デコーディングの後に実行されたとき、メタデータは、デコーダー（情報はエンコーダー及び／又はデコーダーに起因しているかもしれない）から補償プロセスへと送られる。

前述の通り、プレノイズのアーティファクトの長さを減らすためのポストプロセッシングを、タイムスケーリングのプレプロセッシングを実行するオーディオコーダーに対する追加のステップとして適用してもよい。このようなポストプロセッシングは、プレプロセッシングの後であってもなお残るプレノイズを減らすことでさらに質を向上させる役割を果たすであろう。プレプロセッシングは、コストの高い専門家用のエンコーダーに採用されることが望ましく、デコーダーに関してポストプロセッシングと比べて複雑さと時間遅れはあまり重要ではなく、一般消費者向けのものは普通は複雑さは少ない。本発明における低ビットレートのオーディオコーディングシステムの質向上のための技術は、将来有効となるタイムスケーリング技術も含めてどんなタイムスケーリング技術にも用いられる。このような技術のひとつは、国際出願PCT/US02/04317、２００２年２月１２日出願、表題「High Quality Time-Scaling and Pitch-Scaling of Audio Signals」に記載されている。前記出願は米国その他を指定している。この出願は、全体的に参照用としてここに組み込まれる。先に論じたように、タイムスケーリングとピッチスケーリングはお互いに二元的な方法なので、タイムスケーリングは、将来可能となるすべてのピッチスケーリング技術も含めてあらゆる適当なピッチスケーリング技術を用いて実行することができる。入力サンプルレートとは異なる適当なレートでのオーディオサンプルの読み込みに続くピッチスケーリングは、同じスペクトル内容又は元のオーディオと同じピッチのタイムスケーリングされたオーディオをもたらすので、本発明に適用することができる。低ビットレートのオーディオコーディングについての背景概要で論じた通り、オーディオコーディングシステムにおけるブロック長さの選択は、時間的分解能と周波数分解能との二律背反関係になってしまう。一般的に、長いブロック長さは、短いブロック長さと比較して、コーダー（一般には、データービット数を減らすことで知覚できるオーディオの質は非常に向上する）の効率の増大をもたらすので好ましい。しかし、発生するトランジエント信号とプレノイズ信号は、聴覚を損なうので、長いブロック長さによる質の向上を相殺してしまう。低ビッ
トレートオーディオコーダーにおいて、ブロック切り替え又は固定の短いブロック長さが実際のアプリケーションに用いられるのはこのためである。しかし、本発明によるタイムスケーリングを、低ビットレートのオーディオコーディングに耐える及び／又はポストプロセッシングに耐えていたオーディオに適用することは、過渡的なプレノイズの持続時間を削減するかもしれない。このことは、より長いオーディオコーディングブロック長さの使用を可能とし、それによりコーディング効率の向上と、ブロック長さの切り替えの適用なしに知覚されたオーディオの質の向上をもたらす。しかし、本発明によるプレノイズの縮減は、ブロック長さの切り替えに採用されるコーディングシステムにも採用される。このようなシステムにおいて、いくらかのプレノイズは最小の窓サイズにおいても存在することがある。窓を大きくすればするほど、長い、したがってもっとよく聞こえるプレノイズが発生する。典型的なトランジエントは、約５msecのプレマスキングを提供し、これは４８kHzのサンプリングレートにおいて２４０個のサンプルに相当する。もし窓が、ブロック切り替え構成において一般的な２５６個のサンプルより大きければ、本発明は利益をもたらす。

オーディオコーディング・トランジエント・プレノイズアーティファクト
図１ａ−１ｅは、固定ブロック長さのオーディオコードシステムにおいて発生した過渡的なプレノイズアーティファクトの例を示す。図１ａは５０％重複とした、固定長さのオーディオコーディング窓化された１から６までのブロックを示す。この図及び他のすべての図において、各窓はオーディオコーディングブロックと連続しており、「窓ブロック」、「窓」、又は「ブロック」と称する。本図及び他の図において、図示された窓は、一般にカイザー‐ベッセル窓の形で示される。他の図では簡単に表現するために半円の形で窓を図示している。窓の形は本発明では決定的なものではない。図１ａ及び他の図における窓ブロックの長さは本発明では決定的ではないが、固定長の窓ブロックは典型的には２５６個から２０４８個のサンプル数の長さになる。図１ｂから１ｅまでの４つのオーディオ信号の例は、各々、オーディオコーディング窓ブロックと過渡的なプレノイズアーティファクトとの関係を描いている。

図１ｂは、コードされるべき入力オーディオの流れにおけるトランジエント信号の位置と５０％重複した窓ブロックの端との関係を描いている。５０％重複した固定長さブロックが描かれているが、本発明は固定及び可変ブロック長さのコーディングシステムに適用可能であり、図２ａから５ｂまでに関連して以下に説明するような重複がない場合も含めて、５０％重複ではないブロックに対しても適用可能である。

図１ｃは、図１ｂに図示したオーディオ信号の流れを入力とした場合におけるオーディオコーディングシステムの出力オーディオ信号の流れを示す。図１ｂと１ｃに示すように、トランジエントは窓ブロック３の終端と窓ブロック４の終端の間に位置している。図１ｃは、トランジエント位置と窓ブロック２の終端とに関連して、低ビットレートオーディオコーディング処理により誘起された過渡的なプレノイズの長さと位置を描いている。プレノイズはトランジエントの前にあり、トランジエントが横たわるサンプルブロックである窓ブロック４及び５に制限されていることに注意すべきである。

図１ｂ及び１ｃと同様に、図１ｄ及び１ｅは、各々、窓ブロック２の終端と窓ブロック３の終端の間に位置するトランジエントを含む入力オーディオ信号の流れと、出力オーディオ信号の流れ内にオーディオコーディング処理により誘起されたプレノイズとの関係を示している。プレノイズは、トランジエントが横たわる窓ブロック３及び４に制限されているので、プレノイズは、窓ブロック３の始点にまで後ろに伸びている。この場合は、図１ｂ及び１ｃにおけるトランジエントの窓ブロック４の終端までの距離に比べて、この場合のトランジエントは、窓ブロック３の終端近くにあるため、プレノイズが長く継続している。プレノイズがその次の前方窓ブロックの終端までにしか伸張しないような、理想的なトランジエントの位置は、その前の窓ブロックの終端にごく近いことである（このような５０％重複ブロックの例では、ブロック長さの半分程度）。

図１ａ−１ｅの例では、コーディング窓の境界でのクロスフェードの効果を明確に考慮していないことに注意すべきである。一般に、オーディオコーディング窓はだんだん小さくなっているので、プレノイズによるアーティファクトはそれに従い縮小してゆきその可聴性も減少する。表現を簡単にするため、ここではプレノイズによるアーティファクトの縮小は理想的な形の波形では示されていない。

図１ａ−１ｅに示唆し、図２Ａ，２Ｂ，３Ａ，３Ｂ，４Ａ，４Ｂ，５Ａ及び５Ｂに示したように、オーディオのエンコーディングに先立ち、トランジエント信号の位置を注意深く決めれば、オーディオコーダーによる過渡的なプレノイズによるアーティファクトは最小限にすることができる。

プレノイズを減らすために、トランジエントの位置を再配置する例を、重複なしのブロック（図２ａと２ｂ）、５０％以下の重複ブロック（図３ａと３ｂ）、５０％重複ブロック（図４ａと４ｂ）、及び５０％以下の重複ブロック（図５ａと５ｂ）において、図２ａ，２ｂ，３ａ，３ｂ，４ａ，４ｂ，５ａ及び５ｂに示した。各場合において、トランジエントの元の位置が２つの連続するブロックの終端と等距離の位置（この場合、選べない）にない限り、トランジエントを近い方のブロック終端のごく近くに移動させることが好ましい。移動先が前のブロック終端であろうと、次のブロック終端であろうと、最も近くのブロック終端であろうとなかろうと、結果発生するプレノイズは実質的に同じである。しかし、一時的にトランジエントを最も近いブロック終端のごく後ろに移動させることで、オーディオの流れの時間展開における混乱を最小限にすることができ、トランジエントを移動することによる可聴性の発生を最小限にすることができる。それにもかかわらず、いくつかの場合は、もっと離れたブロックへの移動であっても非可聴である。さらに、もっと離れたブロックへの移動により可聴となっても、時間展開の補償により、以下に述べるように、このような可聴性を削減又は削除することができる。

図２ａと２ｂは、理想化された重複のない一連の理想化された窓ブロックを示している。図２ａにおいて、トランジエントの最初の位置は、図の実線矢印で示すように、次の窓の終端よりも先の窓の終端に近くにある。図に示すように、トランジエントの最初の位置に対するプレノイズの位置は窓の始点の限界にまで時間的にさかのぼって伸びている。もし、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、先の窓ブロックの終端に続く、終端に非常に近い位置まで、「左」（時間をさかのぼる）方向に移動すべきである。その結果プレノイズは窓ブロックの始点にまでさかのぼって伸びてゆくが、この長さは、最初のトランジエント位置の結果起こるプレノイズに比べて非常に短い。この図及びその他の図では、窓ブロック終端位置から移動後のトランジエント間での距離は明確に表示するために誇張してある。図２ｂでは、トランジエントの最初の位置は、前の窓ブロックの終端までより、次の窓ブロックの終端までの方に、より近く位置している。したがって、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、次の窓ブロックの終端に続く、終端に非常に近い位置まで、「右」（時間を遅らせる）方向に移動すべきである。プレノイズ削減の効果はトランジエントの最初の位置が窓ブロックの後ろにあるほど大きくなることに注意すべきである。

図３ａと３ｂは、５０％以下の重複で連なった一連の理想化された窓ブロックを示している。図３ａにおいて、トランジエントの最初の位置は、図の実線矢印で示すように、次の窓の終端よりも先の窓の終端に近くにある。図に示すように、トランジエントの最初の位置に対するプレノイズの位置は窓の始点の限界にまで時間的にさかのぼって伸びている。もし、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、先の窓ブロックの終端の後方で、終端にごく近い位置まで、「左」方向に移動すべきである。その結果プレノイズは窓ブロックの始点にまでさかのぼって伸びてゆくが、この長さは、最初のトランジエント位置の結果起こるプレノイズに比べて短い。図３ｂでは、トランジエントの最初の位置は、前の窓ブロックの終端までより、次の窓ブロックの終端までの方に、より近く位置している。したがって、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、次の窓ブロックの終端の後方で、終端にごく近い位置まで、「右」方向に移動すべきである。プレノイズ削減の効果はトランジエントの最初の位置が連続する窓ブロックと窓ブロックとの間で後ろにあるほど大きくなることに注意すべきである。

図４ａと４ｂは、５０％重複で連なった一連の理想化された窓ブロックを示している。図４ａにおいて、トランジエントの最初の位置は、図の実線矢印で示すように、次の窓の終端よりも先の窓の終端に近くにある。図に示すように、トランジエントの最初の位置に対するプレノイズの位置は窓の始点の限界にまで時間的にさかのぼって伸びている。もし、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、先の窓ブロックの終端の後方で、終端にごく近い位置まで、「左」方向に移動すべきである。その結果プレノイズは窓ブロックの始点にまでさかのぼって伸びてゆくが、この長さは、最初のトランジエント位置の結果起こるプレノイズに比べて短い。図４ｂでは、トランジエントの最初の位置は、前の窓ブロックの終端までより、次の窓ブロックの終端までの方に、より近く位置している。したがって、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、次の窓ブロックの終端の後方で、終端にごく近い位置まで、「右」方向に移動すべきである。プレノイズ削減の効果は、５０％より少ない重複ブロックの場合は、重複トランジエントの最初の位置が連続する窓ブロック終端と窓ブロック終端との間で後ろにあるほど大きくなることに注意すべきである。

図５ａと５ｂは、５０％以上の重複で連なった一連の理想化された窓ブロックを示している。図５ａにおいて、トランジエントの最初の位置は、図の実線矢印で示すように、次の窓の終端よりも先の窓の終端に近くにある。図に示すように、トランジエントの最初の位置に対するプレノイズの位置は窓の始点の限界にまで時間的にさかのぼって伸びている。もし、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、先の窓ブロックの終端の後方で、終端にごく近い位置まで、「左」方向に移動すべきである。その結果プレノイズは窓ブロックの始点にまでさかのぼって伸びてゆくが、この長さは、最初のトランジエント位置の結果起こるプレノイズに比べていくらか短い。図５ｂでは、トランジエントの最初の位置は、前の窓ブロックの終端までより、次の窓ブロックの終端までの方に、より近く位置している。したがって、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、次の窓ブロックの終端の後方で、終端にごく近い位置まで、「右」方向に移動すべきである。プレノイズ削減の効果は、５０％の重複ブロックの場合は、重複トランジエントの最初の位置が連続する窓ブロック終端と窓ブロック終端との間で後ろにあるほど大きくなることに注意すべきである。

プレノイズ削減の効果は、重複のないブロックの場合が最大で、ブロックの重複度が上がるにつれて、削減効果が下がってゆくことに注意すべきである。

タイムスケーリング前処理概観
図６は、低ビットレートのエンコーディングを行う前に、タイムスケーリングによる過渡的なプレノイズの量を低減するための方法（すなわち、「前処理」）を描いたフローチャートである。この方法は、Ｎ個のサンプルブロックにおける入力オーディオの処理を行う。ここで、Ｎはオーディオコーディングブロックに使用するオーディオサンプル数より大きいか又は等しい数に対応する。タイムスケーリング処理に用いるためのオーディオコーディングブロック外部に付加的なオーディオデータを提供するためには、オーディオコーディングブロックのサイズより大きな数Ｎの処理サイズが望ましい。この付加的なデータは、例えば、トランジエントの位置を改善するために実行されるタイムスケーリング処理のためのサンプル数補償に使うことができる。

図６の第１のステップ２０２では、Ｎ個のオーディオデータサンプルがタイムスケーリング処理に使用可能かをチェックする。これらのオーディオデータサンプルは、例えば、ＰＣベースのハードディスク上のファイル又はハードウエア装置内のデータバッファの形態を取ることができる。オーディオデータは、オーディオのコーディングに先立ちタイムスケーリング処理を呼び出す低ビットレートのオーディオコーディング処理によっても提供される。もしＮ個のオーディオデータサンプルが使用可能ならば、それらは（ステップ２０４）を通って、次のステップであるタイムスケーリングの前処理プロセスに用いられる。

前処理プロセスの第３のステップ２０６では、プレノイズアーティファクトを誘起しそうなオーディオデータトランジエント信号の位置を検出する。この機能を実行するための多くの異なった処理方法が可能であり、具体的な実施例では、プレノイズアーティファクトを誘起しそうなオーディオデータトランジエント信号を正確に検出する限りにおいて、この機能は決定的なものではない。多くのオーディオコーディング処理がオーディオ信号のトランジエントの検出を実行するので、もしオーディオコーディング処理が、入力オーディオデータと共にトランジエントの情報を次のタイムスケーリング処理ブロック２１０に提供するならば、このステップは省略しても良い。

トランジエントの検出
１つの適当なオーディオ信号トランジエントの検出方法は、以下の通りである。トランジエントの検出分析における第１のステップは、入力データ（入力サンプルを時間機能として扱う）をフィルターに通すことである。入力データを、例えば、約８ｋＨｚにおいて３ｄＢのカットオフ周波数を持つ２次ＩＩＲハイパスフィルターによるフィルターに通しても良い。フィルターの特性は必須事項ではない。このフィルターを通ったデータは、次に、トランジエントの分析に用いられる。入力データをフィルターに通すことは高周波トランジエントを隔離し、これらを特定することを容易にする。次に、図７に示すように、約１．５msec（又は４４．１ｋＨｚで６４サンプル）の６４個のサブブロックにおいて、フィルターを通ってきた入力データが処理される。実際の処理するサブブロックのサイズは、１．５msecにしなければならないわけではなく、変更しても良いので、このサイズは、実時間処理からの要求（ブロックサイズが長ければ、処理時間は短くなる）と、トランジエントの位置の分解能（ブロックサイズが短ければ、トランジエントの位置についてのさらに詳細な情報が得られる）との二律背反関係となる。４０９６個のサンプルの信号サンプルブロックを使い６４個のサンプルのサブブロックを使うことは、単なる例示であってこの発明における必須事項ではない。

トランジエント検出処理の次のステップは、各６４個のサンプルに含まれる最大絶対値のデータ値をローパスフィルターに通すことである。この処理は、最大絶対値データを平滑化し、実際のサブバッファにおけるピーク値を比較することができる入力バッファに平均ピーク値の概略的な値を与える。以下に記載する方法は、平滑を行う１つの方法である。

データの平滑のために、各６４サンプル数のサブブロックは信号値の最大絶対値を細かく調べる。次いで、信号値の最大絶対値は平滑化された移動平均値の計算に用いられる。フィルターを通った、各Ｋ次サブバッファーの高周波移動平均、各々hi_mavg(k)とする、が式１及び２を用いて計算される。

for buffer k = 1:1:64
hi_mavg(k) = hi_mavg(k - 1)+((hi feq peak val in buffer k) - hi_mavg(k - 1))*AVG_WHT) (1)
end
ここで、hi_mavg(0)は、先の連続処理のための入力バッファから、hi_mavg(64)と等しく設定される。この実施例では、変数AVG_WHTは０．２５に設定されている。この値は一般的なオーディオ材料を用いて、以下の実験的な分析により決められた。

次に、トランジエント検出処理において、平滑化され、移動平均されたピーク値群と各サブブロックのピークとを比較し、トランジエントの存在の有無を決定する。これらの２つの値を比較するための方法はたくさんあるが、広いレンジのオーディオ信号を分析することで決定されような最適な実行ができるように、設定されたスケールファクターを用いて比較を微調整するので、以下に示した方法を用いた。

ｋ番目のサブブロックのピーク値は、フィルターを通すために、高周波スケール値HI_FREQ_SCALEを乗算し、平滑化され、移動平均された各ｋのピーク値と比較される。もしサブブロックの縮尺されたピーク値が移動平均値より大きければ、トランジエントが存在するとしてフラグが立てられる。これらの比較は以下の式３と４であらわされる。

for buffer k = 1:1:64
if (((hi feq peak val in buffer k)* HI_FREQ_SCALE) >hi_mavg(k)) (2)
flag high frequency transient in sub-block k = TRUE
end
end
トランジエントの検出に続いて、６４個のサンプルのサブブロックについてトランジエントフラグを解消すべきかどうか（TRUEからFALSEにリセットすべきかどうか）を決定するためいくつかの修正点検がなされる。これらの点検は、間違ったトランジエント検出を削減するためになされる。第１に、もし高周波ピーク値が最低ピーク値以下に下がったらトランジエントは解消される（低レベルトランジエントと呼ぶ）。第２に、もしサブブロックのピークがトランジエントの引き金となったが先のサブブロックより明らかに大きくはない場合、トランジエントフラグを立てる引き金にはなってしまったが、このサブブロックのトランジエントは解消される。このことはトランジエントが存在するところでの情報の不明確かを減少させる。

再度図６を参照すると、処理における次のステップ２０８では、現在のＮ個のサンプル入力データ群にトランジエントが存在するかどうかを決定している。トランジエントが存在しないならば、入力データはタイムスケーリング処理がなされることなく出力される（又は、低ビットレートオーディオコーダーに戻される）。もしトランジエントが存在すると、現在のＮ個のサンプルのオーディオデータ中に存在するトランジエントの数と位置が、入力オーディオデータの時間修正処理のためにオーディオタイムスケーリング処理部分２１０に送られる。適切なタイムスケーリング処理は図８ａ−８ｅの説明に関連して記述されている。この処理において、例えば、オーディオデータの流れについての窓サンプルの位置に関する、エンコーダーからの情報を必要とすることに注意すべきである。トランジエントがない場合、任意的に、もしタイムスケーリングのメタデータ情報を出力させたとすると（図６に示すように）、それはどんな前処理も実行されなかったことを意味する。タイムスケーリングのメタデータには、例えば、位置や実行されたタイムスケーリングの量のようなタイムスケーリングパラメータや、接合されたオーディオ区分にクロスフェードがタイムスケーリング技術により採用された場合には、クロスフェード長さが含まれてもよい。コード化されたオーディオビットの流れ中のメタデータには、一時的な移動前及び／又は移動後のトランジエント位置を含めてトランジエントに関する情報が含まれてもよい。オーディオデータはステップ２１２にて出力される。

オーディオ前処理
図８ａ−８ｅは、トランジエントが、オーディオコーディングブロック内にあり、かつ、次の窓の終端よりも先の窓の終端近くにあるときの、本発明の特徴によるオーディオタイムスケーリングの前処理の例を示している。例えば、図１ａ−１ｅと図４ａ及び４ｂのような５０％重複を想定する。先に論じたとおり、低ビットレートのオーディオコーディングに起因するトランジエントの量を減らすために、オーディオ信号トランジエントが先の窓ブロックの終端の後方で、終端にごく近い位置にあるようなオーディオ入力信号の時間展開を調整することが望まれる。このようなトランジエント位置の移動は、トランジエントプレノイズ長さを最適に制限するときに信号の流れの時間展開に対する混乱を最小限にするので、望ましい。しかし、上述のとおり、先の窓ブロックの終端の後方で、終端にごく近い位置への移動は最適にトランジエントプレノイズの長さを制限するが信号の流れの時間展開に対する混乱を最小限にはしない。ある場合は、特に時間展開補償の適用された場合は、混乱はほとんどないか又は可聴とならない。このように、この実施例及びここに記載した他の実施例において、本発明により、どちらか近い方のブロック終端に移動することがもくろまれている。上述の通り、タイムスケーリングの過渡的な時間移動は、オーディオ信号の流れのエンコーダーによるブロックへの分割の後に処理が実行されない限り、単一のブロック内で実行される必要はない。

図８ａは、３個連続した５０％重複のコーディングブロックの窓を示している。図８ｂは、１つのトランジエントを含む元の入力オーディオデータの流れとコーディングブロックの窓との関係を示している。前方のブロックの終端のＴサンプル分だけ後方に１群のトランジエントが存在している。トランジエントは次のブロック終端より先のブロック終端に近いので、トランジエントの前方のＴ個のサンプルを削除する効果を持つ時間圧縮を適用することで、トランジエントを左に移動し、前方のブロック終端のごく近くに置くことが望ましい。図８ｃは、オーディオタイムスケーリングが実行されるオーディオの流れにおける２つの領域を示す。最初の領域は、時間圧縮を適用することによって、Ｔ個のサンプル数分だけオーディオの継続を減少させ、トランジエントの位置を前方のブロック終端のごく近くの望ましい位置まで左に、「ずらし」又は移動した、トランジエントの前にあるオーディオサンプルに対応している。図２Ａから５Ｂ及び他の図に記載されているように、図８ａ及び８ｅのブロック終端からトランジエント間での空間は明確に表現するために形が誇張されている。第２番目の領域は、オーディオデータの全体的な長さがＮ個のサンプル数を維持するように時間伸張を適用して、オーディオの継続をＴ個のサンプル数分だけ増加させるために、トランジエントの後に、タイムスケーリングを任意的に実行することができる領域を示す。Ｔ個のサンプルの削除と、サンプル数を補償するための任意的なＴ個のサンプルの追加は、両方ともオーディオコーディングサンプルブロックの窓内で起こっているものとして描かれているが、これは必須要件ではない。すなわち、オーディオ信号の流れがエンコーダーによりブロックに分割された後にトランジエントタイムスケーリングが実行される場合でない限り、相殺のためのタイムスケーリング処理は単一のオーディオコーディングブロック内で起こる必要はない。このようなタイムスケーリング処理の最適な位置は、適用されるタイムスケーリング処理により決定されてもよい。トランジエントは有益なポストマスキングをもたらすので、サンプル数を補償するタイムスケーリングはトランジエントのごく近くでなされることが好ましい。

図８ｄは、トランジエントの前の領域でＴ個のサンプル数分だけ、オーディオ入力データの流れの時間継続を削減することで、タイムスケーリング処理を実行し、トランジエント信号の後ではサンプル数を補償する時間伸張は行わない場合の、結果を示す信号の流れを表したものである。先に説明した通り、オーディオ信号の時間展開における多少の変動はほとんどのリスナーにとって認識できない。したがって、タイムスケーリングを行ったオーディオデータの流れのサンプル数が入力サンプル数Ｎと等しいことが要求されないならば、トランジエントの前のオーディオの流れを処理するだけで十分であろう。図８ｅは、トランジエントの前のオーディオデータの流れをＴ個のサンプル数分だけ削減し、トランジエントの後ろのオーディオデータの流れをＴ個のサンプル数分だけ増やして、タイムスケーリング処理ブロックの入り口と出口でオーディオのサンプル数Ｎを保持し、トランジエント及びトランジエントに近い信号の流れの部分を除いてオーディオ信号の流れの時間展開を復活させる場合を図示している。図８ａ−８ｅにおける信号波形の長さの違いは、記載された条件によりオーディオデータの流れにおけるサンプル数が変化することを概念的に示そうとするものである。図８ｄに示すように、オーディオサンプル数が削減されたとき、付加的なオーディオコーディングが行われる前に、付加的なサンプルを獲得することが必要となるだろう。これは、実時間システムにおいて、ファイルからさらにサンプルを読み込むか又は、一時的に蓄えるためのさらなるオーディオを待つことを意味するだろう。

図９ａ−９ｅは、トランジエントが窓のオーディオコーディングブロック内にあり、かつ、ブロックの終端からＴサンプル数分だけ前方にある時のオーディオタイムスケーリング処理の例を示す。トランジエント移動を最小限にする一方、低ビットレートのオーディオコーディングに起因するトランジエントの量を減らすために、オーディオ信号トランジエントが先の窓ブロックの終端に続く、終端に非常に近い位置にあるようなオーディオ入力信号を時間的に調整することが望ましい。５０％重複ブロックの場合は、次のブロック終端（又は前のブロックの終端）の後ろまで移動することは、そのブロックとその前のオーディオブロック全体にトランジエントプレノイズを拡散する代わりに、トランジエントプレノイズをオーディオコーディングブロックの前半部に制限することになる。

図９ａは、３個連続する５０％重複した窓のコーディンブブロックを示している。図９ｂは、１つのトランジエントとオーディオブロックを含む元の入力オーディオデータとオーディオブロックとの関係を示している。次のブロックの終端のＴサンプル分だけ前方に１群のトランジエントが存在している。トランジエントは前のブロック終端より次のブロック終端に近いので、トランジエントの前方にＴ個のサンプルを付加する効果を持つ時間伸張を適用することで、トランジエントを右に移動し、次のブロック終端のごく近くに置くことが望ましい。図９ｃは、オーディオタイムスケーリングが実行されるオーディオの流れにおける２つの領域を示す。最初の領域は、時間伸張を適用することによって、Ｔ個のサンプル数分だけオーディオの継続を増大させ、トランジエントの位置を次のブロック終端のごく近くの望ましい位置までずらした、トランジエントの前にあるオーディオサンプルに対応している。図９ｃはまた、オーディオデータの全体的な長さがＮ個のサンプル数を維持するように、オーディオの継続をＴ個のサンプル数分だけ減少させるために、トランジエントの後に、タイムスケーリングを実行することができる領域を示す。図９ｄは、トランジエントの前の時間領域でＴ個のサンプル数分だけ、オーディオ入力データの流れの時間継続を増加することで、タイムスケーリング処理を実行し、トランジエント信号の後では時間伸張によるサンプル数の補償は行わない場合の、結果を示す信号の流れを表したものである。先に説明した通り、オーディオ信号の時間展開における多少の変動はほとんどのリスナーにとって認識できない。したがって、タイムスケーリングを行ったオーディオデータの流れのサンプル数が入力サンプル数Ｎと等しいことが要求されないならば、トランジエントの前のオーディオの流れを処理するだけで十分であろう。

図９ｅは、トランジエントの前のオーディオデータの流れをＴ個のサンプル数分だけ増やし、トランジエントの後ろのオーディオデータの流れをＴ個のサンプル数分だけ減少して、タイムスケーリング前後でオーディオのサンプル数を一定の数に保持する場合を図示している。他の図にも示したように、図９ａ−９ｅにおけるブロック終端からトランジエントまでの間隔は、明確に表示するために誇張してある。

多数トランジエントに対するオーディオタイムスケーリング処理
オーディオコーディングブロック長さとコード化されたオーディオデータの中身によっては、処理された入力オーディオデータの流れが、処理されたN個のサンプル内に、プレノイズアーティファクトを引き起こす２以上のトランジエント信号を含むことがあり得る。前述のとおり、処理されたN個のサンプルには２以上のコーディングブロックが含まれ得る。

図１０ａ−１０ｄは、１つのコーディングブロック内に２個のトランジエントが発生したときの処理を描いたものである。一般に、２以上のトランジエントも、オーディオデータの流れ中の最初のトランジエントを対象のトランジエントとして扱うことにより、単一のトランジエントと同じ方法で扱われる。

図１０ａは、３個連続する５０％重複した窓のコーディンブブロックを示している。図１０ｂは、入力オーディオ中の２つのトランジエントがオーディオコーディングブロックの終端をまたぐ場合を示している。このような場合、２番目のトランジエントの結果発生するプレノイズは最初のトランジエントによりポストマスクされるので、早いほうのトランジエントが最も知覚できるプレノイズを誘起する。プレノイズアーティファクトを最小限にするために、入力オーディオ信号は、最初のトランジエントの前部オーディオがT個のサンプル数分だけ時間伸張されるようにタイムスケールして、最初のトランジエントを右に移動しても良い。ここでT個は、最初のトランジエントを次のブロック終端の後方で、終端にごく近い位置に配置させるようなサンプル数である。

図１０ｂにおいて最初のトランジエントの前の時間伸張処理のためのサンプル数補償のため、および、時間的に２つのトランジエントをさらに近づけることで２番目のトランジエントにより発生したプレノイズのポストマスキングを最適化するために、最初のトランジエントの後ろで、２番目のトランジエントの前にあるオーディオは、T個のサンプル分だけ削減するようタイムスケールされることが望ましい。図１０ｂに図示したように、最初と２番目のトランジエントの間には、タイムスケール処理を行うために十分なオーディオ処理データがある。しかし、場合によっては、２番目のトランジエントが最初のトランジエントに近すぎるため、これらの間には、タイムスケール処理を行うために十分なオーディオ処理データがないかもしれない。トランジエント間に必要なオーディオデータの量は、この処理に使われるタイムスケーリング処理に依存する。２つのトランジエント間に十分なオーディオデータが存在しない場合は、サンプル数を埋め合わせるために、２番目のトランジエントに続くオーディオデータを時間伸張することが必要になるかもしれない。２番目のトランジエントの後ろにあるオーディオデータの伸張を実行するために、前述のように、タイムスケーリング処理には、オーディオコーディング処理に用いられるブロックにおけるサンプル数よりも大きな部分のオーディオデータにアクセスする処理が必要かもしれない。

図１０ｃは、最初のトランジエントが、次のブロックの終端よりも前のブロックの終端に近く、すべて（この場合は２個）のトランジエントが、２番目のトランジエントの結果発生するプレノイズが最初のトランジエントにより実質的にマスクされる程度に、十分近くにある場合について図示したものである。このように、最初のトランジエントに先立つオーディオの流れは、最初のトランジエントが、先立つブロック終端のすぐ後ろに位置するよう動かされるように、T個のサンプル数分だけ時間圧縮することが望ましい。元のサンプル数を復元するためサンプル数補償は、時間伸張という形式で、２番目のトランジエントの後のオーディオデータの流れ中で実行することができる。

図１０ｄは、最初のトランジエントが、前のブロックの終端よりも次のブロックの終端に近く、すべて（この場合は２個）のトランジエントが、２番目のトランジエントの結果発生するプレノイズが最初のトランジエントにより実質的にマスクされる程度に、十分近くにある場合について図示したものである。したがって、最初のトランジエントを次のブロック終端すぐ後ろに移動するために、最初のトランジエントの前のオーディオの流れはＴ個のサンプル数分だけ時間伸張される。サンプル数の補償は、時間圧縮という形で、２番目のトランジエントに続くオーディオデータの流れにおいて任意に実行され得る。

多数トランジエントの場合は、ほぼ完全に前処理の時間展開補償が要求されるのなら、前述の単一トランジエントの場合と同様にコード化されたオーディオブロックとともにメタデータ情報を伝達しても良い。

タイムスケーリング前処理の時間展開補償により制御されるメタデータ
前述のように、処理されたオーディオ信号の流れの時間展開が実質的に元のオーディオの時間展開と同じになり、元の信号の流れの時間展開を復元するために、デコーダーによる逆変換に引き続き、トランジエントの後のオーディオ信号の流れに対して時間補償のためのタイムスケーリングを適用するのが望ましい。しかしながら、実験的な研究では、オーディオ信号の時間的な多少の変動はほとんどのリスナーにとって認識できないので、時間展開の補償は必ずしも必要ではないことを示している。しかし、平均するとトランジエントは、同じように進ませ遅らせるので、十分長い時間においては、時間展開に対する補償なしに蓄積された効果は無視できないだろう。もう１つの考慮すべき問題は、前処理に使われるタイムスケーリングの形式によって、付加した時間展開補償処理によりオーディオに可聴なアーティファクトを誘起するかもしれないことである。このようなアーティファクトは、タイムスケーリング処理が、多くの場合、完全な可逆処理ではないことに起因して発生するのであろう。言い換えれば、タイムスケーリング処理を用いて固定量のオーディオを削減し、後でオーディオを同じだけ時間伸張することは、可聴なアーティファクトを発生させる可能性がある。

タイムスケーリングすることで、トランジエント情報を含むオーディオ処理を行う利点は、タイムスケーリングによりアーティファクトがトランジエント信号による時間的なマスキング効果によりマスクされることである。オーディオトランジエントは前方および後方に時間的マスキングを行う。トランジエントオーディオ情報は、そのオーディオのすぐ前後がリスナーに聞こえないようにトランジエントの前と後ろの両方の可聴な情報を「マスク」する。プレマスキングは測定されており、比較的短く、ほんの数ミリセカンドしか続かない一方、ポストマスキングは１００msec以上続く。したがって、タイムスケーリングによる時間展開の補償処理は、時間的なポストマスキング効果により非可聴となる。このように、もし実行されるとすれば、時間的にマスクされる領域内で時間展開の補償のためのタイムスケーリングが実施されることは有利なことである。

図１１ａ−１１ｆは、メタデータ情報を使って、コーダーの逆変換に引き続きインテリジェントな時間展開補償を実行した例を描いたものである。メタデータは、タイムスケーリング処理が実行されるべき場所と、タイムスケーリングが必要としている時間を示すので、時間展開による補償の実行に必要な分析量を大幅に減少させる。上述のように、時間展開補償処理は、デコードされたオーディオ信号を、トランジエントを含む信号の流れがオーディオの流れ中の元の位置を持つような元の時間展開のところに戻すこと意図している。図１１ａは、３個連続する５０％重複した窓のコーディンブブロックを示している。図１１ｂは、ブロック終端の後のT個のサンプルトのランジエントを持つ前処理に先立つ入力オーディオの流れを示している。図１１ｃは、入力オーディオの流れが、トランジエントをより前方位置に移すために、トランジエントの前のT個のサンプルを削除することで処理するさまを示している。T個のサンプルが、オーディオデータのサンプル数が変化しないように、トランジエントの後ろに加えられる（サンプル数補償）。図１１ｄは、トランジエントが前方位置に移され、トランジエントの後ろのオーディオは元の位置に引き戻された、修正されたオーディオの流れを示している。図１１ｅは、T個のサンプルの削除（時間圧縮）が、T個のサンプルを加えて（時間伸張）補償され、T個のサンプルの追加（時間伸張）が、T個のサンプルを削除（時間圧縮）して補償されるのに必要な、時間展開補償タイムスケーリング領域を示している。その結果、図１１ａの入力信号同じ時間展開出力信号を持つ補償された「ほぼ完全な」出力信号が図１１ｆに示されている（問題は、主にタイムスケーリング処理の不完全さである）。

トランジエントプレノイズを削減するためのタイムスケーリング後処理
前述の多くの例により論証したとおり、オーディオコーディングブロック内で最適にトランジエントを配置したとしても、プレノイズはまだ低ビットコーディングシステム処理により発生する。前述の通り、長いオーディオコーディングブロックのほうが、大きな周波数分解能を持ちコーディング利得を増大するので、短いコーディングブロックより好ましい。しかし、タイムスケーリングによりオーディオエンコーディング（前処理）に先立って、トランジエントが最適に配置されたとしても、オーディオコーディングブロックが増加すると、プレノイズも増加する。過渡的な時間的プレノイズのプレマスキングは約５msec（ミリセカンド）のオーダーであり、これは４８kHzのサンプリングレートにおいて２４０個のサンプルに相当する。これは、約５１２個のサンプルより大きなブロックサイズを持つコーダーにとって、最適な配置であっても過渡的なプレノイズが可聴となることを意味する（５０％重複の場合半分だけがマスクされる）。（これはコーダーブロックにおいて、窓端効果によるトランジエントプレノイズの減少については考慮していない）
トランジエントプレノイズが低ビットレートコーディングシステムから完全には除去できないかもしれないのに対し、前処理を適用するしないにかかわらず、トランジエントプレノイズの量を減らすために、低ビットレートのオーディオデコーダーを基礎とする変換において逆変換に耐えたオーディオデータにタイムスケーリング後処理（自然に起こるもの、あるいは前処理に付け加えることによるもの）を実行することは可能である。タイムスケーリング後処理は、低ビットレートオーディオコーダーと関連しても（すなわち、デコーダーの一部として、及び／又はデコーダーから及び／又はデコーダーを経由したエンコーダーからメタデータを受け取ることで）又は単独の後処理としても実行することができる。オーディオコーディングブロック長さのみならずコーディングブロックに関連したトランジエントの位置のような有益な情報が容易に使用可能であり、メタデータを通して後処理工程に伝達することが可能なので、メタデータを使うことが望ましい。しかし、後処理は、低ビットレートオーディオコーダーとの相互作用なしに使うことができる。以下に二つの方法について論ずる。

低ビットレートオーディオデコーダー（メタデータの受領）と連動したタイムスケーリングの後処理
図１２は、トランジエントプレノイズを低減するための低ビットレートのオーディオデコーダーと連動したタイムスケーリングの後処理の実行の工程を描いたフローチャートである。図１２に描かれた工程は、入力データが低ビットレートでエンコードされたオーディオデータであることを前提とする（ステップ８０２）。圧縮されたデータのオーディオ内へのデコーディング（ステップ８０４）に続いて、（単数又は複数の）ブロックに関連するオーディオは、トランジエントプレノイズの継続を提言するのに有効なメタデータ情報とともに、タイムスケール装置８０６に送信される。この情報には、例えば、トランジエントの位置、オーディオコーダーブロックの長さ、コーダーブロック境界とオーディオデータとの関係、及びトランジエントプレノイズの必要長さを含めても良い。もし、トランジエントのオーディオコーダーブロックの境界との関係位置が利用できるのなら、プレノイズアーティファクトの長さと位置が計算され、後処理で正確に縮減される。トランジエントは時間的プレマスキングを行うので、完全にトランジエントプレノイズを取り去る必要はない。タイムスケーリングの後処理工程において、希望するプレノイズの長さを与えることにより、ステップ８０８において、オーディオ出力の出力中に残されたプレノイズの量にコントロールをかけることができる。ステップ８０６の適切なタイムスケール処理の結果を図１３ａ−１３ｃの説明と関連して以下に説明する。

エンコーディング前に前処理が適用されてもされなくても、後処理は有益であることに注意すべきである。トランジエントが、ブロック後端からどの位置にあるかとは無関係に、トランジエントプレノイズは存在する。例えば、５０％重複の場合は少なくともオーディオコーディング窓の半分の長さとなる。長い窓サイズでは可聴なアーティファクトを発生させるかもしれない。後処理を行うことで、エンコーダーにより量子化する前にブロック終端との関係で最適に配置することでプレノイズを縮減した場合よりもさらにプレノイズの長さを縮減することができる。

図１３ａ−１３ｃは、逆変換後に現れるプレノイズアーティファクトを削減する単一のトランジエントに対する後処理の例を図示したものである。図１３ａに示したように、１つのトランジエントはプレノイズアーティファクトを発生させる。コーディングブロックの長さにもよるが、プレノイズは、もしあれば、前処理の後でも、トランジエントによる時間的なプレマスキング効果によりマスクされる長さより長い時間となるかもしれない。しかし図１３ｂに示すように、デコーダーからのトランジエント位置のメタデータ情報を用いることにより、プレノイズを含むオーディの領域を特定することができ、この領域で、オーディオのタイムスケーリングによりＴ個のサンプル分だけプレノイズの長さを削減することができる。Ｔの数は、プレマスキングを活用してプレノイズの長さを最小にするように選択したり、あるいは、プレノイズを完全に又はほぼ完全に除去するように選択したりすることができる。もし、元の信号と同じ数のサンプルを保持したい場合は、トランジエントに続くオーディオを、＋Ｔ個のサンプル分だけ時間伸張すればよい。図１６ａの例に関連して示すように、代案として、時間展開補償の利点も持っているこのようなサンプル数補償は、プレノイズの前に適用してもよい。

もし、タイムスケーリング前処理に関連して、後処理が実行されれば、出力オーディオの流れの時間展開に対するさらなる乱れの量は最低限になる。先に論じたタイムスケーリングの前処理によりプレノイズの長さは、５０％重複の場合、Ｎ／２個のサンプルに減るので、元の入力オーディオと比較して出力オーディオの時間領域におけるさらなる乱れはＮ／２個のサンプル数以下になることが保証される。前処理がない場合は、５０％重複のとき、プレノイズはＮ個のサンプル数のコーディングブロック長さにまでなることがある。

低ビットレートのコーディングシステムにおいて、もしコーダーが位置情報を伝達しなければ信号トランジエントの位置は、簡単に利用することができない。このような場合、数多くのトランジエント検出処理工程や、先に説明した効率的な方法で、デコーダー又はタイムスケーリング処理により、トランジエント検出を行う。

多数のトランジエントに対しては、前処理について前述と同様の課題が適用される。

前処理なしのタイムスケーリング後処理
前述の通り、場合によっては、トランジエントプレノイズタイムスケーリング処理（前処理）を実行しない圧縮システムを用いる低ビットコーディングを経た知覚されるオーディオの質を改善することが望まれる。図１４はこのような処理の概要である。

第１番目のステップ１４０２では、低ビットレートのオーディオエンコーディング及びデコーディングを経たＮ個のオーディオデータサンプルについて使用可能性をチェックする。これらのオーディオデータサンプルはＰＣベースのハードディスク上のファイルやハードウエア装置のデータバッファからのものである。もしＮ個のオーディオデータサンプルが使用可能であれば、これらは、ステップ１４０４にてタイムスケーリング後処理工程に送られる。

タイムスケーリング後処理工程の３番目のステップ１４０６にて、プレノイズアーティファクトをもたらすおそれがあるオーディオデータのトランジエント信号位置を特定する。この機能を実行するために多くの異なった工程が可能であり、プレノイズアーティファクトをもたらすおそれがあるトランジエント信号の検出が確かにできる限り、具体的二度のように実施するかは重要ではない。しかし、上述の処理は、使用するうえで効率的かつ正確な方法である。

第４番目のステップ１４０８は、ステップ１４０６で検出したように、現在のＮ個のサンプル中にトランジエント存在するかどうかを決定する。もしトランジエントが存在しなければ、入力データはステップ１４１４にて、タイムスケーリング処理なしで出力される。もしトランジエントが存在するならば、トランジエントの数と位置が、トランジエントプレノイズ評価処理ステップ１４１０の工程へ送られ、トランジエントプレノイズの位置と継続時間を特定する。処理工程における５番目と６番目のステップ１４１０では、トランジエントプレノイズアーティファクトの位置と継続時間の算定を行い、タイムスケーリング処理１４１２と共に、その長さを削減する。定義により、プレノイズアーティファクトはオーディオデータ中のアーティファクトのすぐ前の領域に限られているので、検索する領域は、トランジエント検出処理により伝達された情報によって限定される。図１に示したように、５０％重複のオーディオコーディングブロックにおいてＮ個がオーディオサンプルの数である場合に、最小Ｎ／２から最大Ｎ個のサンプルにプレノイズの長さは制限される。したがって、Ｎが１０２４個のサンプルでオーディオが４８kHzでサンプリングされたとき、トランジエントプレノイズは、オーディオの流れにおけるトランジエントの位置によって、トランジエントの前方１０．７msecから２１．３msecの範囲で存在し、トランジエント信号から期待される時間的マスキングの範囲を明らかに超える。代案として、トランジエントに先立つプレノイズアーティファクトの長さを計算する代わりに、ステップ１４１０で、プレノイズアーティファクトの長さが初期設定値を持つと仮定してもよい。

トランジエントプレノイズの低減に関して２つの対応が実行可能である。第１番目は、すべてのトランジエントはプレノイズを持ち、したがって、すべてのトランジエントの前にあるオーディオは、トランジエント毎に期待されるプレノイズ量に基づき決定された（既定の）量によりタムスケール（時間圧縮）されることを想定する。もしこの技術が適用される場合は、時間的なプレノイズに先行するオーディオの時間伸張は、プレノイズの長さを減らすために適用される時間圧縮タイムスケーリング処理のためのサンプル数補償と、時間展開補償（プレノイズ内の時間圧縮により、トランジエントを元のその時間的位置あるいはその近くに残すためのプレノイズ前方の時間伸張）の両方のためになされる。しかし、プレノイズの開始位置の正確な位置がわからなければ、このようなサンプル数補償処理は、プレノイズ成分の継続を目的もなく増大してしまうかも知れない。

図１５ａ−１５ｃは、初期設定値使って各トランジエントの前のオーディオに対してタイムスケールを行い、プレノイズの継続を減少させるがサンプル数の補償は行わない技術を示したものである。図１５ａに示すように、低ビットレベルオーディオデコーダーからのオーディオ信号の流れはプレノイズが前にあるトランジエントを持つ。図１５ｂは、タイムスケーリング処理により実行される時間圧縮量として用いられる既定の処理量長さを示している。図１５ｃは、結果的にプレノイズを縮減したオーディオ信号の流れを示す。この例では、トランジエントをオーディオデータの流れ中の元の位置に戻すための時間展開補償は実施されていない。しかし、先の処理例と同様に、同じ数の入出力サンプル数が望ましいならば、図１３ｂの例と同様に又は、場合によっては、図１６ａ−１６ｃの例に関連して以下に説明するように、プレノイズの前のこともあるが、トランジエントの後に時間伸張処理がなされる。しかし、処理長さの初期設定値を適用するとき、もし実際のプレノイズの長さが初期設定値より長ければ、このような補償をプレノイズに先立って行うことは、プレノイズ内で時間伸張処理を行う（したがって、プレノイズ長さの思わぬ増大となる）危険を冒すことになる。さらに、場合によっては、後処理はプレノイズの前のオーディオの流れを利用できないかもしれない、すなわち、オーディオは潜在時間を減らすために、すでに出力されているかもしれない。

図１６ａ−１６ｃに描かれた、第２のプレノイズ削減後処理技術では、プレノイズ部分だけを処理するために、その長さとオーディオの処理を決めるためのトランジエントから決まるプレノイズの分析を実施する。上記で指摘したように、トランジエントプレノイズは、エンコーダー内の処理において量子化した結果のブロック全体に、高周波成分のトランジエントオーディオ材料が時間的に広がったとき、トランジエントプレノイズが生まれる。したがって、素直な検出方法の１つは、トランジエントに先立ってオーディオにハイパスフィルターを通し、高周波エネルギーを計測することである。トランジエントプレノイズの始点は、ノイズのような、高周波のプレノイズが、あらかじめ定めた閾値を超過するトランジエントに関連し、それより引き起こされたとき、特定される。トランジエントプレノイズのサイズと位置がわかると、オーディオをその元の時間展開にもどしオーディオの流れの時間展開を実質的に元の状態に復元するために、プレノイズの時間削減に先立ってオーディオの時間伸張補償が実行される。本発明は高周波による検出の適用に限定されない。プレノイズの長さを計算し検出する他の技術も適用することが可能である。

図１６ａでは、低ビットレートオーディオデコーダーがプレノイズに先行するトランジエントを有している。図１６ｂは、ブロック内の高周波オーディオの内容から計測されたプレノイズ長さの予測値に基づいて、タイムスケーリング処理により実行されるべき時間圧縮の量として用いられる時間圧縮処理長さを示している。図１６ｂはまた、信号の流れにおける元の時間展開を復元するため、また、元のサンプル数を復元するため、Ｔ個のサンプル数分だけ時間伸張するのに用いたものを示している。図１６ｃは、元の時間展開と元の信号の流れと同じサンプル数を維持した状態でオーディオ信号の流れのプレノイズを削減した結果を示している。

本発明とその種々の特徴は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び／又は専用ディジタルコンピュータのソフトウエアの機能により実行することができる。アナログ信号の流れとディジタル信号の流れは適当なハードウエアにより、及び／又はファームウエアとして実行され得る。

図１ａ−１ｅは、入力信号条件の２つの場合に対する、固定ブロック長さのオーディオコーダーシステムにより発生した過渡的なプレノイズアーティファクトの例を描いた一連の理想化された波形である。図２ａと２ｂは、最初と移動後のトランジエントの時間的な位置を、最初の位置が次の窓の終端よりも先の窓の終端近くにある場合と、最初の位置が先の窓の終端よりも次の窓の終端近くにある場合との各々について、このような位置に対するプレノイズとともに描いた、一連の理想化された重複なしの窓ブロックを示したものである。図３ａと３ｂは、最初と移動後のトランジエントの時間的な位置を、最初の位置が次の窓の終端よりも先の窓の終端近くにある場合と、最初の位置が先の窓の終端よりも次の窓の終端近くにある場合との各々について、このような位置に対するプレノイズとともに描いた、５０％以下の重複で連なった一連の理想化された窓ブロックを示したものである。図４ａと４ｂは、最初と移動後のトランジエントの時間的な位置を、最初の位置が次の窓の終端よりも先の窓の終端近くにある場合と、最初の位置が先の窓の終端よりも次の窓の終端近くにある場合との各々について、このような位置に対するプレノイズとともに描いた、５０％の重複で連なった一連の理想化された窓ブロックを示したものである。図５ａと５ｂは、最初と移動後のトランジエントの時間的な位置を、最初の位置が次の窓の終端よりも先の窓の終端近くにある場合と、最初の位置が先の窓の終端よりも次の窓の終端近くにある場合との各々について、このような位置に対するプレノイズとともに描いた、５０％以上の重複で連なった一連の理想化された窓ブロックを示したものである。図６は、低ビットレートのエンコーディングを行う前のタイムスケーリングによる過渡的なプレノイズアーティファクトの低減のためのステップを描いたフローチャートである。図７は、トランジエント検出のために使われる入力データバッファの概念的に表したものである。図８ａ−８ｅは、トランジエントが、オーディオコーディングブロック内にあり、かつ、次の窓の終端よりも先の窓の終端近くにあるときの、本発明の特徴によるオーディオタイムスケーリングの前処理の例を示す、一連の理想化された波形である。図９ａ−９ｅは、トランジエントが窓のオーディオコーディングブロック内にあり、かつ、ブロックの終端からＴサンプル数分だけ前方にある時のオーディオタイムスケーリング処理の例を示す、一連の理想化された波形である。図１０ａ−１０ｄは、複数のトランジエントがある場合のタイムスケーリングを描いた一連の理想化された波形である。図１１ａ−１１ｆはオーディオの流れ内で転送された、メタデータを使ってタイムスケーリングのインテリジェントな時間展開補償を描いた一連の理想化された波形である。図１２は、低ビットレートのオーディオデコーダーと連動したタイムスケーリングの後処理の例を描いたフローチャートである。図１３ａ−１３ｃは、デコーディング後に現れるプレノイズアーティファクトを減少させる、単一のトランジエントに対する後処理の例を描いた一連の理想化された波形である。図１４は、タイムスケーリングの後処理なしに低ビットレートのコーディングに耐えたオーディオの知覚される質を向上させるための後処理プロセスのフローチャートである。図１５ａ−１５ｃは、サンプル数補償を行わずに、初期設定値を用いて各トランジエントの前に、プレノイズを減らすためにオーディオのタイムスケールをする技術を描いた一連の理想化された波形である。図１６ａ−１６ｃは、サンプル数補償と時間展開補償を行って、プレノイズ継続時間の計算値を用いて各トランジエントの前に、プレノイズを減らすためにオーディオのタイムスケールをする技術を描いた一連の理想化された波形である。

Claims

コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
前記ひずみアーティファクトの継続時間を削減するために、前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップと、
処理されたオーディオ信号の流れの時間展開が、前記変化させる前のオーディオ信号の流れの時間展開と実質的に同じになるような補償的タイムスケーリングを、前記コーディングシステムのデコーダーにおいて、オーディオ信号の流れに、逆変換に続いて適用するステップと、
を具備するひずみアーティファクトを低減する方法。
前記補償的タイムスケーリングを、前記信号トランジエントに先行する前記オーディオ信号の流れの部分に適用する請求項１に記載の方法。
前記コーディングシステムは、エンコーダーとデコーダーとを含み、前記エンコーダーは、前記オーディオ信号の流れのエンコードされたものと共にメタデータを前記デコーダーに伝達し、前記メタデータは、前記補償的タイムスケーリングの適用に有効な情報を含んでいる、請求項１に記載の方法。
前記タイムスケーリングは、前記トランジエントの近傍に先行する前記オーディオの流れの部分に対して実行される請求項１に記載の方法。
前記変化させるステップは、前記コーディングシステムのエンコーダーにおける正変換の前に、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップである、請求項１に記載の方法。
前記トランジエントの時間的な位置は、次のブロック終端の後方で当該終端の近く又は前のブロック終端の後方で当該終端の近くに移動する、請求項５に記載の方法。
前記トランジエントの時間的な位置は、時間的位置の移動長さが結果的に短くなるように、次のブロック終端の後方で当該終端の近く又は前のブロック終端の後方で当該終端の近くに移動する、請求項５に記載の方法。
前記コーディングシステムのデコーダーにおいて、逆変換の後に残留するひずみアーティファクトの少なくとも一部を除去するステップをさらに具備する、請求項１乃至７のいずれか１項に記載の方法。
残留するひずみアーティファクト部分は、前記コーディングシステムにより伝達されたメタデータ情報により少なくとも一部分は検出される、請求項８に記載の方法。
残留するひずみアーティファクト部分は、初期設定値により少なくとも一部分は検出される、請求項８に記載の方法。
残留するひずみアーティファクト部分は、前記オーディオ信号の流れ内の高周波オーディオ成分の程度により少なくとも一部分は検出される、請求項８に記載の方法。
前記メタデータ情報には１以上のトランジエントの情報と、前記オーディオコーダーブロックの長さと、前記コーダーブロックの境界とオーディオデータとの関係と、前記トランジエントプレノイズの必要長さと、を具備する請求項６に記載の方法。
前記タイムスケーリングは、前記トランジエントの近傍に先行し、少なくとも一部はトランジエントにより時間的にプレマスクされた前記オーディオの流れの部分に対して実行される請求項４に記載の方法。
変換を前提とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記オーディオ信号の流れの中にトランジエントを検出するステップと、
少なくとも前記ひずみアーティファクトの一部に対して、前記ひずみアーティファクトの継続時間を削減するような時間圧縮を行うステップと、
前記時間圧縮に先立って、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を行うステップと、
を具備するひずみアーティファクトを低減する方法。
変換を前提とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記トランジエントプレノイズの継続時間を削減するのに有用なメタデータ情報を受信するステップと、
少なくとも前記ひずみアーティファクトの一部に対して、前記ひずみアーティファクトの継続時間を削減するような時間圧縮を行うステップと、
前記時間圧縮に先立って、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を行うステップと、
を具備するひずみアーティファクトを低減する方法。
コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
前記ひずみアーティファクトの継続時間を削減するために、前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップであって、前記タイムスケーリングはコーディングシステムが適用されたオーディオ信号の流れから信号成分を削除、又はコーディングシステムが適用されたオーディオ信号の流れに信号成分を追加する効果をもつことを特徴とするステップと、
前記信号トランジエントの後ろに追加のタイムスケーリングを適用するステップであって、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たすことを特徴とするステップと、
を具備するひずみアーティファクトを低減する方法。
コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
前記ひずみアーティファクトの継続時間を削減するために、前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップであって、前記タイムスケーリングはコーディングシステムが適用されたオーディオ信号の流れから信号成分を削除、又はコーディングシステムが適用されたオーディオ信号の流れに信号成分を追加する効果をもつことを特徴とするステップと、
処理されたオーディオ信号の流れの時間展開が実質的に前記時間的位置の変更の前のオーディオ信号の流れの時間展開と同じになり、前記オーディオ信号の流れの継続時間が実質的に変化しないように、前記コーディングシステムのデコーダー内の逆変換に続いて、前記トランジエントの前の前記ひずみアーティファクトに先行するオーディオ信号の流れに補償的タイムスケーリングを適用するステップと、
を具備するひずみアーティファクトを低減する方法。
コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
前記ひずみアーティファクトの継続時間を削減するために、前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップと、
前記信号トランジエントの後ろに追加のタイムスケーリングを適用するステップであって、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たすことを特徴とするステップと、
を具備するひずみアーティファクトを低減する方法。
コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
最初の前記トランジエントの前のひずみアーティファクトの継続時間を削減するために、前記最初の信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと最初の前記トランジエントとの時間的な関係を変化させるステップと、
前記最初の前記トランジエントの後ろで、かつ、１以上の他の前記複数のトランジエントの前に適用追加のタイムスケーリングを適用するステップであって、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たすことを特徴とするステップと、
を具備するひずみアーティファクトを低減する方法。
変換を前提とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記オーディオ信号の流れの中にトランジエントを検出するステップと、
少なくとも前記ひずみアーティファクトの一部に対して、前記ひずみアーティファクトの継続時間を削減するような時間圧縮を行うステップと、
前記時間圧縮に引き続いて、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を行うステップと、
を具備するひずみアーティファクトを低減する方法。
変換を前提とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記トランジエントプレノイズの継続時間を削減するのに有用なメタデータ情報を受信するステップと、
少なくとも前記ひずみアーティファクトの一部に対して、前記ひずみアーティファクトの継続時間を削減するような時間圧縮を行うステップと、
前記時間圧縮に引き続いて、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を行うステップと、
を具備するひずみアーティファクトを低減する方法。
前記追加のタイムスケーリングは、前記コーディングシステムのエンコーダーにおいて正変換に先立ち適用される請求項１６に記載の方法。
前記追加のタイムスケーリングは、前記コーディングシステムのデコーダーにおいて逆変換に引き続き適用される請求項１６に記載の方法。
前記追加のタイムスケーリングにより追加又は削除された信号成分の継続時間は、最初のタイムスケーリングにより追加又は削除された信号成分の継続時間と各々実質的に同じであり、前記オーディオ信号の流れの継続時間が実質的に変化しない、請求項１６に記載の方法。
前記コーディングシステムは、エンコーダーとデコーダーとを含み、前記エンコーダーは、メタデータを前記デコーダーに伝達し、前記メタデータは、前記補償的タイムスケーリングの適用に有効な情報を含んでいる、請求項１７に記載の方法。
コーディングシステムに適用された前記オーディオ信号の流れは、オーディオ情報がサンプルにより表され、サンプルの順番が時間を表し、前記タイムスケーリングはコーディングシステムに適用されたディジタル信号の流れからサンプルを削除又はディジタル信号の流れにサンプルを追加する効果をもつディジタル信号の流れである請求項１、請求項１４、請求項１５、及び請求項１６乃至請求項２１のいずれか1項に記載の方法。
前記追加のタイムスケーリングは、前記トランジエントの近傍に続く前記オーディオの流れの部分に対して実行される請求項１８に記載の方法。
前記タイムスケーリングは、少なくとも一部はトランジエントにより時間的ポストマスクされた前記オーディオの流れの部分に対して実行される請求項２７に記載の方法。
最初のタイムスケーリングは、コーディングシステムに適用されたオーディオ信号の流れから信号成分を削除又はオーディオ信号の流れに信号成分を追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングが信号成分を削除したとき、オーディオ信号の流れに信号成分を追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングが信号成分を追加したとき、オーディオ信号の流れから信号成分を削除する効果を持つ、請求項１８に記載の方法。
前記追加のタイムスケーリングにより追加又は削除された信号成分の継続時間は、最初のタイムスケーリングにより追加又は削除された信号成分の継続時間と各々同じであり、前記オーディオ信号の流れの継続時間が実質的に変化しない、請求項２９に記載の方法。
コーディングシステムに適用された前記オーディオ信号の流れは、オーディオ情報がサンプルにより表され、サンプルの順番が時間を表し、前記最初のタイムスケーリングはコーディングシステムに適用されたディジタル信号の流れからサンプルを削除又はディジタル信号の流れにサンプルを追加する効果をもち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングがディジタル信号の流れからサンプルを削除したとき、ディジタル信号の流れにサンプルを追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングがディジタル信号の流れにサンプルを追加したとき、ディジタル信号の流れからサンプルを削除する効果を持つ、ディジタル信号の流れである、請求項１８に記載の方法。
追加のタイムスケーリングが最初の前記トランジエントに続く１以上の他の前記複数のトランジエントの後ろに適用され、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たす、請求項１９に記載の方法。
前記ひずみアーティファクト部分は、検出されたトランジエントの位置と初期設定の変数値により少なくとも一部分は検出される、請求項１４又は請求項２０に記載の方法。
前記ひずみアーティファクト部分は、検出されたトランジエントの位置と前記トランジエントに先行する信号特性により少なくとも一部分は検出される、請求項１４又は請求項２０に記載の方法。
前記信号特性はオーディオ信号の流れにおける高周波成分の程度を含む請求項３４に記載の方法。
前記トランジエントプレノイズの継続時間を削減するのに有用なメタデータ情報を受信するステップ、
を具備する請求項１４又は請求項２０に記載の方法。
前記メタデータ情報には、１以上のオーディオブロックコーダーブロックの長さと、前記コーダーブロックの境界とオーディオデータとの関係と、前記トランジエントプレノイズの必要長さと、を具備する請求項１４又は請求項２０に記載の方法。
前記メタデータ情報には１以上のトランジエントの情報と、前記オーディオコーダーブロックの長さと、前記コーダーブロックの境界とオーディオデータとの関係と、前記トランジエントプレノイズの必要長さと、を具備する請求項１５又は請求項２１に記載の方法。