JP4540232B2

JP4540232B2 - 適応性のあるブロック長符号化システムのためのデータ構成

Info

Publication number: JP4540232B2
Application number: JP2000596567A
Authority: JP
Inventors: フィールダー、ルイス・ダン; トルーマン、マイケル・ミード
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 1999-01-28
Filing date: 2000-01-20
Publication date: 2010-09-08
Anticipated expiration: 2020-01-20
Also published as: WO2000045389A1; CA2354396A1; TW519629B; AU771332B2; DE60000412D1; BR0007775A; EP1151435A1; MXPA01007547A; HK1043429B; KR20010101749A; ES2179018T3; AU2621500A; CN1255809C; KR100702058B1; US6226608B1; CN1338104A; AR022335A1; HK1043429A1; CA2354396C; JP2002536681A

Description

【０００１】
発明の技術分野
本発明は、音声情報ストリームが符号化され、符号化情報の構造に組み立てられる音声信号処理に関する。詳細には、本発明は、符号化情報の構造によって伝えられ、それから回復される音声情報ストリームの質を向上することに関する。
【０００２】
発明の背景技術
多くのビデオ／音声システムでは、ビデオ／音声情報は、ビデオ情報の構造と同列に揃えられた符号化音声情報の構造を備える情報ストリームで伝えられる。それは、所定の音声構造に符号化された音声情報の音内容が所定の音声構造を持って概ね一致しているか、ある指定量だけ所定の音声構造から進むか遅れているかのいずれかであるビデオ構造の画像内容と関係があることを意味する。典型的に、音声情報は、音声情報のチャネルのある望ましい数、すなわち、３〜８のチャネルが利用可能な帯域幅で伝えられ得るように、情報能力所要量を減らした符号化形式で伝えられる。
【０００３】
これらのビデオ／音声情報ストリームは、種々の編集、信号処理操作にしばしばかけられる。一般の編集操作は、ビデオ／音声情報の１以上のストリームをセクションにカットし、新しい情報ストリームを形成するために、２つのセクションの端を結合するか、重ね継ぐ。典型的に、そのカットは、ビデオ同期化が新しい情報ストリームで維持されるように、ビデオ情報と同列に揃えられるポイントでなされる。単純な編集模範は、動画フィルムをカットし、重ね継ぐ処理である。重ね継がれるべき資料の２つのセクションは、異なる情報源、例えば、情報の異なるチャネルから生じ、あるいは、それらは、同一の情報源から生じてもよい。どちらの場合にも、結合は、一般的に、知覚可能であるかそうではない音声情報内の不連続を作り出す。
【０００４】
Ａ．音声符号化
デジタル音声の増大する使用は、処理された情報内の可聴アーティファクトを作り出すことなく音声情報を編集することをより困難にする傾向にあった。この困難さは一部起こっていた。なぜならば、デジタル音声は、完全な構成要素として処理されなければならないデジタルサンプルのセグメント又はブロック内でしばしば処理され、あるいは符号化されるからである。多くの知覚の、又は音響心理学ベースの音声符号化システムは、信号サンプルのセグメントを符号化サブバンド信号サンプルに変換するために、フィルタバンク又は変換を利用し、あるいは、最初の信号セグメントのレプリカ（複製）を回復するために、完全なブロックとして合成フィルタされ、又は逆変換されなければならない係数を変換する。編集操作はより困難である。なぜならば、処理された音声信号の編集は、ブロック間でなされなければならず、さもなければ、カットのいずれかの面上の一部のブロックによって表された音声情報が適切に回復され得ないからである。
【０００５】
追加の制限は、プログラム資料の部分的に一致するセグメントを処理するコーディングシステムによる編集を強要される。符号化ブロックによって表される情報の部分的に一致する性質のために、最初の信号セグメントは、符号化サンプルの完全なブロック又は係数さえから適当に回復され得ない。
【０００６】
この制限は、一般に使われたオーバーラップされたブロック変換である修正離散コサイン変換（ＤＣＴ）によって明白に示される。それは、１９８７年５月のICASSP 1987会議議事録のPrincen、Johnson、及びBradleyの「時間領域エイリアシング解除に基づくフィルタバンク設計を用いるサブバンド／変換コーディング」、２１６１〜２１６４頁に記述される。この特定の時間領域エイリアシング解除（ＴＤＡＣ）変換は、半端に積み重ねられ、批判的にサンプルされた単側波帯解析−合成システムの時間領域同等物であり、半端に積み重ねられた時間領域エイリアシング解除（Oddly-Stacked Time-Domain Aliasing Cancellation ：O-TDAC）としてここでは言及される。
【０００７】
転送又は解析変換は、解析ウィンドウ関数によって重み付けされ、セグメントの長さの半分だけ互いに重なるサンプルのセグメントに適用される。解析変換は、２つにより結果として生じる変換係数の多くを破壊することによって臨界のサンプリングを達成する。しかしながら、この破壊によって喪失された情報は、回復された信号内の時間領域エイリアシングを作り出す。合成処理は、合成されたサンプルのセグメントを生成するために、変換係数のブロックに逆あるいは合成変換を適用し、合成されたサンプルのセグメントに適当に成形された合成ウィンドウ関数を適用し、及びウィンドウ表示のセグメントを部分的に重ねて加えることによってこのエイリアシングを解除できる。例えば、もし、セグメントＳ_１〜Ｓ_２が回復されるべき一連のブロックＢ_１〜Ｂ_２をＴＤＡＣ解析変換システムが生成するならば、セグメントＳ_１の最後の半分及びセグメントＳ_２の最初の半分のエイリアシングアーティファクトは、互いに解除するだろう。しかしながら、もし、ＴＤＡＣコーディングシステムからの２つの符号化情報ストリームがブロック間のポイントで重ね継がされるならば、接合部のいずれかの面上のセグメントは、互いのエイリアシングアーティファクトを解除しない。例えば、一符号化情報ストリームがブロックＢ_１とＢ_２の間のポイントで終わるようにカットされ、もう一つの符号化情報ストリームがブロックＢ_３とＢ_４の間のポイントで始まるようにカットされると想定されたい。もし、ブロックＢ_１がすぐにブロックＢ_４に優先するように、これら２つの符号化情報ストリームが重ね継がれるならば、ブロックＢ_１から回復されるセグメントＳ_１の最後の半分及びブロックＢ_４から回復されるセグメントＳ_４の最初の半分のエイリアシングアーティファクトは、一般的に互いに解除されないだろう。
【０００８】
Ｂ．音声及びビデオの同期化
少なくとも２つの理由のために、音声とビデオの両情報を処理する編集アプリケーションにおいて、さらに大きな制限が課される。第１の理由は、ビデオフレーム長が一般に音声ブロック長と等しくないということである。第２の理由は、音声サンプルレートの整数倍でないビデオフレームレートを有するＮＴＳＣのようなあるビデオ標準にのみ適するということである。以下の議論における例は、１秒毎に４８ｋサンプルの音声サンプルレートを想定する。最も専門的装置は、このレートを用いる。類似の考察は、典型的に消費者装置で用いられる、毎秒４４．１ｋサンプルのような他のサンプルレートに応用する。
【０００９】
いくつかのビデオと音声コーディング標準のためのフレーム長とブロック長は、それぞれ、表Ｉと表IIに示される。「ＭＰＥＧII」と「ＭＰＥＧIII」のための表の項目は、国際標準化機構の動画圧縮技術（Motion Picture Experts Group）によってISO/IEC 13818-3標準規格に指定されたＭＰＥＧ−２層IIとＭＰＥＧ−２層IIIに関する。「ＡＣ−３」の項目は、ドルビー研究所（Dolby Laboratories, Inc.）によって開発され、進歩的テレビシステム委員会（Advanced Television Systems Committee）によってＡ−５２標準規格に指定されたコーディング技術に関する。４８kHzＰＣＭのための「ブロック長（block length）」は、隣接したサンプル間のタイムインターバルである。
【００１０】
【表１】

【００１１】
これらの標準規格のいずれかに従ってビデオと音声情報をともにまとめるアプリケーションでは、音声ブロックとビデオフレームはめったに同期されない。ビデオ／音声同期の発生の間の最小時間インターバルは表IIIに示される。例えば、その表は、毎秒２４フレームの動画フィルムが各３秒間にたった一度ＭＰＥＧ音声ブロック境界で同期され、各４秒間にたった一度ＡＣ−３音声ブロックで同期されることを示す。
【００１２】
【表２】

【００１３】
ビデオフレームに音声ブロックの数で表現される、同期の発生の間の最小インターバルは、表IVに示される。例えば、同期は、５つの音声ブロックと４つのビデオフレームに広がるインターバル内でＡＣ−３ブロックとＰＡＬフレーム間にたった一度起こる。
【００１４】
【表３】

【００１５】
ビデオ及び音声情報がまとめられるとき、編集は、一般にビデオフレーム境界で起こる。表III及びIVで示される情報から、そのような編集が音声フレーム境界で起こることが稀であることが分かり得る。ＮＴＳＣビデオとＡＣ−３音声のために、例えば、ビデオ境界における編集が音声ブロック境界でも起こる確率は、わずか約１／９６０あるいはおよそ０．１％でしかない。勿論、カットされ、重ね継がれる両方の情報ストリームのための編集は、この方法で同期されねばならない。さもなければ、いくつかの音声情報が失われるだろう。このために、２つの任意の編集のためのＮＴＳＣ／ＡＣ−３情報の重ね継ぎが音声ブロック境界以外で起こり、失った音声情報の１乃至２ブロックを結果として生じることがほとんど確実である。しかしながら、ＡＣ−３がＴＤＡＣ変換を用いるので、情報のブロックが失われない場合でさえ、上述された理由のために、取り消されていないエイリアシングアーティファクトを結果として生じる。
【００１６】
Ｃ．セグメント及びブロック長考察
上述のビデオ／音声同期に影響を与える考察に加えて、符号化される音声情報セグメントの長さのための追加の考察が必要である。なぜならば、この長さは、いくつかの意味でビデオ／音声システムのパフォーマンスに影響を与えるからである。
【００１７】
セグメント及びブロック長の一影響は、システム「待ち時間（latency）」あるいはシステムを通して情報の伝達における遅れの量である。音声情報のセグメントを受信し、一時記憶領域に移すため、及び符号化された情報のブロックを生成するバッファリングされたセグメントで望ましいコーディング処理を実行するための符号化の間、遅れが招かれる。符号化された情報のブロックを受信し、それを一時記憶領域に移し、音声情報のセグメントを回復させ、出力音声信号を生成するバッファリングされたブロックで望ましい復号化処理を実行するための復号化の間、遅れが招かれる。符号化・復号化する音声の伝搬遅延は望ましくはない。なぜならば、それらは、ビデオ情報と音声情報間の整合を維持することを一層困難にするからである。
【００１８】
ブロック変換と量子化コーディングを用いるそのようなシステムにおけるセグメント及びブロック長のもう一つの影響は、符号化−復号化処理から回復された音声の質である。一方では、長いセグメント長の使用は、ブロック変換が知覚のコーディング処理に望ましい高い周波数選択度を持つことを可能にする。なぜならば、それは、ビット割り当てのような知覚のコーディング処理がより正確になされることを可能にするからである。他方、長いセグメントの使用は、知覚のコーディング処理に望ましくない低い時間選択制を有するブロック変換を結果として生じる。なぜならば、それは、ビット割り当てのような知覚のコーディング決定が人の聴覚システムの音響心理学特性を完全に利用するのに十分速く適用されることを妨げるからである。特に、もし、セグメント長が人の聴覚システムのプレ時間遮蔽間隔を越えるならば、過渡現象のような高い非停滞信号事象のコーディングアーティファクトは、回復された音声信号において可聴であり得る。したがって、固定長コーディング処理は、高い時間解像度の要求と高い周波数分解能の要求とを保つ妥協セグメントを用いなければならない。
【００１９】
符号化されるべき音声情報の１以上の特性に従ってセグメント長を適合することが一つの解決である。例えば、もし、十分な振幅の過渡電流が発見されるならば、ブロックコーディング処理は、より短いセグメント長に一時的にシフトすることによって、過渡的事象のための時間及び周波数分解能を最適化することができる。この適応性処理は、ＴＤＡＣ変換を用いるシステムでは幾分複雑である。なぜならば、その変換のエイリアシング解除特性を維持するために、ある制約が遭遇され得るからである。ＴＤＡＣ変換の長さを適合するための多くの考察は、米国特許第５，３９４，４７３号に開示される。
【００２０】
発明の開示
上述のいくつかの考察を考慮して、本発明の目的は、ビデオ情報フレームと同列に揃えられるフレームで伝えられ、時間領域エイリアシング解除変換を含むブロック符号化処理が信号特性に従ってセグメント及びブロック長を適応することを可能にするものを、音声情報の符号化（encoding）及び復号化（decoding）のために提供することである。
【００２１】
本発明の種々の態様から実現され得る追加の利点は、ビデオ／音声同期化を一層容易に保持するために処理待ち時間を結合し、及び制御するような編集操作から生じる可聴アーティファクトを避けるか、少なくとも最小にすることを含む。
【００２２】
本発明の一態様の技術によれば、音声情報を符号化するための方法は、ビデオ情報フレームの列内のビデオ情報フレームの配列を伝える基準信号を受信するステップと、音声情報を伝える音声信号を受信するステップと、音声情報の特性を識別するために音声信号を解析するステップと、音声情報の特性に応じて制御信号を生成するステップと、複数の符号化情報のブロックを生成するために、音声信号の部分的に重なるセグメントに適切なブロック符号化処理を適用するステップであって、該ブロック符号化処理が制御信号に応じてセグメント長を適応する、前記適用ステップと、基準信号と同列に揃えられる符号化情報フレームを形成するために、複数の符号化情報のブロックとセグメント長を伝える制御情報とをアセンブルするステップと、を含む。
【００２３】
本発明のもう一つの態様の技術によれば、音声情報を復号化する方法は、ビデオ情報フレームの列内のビデオ情報フレームの配列を伝える基準信号を受信するステップと、基準信号と同列に揃えられ、制御情報と符号化音声情報のブロックを備える符号化情報フレームを受信するステップと、制御情報に応じて制御信号を生成するステップと、それぞれの符号化情報フレーム内の複数の符号化音声情報のブロックに適切なブロック復号化処理を適用するステップであって、該ブロック復号化処理が音声情報の部分的に重なるセグメントの列を生成するために制御信号に応じて適応する、前記適用ステップとを含む。
【００２４】
本発明のさらにもう一つの態様の技術によれば、光ディスク、磁気ディスク及びテープのような情報記憶媒体は、ビデオフレームに配列されるビデオ情報と、符号化情報に配列される符号化音声情報とを伝える。ここで、それぞれの符号化情報フレームは、それぞれのビデオフレームに対応し、部分的に重なるセグメントの列内の音声情報のセグメントの長さと、隣接するセグメントを持つそれぞれのオーバーラップインターバルを有するそれぞれのセグメントと、フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有する列とを伝える制御情報と、符号化音声情報のブロックであって、それぞれのブロックが適切なブロック復号化処理によって処理されるとき、部分的に重なるセグメントの列内の音声情報のそれぞれのセグメントをもたらすそれぞれの長さと内容を有する、前記符号化音声情報のブロックとを含む。
【００２５】
この議論を通して、「コーディング（符号化：coding）」及び「コーダー（符号器：coder）」のような用語は、信号処理のための種々の方法及び装置に言及し、「符号化（encoded）」及び「復号化（decoded）」のような他の用語は、そのような処理の結果に言及する。これらの用語は、しばしば、音声情報が減少された情報能力所要量で伝えられ、格納されることを可能にする知覚ベースの符号化処理のような処理に言及し、あるいは含意することと理解される。しかしながら、ここで用いられるように、これらの用語はそのような処理を意味しない。例えば、用語「符号化（coding）」は、信号を表すためのパルスコード変調（ＰＣＭ）サンプルを生成し、情報をある使用に従ってフォーマットに配列あるいはアセンブルするようなより一般的な処理を含む。
【００２６】
この開示で用いられるような「セグメント（segment）」、「ブロック（block）」及び「フレーム（frame）」のような用語は、それらと同一の用語が、時々AES-3/EBUデジタル音声規格として知られる、米国規格協会（ＡＮＳＩ）S4.40-1992規格のような他の基準で指示するものとは異なる情報のグループやインターバルに言及する。
【００２７】
ここで用いられるような「フィルタ（filter）」及び「フィルタバンク（filterbank）」のような用語は、本質的に、直角ミラーフィルタ（ＱＭＦ）のような循環的及び非循環的フィルタリングのあらゆる形状を含む。議論の内容が別な方法で示さないならば、これらの用語は、同じく、変換に言及するためにここで用いられる。用語「フィルタされた（filtered）」情報は、解析「フィルタ（filter）」を適用した結果に言及する。
【００２８】
本発明の種々の特性及びその好ましい実施の形態は、以下の議論と、同様な参照数字がいくつかの図で同様の要素に言及する添付図とに言及することによって、より良く理解され得る。
【００２９】
種々の装置を示す図は、本発明を理解する助けとなる主な構成要素を示す。明瞭のために、これらの図は、実際の実施の形態で重要である多くの他の特性を省略するが、それらは本発明の概念を理解するのに重要ではない。
【００３０】
本発明を実施するように要求される信号処理は、マイクロプロセッサ、デジタル信号プロセッサ、論理列及び計算回路の他の形状によって実行されるプログラムを含む多種多様な方法で達成され得る。本発明の種々の態様を実行する命令のマシン実行可能プログラムは、本質的に、光ディスク、磁気ディスク及びテープのような磁気及び光学メディア、並びにプログラム可能なリードオンリーメモリ（ＲＯＭ）のような固体デバイスを含むマシンで読取可能なあらゆる媒体で具体化され得る。信号フィルタは、本質的に、循環的、非循環的及び格子型デジタルフィルタを含むあらゆる方法で実行され得る。デジタル及びアナログ技術は、適用の必要性と特性に従って種々の組み合わせで用いられ得る。
【００３１】
より詳細な言及は、音声とビデオ情報ストリームを処理することに関する状態からなる。しかしながら、本発明の態様は、ビデオ情報の処理を含まない適用で実施されてもよい。
【００３２】
以下の議論と図面の内容は、単なる例示であり、本発明の範囲に対する制限を表すと理解すべきではない。
【００３３】
発明を実施するモード
Ａ．信号と処理
１．セグメント、ブロック及びフレーム
本発明は、ビデオ情報のフレームで伝達する画像に関連する音声情報を符号化及び復号化することに関する。図１において、音声情報の一チャネルのための音声信号１０の一部が部分的に重なるセグメント１１〜１８に分割されて示される。本発明によれば、音声情報の１以上のチャネルのセグメントは、符号化情報のブロック２１〜２８を含む符号化情報ストリーム２０を生成するためのブロック符号化処理によって処理される。例えば、符号化ブロック２２〜２５の列は、音声情報の一チャネルのために音声セグメント１２〜１５の列にブロック符号化処理を適用することによって生成される。図に示されるように、それぞれの符号化ブロックは、対応する音声セグメントに遅れをとる。なぜならば、ブロック符号化処理は、少なくとも、完全な音声セグメントを受信し、一時記憶領域に移すために要求される時間程度の遅れを受ける。図に示される遅れ量は重要ではない。
【００３４】
音声信号１０の各セグメントは、変換コーディングのようなブロック符号化処理で用いられ得る解析ウィンドウ関数の時間領域「利得プロフィール（gain profile）」を示す形状によって図１に表される。改易ウィンドウ関数の利得プロフィールは、時間関数としてウィンドウ関数の利得である。一セグメントのためのウィンドウ関数の利得プロフィールは、セグメント重なり期間としてここでは言及する量だけ後のセグメントのためのウィンドウ関数の利得プロフィールと部分的に重なる。変換コーディングが好ましい実施の形態で用いられると予想されるけれども、本発明は、音声情報のセグメントに応答して符号化情報のブロックを生成するブロック符号化処理のあらゆるタイプで本質的に用いられる。
【００３５】
基準信号３０は、ビデオ情報のストリームのビデオフレームの配列を伝達する。示される例では、フレーム照合３１と３２は、２つの隣接するビデオフレームの配列を伝達する。照合は、ビデオフレームの始め又は他のいずれかの望ましいポイントをマークしてもよい。ＮＴＳＣビデオのための１つの一般に使用された配列ポイントは、それぞれのビデオフレームの最初のフィールドで１０番目のラインである。
【００３６】
本発明は、音声情報がビデオ情報のフレームで伝達されるビデオ／音声システムにおいて用いられ得る。ビデオ／音声情報ストリームは、種々の編集と信号処理操作にしばしばかけられる。これらの操作は、ビデオ・音声情報の１以上のストリームをビデオフレームに整列されるポイントにおけるセクションにしばしばカットする。それゆえ、これらの操作が符号化ブロック内でカットされないように、ビデオフレームに整列される形式に符号化音声情報を組み立てることが望ましい。
【００３７】
図２において、音声情報の１チャネルのためのセグメントの列又はフレーム１９は、照合３１に整列されたフレーム２９にアセンブルされる複数の符号化ブロックを生成するために処理される。この図では、破線は、個々のセグメントとブロックの境界を表し、実線は、セグメントフレームと符号化ブロックフレームの境界を表す。特に、セグメントフレーム１９の実線の形状は、フレーム内の部分的に重ねられたセグメントの列のための解析ウィンドウ関数の結果として生じる時間領域利得プロフィールを示す。フレーム１９のような１セグメントフレームの利得プロフィールが後のセグメントフレームの利得プロフィールを部分的に重なる量は、フレーム重なり期間としてここで言及される。
【００３８】
解析ウィンドウ関数と変換を使用する実施の形態では、解析ウィンドウ関数の形状は、変換の周波数応答特性と同様に、システムの時間領域利得に影響する。ウィンドウ関数の選択は、コーディングシステムのパフォーマンスに対する重要な効果を有し得る。しかしながら、原則として本発明の実施に批判的な特定のウィンドウ形状はない。ウィンドウ関数の効果を記述する情報は、米国特許第５，１０９，４１７号、米国特許第５，３９４，４７３号、米国特許第５，９１３，１９１号、及び米国特許第５，９０３，８７２号から得ることができる。
【００３９】
実質的な実施の形態では、編集とカットをするための許容範囲を与えるために、符号化情報のフレーム間にギャップ又は「保護帯域」が形成される。これらの保護帯域の情報に関する追加の情報は、１９９９年３月１１日に出願された国際特許出願番号ＰＣＴ／ＵＳ９９／０５２４９号から得ることができる。有用な情報がこれらの保護帯域で伝達され得る方法は、１９９９年１１月１１日に出願された国際特許出願番号ＰＣＴ／ＵＳ９９／２６３２４号に開示される。
【００４０】
２．信号処理の概観
音声のいくつかの節が実質的に静止し得るけれども、音声信号は、一般に静止していない。これらの節は、しばしばより長いセグメント長を用いて一層効率的にブロックで符号化され得る。例えば、ブロック圧縮伸長（block-companded）ＰＣＭのような符号化処理は、サンプルのより長いセグメントを符号化することによって、音声の静止した節をより少ないビットで正確な所定のレベルに符号化することができる。音響心理学ベースの変換コーディングシステムでは、より長いセグメントの使用は、個々のスペクトル成分のより正確な分離とより正確な音響心理学コーディング決定のために、変換の周波数分解能を増す。
【００４１】
不幸にも、これらの利点は、高度に静止していない音声の節には存在しない。大きい振幅過渡現象を含む節では、例えば、長いセグメントのブロック圧縮伸長ＰＣＭコーディングは非常に非効率的である。音響心理学ベースの変換コーディングシステムでは、過渡現象スペクトル成分の量子化によって生じるアーティファクトは、合成変換によって回復されたセグメントにわたって広げられる。もし、セグメントが十分に長いならば、これらのアーティファクトは、人の聴覚系の予め一時遮蔽インターバルを越えるインターバルの向こう側に広げられる。その結果として、高度に静止しない音声の節のためには、通常、より短いセグメント長が好ましい。
【００４２】
コーディングシステムパフォーマンスは、種々の長さのセグメントを符号化及び復号化するためのコーディング処理を適合させることによって改善され得る。しかしながら、いくつかのコーディング処理では、セグメント長の変化は、１以上の制約に適合しなければならない。例えば、もし、エイリアシング解除が達成されるべきならば、時間領域エイリアシング解除（ＴＤＡＣ）変換を用いるコーディング処理の適応は、いくつかの制約に適合しなければならない。ＴＤＡＣ制約を満足する本発明の実施の形態は、ここに記述される。
【００４３】
ａ．符号化
図３は、符号化情報のフレームに組み立てられる符号化音声情報のブロックを生成するために、１以上のチャネルのための音声情報のセグメントの列又はフレームに適応するブロック符号化処理を適用する音声符号器４０の一実施の形態を示す。これらの符号化ブロックフレームは、ビデオ情報のフレームに結合され、あるいはそれに埋め込まれ得る。
【００４４】
この実施の形態では、解析４５は、経路４４に沿って通過される音声情報に沿って伝達される１以上の音声信号の特性を識別する。これらの特性の例は、各音声信号の帯域のすべて又は一部の振幅又はエネルギーの速い変化と、周波数の速い変化を経験する信号エネルギーの成分と、時間又はそのようなイベントが起こる信号のセクション内の相対的位置とを含む。これらの検出された特性に応じて、制御４６は、各音声チャネルのために処理されるべきセグメントのフレーム内のセグメント長を伝達する制御信号を、経路４７に沿って生成する。符号化５０は、経路４７から受信した制御信号に応答してブロック符号化処理を適応させ、符号化音声情報のブロックを生成するために、経路４４から受信された音声情報に適応されたブロック符号化処理を適用する。フォーマット４８は、ビデオ情報のフレームの配列を伝送する経路４２から受信された基準信号で調整される符号化情報のフレームに、符号化情報のブロックと制御信号の表示を組み立てる。転換４３は、より詳細に以下で記述される追加の構成要素である。
【００４５】
音声情報の１以上のチャネルを処理する符号器４０の実施の形態では、符号化５０は、音声チャネルの幾らか又はすべてに信号符号化処理を適応し、適用してもよい。しかしながら、好ましい実施の形態では、解析４５、制御４６及び符号化５０は、各音声チャネルのための独立した符号化処理を適応し、適用するように作動する。好ましい一実施の形態では、例えば、符号器４０は、その音声チャネル内の過渡現象の発生を検出することに応じて、符号化５０によって一つの音声チャネルのみに適用される符号化処理のブロック長を適応する。これらの好ましい実施の形態では、一音声チャネルにおける過渡現象の検出は、もう一つのチャネルの符号化処理を適応するために用いられない。
【００４６】
ｂ．復号化
図４は、ビデオ情報のフレームを伝える信号から得ることができる符号化情報のフレームに適応できるブロック復号化処理を適用することによって、１以上の音声チャネルの音声情報のセグメントを生成する音声復号器６０の一実施の形態を示す。この実施の形態では、デフォーマット６３は、経路６２から受信されたビデオ基準と同列に揃えられる符号化情報のフレームを受信する。符号化情報のフレームは、制御情報と音声情報を符号化したブロックを伝送する。制御６５は、符号化音声情報のブロックから受信されるセグメントのフレーム内の音声情報のセグメント長を伝送する制御信号を経路６７に沿って生成する。随意に、制御６５は、また、符号化情報のフレーム内の不連続性を検出し、復号化７０の操作を適応するために用いられ得る「接続検出」信号を経路６６に沿って生成する。復号化７０は、経路６７から受信される制御信号と随意に経路６６から受信される接続検出信号に応じて、ブロック復号化処理を適応し、制御信号に伝達される長さに従う長さを有する音声情報のセグメントを生成するために、経路６４から受信される符号化音声情報のブロックに適応するブロック復号化処理を適用する。変換６８は、以下により詳細に記述される追加の構成要素である。
【００４７】
Ｂ．変換符号化手段
１．ブロック符号器
上述のように、符号化５０は、ブロック圧縮伸長ＰＣＭ、デルタ変調、方形ミラーフィルタ（ＱＭＦ）や種々の循環的、非循環的格子型フィルタによって提供されるようなフィルタリング、ＴＤＡＣ変換、離散フーリエ変換（ＤＦＴ）、及びウェーブレット法変換によって提供されるようなブロック変換、並びに適応できるビット割り当てによるブロック量子化を含む、多種多様なブロック符号化処理を実行してもよい。本発明の基本概念に欠くことのできない特定のブロック符号化処理ではないけれども、エイリアシング解除を達成するのに要求される追加の考察のために、ＴＤＡＣ変換を適用する処理に対しより特定の言及がここでなされる。
【００４８】
図５は、一音声チャネルのための音声情報のセグメントへのＴＤＡＣ変換によって実行される複数のフィルタバンクの一つを適用する符号器５０の一実施の形態を示す。この実施の形態では、バッファ５１は、経路４４から音声情報を受信し、その音声情報を、経路４７から受信される制御信号に従って適応される長さを有する部分的に重なり合うセグメントのフレームに組み立てる。あるセグメントが隣接するセグメントと部分的に重なり合う量は、セグメントオーバーラップインターバルとして言及される。スイッチ５２は、経路４７から受信される制御信号に応じてフレーム内のセグメントに適用するために、複数のフィルタバンクの一つを選択する。図に示される実施の形態は、３つのフィルタバンクを示すが、本質的に、使用されるフィルタバンクの数はいくつでもよい。
【００４９】
一手段では、スイッチ５１は、フレームの最初のセグメントに適用するためにフィルタバンク５４を選択し、フレームの最後のセグメントに適用するためにフィルタバンク５６を選択し、そして、フレームの他のすべてのセグメントに適用するためにフィルタバンク５５を選択する。追加のフィルタバンクは、実施の形態に取り入れられてもよく、フレームの最初と最後のセグメントの近くのセグメントに適用するために選択されてもよい。この方法でフィルタバンクを適応して選択することによって達成され得る利点のいくつかは以下で論じられる。フィルタバンクから得られる情報は、経路５９に沿ってフォーマット４８に送られる符号化情報のブロックを形成するためにバッファ５８で組み立てられる。ブロックのサイズは、経路４７から受信される制御信号に従って変化する。
【００５０】
音響心理学の知覚モデル、適応できるビット割り当て及び量子化のための種々の構成要素は、実用システムに必要であり得るが、説明の明確さのために図には含まれない。これらのような構成要素は、用いられ得るが、本発明を実施するために要求されるものではない。
【００５１】
符号化５０の代わりの実施の形態では、一つのフィルタバンクが、バッファ５１に形成される音声情報のセグメントに適応され、適用される。ブロック符号化ＰＣＭや他のフィルタのような部分的に重なり合わないブロック符号化処理を用いる符号化５０の他の実施の形態では、隣接するセグメントが部分的に重なり合う必要はない。
【００５２】
図５に示される構成要素又は種々の代わりの実施の形態を含む構成要素は、多数の音声チャネルのための並列処理を提供するために繰り返され得、あるいは、これらの構成要素は、連続する又は多重送信される方法で多数の音声チャネルを処理するために用いられ得る。
【００５３】
２．ブロック復号器
上述のように、符号化７０は、多種多様なブロック復号化処理を実行してもよい。実用システムでは、復号化処理は、復号化される情報を準備するために用いられるブロック符号化処理を補足すべきである。上で説明されるように、より詳細な説明は、エイリアシング解除を達成するために要求される追加の考察のために、ＴＤＡＣ変換を適用する処理としてここに挙げられる。
【００５４】
図６は、ＴＤＡＣ変換によって実行される複数の逆又は合成フィルタバンクの一つを一音声チャネルのための符号化音声情報のブロックに適用する復号器７０の一実施の形態を示す。この実施の形態では、バッファ７１は、経路６７から受信される制御信号に従って変化する長さを有する、経路６４からの符号化音声情報のブロックを受信する。スイッチ７２は、経路６７から受信される制御信号及び随意に経路６７から受信される接続検出信号に応じて、符号化情報のブロックに適用するために、複数の合成フィルタバンクの一つを選択する。図に示される実施の形態は、３つの合成フィルタバンクを示すが、本質的に、用いられるフィルタバンクの数はいくつでもよい。
【００５５】
一手段では、スイッチ７２は、セグメントのフレームの最初の音声セグメントを表すブロックに適用するために合成フィルタバンク７４を選択し、そのフレームの最後のセグメントを表すブロックに適用するために合成フィルタバンク７６を選択し、そして、フレームの他のすべてのセグメントを表すブロックに適用するためにフィルタバンク７５を選択する。追加のフィルタバンクは、その実施の形態に取り入れられてもよく、フレームの最初と最後のセグメントに近いセグメントを表すブロックに適用するために選択されてもよい。この方法で合成フィルタバンクを適応して選択することによって達成されるいくつかの利点は、以下に論じられる。合成フィルタバンクから得られる情報は、セグメントのフレーム内の音声情報の部分的に重なり合うセグメントを形成するためにバッファ７８に組み立てられる。セグメントの長さは、経路６７から受信される制御信号に従って変換する。隣接するセグメントは、経路７９に沿って音声情報のストリームを生成するために、セグメントオーバーラップインターバルでともに加えられ得る。例えば、音声情報は、変換６８を含む実施の形態において、経路７９に沿って変換６８に送られてもよい。
【００５６】
適応できるビット割り当てと非量子化のための種々の構成要素は、実用システムに必要であり得るが、説明の明確さのために図には含まれない。これらのような特性が用いられてもよいが、本発明を実施するために要求されない。
【００５７】
復号化７０の代わりの実施の形態では、一つの逆フィルタバンクは、バッファ７１に形成される符号化情報のブロックに適応され、適用される。復号化７０の他の実施の形態では、復号化処理によって生成される隣接するセグメントは、部分的に重なり合う必要がない。
【００５８】
図６に示される構成要素又は種々の代わりの実施の形態に含まれる構成要素は、多数の音声チャネルのための並列処理を提供するために繰り返されてもよく、あるいは、これらの構成要素は、連続する又は多重送信される方法で多数の音声チャネルを処理するために用いられてもよい。
【００５９】
Ｃ．主構成要素と特性
図３及び４に示される符号器４０と復号器６０における主構成要素の特定の実施の形態は、それぞれ、より詳細に以下に記述される。これらの特定の実施の形態は、一つの音声チャネルに関連して記述されるが、それらは、例えば、構成要素の繰返し、あるいは連続する又は多重送信される方法での構成要素の適用を含む多くの方法で、多数の音声チャネルを処理するために拡張され得る。
【００６０】
次の例において、音声情報のセグメントのフレーム又は列は、２０４８のサンプルに等しい長さと、２５６のサンプルに等しい連続するフレームを持つフレームオーバーラップインターバルとを有すると想定される。このフレーム長さとフレームオーバーラップインターバルは、およそ３０Hz以下のフレームレートを有するビデオフレームのための情報を処理するシステムに好ましい。
【００６１】
１．音声信号解析
解析４５は、本質的にあらゆる望ましい信号特性を識別するために、多種多様な方法で実行され得る。図７に示される一実施の形態では、解析４５は、「過渡現象（transients）」の発生と位置、あるいは信号振幅の速い変化を識別する４つの主セクションを持つ過渡現象検出器である。この実施の形態では、音声情報の２０４８のサンプルのフレームが３２の部分的に重なり合わない６４サンプルブロックに分割され、各ブロックは、過渡現象がそのブロックで発生しているか否かを決定するために解析される。
【００６２】
過渡現象検出器の第１のセクションは、信号解析処理からより低い周波数信号成分を除外するハイパスフィルタ（ＨＰＦ）１０１である。好ましい実施の形態では、ＨＰＦ１０１は、およそ７kHzの公称３ｄＢ遮断周波数で二次無限インパルス応答（ＩＩＲ）によって実行される。最適な遮断周波数は、個人的な選択によってこの公称値から逸脱し得る。もし望まれるならば、公称遮断周波数は、リスニングテストで経験的に洗練され得る。
【００６３】
過渡現象検出器の第２のセクションは、ＨＰＦ１０１から受信されるフィルタされた音声情報のフレームをブロック及びサブブロックの階層構造に配列するサブブロック１０２である。サブブロック１０２は、階層のレベル１で６４サンプルブロックを形成し、階層のレベル２でその６４サンプルブロックを３２サンプルサブブロックに分割する。
【００６４】
この階層構造は、図８に示される。ブロックＢ１１１は、レベル１の６４サンプルブロックである。レベル２のサブブロックＢ１２１及びＢ１２２は、ブロックＢ１１１の３２サンプル分割である。ブロックＢ１１０は、ブロックＢ１１１のすぐ前に置くフィルタされた音声情報の６４サンプルブロックを表す。この文脈では、ブロックＢ１１１は、「現在」のブロックであり、ブロックＢ１１０は、「前」のブロックである。同様に、ブロックＢ１２０は、ブロックＢ１２１のすぐ前に置くブロックＢ１１０の３２サンプルサブブロックである。現在のブロックがフレームの最初のブロックである場合、前のブロックは、前のフレームの最後のブロックを表す。以下に説明されるように、過渡現象は、現在のブロックの信号レベルを前のブロックの信号レベルと比較することによって検出される。
【００６５】
過渡現象検出器の第３のセクションは、ピーク検出１０３である。レベル２でスタートして、ピーク検出１０３は、サブブロックＢ１２１の最も大きい大きさのサンプルをピーク値Ｐ１２１として識別し、サブブロックＢ１２２の最も大きい大きさのサンプルをピーク値Ｐ１２２として識別する。続いてレベル１で、ピーク検出器は、ピーク値Ｐ１２１とＰ１２２のより大きい方をブロックＢ１１１のピーク値Ｐ１１１として識別する。ブロックＢ１１１とＢ１２０のピーク値Ｐ１１０とＰ１２０は、それぞれ、以前にブロックＢ１１０が現在のブロックであったとき、ピーク検出１０３によって決定された。
【００６６】
過渡現象検出器の第４のセクションは、過渡現象が特定のブロックで発生するか否かを決定するためにピーク値を検査する比較器１０４である。比較器１０４が実行され得る一方法は、図９に示される。ステップＳ４５１は、レベル２のサブブロックＢ１２０とＢ１２１のピーク値を検査する。ステップＳ４５２は、サブブロックＢ１２１とＢ１２２のピーク値を検査する。ステップＳ４５３は、レベル１のブロックのピーク値を検査する。これらの検査は、階層的レベルに適切であるしきい値と２つのピーク値の比率を比較することによって達成される。例えば、サブブロックＢ１２０とＢ１２１のために、ステップＳ４５１のこの比較は、以下のようになる：
【式１】

ここで、ＴＨ２＝レベル２のしきい値である。もし必要ならば、ステップＳ４５２の同様の比較は、サブブロックＢ１２１とＢ１２２のピーク値のためになされる。
【００６７】
もしレベル２の隣接するサブブロックのためのステップＳ４５１とＳ４５２の比較のいずれもが真でないならば、比較は、レベル１のブロックＢ１１０とＢ１１１のピーク値のためにステップＳ４５３でなされる。これは以下のように表現される：
【式２】

ここで、ＴＨ１＝レベル１のしきい値である。
【００６８】
一実施の形態では、ＴＨ２は０．１５でありＴＨ１は０．２５である。しかしながら、これらのしきい値は、個人的な選択によって変更され得る。もし望まれるならば、これらの値は、リスニングテストで経験的に洗練され得る。
【００６９】
好ましい実施では、これらの比較は、分割することなく実行される。なぜならば、もし分母のピーク値が０ならば、２つのピーク値の商は、不定だからである。サブブロックＢ１２０及びＢ１２１のために上記で与えられた例として、ステップＳ４５１の比較は、以下のように表現され得る。
Ｐ１２０＜ＴＨ２＊Ｐ１２１（２）
【００７０】
もし、ステップＳ４５３を通してステップＳ４５１でなされた比較がいずれも真でないならば、ステップＳ４５７は、この例ではブロックＢ１１１である現在の６４サンプルブロックで過渡現象が生じなかったことを表す信号を生成する。現在の６４サンプルブロックのための信号解析が終了する。
【００７１】
もし、ステップＳ４５３を通してステップＳ４５１でなされた比較のいずれかが真であるならば、ステップＳ４５４及びＳ４５５は、現在の６４サンプルブロックの信号が、セグメント長を変化するためにブロック符号化処理を適応させることを正当化するのに十分に大きいか否かを決定する。ステップＳ４５４は、現在のブロックＢ１１１のピーク値Ｐ１１１と最小ピーク値のしきい値とを比較する。一実施の形態では、このしきい値は、最大可能ピーク値に比較して−７０ｄＢに設定される。
【００７２】
もし、ステップＳ４５４でテストされた条件が真であるならば、ステップＳ４５５は、ブロックＢ１１０とＢ１１１の信号エネルギーの２つの測定値を比較する。一実施の形態では、ブロックの信号エネルギーの測定値は、ブロックの６４サンプルの二乗の平均である。現在のブロックＢ１１１の信号エネルギーの測定値は、前のブロックＢ１１０の信号エネルギーの同一の測定値の２倍に等しい値と比較される。もし、そのピーク値と現在のブロックの信号エネルギーの測定値がステップＳ４５４及びＳ４５５でなされる２つのテストを通過するならば、ステップＳ４５７は、過渡現象が現在のブロックＢ１１１で発生することを示す信号を生成する。もし、いずれかのテストが失敗するならば、ステップＳ４５７は、現在のブロックＢ１１１で過渡現象が発生しないことを示す信号を生成する。
【００７３】
この過渡現象検出処理は、各フレームで重要なすべてのブロックのために繰り返される。
【００７４】
２．セグメント長制御
制御４６と制御６５の実施の形態がここで記述される。これらの実施の形態は、以下に記述される２つのフォーマットの二番目に従って符号化音声情報の処理フレームにＴＤＡＣフィルタバンクを適用するシステムにおける使用に適する。以下に説明されるように、第２のフォーマットによる処理は、およそ３０Hz以下のビデオフレームレートで伝送するように意図されるビデオフレームで組み立てられ、あるいはそれに埋め込まれる音声情報を処理するシステムにおいて好ましい。第２のフォーマットによれば、ビデオフレームに対応する音声セグメントの各列の処理は、２つの部分列又はサブフレームに適用される、別々であるが関連する処理に分割される。
【００７５】
第１のフォーマットによる音声情報の処理フレームを処理するシステムのための制御方式は、以下に論じられる第２のフォーマットによる音声情報のフレームを処理するシステムのための制御方式に非常に類似してもよい。第１のフォーマットのためのこれらのシステムでは、ビデオフレームに対応する音声セグメントの処理は、第２のフォーマットでそれぞれの部分列又はサブフレームに適用される処理の一つと実質的に同じである。
【００７６】
ａ．符号器
上述され、図３に示される符号器４０の実施の形態では、制御４６は、音声情報のフレーム内に検出される過渡現象の存在と位置を伝える解析器４５から信号を受信する。この信号に応じて、制御４６は、ブロック符号化処理によって処理される部分的に重なるセグメントの２つのサブフレームにそのフレームを分割するセグメントの長さを伝える制御信号を生成する。
【００７７】
ブロック符号化処理を適用する２つの方式が以下に記述される。各方式では、２０４８サンプルのフレームが２５６サンプルの最小長さと１１５２サンプルの有効最大長さとの間で変化する長さを有する部分的に重なるセグメントに分割される。
【００７８】
図１０に示されるような一基本的制御方法は、いずれかの方式を制御するために用いられてもよい。２つの方式を制御する方法における唯一の装置は、過渡現象の発生がテストされるブロック又はフレームインターバルである。２つの方式のためのインターバルは、表Ｖに列挙される。第１の方式では、例えば、インターバル−２は、サンプル１２８からサンプル８３１に延び、ブロック番号２からブロック番号１２までの６４サンプルブロックの列に対応する。第２の方式では、インターバル−２は、サンプル１２８からサンプル８９５まで延び、ブロック番号２〜１３に対応する。
【００７９】
【表４】

【００８０】
図１０において、ステップＳ４６１は、過渡現象又は他の誘発イベントがインターバル−３内のいずれかのブロックで発生するか否かを決定するために、解析４５から受信された信号を検査する。もし、この状態が真ならば、ステップＳ４６２は、第１のサブフレームがセグメントの「short-1」パターンに従ってセグメントに分割されることを示す制御信号を生成し、ステップＳ４６３は、第２のサブフレームがセグメントの「short-2」パターンに従ってセグメントに分割されることを示す信号を生成する。
【００８１】
もし、ステップＳ４６１でテストされる状態が真でないならば、ステップＳ４６４は、過渡現象又は他の誘発イベントがインターバル−２内のあらゆるブロックで発生するか否かを決定するために、解析４５から受信される信号を検査する。もし、この状態が真ならば、ステップＳ４６５は、第１のサブフレームがセグメントの「bridge-1」パターンに従ってセグメントに分割されることを示す制御信号を生成する。もし、ステップＳ４６３でテストされた状態が真でないならば、ステップＳ４６６は、第１のサブフレームがセグメントの「long-1」パターンに従ってセグメントに分割されることを示す制御信号を生成する。
【００８２】
ステップＳ４６７は、過渡現象又は他の誘発イベントがインターバル−４内のあらゆるブロックで発生するか否かを決定するために、解析４５から受信される信号を検査する。もし、この状態が真ならば、ステップＳ４６８は、第２のサブフレームがセグメントの「bridge-2」パターンに従ってセグメントに分割されることを示す制御信号を生成する。もし、ステップＳ４６７でテストされる状態が真でないならば、ステップＳ４６９は、第２のサブフレームがセグメントの「long-2」パターンに従って分割されることを示す制御信号を生成する。
【００８３】
上述のセグメントのパターンは、より詳細に以下で論じられる。
【００８４】
ｂ．復号器
上述され、図４に示される復号器６０の実施の形態では、制御６５は、経路６１から受信される符号化情報のフレームから得られる制御情報を受信し、それに応じて、符号化音声情報のブロックからブロック復号化処理によって回復されるべき音声情報のセグメントの長さを伝える経路６７に沿って制御信号を生成する。代わりの実施の形態では、制御６５は、また、符号化情報のフレーム内の不連続性を検出し、ブロック復号化処理を適応するために用いられ得る経路６６に沿って「接続検出」信号を生成する。この任意選択機能は以下に論じられる。
【００８５】
一般に、制御６５は、セグメントのいくつかのパターンのいずれが符号化ブロックの２つのサブフレームから回復されるべきかを示す制御信号を生成する。セグメントのこれらのパターンは、符号器に関して上述されるパターンに対応し、より詳細には以下で論じられる。
【００８６】
３．適応性のあるフィルタバンク
音声情報の部分的に重なるセグメントを解析し、合成するためにＴＤＡＣフィルタバンクを適用する符号器５０と復号器７０の実施の形態は、ここで記述される。以下に記述される実施の形態は、余分なスタックか時間領域エイリアシング解除（Ｏ−ＴＤＡＣ）として知られるＴＤＡＣ変換システムを用いる。これらの実施の形態では、ウィンドウ関数と変換カーネル関数は、セグメント長が上述のいくつかのパターンのいずれかに従って変化し得るセグメントの列又はサブフレームを処理するのに適応される。種々のパターンの各セグメントのために用いられるセグメント長、ウィンドウ関数及び変換カーネル関数は、ＴＤＡＣ変換への一般的導入に続いて以下に記述される。
【００８７】
ａ．ＴＤＡＣ概要
（１）変換
Princen他によって教示され、図１１に示されるように、ＴＤＡＣ変換解析−合成システムは、信号サンプルの部分的に重なったセグメントに適用される解析ウィンドウ関数１３１と、ウィンドウ化されたセグメントに適用される解析変換１３２と、解析変換から得られる係数のブロックに適用される合成変換１３３と、合成変換から得られるサンプルのセグメントに適用される合成ウィンドウ関数１３４と、時間領域エイリアシングを解除し、オリジナルの信号を回復するために、部分的に重ねられウィンドウ化されたセグメントの対応するサンプルを加える重複加算処理１３５とを備える。
【００８８】
前方又は解析Ｏ−ＴＤＡＣ変換は、以下のように表現され得る：
【式３】

そして、逆又は合成Ｏ−ＴＤＡＣ変換は、以下のように表現され得る：
【式４】

ここで、ｋ＝頻度インデックス、
ｎ＝信号サンプル番号、
Ｇ＝スケーリング定数、
Ｎ＝セグメント長、
ｎ_０＝エイリアシング解除のための期間、
ｘ（ｎ）＝ウィンドウ化された入力信号サンプルｎ、
Ｘ（ｋ）＝変換係数である。
【００８９】
これらの変換は、Ｇ、Ｎ及びｎ_０のパラメータによって特徴付けられる。Ｇパラメータは、解析−合成システムのための望ましいエンドツゥエンドの利得を達成するために用いられる利得パラメータである。Ｎパラメータは、各セグメントのサンプル数、又はセグメント長に関し、一般に変換長さとして言及される。上述のように、この長さは、変換の頻度と時間分解能を釣り合わせるために変更されてもよい。ｎ_０パラメータは、変換のエイリアシング生成とエイリアシング解除特性を制御する。
【００９０】
解析−合成システムによって生成される時間領域エイリアシングアーティファクトは、本質的に、オリジナルの信号の時間反転レプリカである。解析及び合成変換のｎ_０期間は、アーティファクトが反転又は反射される各セグメントの「反射」ポイントを制御する。反射ポイントとエイリアシングアーティファクトのサインを制御することによって、これらのアーティファクトは、隣接するセグメントを部分的に重なり合わせ、加えることによって解除され得る。エイリアシング解除についての追加の情報は、米国特許第５，３９４，４７３号から得ることができる。
【００９１】
（２）ウィンドウ関数
好ましい実施の形態では、解析及び合成ウィンドウ関数は、基底ウィンドウ関数から得られる１以上の初等関数から構成される。基底関数のいくつかは、方形ウィンドウ基底関数から得られる：
φ（ｎ，ｐ，Ｎ）＝ｐ０≦ｎ＜Ｎにおいて（４）
【００９２】
他の初等関数は、次のパラグラフで記述される技術を用いてもう一つの基底ウィンドウ関数から得られる。ＴＤＡＣのための適切なオーバーラップ−アド特性を持つあらゆる関数が、この基底ウィンドウ関数のために用いられ得る。しかしながら、好ましい実施の形態で用いられる基底ウィンドウ関数は、カイザー・ベッセルウィンドウ関数である。そのウィンドウ関数の最初の部分は、以下のように表現され得る：
【式５】

ここで、α＝カイザー・ベッセルウィンドウ関数α因子、
ｎ＝得られたウィンドウ関数のセグメントオーバーラップインターバルであり、
【式６】

このウィンドウ関数の最後の部分は、式５の最初のνサンプルの時間反転レプリカである。
【００９３】
カイザー・ベッセルによって得られた（ＫＢＤ）ウィンドウ関数Ｗ_ＫＢＣ（ｎ，α，ν）は、コアカイザー・ベッセルウィンドウ関数Ｗ_ＫＢ（ｎ，α，ν）から得られる。ＫＢＤウィンドウ関数の最初の部分は、以下に従って得られる：
【式７】

ＫＢＤウィンドウ関数の最後の部分は、式６の時間反転レプリカである。
【００９４】
（ａ）解析ウィンドウ関数
この特定の実施の形態で用いられる各解析ウィンドウ関数は、表VI−Ａに示される２以上の初等関数を結び付けることによって得られる。
【００９５】
【表５】

【００９６】
２つの異なる制御方式で用いられるいくつかのセグメントパターンのための解析ウィンドウ関数は、以下に記述される方法でこれらの初等関数から構成される。
【００９７】
（ｂ）合成ウィンドウ関数
従来のＴＤＡＣシステムでは、同一の解析及び合成ウィンドウ関数が各セグメントに適用される。ここで記述される実施の形態では、同一の解析及び合成ウィンドウ関数は、一般に、各セグメントのために用いられるが、代わりの又は「修正された」合成ウィンドウ関数は、解析−合成システムのエンドツゥエンドのパフォーマンスを改善するためにいくつかのセグメントに用いられる。一般に、代わりの又は修正された解析ウィンドウ関数は、２５６サンプルに等しいフレームオーバーラップインターバルのためのエンドツゥエンドのフレーム利得特性を得るために、「short」と「bridge」セグメントパターンの末端におけるセグメントのために用いられる。
【００９８】
代わりの合成ウィンドウ関数の適用は、経路６７及び随意に経路６６から受信される制御信号に応じて、フレーム内の種々のセグメントに異なる合同フィルタバンクを適用する、図６に示されるようなブロック復号器７０の一実施の形態によって提供されてもよい。例えば、代わりの合成ウィンドウ関数を用いるフィルタバンク７４及び７６は、フレームの末端におけるセグメントに適用され得、従来の合成ウィンドウ関数を持つフィルタバンク７５は、フレーム内にあるセグメントに適用され得る。
【００９９】
（i）周波数応答特性を改める
フレームオーバーラップインターバルにおける「終わりの」セグメントのために代わりの合成ウィンドウ関数を用いることによって、ブロック復号化処理は、フレームの末端におけるセグメントのために、望ましいエンドツゥエンドの解析−合成システム周波数領域応答又は時間領域応答（利得特性）を得ることができる。各セグメントのエンドツゥエンドの応答は、本質的に、そのセグメントに適用される解析ウィンドウ関数と合成ウィンドウ関数の積から形成されるウィンドウ関数の応答に等しい。これは以下のように代数的に表され得る：
ＷＰ（ｎ）＝ＷＡ（ｎ）ＷＳ（ｎ）（７）
ここで、ＷＡ（ｎ）＝解析ウィンドウ関数、
ＷＳ（ｎ）＝合成ウィンドウ関数、
ＷＰ（ｎ）＝積ウィンドウ関数。
【０１００】
もし、合成ウィンドウ関数がエンドツゥエンドの周波数応答を何か他の望ましい応答に変換するために修正されるならば、それは、それ自身と解析ウィンドウ関数の積が望ましい応答を有する積ウィンドウに等しいように修正される。もし、ＷＰ_Ｄに対応する周波数応答が望ましく、解析ウィンドウ関数ＷＡが信号解析のために用いられるならば、この関係は、以下のように表現され得る：
ＷＰ_Ｄ（ｎ）＝ＷＡ（ｎ）ＷＳ_Ｘ（ｎ）（８）
ここで、ＷＳ_Ｘ（ｎ）＝周波数応答を変換するのに必要な合成ウィンドウ関数である。これは、以下のように書き直され得る：
【式８】

フレーム内の最後のセグメントのためのウィンドウ関数ＷＳ_Ｘの実際の形状は、フレームオーバーラップインターバルが最後のセグメントを部分的に重なる隣接するセグメントまで延びるならば、幾分複雑である。いずれにしても、式９は、正確に、フレーム内の他のいかなるセグメントをも部分的に重ねられない最後のセグメントのその部分でウィンドウ関数ＷＳ_Ｘに要求されることを表す。Ｏ−ＴＤＡＣを用いるシステムのために、その部分はセグメント長の半分か、あるいは０≦ｎ＜１／２Ｎに等しい。
【０１０１】
もし、ＫＢＤ積ウィンドウ関数ＷＰ_Ｄのα因子がＫＢＤ解析ウィンドウ関数ＷＡのα因子より際立って高いならば、エンドツゥエンドの周波数応答を修正するために用いられる合成ウィンドウ関数ＷＳ_Ｘは、フレーム境界に近い非常に大きい値を持たなければならない。不幸にも、そのような形状を持つ合成ウィンドウ関数は、非常に不十分な周波数応答特性を有し、回復された信号の音質を下げる。
【０１０２】
この問題は、解析ウィンドウ関数が最小値を有するフレーム境界においてわずかなサンプルを捨てることによって、最小にされるかあるいは避けられ得る。捨てられたサンプルは、ゼロに設定されてもよく、さもなければ処理から除外されてもよい。
【０１０３】
標準的コーディングのためにαより低い値にＫＢＤウィンドウ関数を用いるシステムは、一般的に、合成ウィンドウ関数へのより小さい修正と、フレームの終わりにおいて捨てられるより少ないサンプルとを要求する。
【０１０４】
エンドツゥエンドの周波数応答と解析−合成システムの時間領域利得プロフィール特性を変更するための合成ウィンドウ関数を修正することについての追加の情報は、米国特許第５，９０３，８７２号から得ることができる。
【０１０５】
望ましい積ウィンドウ関数ＷＰ_Ｄ（ｎ）は、また、望ましい時間領域応答又は利得プロフィールを提供すべきである。積ウィンドウのための望ましい利得プロフィールの一例は、式１０に示され、次のパラグラフで論じられる。
【０１０６】
（ii）フレーム利得特性を改める
代わりの合成ウィンドウ関数の使用は、また、ブロック復号化処理が各フレームのための望ましい時間領域利得プロフィールを得ることを可能にする。フレームのための望ましい利得プロフィールが従来の修正されていない合成ウィンドウ関数から生じる利得プロフィールとは異なるとき、代わりの又は修正された合成ウィンドウ関数は、フレームオーバーラップインターバル内のセグメントのために用いられる。
【０１０７】
合成ウィンドウ関数を修正する前の、フレームのための「最初の」利得プロフィールは、以下のように表現され得る：
【式９】

ここで、ｘ＝フレーム境界で捨てられたサンプル数、
ν＝フレームオーバーラップインターバルである。
【０１０８】
（iii）初等関数
この特定の実施の形態で用いられる各合成ウィンドウ関数は、表VI−ＡとVI−Ｂに示される２以上の初等関数を結び付けることによって得られる。
【０１０９】
【表６】

【０１１０】

表VI−Ｂに示される関数ＷＡ_０（ｎ）は、３つの初等関数ＥＡ_０（ｎ）＋ＥＡ_１（−ｎ）＋Ｅ０_６４（ｎ）の結び付きから形成される２５６サンプルウィンドウ関数である。関数ＷＡ_１（ｎ）は、初等関数ＥＡ_１（ｎ）＋ＥＡ_１（−ｎ）の結び付きから形成される２５６サンプルウィンドウ関数である。
【０１１１】
２つの異なる制御方式で用いられるいくつかのセグメントパターンのための合成ウィンドウ関数は、以下に記述される方法でこれらの初等関数から構築される。
【０１１２】
ｂ．ブロック符号化のための制御方式
ブロック符号化処理を適応するための方式は、ここで記述される。各方式では、２０４８サンプルのフレームが、２５６サンプルの最小長と１１５２サンプルの有効最大長の間で変化する長さを有する部分的に重なるセグメントに分割される。およそ３０Hz以下のフレームレートを有するフレームの情報を処理するシステムの好ましい実施の形態では、各フレーム内の２つのサブフレームは、長さを変化する部分的に重なるセグメントに分割される。
【０１１３】
各サブフレームは、セグメントのいくつかのパターンの一つに従ってセグメントに分割される。各パターンは、各セグメントが特定の解析ウィンドウ関数によってウィンドウ化され、特定の解析変換によって変換されるセグメントの列を明示する。それぞれのセグメントパターンにおける種々のセグメントに適用される特定の解析ウィンドウ関数と解析変換は、表VIIに列挙される。
【０１１４】
【表７】

【０１１５】
各表項目は、サンプルのセグメントに適用されるべき解析ウィンドウ関数と、サンプルのウィンドウ化されたセグメントに適用されるべき解析変換とを指定することによって、それぞれのセグメントタイプを記述する。表に示される解析ウィンドウ関数は、上述の初等ウィンドウ関数の結び付きに関して記述される。解析変換は、パラメータＧ、Ｎ及びｎ_０に関して記述される。
【０１１６】
（１）第１の方式
第１の方式では、各パターンのセグメントは、２の整数倍に等しい長さを有するように制限される。この制限は、解析及び合成変換を実行するように要求される処理リソースを減少する。
【０１１７】
short-1パターンは、最初のセグメントがＡ２５６−Ａタイプのセグメントであり、続く７つのセグメントがＡ２５６−Ｂタイプのセグメントである８つのセグメントを含む。short-2パターンは、最初の７つのセグメントがＡ２５６−Ｂタイプのセグメントであり、最後のセグメントがＡ２５６−Ｃタイプのセグメントである８つのセグメントを含む。
【０１１８】
bridge-1パターンは、最初のセグメントがＡ２５６−Ａタイプのセグメントであり、中間の５つのセグメントがＡ２５６−Ｂタイプのセグメントであり、最後のセグメントがＡ５１２−Ａタイプのセグメントである７つのセグメントを含む。bridge-2パターンは、最初のセグメントがＡ５１２−Ｂタイプのセグメントであり、中間の５つのセグメントがＡ２５６−Ｂタイプのセグメントであり、最後のセグメントがＡ２５６−Ｃタイプのセグメントである７つのセグメントを含む。
【０１１９】
long-1パターンは、一つのＡ２０４８−Ａタイプのセグメントを含む。このセグメントは実際に２０４８サンプル長であるけれども、時間分解能の有効長さは、１１５２サンプルだけである。なぜならば、解析ウィンドウ関数の１１５２サンプルのみがゼロではないからである。long-2パターンは、一つのＡ２０４８−Ｂタイプのセグメントを含む。このセグメントの有効長さは１１５２である。
【０１２０】
これらのセグメントパターンのそれぞれは、表VIII−Ａに要約される。
【０１２１】
【表８】

【０１２２】
第１の制御方式に従って制御４６によって指定され得るセグメントパターンの種々の組み合わせが図１２に示される。ラベル「short-short」を持つ列は、セグメントパターンのshort-1とshort-2の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。ラベル「long-bridge」を持つ列は、セグメントパターンのlong-1とbridge-2の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。図の他の列は、bridge及びlongセグメントパターンの他の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。
【０１２３】
（２）第２の方式
第２の方式では、いくつかのパターンにおける少しのセグメントは、２の整数倍ではない３８４に等しい長さを有する。このセグメント長の使用は、追加のコストを招くが、第１の制御方式と比較して同様な利点を提供する。追加のコストは、３８４サンプルセグメントのための変換を実行するように要求される追加の処理リソースから発生する。追加のコストは、各３８４サンプルセグメントを３つの１２８サンプルセグメントに分割し、３２の複素数値を生成するために各セグメントのサンプル対を結合し、複素数値のサンプルの各セグメントに複雑な高速フーリエ変換（ＦＦＴ）を適用し、望ましい変換係数を得るためにその結果を結合することによって、減少させることができる。この処理技術についての追加の情報は、米国特許第５，３９４，４７３号、米国特許第５，２９７，２３６号、米国特許第５，８９０，１０６号、及びOppenheimとSchaferの「デジタル信号処理」（１９７５年、Englewood Cliffs, N.J.：Prentice-Hall, Inc.）の３０７〜３１４頁から得ることができる。３８４サンプルブロックを用いて実現される利点は、より良い周波数応答特性を有するウィンドウ関数の使用を可能とし、処理遅延を減少することから起こる。
【０１２４】
short-1パターンは、最初のセグメントがＡ３８４−Ａタイプのセグメントであり、続く７つのセグメントがＡ２５６−Ｂタイプのセグメントである８つのセグメントを含む。Ａ３８４−Ａタイプのセグメントの有効長さは２５６である。short-2タイプのセグメントと最後のセグメントは、Ａ３８４−Ｄタイプのセグメントである。Ａ３８４−Ｄタイプのセグメントの有効長さは２５６である。セグメントパターンの他の組み合わせとは異なり、パターンのこの組み合わせの２つのサブフレームの長さは等しくない。
【０１２５】
bridge-1パターンは、最初のセグメントがＡ３８４−Ａタイプのセグメントであり、中間の５つのセグメントがＡ２５６−Ｂタイプのセグメントであり、最後のセグメントがＡ３８４−Ｃタイプのセグメントである７つのセグメントを含む。bridge-2パターンは、最初のセグメントがＡ３８４−Ｂタイプのセグメントであり、中間の５つのセグメントがＡ２５６−Ｂタイプのセグメントであり、最後のセグメントがＡ３８４−Ｄタイプのセグメントである７つのセグメントを含む。
【０１２６】
long-1パターンは、一つのＡ２０４８−Ａタイプのセグメントを含む。このセグメントの有効長さは１１５２である。long-2パターンは、一つのＡ２０４８−Ｂタイプのセグメントを含む。このセグメントの有効長さは１１５２である。
【０１２７】
これらのセグメントパターンのそれぞれは、表VIII−Ｂに要約される。
【０１２８】
【表９】

【０１２９】
第２の制御方式に従って制御４６によって指定され得るセグメントパターンの種々の組み合わせが図１３に示される。ラベル「short-short」を持つ列は、セグメントパターンのshort-1とshort-2の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。ラベル「long-bridge」を持つ列は、セグメントパターンのlong-1とbridge-2の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。図の他の列は、bridge及びlongセグメントパターンの他の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。bridge-1とbridge-2の組み合わせは示されないが、この制御方式のための有効な組み合わせである。
【０１３０】
ｃ．ブロック復号化のための制御方式
ブロック復号化処理を適応するための２つの方式は、ここで記述される。各方式では、符号化情報のフレームは、２５６サンプルの最小長さと１１５２サンプルの有効最大長さの間で変化する長さを有する部分的に重なるセグメントに分割された、２０４８サンプルのフレームを生成するために復号化される。およそ３０Hz以下のフレームレートを有するフレームの情報を処理するシステムの好ましい実施の形態では、各フレーム内の２つのサブフレームは、長さを変える部分的に重なるセグメントに分割される。
【０１３１】
各サブフレームは、セグメントのいくつかのパターンの一つに従ってセグメントに分割される。各パターンは、各セグメントが特定の合成変換によって生成され、変換の結果が特定の合成ウィンドウ関数によってウィンドウ化されるセグメントの列を指定する。特定の合成変換と合成ウィンドウ関数は、表IXに列挙される。
【０１３２】
【表１０】

【０１３３】
各表項目は、サンプルのセグメントを生成するために符号化情報のブロックに適用されるべき合成変換と、サンプルのウィンドウ化されたセグメントを生成するために結果として生じるセグメントに適用されるべき合成ウィンドウ関数とを指定することによってそれぞれのセグメントタイプを記述する。合成変換は、上述のパラメータＮ及びｎ_０に関して記述される。表に示される合成ウィンドウ関数は、上述の初等ウィンドウ関数の結び付きに関して記述される。復号化処理の間用いられる合成ウィンドウ関数のいくつかは、表に列挙される関数の修正された形式である。これらの修正されたあるいは代わりのウィンドウ関数は、エンドツゥエンドのシステム性能を改善するために用いられる。
【０１３４】
（１）第１の方式
第１の方式では、各パターンのセグメント長は、２の整数倍になるように制限される。この制限は、解析及び合成変換を実行するように要求される処理リソースを減少する。
【０１３５】
short-1パターンは、１番目のセグメントがＳ２５６−Ａタイプのセグメントであり、２番目のセグメントがＳ２５６−Ｄ１タイプのセグメントであり、３番目のセグメントがＳ２５６−Ｄ３タイプのセグメントであり、続く５つのセグメントがＳ２５６−Ｂタイプのセグメントである８つのセグメントを含む。short-2パターンは、最初の５つのセグメントがＳ２５６−Ｂタイプのセグメントであり、６番目のセグメントがＳ２５６−Ｄ４タイプのセグメントであり、７番目のセグメントがＳ２５６−Ｄ２タイプのセグメントであり、最後のセグメントがＳ２５６−Ｃタイプのセグメントである８つのセグメントを含む。
【０１３６】
解析及び合成ウィンドウ関数の形状と、short-1パターンの最初のセグメントのための解析及び合成変換のパラメータＮとｎ_０は、この最初のセグメントの音声情報がセグメントの最初の６４サンプル内のエイリアシングアーティファクトなしに、他のセグメントから独立して回復され得るように設計される。これは、short-1パターンに従ってセグメントに分割される情報のフレームが、エイリアシング解除に関係することなく、情報のあらゆる任意のストリームに添付されることを可能にする。
【０１３７】
解析及び合成ウィンドウ関数と、short-2パターンの最後のセグメントのための解析及び合成変換は、この最後のセグメントのための音声情報がセグメントの最後の６４サンプルのエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得るように設計される。これは、short-2パターンに従ってセグメントに分割される情報のフレームがエイリアシング解除に関係なく、情報のあらゆる任意のストリームによって続けられることを可能にする。
【０１３８】
ウィンドウ関数と変換の設計のための種々の考察は、より詳細に米国特許第５，９１３，１９１号で論じられる。
【０１３９】
bridge-1パターンは、最初のセグメントがＡ２５６−Ａタイプのセグメントであり、２番目のセグメントがＳ２５６−Ｄ１タイプのセグメントであり、３番目のセグメントがＳ２５６−Ｄ３タイプのセグメントであり、次の３つのセグメントがＡ２５６−Ｂタイプのセグメントであり、最後のセグメントがＡ５１２−Ａタイプのセグメントである７つのセグメントを含む。bridge-2パターンは、最初のセグメントがＡ５１２−Ｂタイプのセグメントであり、次の３つのセグメントがＡ２５６−Ｂタイプのセグメントであり、５番目のセグメントがＳ２５６−Ｄ４タイプのセグメントであり、６番目のセグメントがＳ２５６−Ｄ２タイプのセグメントであり、最後のセグメントがＡ２５６−Ｃタイプのセグメントである７つのセグメントを含む。
【０１４０】
bridge-1パターンの最初のセグメントとbridge-2パターンの最後のセグメントは、それぞれ、最初と最後の６４サンプル内のエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得る。これは、セグメントのbridge-1パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームを続けることを可能にし、それは、セグメントのbridge-2パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームによって続けられることを可能にする。
【０１４１】
long-1パターンは、一つのＳ２０４８−Ａタイプのセグメントを含む。このセグメントは実際に２０４８サンプル長であるけれども、時間分解能に関してその有効長さは、１１５２サンプルのみである。なぜならば、合成ウィンドウ関数の１１５２ポイントだけがゼロではないからである。long-2パターンは、一つのＳ２０４８−Ｂタイプのセグメントを含む。このセグメントの有効長さは１１５２である。
【０１４２】
long-1とlong-2パターンのセグメントは、それぞれ、最初と最後の２５６サンプルのエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得る。これは、セグメントのlong-1パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームに続くことを可能にし、それは、セグメントのlong-2パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームによって続けられることを可能にする。
【０１４３】
これらのセグメントパターンのそれぞれは、表Ｘ−Ａに要約される。
【０１４４】
【表１１】

【０１４５】
第１の制御方式に従って制御６５によって指定され得るセグメントパターンの種々の組み合わせが図１４に示される。ラベル「short-short」を持つ列は、セグメントパターンのshort-1とshort-2の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。ラベル「long-bridge」を持つ列は、セグメントパターンのlong-1とbridge-2の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。図の他の列は、bridge及びlongセグメントパターンの他の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。
【０１４６】
（２）第２の方式
第２の方式では、セグメントのいくつかは、２の整数倍ではない３８４に等しい長さを有する。この方式の利点と欠点は上述される。
【０１４７】
short-1パターンは、最初のセグメントがＳ３８４−Ａタイプのセグメントであり、２番目のセグメントがＳ２５６−Ｅ１タイプのセグメントであり、続く６つのセグメントがＳ２５６−Ｂタイプのセグメントである７つのセグメントを含む。short-2パターンは、最初の５つのセグメントがＳ２５６−Ｂタイプのセグメントであり、６番目のセグメントがＳ２５６−Ｅ２タイプのセグメントであり、最後のセグメントがＳ３８４−Ｄタイプのセグメントである８つのセグメントを含む。セグメントパターンの他の組み合わせと異なり、パターンのこの組み合わせの２つのサブフレームの長さは等しくない。
【０１４８】
short-1パターンの最初のセグメントとshort-2パターンの最後のセグメントは、それぞれ、最初と最後の１２８サンプルのエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得る。これは、short-1とshort-2パターンに従ってセグメントに分割されるフレームが、エイリアシング解除に関係することなく、情報のあらゆる任意のストリームによって続き、あるいは続けられることを可能にする。
【０１４９】
bridge-1パターンは、最初のセグメントがＳ３８４−Ａタイプのセグメントであり、中間の５つのセグメントがＳ２５６−Ｂタイプのセグメントであり、最後のセグメントがＳ３８４−Ｃタイプのセグメントである７つのセグメントを含む。bridge-2パターンは、最初のセグメントがＳ３８４−Ｂタイプのセグメントであり、中間の５つのセグメントがＳ２５６−Ｂタイプのセグメントであり、最後のセグメントがＳ３８４−Ｄタイプのセグメントである７つのセグメントを含む。Ｓ３８４−Ａ、Ｓ３８４−Ｂ、Ｓ３８４−Ｃ及びＳ３８４−Ｄタイプのセグメントの有効長さは２５６である。
【０１５０】
bridge-1パターンの最初のセグメントとbridge-2パターンの最後のセグメントは、それぞれ、最初と最後の１２８サンプル内のエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得る。これは、セグメントのbridge-1パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームを続けることを可能にし、それは、セグメントのbridge-2パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームによって続けられることを可能にする。
【０１５１】
long-1パターンは、一つのＳ２０４８−Ａタイプのセグメントを含む。このセグメントの有効長さは１１５２である。long-2パターンは、一つのＳ２０４８−Ｂタイプのセグメントを含む。このセグメントの有効長さは１１５２である。第２の制御方式のためのlong-1とlong-2パターンは、第１の制御方式のためのlong-1とlong-2パターンと全く同じである。
【０１５２】
これらのセグメントパターンのそれぞれは、表Ｘ−Ｂに要約される。
【０１５３】
【表１２】

【０１５４】
第２の制御方式に従って制御６５によって指定され得るセグメントパターンの種々の組み合わせが図１５に示される。ラベル「short-short」を持つ列は、セグメントパターンのshort-1とshort-2の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。ラベル「long-bridge」を持つ列は、セグメントパターンのlong-1とbridge-2の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。図の他の列は、bridge及びlongセグメントパターンの他の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。bridge-1とbridge-2の組み合わせは示されないが、この制御方式のための有効な組み合わせである。
【０１５５】
４．フレームフォーマット化
フレーム４８は、多種多様なフォーマットに従って符号化情報をフレームに組み立てることができる。２つの代わりのフォーマットがここで記述される。これらの２つのフォーマットによれば、各フレームは、他のフレームに独立して復号され得る１以上の音声チャネルの同時のセグメントのために符号化情報を伝える。好ましくは、各フレームの情報は、セクションに分類される、１以上の固定ビット長デジタル「ワード」によって伝えられる。好ましくは、特定のフレームのために用いられるワード長は、復号器がこの長さにその処理を適応するように、フレームの内容から決定され得る。もし、符号化情報ストリームが伝送又は記憶エラーを受けやすいならば、巡回冗長検査（ＣＲＣ）コード又はフレッチャーの検査合計のようなエラー検出コードが、各フレームセクションに含まれてもよく、及び／又は全フレームのために提供されてもよい。
【０１５６】
ａ．第１のフォーマット
第１のフレームフォーマットは、図１６Ａに示される。図に示されるように符号化情報ストリーム８０は、第１のフォーマットに従ってアセンブルされた情報を持つフレームを含む。隣接するフレームは、情報消失を起こすことなく編集又はカットがなされ得るインターバルを供給するギャップあるいは保護帯域によって切り離される。例えば、図に示されるように、特定のフレームは、保護帯域８１及び８８によって隣接するフレームから分離される。
【０１５７】
第１のフォーマットによれば、フレームセクション８２は、信号処理装置が情報ストリームの内容と操作を同期するために用いられ得る特有のデータパターンを有する同期化ワードを伝える。フレームセクション８３は、フレームセクション８４で伝えられた符号化音声情報に関する制御情報を伝えるが、符号化情報自体の一部ではない。フレームセクション８４は、１以上の音声チャネルのための符号化音声情報を伝える。フレームセクション８７は、望ましい全長に詰め込むために用いられてもよい。その代わりに、フレームセクション８７は、フレームパッディングの代わりに又はそれに加えて情報を伝えるために用いられてもよい。この情報は、例えば、符号化デジタル音声情報から得ることが困難であるアナログメートル示数のような、符号化音声情報によって表される音声信号の特性を伝えてもよい。
【０１５８】
図１６Ｂにおいて、フレームセクション８３は、いくつかのサブセクションに配列される制御情報を伝える。サブセクション８３−１は、フレームの識別子とフレームフォーマットの表示を伝える。フレーム識別子は、値２５６から値０までをくるめて、各次のフレームのために１ずつ増加する値を有する８ビット数であってもよい。フレームフォーマットの表示は、フレームで伝えられる情報の位置と大きさを識別する。サブセクション８３−２は、フレームセクション８４内の符号化音声情報を適切に復号するために必要な１以上のパラメータを伝える。サブセクション８３−３は、音声チャネル番号と、フレームセクションの符号化音声情報によって表されるこれらのチャネルのプログラム構成とを伝える。このプログラム構成は、例えば、１以上のモノラルプログラム、１以上の２チャネルプログラム、あるいは３チャネルの左−中心−右及び２チャネルのサラウンドを持つプログラムを示してもよい。サブセクション８３−４は、フレームセクション８３のためのＣＲＣコード又は他のエラー検出コードを伝える。
【０１５９】
図１６Ｃにおいて、フレームセクション８４は、それぞれが８チャネルの最大値までの音声チャネルの同時のセグメントを表す符号化情報を伝える、１以上のサブセクションに配置される符号化音声情報を伝える。例えば、サブセクション８４−１、８４−２及び８４−８では、フレームセクション８４は、それぞれ、チャネル番号１、２及び８の音声の同時のセグメントを表す符号化音声情報を伝える。サブセクション８４−９は、フレームセクション８４のためのＣＲＣコード又は他のエラー検出コードを伝える。
【０１６０】
ｂ．第２のフォーマット
第２のフレームフォーマットは、図１７Ａに示される。この第２のフォーマットは、第１のフォーマットと類似するが、およそ３０Hz以下のビデオフレームレートを有するビデオ／音声適用では第１のフォーマットより好ましい。隣接するフレームは、情報消失を起こすことなく編集又はカットがなされ得るインターバルを提供する保護帯域９１及び９８のようなギャップあるいは保護帯域によって切り離される。
【０１６１】
第２のフォーマットによれば、フレームセクション９２は、同期化ワードを伝える。フレームセクション９３及び９４は、それぞれ、第１のフォーマットにおいてフレームセクション８３及び８４として上述されるものに類似する制御情報及び符号化音声情報を伝える。フレームセクション９７は、望ましい全長にフレームを詰め込むために、及び／又は、例えば、アナログメートル示数のような情報を伝えるために、用いられてもよい。
【０１６２】
第２のフォーマットは、音声情報が２つのサブフレームに分割される点で第１のフォーマットとは異なる。フレームセクション９４は、１以上の音声チャネルのための同時のセグメントのフレームの第１部分を表す符号化音声情報の第１のサブフレームを伝える。フレームセクション９６は、同時のセグメントのフレームの第２部分を表す符号化音声情報の第２のサブフレームを伝える。音声情報を２つのサブフレームに分割することによって、以下に説明されるように、ブロック復号化処理で受ける遅延が減少され得る。
【０１６３】
図１７Ｂにおいて、フレームセクション９５は、フレームセクション９６で伝えられる符号化情報に関する追加の制御情報を伝える。サブセクション９５−１は、フレームフォーマットの表示を伝える。サブセクション９５−４は、フレームセクション９５のためのＣＲＣコード又は他のエラー検出コードを伝える。
【０１６４】
図１７Ｃにおいて、フレームセクション９６は、それぞれが音声チャネルの符号化情報を伝える１以上のサブセクションに配置される符号化音声情報の第２のサブフレームを伝える。サブセクション９６−１、９６−２及び９６−８では、例えば、それぞれ、音声チャネル番号１、２及び８のための第２のサブフレームを表す符号化音声情報を伝える。サブセクション９６−９は、フレームセクション９６のためのＣＲＣコード又は他のエラー検出コードを伝える。
【０１６５】
ｃ．追加の特性
あるデータパターンがフレームによって伝えられる符号化情報に発生するのを防ぐことは、いくつかの符号化／復号化システムでは望ましい。例えば、上述の同期化ワードは、フレームの他のどこでも発生すべきでない特有なデータパターンを有する。もし、この特有のデータパターンが他所で起こったならば、そのような発生は、装置に情報ストリームの同期化を喪失させて、有効な同期化ワードとして誤って識別され得る。もう一つの例として、１６ビットのＰＣＭデータを処理するいくつかの音声装置は、制御又は信号情報を伝えるために、（１６進数で０ｘ８０００として表現される）データ値−３２７６８を取っておく。それゆえ、なお、この値の発生を避けることがいくつかのシステムでは望ましい。「取りおかれた」あるいは「禁じられた」データパターンを避けるためのいくつかの技術は、１９９９年９月２７日に出願された国際特許出願番号ＰＣＴ／ＵＳ９９／２２４１０に開示される。これらの技術は、あらゆる特別なデータパターンを避け、キーあるいは、改良又は符号化を反転することによってオリジナルの情報を回復するために用いられ得る他の制御情報を符号化情報で渡すために、情報を変更又は符号化する。好ましい実施の形態では、特定のフレームセクションにおける情報に関するキー又は制御情報は、それぞれフレームセクションで伝えられ、あるいはその代わりに、全フレームに関する１つのキー又は制御情報は、それぞれのフレームのどこかに伝えられる。
【０１６６】
５．接続検出
上述の２つの制御方式は、時々実質的に静止し、他の時には高度に静止していない音声信号を符号化及び復号化するための全システムパフォーマンスを向上するために、信号解析及び信号合成処理を適応する。しかしながら、好ましい実施の形態では、追加の特性が、スプライシングのような編集操作に属する音声情報を符号化するためのさらなる改善を提供し得る。
【０１６７】
上に説明されるように、接続は、一般に、知覚可能であるか否かの音声情報のストリーム内に不連続性を作り出す。もし、従来のＴＤＡＣ解析−合成処理が用いられるならば、接合部分のいずれかの側面におけるエイリアシングアーティファクトは、ほとんど確かに解除されない。上述の両制御方式は、エイリアシングアーティファクトから自由な音声情報の個別のフレームを回復することによって、この問題を避ける。結果として、いずれかの制御方式に従って符号化及び復号化される音声情報のフレームは、エイリアシング解除に関係することなく、互いに接合され得る。
【０１６８】
さらに、上述の「short」と「bridge」セグメントパターン内の最後のセグメントのために、代わりのあるいは修正された合成ウィンドウ関数を用いることによって、いずれかの制御方式は、実質的に一定の時間領域利得を得るための２５６サンプルフレームオーバーラップインターバル内に部分的に重ね、加える利得プロフィールを有するセグメントフレームの列を回復することができる。従って、フレームオーバーラップインターバル内のフレーム利得プロフィールは、接合部分にわたってフレームの任意の対のために正確である。
【０１６９】
ここまで議論された特性は、より広いフィルタ通過帯域と引き換えにフィルタストップバンドで増加される減衰を持つ周波数応答特性を有するフィルタバンクを実行することによって、知覚の符号化処理のために十分に最適化される。不幸にも、接合部分編集は、通常フィルタストップバンドとみなされるもの内にない周波数の範囲内にスペクトルアーティファクト又は「スペクトルスプラッタ」を生成する傾向がある。このゆえに、上述の特性によって実行されるフィルタバンクは、一般的な知覚の符号化パフォーマンスを最適化するように設計されるが、接合部分編集で作られるこれらのスペクトルアーティファクトを聞き取れなくするのに十分な減衰を提供しない。
【０１７０】
システムパフォーマンスは、結合の発生を検出し、応答で、このスペクトルスプラッタを減衰するために、合成フィルタバンクの周波数応答を適応することによって改善され得る。このことがなされる一方法は以下に論じられる。追加の情報は、米国特許第５，９０３，８７２号から得られることができる。
【０１７１】
図４において、制御６５は、経路６１から受信される各フレームから得られるいくつかの制御情報又は「フレーム識別子」を検査することによって、結合を検出してもよい。例えば、符号器４０は、数を増加させることによって、あるいは、各連続するフレームのための時間とデータの表示を生成し、この識別子をそれぞれのフレームにアセンブルすることによって、フレーム識別子を提供してもよい。制御６５がフレームのストリームから得られるフレーム識別子の列内の不連続性を検出するとき、結合検出信号は、経路６６に沿って生成される。経路６６から受信される結合検出信号に応じて、復号化７０は、合成フィルタバンクの周波数応答を適応してもよく、あるいは、結合が起こると思われるフレーム間の境界のいずれかの側面における１以上のセグメントを処理するために、望ましい周波数応答を有する代わりのフィルタバンクを選択してもよい。
【０１７２】
好ましい実施の形態では、検出された結合のいずれかの側面におけるフレームのための望ましい周波数応答は、結合ウィンドウ処理を適用することによって得られる。これは、上述の制御方式から得られるように、フレーム結合ウィンドウ関数をセグメントの全フレームに適用することによって達成されてもよく、あるいは、セグメント結合ウィンドウ関数を合成変換から得られる各セグメントに適用することによって、制御方式内で達成されてもよい。原則として、これらの２つの処理は同等である。
【０１７３】
それぞれのセグメントのためのセグメント結合ウィンドウ関数は、表IXに示されるそれぞれのセグメントのための標準的な合成ウィンドウ関数と、それぞれのセグメントと同列に揃えられるフレーム結合ウィンドウ関数の一部とを掛け算することによって得られてもよい。フレーム結合ウィンドウ関数は、表VI−Ｃで示される２以上の初等関数を連結することによって得られる。
【０１７４】
【表１３】

【０１７５】
フレームの３タイプのためのフレーム結合ウィンドウ関数は表XIで示される。
【０１７６】
【表１４】

【０１７７】
上記で列挙されるフレーム結合ウィンドウ関数を用いることによって、結合ウィンドウ処理は、本質的に、３のα値を持つＫＢＤウィンドウ関数から１のα値を持つＫＢＤウィンドウ関数へ、フレームオーバーラップインターバル内のセグメントのためのエンドツゥエンドの解析−合成ウィンドウ関数を変える。この変更は、ストップバンド内の減衰のレベルを減少させるのと引き換えに、フィルタ通過帯域の幅を減少させ、それによって、可聴スペクトルスプラッタをより効率的に抑制する周波数応答を得る。
【０１７８】
６．信号変換
上述の音声符号器及び復号器の実施の形態は、本質的にあらゆるフォーマットとサンプルレートを有する音声情報を処理する適用に組み込まれてもよい。例えば、４８kHzの音声サンプルレートは、専門的装置で通常用いられ、４４．１kHzのサンプルレートは、消費者装置で通常用いられる。さらに、上述の実施の形態は、標準の広範囲に従ってフレームフォーマットとフレームレートでビデオ情報を処理する適用に組み込まれてもよい。好ましくは、ビデオフレームレートがおよそ３０kHz以下の適用のために、音声情報は、上述の第２のフォーマットに従って処理される。
【０１７９】
実用装置の実行は、音声情報が外部音声サンプルレート又はビデオフレームレートから独立して共通の構造に符号化され得るように、音声情報を内部音声サンプルレートに変換することによって単純化され得る。
【０１８０】
図３及び４において、変換４３は、適切な内部サンプルレートに音声情報を変換するために用いられ、変換６８は、内部サンプルレートからの音声情報を望ましい外部音声サンプルレートに変換するために用いられる。変換は、内部音声サンプルレートがビデオフレームレートの整数倍であるように実行される。いくつかのビデオフレームレートのための適切な内部サンプルレートの例は、表XIIに示される。変換は、音声サンプルの同数が符号化され、ビデオフレームとともに伝えられることを可能にする。
【０１８１】
【表１５】

【０１８２】
ＮＴＳＣ（２９．９７Hz）とＤＴＶ（２３．９７６Hz）のために表に示される内部サンプルレートは、概算だけである。これらのビデオ標準のためのレートは、それぞれ、５３，７６０，０００／１００１と４３，００８，０００／１００１に等しい。
【０１８３】
本質的に、サンプルレート変換のためのあらゆる技術が用いられ得る。サンプルレート変換のための種々の考察と実行は、AdamsとKwanの「非同期サンプルレートコンバータのための理論とＶＬＳＩアーキテクチャ」、１９９３年７月、J of Audio Engr. Soc.４１巻、No. 7/8、５３９〜５５５頁に開示される。
【０１８４】
もし、サンプルレート変換が用いられるならば、解析４５のために上述される過渡現象検出器内のＨＰＦ１０１のためのフィルタ係数は、一定の遮断周波数を保持するために修正される必要があり得る。この特性の恩恵は、経験的に決定され得る。
【０１８５】
Ｄ．処理遅延
ブロック符号器５０とブロック復号器７０によって実行される処理は、情報のセグメントとブロックを受信してバッファに入れるために被る遅延を有する。さらに、上述のブロック符号化処理を制御するための２つの方式は、セグメント長制御のために解析４５によって解析される音声サンプルのブロックを受信してバッファに入れるために要求される追加の遅延を被る。
【０１８６】
第２のフォーマットが用いられるとき、第１の制御方式は、図１０に示されるセグメント長制御方法における第１のステップＳ４６１を始めることができる前に、１３４４の音声サンプル又は音声情報の２１個の６４サンプルブロックを受信してバッファに入れなければならない。第２の制御方式は、ただ１２８０の音声サンプル又は音声情報の２０個の６４サンプルブロックを受信してバッファに入れる必要のため、わずかに低い遅延を被る。
【０１８７】
もし、符号器４０がリアルタイムでその処理を実行するならば、そのフレームの最初の部分が受信され、バッファに入れられ、セグメント長制御方式のために解析された後、各フレームのために残る時間でブロック符号化処理を完了しなければならない。第１の制御方式がブロックを解析し始めるのにより長い遅延を被るので、それは、符号化５０に第２の制御方式によって要求されるよりも短い時間でその処理を完了することを要求する。
【０１８８】
好ましい実施の形態では、符号器４０によって受けられる全処理遅延は、隣接するビデオフレーム間のインターバルに等しいように調整される。必要ならば、構成要素が、追加の遅延を供給するために符号器４０内に含まれてもよい。もし、１フレームインターバルの全遅延が可能ではないならば、全遅延は、ビデオフレームインターバルの整数倍に等しいように調整される。
【０１８９】
両制御方式は、復号化６０で実質的に等しい計算要求を課す。復号器６０で受けられる最大遅延は、総称で述べることが難しい。なぜならば、それは、正確な符号化フレームフォーマットや符号化音声情報と制御情報を伝えるために用いられるビット数のようなファクターの数に依存するからである。
【０１９０】
第１のフォーマットが用いられるとき、全フレームは、セグメント制御方法が始まる前に受信され、バッファに入れられなければならない。なぜならば、符号化と信号サンプルレート変換処理は、同時に実行できず、符号器４０のための１フレームの遅延が可能ではないからである。この場合、２フレームレートの全遅延が好ましい。類似の制限は復号器６０にも当てはまる。
【図面の簡単な説明】
【図１】図１は、セグメントに配列された音声情報と基準信号と同列に揃えられるブロックに配列された符号化情報の概略表示である。
【図２】図２は、フレームに配列された音声情報のセグメントと基準信号と同列に揃えられるフレームに配列された符号化信号のブロックの概略図である。
【図３】図３は、音声情報のセグメントに適応するブロック符号化処理を適用する音声符号器の一実施の形態のブロック図である。
【図４】図４は、符号化情報のフレームに適応するブロック復号化処理を適用することによって音声情報のセグメントを生成する音声復号器の一実施の形態のブロック図である。
【図５】図５は、音声情報のセグメントに複数のフィルタバンクの一つを適用するブロック符号器の一実施の形態のブロック図である。
【図６】図６は、符号化音声情報に複数の合成フィルタバンクの一つを適用するブロック復号器の一実施の形態のブロック図である。
【図７】図７は、音声情報のセグメントを解析するために用いられ得る過渡電流検出器のブロック図である。
【図８】図８は、図７の過渡電流検出器によって用いられるブロック及びサブブロックの階層構造を示す。
【図９】図９は、図７の過渡電流検出器において比較器を実行する方法のステップを示す。
【図１０】図１０は、ブロック符号化処理を制御する方法のステップを示す。
【図１１】図１１は、時間領域エイリアシング解除解析−合成システムのブロック図である。
【図１２】図１２は、２つの制御方式に従ってセグメントのいくつかのパターンのための解析の利得プロフィールと合成ウィンドウ関数を示す。
【図１３】図１３は、２つの制御方式に従ってセグメントのいくつかのパターンのための解析の利得プロフィールと合成ウィンドウ関数を示す。
【図１４】図１４は、２つの制御方式に従ってセグメントのいくつかのパターンのための解析の利得プロフィールと合成ウィンドウ関数を示す。
【図１５】図１５は、２つの制御方式に従ってセグメントのいくつかのパターンのための解析の利得プロフィールと合成ウィンドウ関数を示す。
【図１６】図１６Ａ〜１６Ｃは、第１のフレームフォーマットに従って、制御情報と符号化音声情報の集合を示す。
【図１７】図１７Ａ〜１７Ｃは、第２のフレームフォーマットに従って、制御情報と符号化音声情報の集合を示す。

Claims

音声符号化のための方法であって、
隣接するフレームがフレームインターバルによって分離されるビデオ情報フレームの列におけるビデオ情報フレームの配列を伝える基準信号を受信するステップと、
音声情報を伝える音声信号を受信するステップと、
前記音声情報の特性を識別するために前記音声信号を解析するステップと、
部分的に重なるセグメントの列における前記音声情報のセグメントのためにセグメント長を伝える制御信号を生成するステップであって、それぞれのセグメントは、隣接するセグメントでそれぞれのオーバーラップインターバルを有し、該列は、前記フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有し、ここで、セグメント長は、前記音声情報の特性に応じて適応される、前記生成ステップと、
複数の符号化情報のブロックを生成するために、前記列内の前記部分的に重なるセグメントに適切なブロック符号化処理を適用するステップであって、該ブロック符号化処理が前記制御信号に応じて適応する、前記適用ステップと、
前記基準信号と同列に揃えられる符号化情報フレームを形成するために、前記複数の符号化情報のブロックと前記セグメント長を伝える制御情報とをアセンブルするステップと、
を含むことを特徴とする音声符号化方法。
前記ブロック符号化処理は、それぞれ、サブバンド信号のブロックあるいは変換係数を生成するために、前記音声情報のセグメントに帯域フィルタのバンク又は変換を適用することを特徴とする請求項１記載の音声符号化方法。
前記ブロック符号化処理は、ウィンドウ化セグメントを生成するために前記音声情報の各セグメントにそれぞれの解析ウィンドウ関数を適用し、変換係数のブロックを生成するために該ウィンドウ化セグメントに時間領域エイリアシング解除解析変換を適用することを特徴とする請求項１記載の音声符号化方法。
相補的な合成変換及び合成ウィンドウ関数の適用が前記列の末端セグメントのオーバーラップインターバル内の時間領域エイリアシングを実質的に持たない音声情報を回復するのを可能にするそれぞれの符号化情報フレームのためのセグメントの前記列内の末端セグメントを表すブロックを生成するために前記解析ウィンドウ関数及び前記時間領域エイリアシング解除解析変換を適応することを特徴とする請求項３記載の音声符号化方法。
前記ブロック符号化処理は、前記セグメント長を２の整数倍になるように強要することを特徴とする請求項１乃至４のいずれかに記載の音声符号化方法。
前記ブロック符号化処理は、最大セグメント長と最小セグメント長の間のセグメント長を適応し、それぞれの符号化情報フレームのために、
前記最大セグメント長に等しい長さを有するセグメントの列への解析ウィンドウ関数のlong-long列、
前記最小セグメント長に等しい有効長さを有するセグメントの列への解析ウィンドウ関数のshort-short列、
前記最小セグメント長から前記最大セグメント長までシフトする長さを有するセグメントの列への解析ウィンドウ関数のbridge-long列であって、該最大セグメント長と等しい長さを有するセグメントのためにウィンドウ関数によって続けられるウィンドウ関数の第１のbridge列を含む、前記bridge-long列、
前記最大セグメント長から前記最小セグメント長までシフトする長さを有するセグメントの列への解析ウィンドウ関数のlong-bridge列であって、ウィンドウ関数の第２のbridge列によって続けられる該最大セグメント長に等しい長さを有するセグメントのためのウィンドウ関数を含む、前記long-bridge列、
可変長であるセグメントの列への解析ウィンドウ関数のbridge-bridge列であって、前記第２のbridge列によって続けられる前記第１のbridge列を含む、前記bridge-bridge列、
のいずれかを適用することを特徴とする請求項１乃至４のいずれかに記載の音声符号化方法。
前記short-short列のすべてのセグメントが同一の長さを有することを特徴とする請求項６記載の音声符号化方法。
前記short-short列のすべての解析ウィンドウ関数は、形状及び長さが同一のゼロではない部分を有し、１以上の該解析ウィンドウ関数がゼロ部分を有することを特徴とする請求項６記載の音声符号化方法。
前記ブロック符号化処理を適用する前に、入力音声サンプルレートから内部音声サンプルレートまで前記音声情報を変換するステップであって、前記基準信号は、ビデオ情報フレームレートを伝え、該内部音声サンプルレートは、該ビデオ情報フレームレートの整数倍に等しい、前記変換ステップを含むことを特徴とする請求項１乃至８のいずれかに記載の音声符号化方法。
音声復号化のための方法であって、
隣接するフレームがフレームインターバルによって分離されるビデオ情報フレームの列におけるビデオ情報フレームの配列を伝える基準信号を受信するステップと、
前記基準信号と同列に揃えられ、それぞれが制御情報及び複数の符号化音声情報のブロックを備える符号化情報フレームを受信するステップと、
部分的に重なるセグメントの列内の音声情報のセグメントのためにセグメント長を伝える制御信号を生成するステップであって、それぞれのセグメントは、隣接するセグメントを持つオーバーラップインターバルを有し、該列は、前記フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有し、ここで、前記セグメント長は、前記制御情報に応じて適応される、前記生成ステップと、
それぞれの符号化情報フレーム内の前記複数の符号化音声情報のブロックに適切なブロック復号化処理を適用するステップであって、該ブロック復号化処理が音声情報の部分的に重なるセグメントの列を生成するために前記制御信号に応じて適応する、前記適用ステップと、
を含むことを特徴とする音声復号化方法。
前記ブロック復号化処理は、音声情報の部分的に重なるセグメントを生成するために、前記複数の符号化情報のブロックに帯域フィルタのバンク又は合成変換を適用することを特徴とする請求項１０記載の音声復号化方法。
前記ブロック復号化処理は、前記複数の符号化情報のブロックに時間領域エイリアシング解除合成変換を適用し、音声情報の前記部分的に重なるセグメントを生成するために該合成変換の結果にそれぞれの合成ウィンドウ関数を適用することを特徴とする請求項１０記載の音声複号化方法。
前記時間領域エイリアシング解除解析変換を適応し、前記列の末端セグメントのオーバーラップインターバル内の時間領域エイリアシングを実質的に持たないそれぞれの符号化情報フレームのための該列の該末端セグメントを回復するために、合成ウィンドウ関数を該変換の結果に適用することを特徴とする請求項１２記載の音声複号化方法。
前記ブロック復号化処理は、２の整数倍である長さを有するセグメントを生成するように強要することを特徴とする請求項１０乃至１３のいずれかに記載の音声複号化方法。
前記ブロック復号化処理は、最大セグメント長と最小セグメント長の間の異なるセグメント長を有する音声情報のセグメントを表すブロックを復号し、それぞれの符号化情報フレームのために、
前記最大セグメント長に等しい長さを有するセグメントの列への合成ウィンドウ関数のlong-long列、
前記最小セグメント長に等しい有効長さを有するセグメントの列への合成ウィンドウ関数のshort-short列、
前記最小セグメント長から前記最大セグメント長までシフトする長さを有するセグメントの列への合成ウィンドウ関数のbridge-long列であって、該最大セグメント長と等しい長さを有するセグメントのためにウィンドウ関数によって続けられるウィンドウ関数の第１のbridge列を含む、前記bridge-long列、
前記最大セグメント長から前記最小セグメント長までシフトする長さを有するセグメントの列への合成ウィンドウ関数のlong-bridge列であって、ウィンドウ関数の第２のbridge列によって続けられる該最大セグメント長に等しい長さを有するセグメントのためのウィンドウ関数を含む、前記long-bridge列、
可変長であるセグメントの列への合成ウィンドウ関数のbridge-bridge列であって、前記第２のbridge列によって続けられる前記第１のbridge列を含む、前記bridge-bridge列、
のいずれかを適用することを特徴とする請求項１０乃至１３のいずれかに記載の音声複号化方法。
前記short-short列から生成されるすべてのセグメントが同一の長さを有することを特徴とする請求項１５記載の音声複号化方法。
前記short-short列のすべての合成ウィンドウ関数は、形状及び長さが同一のゼロではない部分を有し、１以上の該合成ウィンドウ関数がゼロ部分を有することを特徴とする請求項１５記載の音声符号化方法。
不連続性を検出するために２つの符号化情報フレームから得られる制御情報を解析し、それに応じて、該２つの符号化情報フレームのいずれかのためにセグメントのそれぞれの列内の音声情報の最初又は最後のセグメントを受信することにおいて、前記ブロック復号化処理の周波数応答特性を適応することを特徴とする請求項１０乃至１７のいずれかに記載の音声複号化方法。
ビデオフレームに配列されるビデオ情報と、
符号化情報フレームに配列される符号化音声情報であって、それぞれの符号化情報フレームは、それぞれのビデオフレームに対応し、
部分的に重なるセグメントの列内の音声情報のセグメントために可変セグメント長と、隣接するセグメントを持つそれぞれのオーバーラップインターバルを有するそれぞれのセグメントと、フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有する列とを伝える制御情報と、
符号化音声情報のブロックであって、適切なブロック復号化処理によって処理されるとき、それぞれのブロックが、部分的に重なるセグメントの列内の音声情報のそれぞれのセグメントをもたらすそれぞれの長さと内容を有する、前記符号化音声情報のブロックと、を含む、前記符号化音声情報と、
を有するデータが記録されたコンピュータ読み取り可能な記録媒体。
時間領域エイリアシング解除合成変換を適用し、及び合成ウィンドウ関数を適用することを含む適切な復号化処理によって処理されるとき、前記符号化音声情報のブロックの各々は、音声情報のそれぞれのセグメントを生じるそれぞれの内容を有することを特徴とする請求項１９記載の記録媒体。
前記適切なブロック復号化処理は、前記時間領域エイリアシング解除合成変換を適応し、実質的に時間領域エイリアシングを独立して有さない音声情報の部分的に重なるセグメントの列を生成するために前記合成ウィンドウ関数を適応することを特徴とする請求項２０記載の記録媒体。
符号化音声情報のすべてのブロックは、２の整数倍であるそれぞれの長さを有する音声情報のセグメントを表すことを特徴とする請求項１９乃至２１のいずれかに記載の記録媒体。
前記制御情報は、符号化情報フレームの列内の前記それぞれの符号化情報フレームの順序の表示を含むことを特徴とする請求項１９乃至２２のいずれかに記載の記録媒体。
音声符号化のための装置であって、
隣接するフレームがフレームインターバルによって分離されるビデオ情報フレームの列におけるビデオ情報フレームの配列を伝える基準信号を受信するための手段と、
音声情報を伝える音声信号を受信するための手段と、
前記音声情報の特性を識別するために前記音声信号を解析するための手段と、
部分的に重なるセグメントの列における前記音声情報のセグメントのためにセグメント長を伝える制御信号を生成するための手段であって、それぞれのセグメントは、隣接するセグメントでそれぞれのオーバーラップインターバルを有し、
該列は、前記フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有し、ここで、セグメント長は、前記音声情報の特性に応じて適応される、前記生成手段と、
複数の符号化情報のブロックを生成するために、前記列内の前記部分的に重なるセグメントに適切なブロック符号化処理を適用するための手段であって、該ブロック符号化処理が前記制御信号に応じて適応する、前記適用手段と、
前記基準信号と同列に揃えられる符号化情報フレームを形成するために、前記複数の符号化情報のブロックと前記セグメント長を伝える制御情報とをアセンブルするための手段と、
を備えることを特徴とする音声符号化装置。
前記ブロック符号化処理は、それぞれ、サブバンド信号のブロックあるいは変換係数を生成するために、前記音声情報のセグメントに帯域フィルタのバンク又は変換を適用することを特徴とする請求項２４記載の音声符号化装置。
前記ブロック符号化処理は、ウィンドウ化セグメントを生成するために前記音声情報の各セグメントにそれぞれの解析ウィンドウ関数を適用し、変換係数のブロックを生成するために該ウィンドウ化セグメントに時間領域エイリアシング解除解析変換を適用することを特徴とする請求項２４記載の音声符号化装置。
相補的な合成変換及び合成ウィンドウ関数の適用が前記列の末端セグメントのオーバーラップインターバル内の時間領域エイリアシングを実質的に持たない音声情報を回復するのを可能にするそれぞれの符号化情報フレームのためのセグメントの前記列内の末端セグメントを表すブロックを生成するために前記解析ウィンドウ関数及び前記時間領域エイリアシング解除解析変換を適応する手段を備えることを特徴とする請求項２６記載の音声符号化装置。
前記ブロック符号化処理は、前記セグメント長を２の整数倍になるように強要することを特徴とする請求項２４乃至２７のいずれかに記載の音声符号化装置。
前記ブロック符号化処理は、最大セグメント長と最小セグメント長の間のセグメント長を適応し、それぞれの符号化情報フレームのために、
前記最大セグメント長に等しい長さを有するセグメントの列への解析ウィンドウ関数のlong-long列、
前記最小セグメント長に等しい有効長さを有するセグメントの列への解析ウィンドウ関数のshort-short列、
前記最小セグメント長から前記最大セグメント長までシフトする長さを有するセグメントの列への解析ウィンドウ関数のbridge-long列であって、該最大セグメント長と等しい長さを有するセグメントのためにウィンドウ関数によって続けられるウィンドウ関数の第１のbridge列を含む、前記bridge-long列、
前記最大セグメント長から前記最小セグメント長までシフトする長さを有するセグメントの列への解析ウィンドウ関数のlong-bridge列であって、ウィンドウ関数の第２のbridge列によって続けられる該最大セグメント長に等しい長さを有するセグメントのためのウィンドウ関数を含む、前記long-bridge列、
可変長であるセグメントの列への解析ウィンドウ関数のbridge-bridge列であって、前記第２のbridge列によって続けられる前記第１のbridge列を含む、前記bridge-bridge列、
のいずれかを適用することを特徴とする請求項２４乃至２７のいずれかに記載の音声符号化装置。
前記short-short列のすべてのセグメントが同一の長さを有することを特徴とする請求項２９記載の音声符号化装置。
前記short-short列のすべての解析ウィンドウ関数は、形状及び長さが同一のゼロではない部分を有し、１以上の該解析ウィンドウ関数がゼロ部分を有することを特徴とする請求項２９記載の音声符号化装置。
前記ブロック符号化処理を適用する前に、入力音声サンプルレートから内部音声サンプルレートまで前記音声情報を変換するための手段であって、前記基準信号は、ビデオ情報フレームレートを伝え、該内部音声サンプルレートは、該ビデオ情報フレームレートの整数倍に等しい、前記変換手段を備えることを特徴とする請求項２４乃至３１のいずれかに記載の音声符号化装置。
音声復号化のための装置であって、
隣接するフレームがフレームインターバルによって分離されるビデオ情報フレームの列におけるビデオ情報フレームの配列を伝える基準信号を受信するための手段と、
前記基準信号と同列に揃えられ、それぞれが制御情報及び複数の符号化音声情報のブロックを備える符号化情報フレームを受信するための手段と、
部分的に重なるセグメントの列内の音声情報のセグメントのためにセグメント長を伝える制御信号を生成するための手段であって、それぞれのセグメントは、隣接するセグメントを持つオーバーラップインターバルを有し、該列は、前記フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有し、ここで、前記セグメント長は、前記制御情報に応じて適応される、前記生成手段と、
それぞれの符号化情報フレーム内の前記複数の符号化音声情報のブロックに適切なブロック復号化処理を適用するための手段であって、該ブロック復号化処理が音声情報の部分的に重なるセグメントの列を生成するために前記制御信号に応じて適応する、前記適用手段と、
を備えることを特徴とする音声復号化装置。
前記ブロック復号化処理は、音声情報の部分的に重なるセグメントを生成するために、前記複数の符号化情報のブロックに帯域フィルタのバンク又は合成変換を適用することを特徴とする請求項３３記載の音声復号化装置。
前記ブロック復号化処理は、前記複数の符号化情報のブロックに時間領域エイリアシング解除合成変換を適用し、音声情報の前記部分的に重なるセグメントを生成するために該合成変換の結果にそれぞれの合成ウィンドウ関数を適用することを特徴とする請求項３３記載の音声複号化装置。
前記時間領域エイリアシング解除解析変換を適応し、前記列の末端セグメントのオーバーラップインターバル内の時間領域エイリアシングを実質的に持たないそれぞれの符号化情報フレームのための該列の該末端セグメントを回復するために、合成ウィンドウ関数を該変換の結果に適用するための手段を備えることを特徴とする請求項３５記載の音声複号化装置。
前記ブロック復号化処理は、２の整数倍である長さを有するセグメントを生成するように強要することを特徴とする請求項３３乃至３６のいずれかに記載の音声複号化装置。
前記ブロック復号化処理は、最大セグメント長と最小セグメント長の間の異なるセグメント長を有する音声情報のセグメントを表すブロックを復号し、それぞれの符号化情報フレームのために、
前記最大セグメント長に等しい長さを有するセグメントの列への合成ウィンドウ関数のlong-long列、
前記最小セグメント長に等しい有効長さを有するセグメントの列への合成ウィンドウ関数のshort-short列、
前記最小セグメント長から前記最大セグメント長までシフトする長さを有するセグメントの列への合成ウィンドウ関数のbridge-long列であって、該最大セグメント長と等しい長さを有するセグメントのためにウィンドウ関数によって続けられるウィンドウ関数の第１のbridge列を含む、前記bridge-long列、
前記最大セグメント長から前記最小セグメント長までシフトする長さを有するセグメントの列への合成ウィンドウ関数のlong-bridge列であって、ウィンドウ関数の第２のbridge列によって続けられる該最大セグメント長に等しい長さを有するセグメントのためのウィンドウ関数を含む、前記long-bridge列、
可変長であるセグメントの列への合成ウィンドウ関数のbridge-bridge列であって、前記第２のbridge列によって続けられる前記第１のbridge列を含む、前記bridge-bridge列、
のいずれかを適用することを特徴とする請求項３３乃至３６のいずれかに記載の音声複号化装置。
前記short-short列から生成されるすべてのセグメントが同一の長さを有することを特徴とする請求項３８記載の音声複号化装置。
前記short-short列のすべての合成ウィンドウ関数は、形状及び長さが同一のゼロではない部分を有し、１以上の該合成ウィンドウ関数がゼロ部分を有することを特徴とする請求項３８記載の音声符号化装置。
不連続性を検出するために２つの符号化情報フレームから得られる制御情報を解析し、それに応じて、該２つの符号化情報フレームのいずれかのためにセグメントのそれぞれの列内の音声情報の最初又は最後のセグメントを受信することにおいて、前記ブロック復号化処理の周波数応答特性を適応するための手段を備えることを特徴とする請求項３３乃至４０のいずれかに記載の音声複号化装置。