JP4540232B2 - 適応性のあるブロック長符号化システムのためのデータ構成 - Google Patents
適応性のあるブロック長符号化システムのためのデータ構成 Download PDFInfo
- Publication number
- JP4540232B2 JP4540232B2 JP2000596567A JP2000596567A JP4540232B2 JP 4540232 B2 JP4540232 B2 JP 4540232B2 JP 2000596567 A JP2000596567 A JP 2000596567A JP 2000596567 A JP2000596567 A JP 2000596567A JP 4540232 B2 JP4540232 B2 JP 4540232B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- information
- sequence
- length
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003044 adaptive effect Effects 0.000 title description 6
- 230000008520 organization Effects 0.000 title description 2
- 230000006870 function Effects 0.000 claims description 193
- 238000000034 method Methods 0.000 claims description 152
- 230000008569 process Effects 0.000 claims description 110
- 238000003786 synthesis reaction Methods 0.000 claims description 64
- 230000015572 biosynthetic process Effects 0.000 claims description 56
- 239000002131 composite material Substances 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 33
- 230000009466 transformation Effects 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 description 45
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 23
- 230000001052 transient effect Effects 0.000 description 23
- 238000001514 detection method Methods 0.000 description 17
- 230000008901 benefit Effects 0.000 description 8
- 238000000844 transformation Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002789 length control Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 3
- 230000027455 binding Effects 0.000 description 3
- 238000009739 binding Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 125000002015 acyclic group Chemical group 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 101100347605 Arabidopsis thaliana VIII-A gene Proteins 0.000 description 1
- 101100347612 Arabidopsis thaliana VIII-B gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
発明の技術分野
本発明は、音声情報ストリームが符号化され、符号化情報の構造に組み立てられる音声信号処理に関する。詳細には、本発明は、符号化情報の構造によって伝えられ、それから回復される音声情報ストリームの質を向上することに関する。
【0002】
発明の背景技術
多くのビデオ/音声システムでは、ビデオ/音声情報は、ビデオ情報の構造と同列に揃えられた符号化音声情報の構造を備える情報ストリームで伝えられる。それは、所定の音声構造に符号化された音声情報の音内容が所定の音声構造を持って概ね一致しているか、ある指定量だけ所定の音声構造から進むか遅れているかのいずれかであるビデオ構造の画像内容と関係があることを意味する。典型的に、音声情報は、音声情報のチャネルのある望ましい数、すなわち、3〜8のチャネルが利用可能な帯域幅で伝えられ得るように、情報能力所要量を減らした符号化形式で伝えられる。
【0003】
これらのビデオ/音声情報ストリームは、種々の編集、信号処理操作にしばしばかけられる。一般の編集操作は、ビデオ/音声情報の1以上のストリームをセクションにカットし、新しい情報ストリームを形成するために、2つのセクションの端を結合するか、重ね継ぐ。典型的に、そのカットは、ビデオ同期化が新しい情報ストリームで維持されるように、ビデオ情報と同列に揃えられるポイントでなされる。単純な編集模範は、動画フィルムをカットし、重ね継ぐ処理である。重ね継がれるべき資料の2つのセクションは、異なる情報源、例えば、情報の異なるチャネルから生じ、あるいは、それらは、同一の情報源から生じてもよい。どちらの場合にも、結合は、一般的に、知覚可能であるかそうではない音声情報内の不連続を作り出す。
【0004】
A.音声符号化
デジタル音声の増大する使用は、処理された情報内の可聴アーティファクトを作り出すことなく音声情報を編集することをより困難にする傾向にあった。この困難さは一部起こっていた。なぜならば、デジタル音声は、完全な構成要素として処理されなければならないデジタルサンプルのセグメント又はブロック内でしばしば処理され、あるいは符号化されるからである。多くの知覚の、又は音響心理学ベースの音声符号化システムは、信号サンプルのセグメントを符号化サブバンド信号サンプルに変換するために、フィルタバンク又は変換を利用し、あるいは、最初の信号セグメントのレプリカ(複製)を回復するために、完全なブロックとして合成フィルタされ、又は逆変換されなければならない係数を変換する。編集操作はより困難である。なぜならば、処理された音声信号の編集は、ブロック間でなされなければならず、さもなければ、カットのいずれかの面上の一部のブロックによって表された音声情報が適切に回復され得ないからである。
【0005】
追加の制限は、プログラム資料の部分的に一致するセグメントを処理するコーディングシステムによる編集を強要される。符号化ブロックによって表される情報の部分的に一致する性質のために、最初の信号セグメントは、符号化サンプルの完全なブロック又は係数さえから適当に回復され得ない。
【0006】
この制限は、一般に使われたオーバーラップされたブロック変換である修正離散コサイン変換(DCT)によって明白に示される。それは、1987年5月のICASSP 1987会議議事録のPrincen、Johnson、及びBradleyの「時間領域エイリアシング解除に基づくフィルタバンク設計を用いるサブバンド/変換コーディング」、2161〜2164頁に記述される。この特定の時間領域エイリアシング解除(TDAC)変換は、半端に積み重ねられ、批判的にサンプルされた単側波帯解析−合成システムの時間領域同等物であり、半端に積み重ねられた時間領域エイリアシング解除(Oddly-Stacked Time-Domain Aliasing Cancellation :O-TDAC)としてここでは言及される。
【0007】
転送又は解析変換は、解析ウィンドウ関数によって重み付けされ、セグメントの長さの半分だけ互いに重なるサンプルのセグメントに適用される。解析変換は、2つにより結果として生じる変換係数の多くを破壊することによって臨界のサンプリングを達成する。しかしながら、この破壊によって喪失された情報は、回復された信号内の時間領域エイリアシングを作り出す。合成処理は、合成されたサンプルのセグメントを生成するために、変換係数のブロックに逆あるいは合成変換を適用し、合成されたサンプルのセグメントに適当に成形された合成ウィンドウ関数を適用し、及びウィンドウ表示のセグメントを部分的に重ねて加えることによってこのエイリアシングを解除できる。例えば、もし、セグメントS1〜S2が回復されるべき一連のブロックB1〜B2をTDAC解析変換システムが生成するならば、セグメントS1の最後の半分及びセグメントS2の最初の半分のエイリアシングアーティファクトは、互いに解除するだろう。しかしながら、もし、TDACコーディングシステムからの2つの符号化情報ストリームがブロック間のポイントで重ね継がされるならば、接合部のいずれかの面上のセグメントは、互いのエイリアシングアーティファクトを解除しない。例えば、一符号化情報ストリームがブロックB1とB2の間のポイントで終わるようにカットされ、もう一つの符号化情報ストリームがブロックB3とB4の間のポイントで始まるようにカットされると想定されたい。もし、ブロックB1がすぐにブロックB4に優先するように、これら2つの符号化情報ストリームが重ね継がれるならば、ブロックB1から回復されるセグメントS1の最後の半分及びブロックB4から回復されるセグメントS4の最初の半分のエイリアシングアーティファクトは、一般的に互いに解除されないだろう。
【0008】
B.音声及びビデオの同期化
少なくとも2つの理由のために、音声とビデオの両情報を処理する編集アプリケーションにおいて、さらに大きな制限が課される。第1の理由は、ビデオフレーム長が一般に音声ブロック長と等しくないということである。第2の理由は、音声サンプルレートの整数倍でないビデオフレームレートを有するNTSCのようなあるビデオ標準にのみ適するということである。以下の議論における例は、1秒毎に48kサンプルの音声サンプルレートを想定する。最も専門的装置は、このレートを用いる。類似の考察は、典型的に消費者装置で用いられる、毎秒44.1kサンプルのような他のサンプルレートに応用する。
【0009】
いくつかのビデオと音声コーディング標準のためのフレーム長とブロック長は、それぞれ、表Iと表IIに示される。「MPEGII」と「MPEGIII」のための表の項目は、国際標準化機構の動画圧縮技術(Motion Picture Experts Group)によってISO/IEC 13818-3標準規格に指定されたMPEG−2層IIとMPEG−2層IIIに関する。「AC−3」の項目は、ドルビー研究所(Dolby Laboratories, Inc.)によって開発され、進歩的テレビシステム委員会(Advanced Television Systems Committee)によってA−52標準規格に指定されたコーディング技術に関する。48kHzPCMのための「ブロック長(block length)」は、隣接したサンプル間のタイムインターバルである。
【0010】
【表1】
【0011】
これらの標準規格のいずれかに従ってビデオと音声情報をともにまとめるアプリケーションでは、音声ブロックとビデオフレームはめったに同期されない。ビデオ/音声同期の発生の間の最小時間インターバルは表IIIに示される。例えば、その表は、毎秒24フレームの動画フィルムが各3秒間にたった一度MPEG音声ブロック境界で同期され、各4秒間にたった一度AC−3音声ブロックで同期されることを示す。
【0012】
【表2】
【0013】
ビデオフレームに音声ブロックの数で表現される、同期の発生の間の最小インターバルは、表IVに示される。例えば、同期は、5つの音声ブロックと4つのビデオフレームに広がるインターバル内でAC−3ブロックとPALフレーム間にたった一度起こる。
【0014】
【表3】
【0015】
ビデオ及び音声情報がまとめられるとき、編集は、一般にビデオフレーム境界で起こる。表III及びIVで示される情報から、そのような編集が音声フレーム境界で起こることが稀であることが分かり得る。NTSCビデオとAC−3音声のために、例えば、ビデオ境界における編集が音声ブロック境界でも起こる確率は、わずか約1/960あるいはおよそ0.1%でしかない。勿論、カットされ、重ね継がれる両方の情報ストリームのための編集は、この方法で同期されねばならない。さもなければ、いくつかの音声情報が失われるだろう。このために、2つの任意の編集のためのNTSC/AC−3情報の重ね継ぎが音声ブロック境界以外で起こり、失った音声情報の1乃至2ブロックを結果として生じることがほとんど確実である。しかしながら、AC−3がTDAC変換を用いるので、情報のブロックが失われない場合でさえ、上述された理由のために、取り消されていないエイリアシングアーティファクトを結果として生じる。
【0016】
C.セグメント及びブロック長考察
上述のビデオ/音声同期に影響を与える考察に加えて、符号化される音声情報セグメントの長さのための追加の考察が必要である。なぜならば、この長さは、いくつかの意味でビデオ/音声システムのパフォーマンスに影響を与えるからである。
【0017】
セグメント及びブロック長の一影響は、システム「待ち時間(latency)」あるいはシステムを通して情報の伝達における遅れの量である。音声情報のセグメントを受信し、一時記憶領域に移すため、及び符号化された情報のブロックを生成するバッファリングされたセグメントで望ましいコーディング処理を実行するための符号化の間、遅れが招かれる。符号化された情報のブロックを受信し、それを一時記憶領域に移し、音声情報のセグメントを回復させ、出力音声信号を生成するバッファリングされたブロックで望ましい復号化処理を実行するための復号化の間、遅れが招かれる。符号化・復号化する音声の伝搬遅延は望ましくはない。なぜならば、それらは、ビデオ情報と音声情報間の整合を維持することを一層困難にするからである。
【0018】
ブロック変換と量子化コーディングを用いるそのようなシステムにおけるセグメント及びブロック長のもう一つの影響は、符号化−復号化処理から回復された音声の質である。一方では、長いセグメント長の使用は、ブロック変換が知覚のコーディング処理に望ましい高い周波数選択度を持つことを可能にする。なぜならば、それは、ビット割り当てのような知覚のコーディング処理がより正確になされることを可能にするからである。他方、長いセグメントの使用は、知覚のコーディング処理に望ましくない低い時間選択制を有するブロック変換を結果として生じる。なぜならば、それは、ビット割り当てのような知覚のコーディング決定が人の聴覚システムの音響心理学特性を完全に利用するのに十分速く適用されることを妨げるからである。特に、もし、セグメント長が人の聴覚システムのプレ時間遮蔽間隔を越えるならば、過渡現象のような高い非停滞信号事象のコーディングアーティファクトは、回復された音声信号において可聴であり得る。したがって、固定長コーディング処理は、高い時間解像度の要求と高い周波数分解能の要求とを保つ妥協セグメントを用いなければならない。
【0019】
符号化されるべき音声情報の1以上の特性に従ってセグメント長を適合することが一つの解決である。例えば、もし、十分な振幅の過渡電流が発見されるならば、ブロックコーディング処理は、より短いセグメント長に一時的にシフトすることによって、過渡的事象のための時間及び周波数分解能を最適化することができる。この適応性処理は、TDAC変換を用いるシステムでは幾分複雑である。なぜならば、その変換のエイリアシング解除特性を維持するために、ある制約が遭遇され得るからである。TDAC変換の長さを適合するための多くの考察は、米国特許第5,394,473号に開示される。
【0020】
発明の開示
上述のいくつかの考察を考慮して、本発明の目的は、ビデオ情報フレームと同列に揃えられるフレームで伝えられ、時間領域エイリアシング解除変換を含むブロック符号化処理が信号特性に従ってセグメント及びブロック長を適応することを可能にするものを、音声情報の符号化(encoding)及び復号化(decoding)のために提供することである。
【0021】
本発明の種々の態様から実現され得る追加の利点は、ビデオ/音声同期化を一層容易に保持するために処理待ち時間を結合し、及び制御するような編集操作から生じる可聴アーティファクトを避けるか、少なくとも最小にすることを含む。
【0022】
本発明の一態様の技術によれば、音声情報を符号化するための方法は、ビデオ情報フレームの列内のビデオ情報フレームの配列を伝える基準信号を受信するステップと、音声情報を伝える音声信号を受信するステップと、音声情報の特性を識別するために音声信号を解析するステップと、音声情報の特性に応じて制御信号を生成するステップと、複数の符号化情報のブロックを生成するために、音声信号の部分的に重なるセグメントに適切なブロック符号化処理を適用するステップであって、該ブロック符号化処理が制御信号に応じてセグメント長を適応する、前記適用ステップと、基準信号と同列に揃えられる符号化情報フレームを形成するために、複数の符号化情報のブロックとセグメント長を伝える制御情報とをアセンブルするステップと、を含む。
【0023】
本発明のもう一つの態様の技術によれば、音声情報を復号化する方法は、ビデオ情報フレームの列内のビデオ情報フレームの配列を伝える基準信号を受信するステップと、基準信号と同列に揃えられ、制御情報と符号化音声情報のブロックを備える符号化情報フレームを受信するステップと、制御情報に応じて制御信号を生成するステップと、それぞれの符号化情報フレーム内の複数の符号化音声情報のブロックに適切なブロック復号化処理を適用するステップであって、該ブロック復号化処理が音声情報の部分的に重なるセグメントの列を生成するために制御信号に応じて適応する、前記適用ステップとを含む。
【0024】
本発明のさらにもう一つの態様の技術によれば、光ディスク、磁気ディスク及びテープのような情報記憶媒体は、ビデオフレームに配列されるビデオ情報と、符号化情報に配列される符号化音声情報とを伝える。ここで、それぞれの符号化情報フレームは、それぞれのビデオフレームに対応し、部分的に重なるセグメントの列内の音声情報のセグメントの長さと、隣接するセグメントを持つそれぞれのオーバーラップインターバルを有するそれぞれのセグメントと、フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有する列とを伝える制御情報と、符号化音声情報のブロックであって、それぞれのブロックが適切なブロック復号化処理によって処理されるとき、部分的に重なるセグメントの列内の音声情報のそれぞれのセグメントをもたらすそれぞれの長さと内容を有する、前記符号化音声情報のブロックとを含む。
【0025】
この議論を通して、「コーディング(符号化:coding)」及び「コーダー(符号器:coder)」のような用語は、信号処理のための種々の方法及び装置に言及し、「符号化(encoded)」及び「復号化(decoded)」のような他の用語は、そのような処理の結果に言及する。これらの用語は、しばしば、音声情報が減少された情報能力所要量で伝えられ、格納されることを可能にする知覚ベースの符号化処理のような処理に言及し、あるいは含意することと理解される。しかしながら、ここで用いられるように、これらの用語はそのような処理を意味しない。例えば、用語「符号化(coding)」は、信号を表すためのパルスコード変調(PCM)サンプルを生成し、情報をある使用に従ってフォーマットに配列あるいはアセンブルするようなより一般的な処理を含む。
【0026】
この開示で用いられるような「セグメント(segment)」、「ブロック(block)」及び「フレーム(frame)」のような用語は、それらと同一の用語が、時々AES-3/EBUデジタル音声規格として知られる、米国規格協会(ANSI)S4.40-1992規格のような他の基準で指示するものとは異なる情報のグループやインターバルに言及する。
【0027】
ここで用いられるような「フィルタ(filter)」及び「フィルタバンク(filterbank)」のような用語は、本質的に、直角ミラーフィルタ(QMF)のような循環的及び非循環的フィルタリングのあらゆる形状を含む。議論の内容が別な方法で示さないならば、これらの用語は、同じく、変換に言及するためにここで用いられる。用語「フィルタされた(filtered)」情報は、解析「フィルタ(filter)」を適用した結果に言及する。
【0028】
本発明の種々の特性及びその好ましい実施の形態は、以下の議論と、同様な参照数字がいくつかの図で同様の要素に言及する添付図とに言及することによって、より良く理解され得る。
【0029】
種々の装置を示す図は、本発明を理解する助けとなる主な構成要素を示す。明瞭のために、これらの図は、実際の実施の形態で重要である多くの他の特性を省略するが、それらは本発明の概念を理解するのに重要ではない。
【0030】
本発明を実施するように要求される信号処理は、マイクロプロセッサ、デジタル信号プロセッサ、論理列及び計算回路の他の形状によって実行されるプログラムを含む多種多様な方法で達成され得る。本発明の種々の態様を実行する命令のマシン実行可能プログラムは、本質的に、光ディスク、磁気ディスク及びテープのような磁気及び光学メディア、並びにプログラム可能なリードオンリーメモリ(ROM)のような固体デバイスを含むマシンで読取可能なあらゆる媒体で具体化され得る。信号フィルタは、本質的に、循環的、非循環的及び格子型デジタルフィルタを含むあらゆる方法で実行され得る。デジタル及びアナログ技術は、適用の必要性と特性に従って種々の組み合わせで用いられ得る。
【0031】
より詳細な言及は、音声とビデオ情報ストリームを処理することに関する状態からなる。しかしながら、本発明の態様は、ビデオ情報の処理を含まない適用で実施されてもよい。
【0032】
以下の議論と図面の内容は、単なる例示であり、本発明の範囲に対する制限を表すと理解すべきではない。
【0033】
発明を実施するモード
A.信号と処理
1.セグメント、ブロック及びフレーム
本発明は、ビデオ情報のフレームで伝達する画像に関連する音声情報を符号化及び復号化することに関する。図1において、音声情報の一チャネルのための音声信号10の一部が部分的に重なるセグメント11〜18に分割されて示される。本発明によれば、音声情報の1以上のチャネルのセグメントは、符号化情報のブロック21〜28を含む符号化情報ストリーム20を生成するためのブロック符号化処理によって処理される。例えば、符号化ブロック22〜25の列は、音声情報の一チャネルのために音声セグメント12〜15の列にブロック符号化処理を適用することによって生成される。図に示されるように、それぞれの符号化ブロックは、対応する音声セグメントに遅れをとる。なぜならば、ブロック符号化処理は、少なくとも、完全な音声セグメントを受信し、一時記憶領域に移すために要求される時間程度の遅れを受ける。図に示される遅れ量は重要ではない。
【0034】
音声信号10の各セグメントは、変換コーディングのようなブロック符号化処理で用いられ得る解析ウィンドウ関数の時間領域「利得プロフィール(gain profile)」を示す形状によって図1に表される。改易ウィンドウ関数の利得プロフィールは、時間関数としてウィンドウ関数の利得である。一セグメントのためのウィンドウ関数の利得プロフィールは、セグメント重なり期間としてここでは言及する量だけ後のセグメントのためのウィンドウ関数の利得プロフィールと部分的に重なる。変換コーディングが好ましい実施の形態で用いられると予想されるけれども、本発明は、音声情報のセグメントに応答して符号化情報のブロックを生成するブロック符号化処理のあらゆるタイプで本質的に用いられる。
【0035】
基準信号30は、ビデオ情報のストリームのビデオフレームの配列を伝達する。示される例では、フレーム照合31と32は、2つの隣接するビデオフレームの配列を伝達する。照合は、ビデオフレームの始め又は他のいずれかの望ましいポイントをマークしてもよい。NTSCビデオのための1つの一般に使用された配列ポイントは、それぞれのビデオフレームの最初のフィールドで10番目のラインである。
【0036】
本発明は、音声情報がビデオ情報のフレームで伝達されるビデオ/音声システムにおいて用いられ得る。ビデオ/音声情報ストリームは、種々の編集と信号処理操作にしばしばかけられる。これらの操作は、ビデオ・音声情報の1以上のストリームをビデオフレームに整列されるポイントにおけるセクションにしばしばカットする。それゆえ、これらの操作が符号化ブロック内でカットされないように、ビデオフレームに整列される形式に符号化音声情報を組み立てることが望ましい。
【0037】
図2において、音声情報の1チャネルのためのセグメントの列又はフレーム19は、照合31に整列されたフレーム29にアセンブルされる複数の符号化ブロックを生成するために処理される。この図では、破線は、個々のセグメントとブロックの境界を表し、実線は、セグメントフレームと符号化ブロックフレームの境界を表す。特に、セグメントフレーム19の実線の形状は、フレーム内の部分的に重ねられたセグメントの列のための解析ウィンドウ関数の結果として生じる時間領域利得プロフィールを示す。フレーム19のような1セグメントフレームの利得プロフィールが後のセグメントフレームの利得プロフィールを部分的に重なる量は、フレーム重なり期間としてここで言及される。
【0038】
解析ウィンドウ関数と変換を使用する実施の形態では、解析ウィンドウ関数の形状は、変換の周波数応答特性と同様に、システムの時間領域利得に影響する。ウィンドウ関数の選択は、コーディングシステムのパフォーマンスに対する重要な効果を有し得る。しかしながら、原則として本発明の実施に批判的な特定のウィンドウ形状はない。ウィンドウ関数の効果を記述する情報は、米国特許第5,109,417号、米国特許第5,394,473号、米国特許第5,913,191号、及び米国特許第5,903,872号から得ることができる。
【0039】
実質的な実施の形態では、編集とカットをするための許容範囲を与えるために、符号化情報のフレーム間にギャップ又は「保護帯域」が形成される。これらの保護帯域の情報に関する追加の情報は、1999年3月11日に出願された国際特許出願番号PCT/US99/05249号から得ることができる。有用な情報がこれらの保護帯域で伝達され得る方法は、1999年11月11日に出願された国際特許出願番号PCT/US99/26324号に開示される。
【0040】
2.信号処理の概観
音声のいくつかの節が実質的に静止し得るけれども、音声信号は、一般に静止していない。これらの節は、しばしばより長いセグメント長を用いて一層効率的にブロックで符号化され得る。例えば、ブロック圧縮伸長(block-companded)PCMのような符号化処理は、サンプルのより長いセグメントを符号化することによって、音声の静止した節をより少ないビットで正確な所定のレベルに符号化することができる。音響心理学ベースの変換コーディングシステムでは、より長いセグメントの使用は、個々のスペクトル成分のより正確な分離とより正確な音響心理学コーディング決定のために、変換の周波数分解能を増す。
【0041】
不幸にも、これらの利点は、高度に静止していない音声の節には存在しない。大きい振幅過渡現象を含む節では、例えば、長いセグメントのブロック圧縮伸長PCMコーディングは非常に非効率的である。音響心理学ベースの変換コーディングシステムでは、過渡現象スペクトル成分の量子化によって生じるアーティファクトは、合成変換によって回復されたセグメントにわたって広げられる。もし、セグメントが十分に長いならば、これらのアーティファクトは、人の聴覚系の予め一時遮蔽インターバルを越えるインターバルの向こう側に広げられる。その結果として、高度に静止しない音声の節のためには、通常、より短いセグメント長が好ましい。
【0042】
コーディングシステムパフォーマンスは、種々の長さのセグメントを符号化及び復号化するためのコーディング処理を適合させることによって改善され得る。しかしながら、いくつかのコーディング処理では、セグメント長の変化は、1以上の制約に適合しなければならない。例えば、もし、エイリアシング解除が達成されるべきならば、時間領域エイリアシング解除(TDAC)変換を用いるコーディング処理の適応は、いくつかの制約に適合しなければならない。TDAC制約を満足する本発明の実施の形態は、ここに記述される。
【0043】
a.符号化
図3は、符号化情報のフレームに組み立てられる符号化音声情報のブロックを生成するために、1以上のチャネルのための音声情報のセグメントの列又はフレームに適応するブロック符号化処理を適用する音声符号器40の一実施の形態を示す。これらの符号化ブロックフレームは、ビデオ情報のフレームに結合され、あるいはそれに埋め込まれ得る。
【0044】
この実施の形態では、解析45は、経路44に沿って通過される音声情報に沿って伝達される1以上の音声信号の特性を識別する。これらの特性の例は、各音声信号の帯域のすべて又は一部の振幅又はエネルギーの速い変化と、周波数の速い変化を経験する信号エネルギーの成分と、時間又はそのようなイベントが起こる信号のセクション内の相対的位置とを含む。これらの検出された特性に応じて、制御46は、各音声チャネルのために処理されるべきセグメントのフレーム内のセグメント長を伝達する制御信号を、経路47に沿って生成する。符号化50は、経路47から受信した制御信号に応答してブロック符号化処理を適応させ、符号化音声情報のブロックを生成するために、経路44から受信された音声情報に適応されたブロック符号化処理を適用する。フォーマット48は、ビデオ情報のフレームの配列を伝送する経路42から受信された基準信号で調整される符号化情報のフレームに、符号化情報のブロックと制御信号の表示を組み立てる。転換43は、より詳細に以下で記述される追加の構成要素である。
【0045】
音声情報の1以上のチャネルを処理する符号器40の実施の形態では、符号化50は、音声チャネルの幾らか又はすべてに信号符号化処理を適応し、適用してもよい。しかしながら、好ましい実施の形態では、解析45、制御46及び符号化50は、各音声チャネルのための独立した符号化処理を適応し、適用するように作動する。好ましい一実施の形態では、例えば、符号器40は、その音声チャネル内の過渡現象の発生を検出することに応じて、符号化50によって一つの音声チャネルのみに適用される符号化処理のブロック長を適応する。これらの好ましい実施の形態では、一音声チャネルにおける過渡現象の検出は、もう一つのチャネルの符号化処理を適応するために用いられない。
【0046】
b.復号化
図4は、ビデオ情報のフレームを伝える信号から得ることができる符号化情報のフレームに適応できるブロック復号化処理を適用することによって、1以上の音声チャネルの音声情報のセグメントを生成する音声復号器60の一実施の形態を示す。この実施の形態では、デフォーマット63は、経路62から受信されたビデオ基準と同列に揃えられる符号化情報のフレームを受信する。符号化情報のフレームは、制御情報と音声情報を符号化したブロックを伝送する。制御65は、符号化音声情報のブロックから受信されるセグメントのフレーム内の音声情報のセグメント長を伝送する制御信号を経路67に沿って生成する。随意に、制御65は、また、符号化情報のフレーム内の不連続性を検出し、復号化70の操作を適応するために用いられ得る「接続検出」信号を経路66に沿って生成する。復号化70は、経路67から受信される制御信号と随意に経路66から受信される接続検出信号に応じて、ブロック復号化処理を適応し、制御信号に伝達される長さに従う長さを有する音声情報のセグメントを生成するために、経路64から受信される符号化音声情報のブロックに適応するブロック復号化処理を適用する。変換68は、以下により詳細に記述される追加の構成要素である。
【0047】
B.変換符号化手段
1.ブロック符号器
上述のように、符号化50は、ブロック圧縮伸長PCM、デルタ変調、方形ミラーフィルタ(QMF)や種々の循環的、非循環的格子型フィルタによって提供されるようなフィルタリング、TDAC変換、離散フーリエ変換(DFT)、及びウェーブレット法変換によって提供されるようなブロック変換、並びに適応できるビット割り当てによるブロック量子化を含む、多種多様なブロック符号化処理を実行してもよい。本発明の基本概念に欠くことのできない特定のブロック符号化処理ではないけれども、エイリアシング解除を達成するのに要求される追加の考察のために、TDAC変換を適用する処理に対しより特定の言及がここでなされる。
【0048】
図5は、一音声チャネルのための音声情報のセグメントへのTDAC変換によって実行される複数のフィルタバンクの一つを適用する符号器50の一実施の形態を示す。この実施の形態では、バッファ51は、経路44から音声情報を受信し、その音声情報を、経路47から受信される制御信号に従って適応される長さを有する部分的に重なり合うセグメントのフレームに組み立てる。あるセグメントが隣接するセグメントと部分的に重なり合う量は、セグメントオーバーラップインターバルとして言及される。スイッチ52は、経路47から受信される制御信号に応じてフレーム内のセグメントに適用するために、複数のフィルタバンクの一つを選択する。図に示される実施の形態は、3つのフィルタバンクを示すが、本質的に、使用されるフィルタバンクの数はいくつでもよい。
【0049】
一手段では、スイッチ51は、フレームの最初のセグメントに適用するためにフィルタバンク54を選択し、フレームの最後のセグメントに適用するためにフィルタバンク56を選択し、そして、フレームの他のすべてのセグメントに適用するためにフィルタバンク55を選択する。追加のフィルタバンクは、実施の形態に取り入れられてもよく、フレームの最初と最後のセグメントの近くのセグメントに適用するために選択されてもよい。この方法でフィルタバンクを適応して選択することによって達成され得る利点のいくつかは以下で論じられる。フィルタバンクから得られる情報は、経路59に沿ってフォーマット48に送られる符号化情報のブロックを形成するためにバッファ58で組み立てられる。ブロックのサイズは、経路47から受信される制御信号に従って変化する。
【0050】
音響心理学の知覚モデル、適応できるビット割り当て及び量子化のための種々の構成要素は、実用システムに必要であり得るが、説明の明確さのために図には含まれない。これらのような構成要素は、用いられ得るが、本発明を実施するために要求されるものではない。
【0051】
符号化50の代わりの実施の形態では、一つのフィルタバンクが、バッファ51に形成される音声情報のセグメントに適応され、適用される。ブロック符号化PCMや他のフィルタのような部分的に重なり合わないブロック符号化処理を用いる符号化50の他の実施の形態では、隣接するセグメントが部分的に重なり合う必要はない。
【0052】
図5に示される構成要素又は種々の代わりの実施の形態を含む構成要素は、多数の音声チャネルのための並列処理を提供するために繰り返され得、あるいは、これらの構成要素は、連続する又は多重送信される方法で多数の音声チャネルを処理するために用いられ得る。
【0053】
2.ブロック復号器
上述のように、符号化70は、多種多様なブロック復号化処理を実行してもよい。実用システムでは、復号化処理は、復号化される情報を準備するために用いられるブロック符号化処理を補足すべきである。上で説明されるように、より詳細な説明は、エイリアシング解除を達成するために要求される追加の考察のために、TDAC変換を適用する処理としてここに挙げられる。
【0054】
図6は、TDAC変換によって実行される複数の逆又は合成フィルタバンクの一つを一音声チャネルのための符号化音声情報のブロックに適用する復号器70の一実施の形態を示す。この実施の形態では、バッファ71は、経路67から受信される制御信号に従って変化する長さを有する、経路64からの符号化音声情報のブロックを受信する。スイッチ72は、経路67から受信される制御信号及び随意に経路67から受信される接続検出信号に応じて、符号化情報のブロックに適用するために、複数の合成フィルタバンクの一つを選択する。図に示される実施の形態は、3つの合成フィルタバンクを示すが、本質的に、用いられるフィルタバンクの数はいくつでもよい。
【0055】
一手段では、スイッチ72は、セグメントのフレームの最初の音声セグメントを表すブロックに適用するために合成フィルタバンク74を選択し、そのフレームの最後のセグメントを表すブロックに適用するために合成フィルタバンク76を選択し、そして、フレームの他のすべてのセグメントを表すブロックに適用するためにフィルタバンク75を選択する。追加のフィルタバンクは、その実施の形態に取り入れられてもよく、フレームの最初と最後のセグメントに近いセグメントを表すブロックに適用するために選択されてもよい。この方法で合成フィルタバンクを適応して選択することによって達成されるいくつかの利点は、以下に論じられる。合成フィルタバンクから得られる情報は、セグメントのフレーム内の音声情報の部分的に重なり合うセグメントを形成するためにバッファ78に組み立てられる。セグメントの長さは、経路67から受信される制御信号に従って変換する。隣接するセグメントは、経路79に沿って音声情報のストリームを生成するために、セグメントオーバーラップインターバルでともに加えられ得る。例えば、音声情報は、変換68を含む実施の形態において、経路79に沿って変換68に送られてもよい。
【0056】
適応できるビット割り当てと非量子化のための種々の構成要素は、実用システムに必要であり得るが、説明の明確さのために図には含まれない。これらのような特性が用いられてもよいが、本発明を実施するために要求されない。
【0057】
復号化70の代わりの実施の形態では、一つの逆フィルタバンクは、バッファ71に形成される符号化情報のブロックに適応され、適用される。復号化70の他の実施の形態では、復号化処理によって生成される隣接するセグメントは、部分的に重なり合う必要がない。
【0058】
図6に示される構成要素又は種々の代わりの実施の形態に含まれる構成要素は、多数の音声チャネルのための並列処理を提供するために繰り返されてもよく、あるいは、これらの構成要素は、連続する又は多重送信される方法で多数の音声チャネルを処理するために用いられてもよい。
【0059】
C.主構成要素と特性
図3及び4に示される符号器40と復号器60における主構成要素の特定の実施の形態は、それぞれ、より詳細に以下に記述される。これらの特定の実施の形態は、一つの音声チャネルに関連して記述されるが、それらは、例えば、構成要素の繰返し、あるいは連続する又は多重送信される方法での構成要素の適用を含む多くの方法で、多数の音声チャネルを処理するために拡張され得る。
【0060】
次の例において、音声情報のセグメントのフレーム又は列は、2048のサンプルに等しい長さと、256のサンプルに等しい連続するフレームを持つフレームオーバーラップインターバルとを有すると想定される。このフレーム長さとフレームオーバーラップインターバルは、およそ30Hz以下のフレームレートを有するビデオフレームのための情報を処理するシステムに好ましい。
【0061】
1.音声信号解析
解析45は、本質的にあらゆる望ましい信号特性を識別するために、多種多様な方法で実行され得る。図7に示される一実施の形態では、解析45は、「過渡現象(transients)」の発生と位置、あるいは信号振幅の速い変化を識別する4つの主セクションを持つ過渡現象検出器である。この実施の形態では、音声情報の2048のサンプルのフレームが32の部分的に重なり合わない64サンプルブロックに分割され、各ブロックは、過渡現象がそのブロックで発生しているか否かを決定するために解析される。
【0062】
過渡現象検出器の第1のセクションは、信号解析処理からより低い周波数信号成分を除外するハイパスフィルタ(HPF)101である。好ましい実施の形態では、HPF101は、およそ7kHzの公称3dB遮断周波数で二次無限インパルス応答(IIR)によって実行される。最適な遮断周波数は、個人的な選択によってこの公称値から逸脱し得る。もし望まれるならば、公称遮断周波数は、リスニングテストで経験的に洗練され得る。
【0063】
過渡現象検出器の第2のセクションは、HPF101から受信されるフィルタされた音声情報のフレームをブロック及びサブブロックの階層構造に配列するサブブロック102である。サブブロック102は、階層のレベル1で64サンプルブロックを形成し、階層のレベル2でその64サンプルブロックを32サンプルサブブロックに分割する。
【0064】
この階層構造は、図8に示される。ブロックB111は、レベル1の64サンプルブロックである。レベル2のサブブロックB121及びB122は、ブロックB111の32サンプル分割である。ブロックB110は、ブロックB111のすぐ前に置くフィルタされた音声情報の64サンプルブロックを表す。この文脈では、ブロックB111は、「現在」のブロックであり、ブロックB110は、「前」のブロックである。同様に、ブロックB120は、ブロックB121のすぐ前に置くブロックB110の32サンプルサブブロックである。現在のブロックがフレームの最初のブロックである場合、前のブロックは、前のフレームの最後のブロックを表す。以下に説明されるように、過渡現象は、現在のブロックの信号レベルを前のブロックの信号レベルと比較することによって検出される。
【0065】
過渡現象検出器の第3のセクションは、ピーク検出103である。レベル2でスタートして、ピーク検出103は、サブブロックB121の最も大きい大きさのサンプルをピーク値P121として識別し、サブブロックB122の最も大きい大きさのサンプルをピーク値P122として識別する。続いてレベル1で、ピーク検出器は、ピーク値P121とP122のより大きい方をブロックB111のピーク値P111として識別する。ブロックB111とB120のピーク値P110とP120は、それぞれ、以前にブロックB110が現在のブロックであったとき、ピーク検出103によって決定された。
【0066】
過渡現象検出器の第4のセクションは、過渡現象が特定のブロックで発生するか否かを決定するためにピーク値を検査する比較器104である。比較器104が実行され得る一方法は、図9に示される。ステップS451は、レベル2のサブブロックB120とB121のピーク値を検査する。ステップS452は、サブブロックB121とB122のピーク値を検査する。ステップS453は、レベル1のブロックのピーク値を検査する。これらの検査は、階層的レベルに適切であるしきい値と2つのピーク値の比率を比較することによって達成される。例えば、サブブロックB120とB121のために、ステップS451のこの比較は、以下のようになる:
【式1】
ここで、TH2=レベル2のしきい値である。もし必要ならば、ステップS452の同様の比較は、サブブロックB121とB122のピーク値のためになされる。
【0067】
もしレベル2の隣接するサブブロックのためのステップS451とS452の比較のいずれもが真でないならば、比較は、レベル1のブロックB110とB111のピーク値のためにステップS453でなされる。これは以下のように表現される:
【式2】
ここで、TH1=レベル1のしきい値である。
【0068】
一実施の形態では、TH2は0.15でありTH1は0.25である。しかしながら、これらのしきい値は、個人的な選択によって変更され得る。もし望まれるならば、これらの値は、リスニングテストで経験的に洗練され得る。
【0069】
好ましい実施では、これらの比較は、分割することなく実行される。なぜならば、もし分母のピーク値が0ならば、2つのピーク値の商は、不定だからである。サブブロックB120及びB121のために上記で与えられた例として、ステップS451の比較は、以下のように表現され得る。
P120<TH2*P121 (2)
【0070】
もし、ステップS453を通してステップS451でなされた比較がいずれも真でないならば、ステップS457は、この例ではブロックB111である現在の64サンプルブロックで過渡現象が生じなかったことを表す信号を生成する。現在の64サンプルブロックのための信号解析が終了する。
【0071】
もし、ステップS453を通してステップS451でなされた比較のいずれかが真であるならば、ステップS454及びS455は、現在の64サンプルブロックの信号が、セグメント長を変化するためにブロック符号化処理を適応させることを正当化するのに十分に大きいか否かを決定する。ステップS454は、現在のブロックB111のピーク値P111と最小ピーク値のしきい値とを比較する。一実施の形態では、このしきい値は、最大可能ピーク値に比較して−70dBに設定される。
【0072】
もし、ステップS454でテストされた条件が真であるならば、ステップS455は、ブロックB110とB111の信号エネルギーの2つの測定値を比較する。一実施の形態では、ブロックの信号エネルギーの測定値は、ブロックの64サンプルの二乗の平均である。現在のブロックB111の信号エネルギーの測定値は、前のブロックB110の信号エネルギーの同一の測定値の2倍に等しい値と比較される。もし、そのピーク値と現在のブロックの信号エネルギーの測定値がステップS454及びS455でなされる2つのテストを通過するならば、ステップS457は、過渡現象が現在のブロックB111で発生することを示す信号を生成する。もし、いずれかのテストが失敗するならば、ステップS457は、現在のブロックB111で過渡現象が発生しないことを示す信号を生成する。
【0073】
この過渡現象検出処理は、各フレームで重要なすべてのブロックのために繰り返される。
【0074】
2.セグメント長制御
制御46と制御65の実施の形態がここで記述される。これらの実施の形態は、以下に記述される2つのフォーマットの二番目に従って符号化音声情報の処理フレームにTDACフィルタバンクを適用するシステムにおける使用に適する。以下に説明されるように、第2のフォーマットによる処理は、およそ30Hz以下のビデオフレームレートで伝送するように意図されるビデオフレームで組み立てられ、あるいはそれに埋め込まれる音声情報を処理するシステムにおいて好ましい。第2のフォーマットによれば、ビデオフレームに対応する音声セグメントの各列の処理は、2つの部分列又はサブフレームに適用される、別々であるが関連する処理に分割される。
【0075】
第1のフォーマットによる音声情報の処理フレームを処理するシステムのための制御方式は、以下に論じられる第2のフォーマットによる音声情報のフレームを処理するシステムのための制御方式に非常に類似してもよい。第1のフォーマットのためのこれらのシステムでは、ビデオフレームに対応する音声セグメントの処理は、第2のフォーマットでそれぞれの部分列又はサブフレームに適用される処理の一つと実質的に同じである。
【0076】
a.符号器
上述され、図3に示される符号器40の実施の形態では、制御46は、音声情報のフレーム内に検出される過渡現象の存在と位置を伝える解析器45から信号を受信する。この信号に応じて、制御46は、ブロック符号化処理によって処理される部分的に重なるセグメントの2つのサブフレームにそのフレームを分割するセグメントの長さを伝える制御信号を生成する。
【0077】
ブロック符号化処理を適用する2つの方式が以下に記述される。各方式では、2048サンプルのフレームが256サンプルの最小長さと1152サンプルの有効最大長さとの間で変化する長さを有する部分的に重なるセグメントに分割される。
【0078】
図10に示されるような一基本的制御方法は、いずれかの方式を制御するために用いられてもよい。2つの方式を制御する方法における唯一の装置は、過渡現象の発生がテストされるブロック又はフレームインターバルである。2つの方式のためのインターバルは、表Vに列挙される。第1の方式では、例えば、インターバル−2は、サンプル128からサンプル831に延び、ブロック番号2からブロック番号12までの64サンプルブロックの列に対応する。第2の方式では、インターバル−2は、サンプル128からサンプル895まで延び、ブロック番号2〜13に対応する。
【0079】
【表4】
【0080】
図10において、ステップS461は、過渡現象又は他の誘発イベントがインターバル−3内のいずれかのブロックで発生するか否かを決定するために、解析45から受信された信号を検査する。もし、この状態が真ならば、ステップS462は、第1のサブフレームがセグメントの「short-1」パターンに従ってセグメントに分割されることを示す制御信号を生成し、ステップS463は、第2のサブフレームがセグメントの「short-2」パターンに従ってセグメントに分割されることを示す信号を生成する。
【0081】
もし、ステップS461でテストされる状態が真でないならば、ステップS464は、過渡現象又は他の誘発イベントがインターバル−2内のあらゆるブロックで発生するか否かを決定するために、解析45から受信される信号を検査する。もし、この状態が真ならば、ステップS465は、第1のサブフレームがセグメントの「bridge-1」パターンに従ってセグメントに分割されることを示す制御信号を生成する。もし、ステップS463でテストされた状態が真でないならば、ステップS466は、第1のサブフレームがセグメントの「long-1」パターンに従ってセグメントに分割されることを示す制御信号を生成する。
【0082】
ステップS467は、過渡現象又は他の誘発イベントがインターバル−4内のあらゆるブロックで発生するか否かを決定するために、解析45から受信される信号を検査する。もし、この状態が真ならば、ステップS468は、第2のサブフレームがセグメントの「bridge-2」パターンに従ってセグメントに分割されることを示す制御信号を生成する。もし、ステップS467でテストされる状態が真でないならば、ステップS469は、第2のサブフレームがセグメントの「long-2」パターンに従って分割されることを示す制御信号を生成する。
【0083】
上述のセグメントのパターンは、より詳細に以下で論じられる。
【0084】
b.復号器
上述され、図4に示される復号器60の実施の形態では、制御65は、経路61から受信される符号化情報のフレームから得られる制御情報を受信し、それに応じて、符号化音声情報のブロックからブロック復号化処理によって回復されるべき音声情報のセグメントの長さを伝える経路67に沿って制御信号を生成する。代わりの実施の形態では、制御65は、また、符号化情報のフレーム内の不連続性を検出し、ブロック復号化処理を適応するために用いられ得る経路66に沿って「接続検出」信号を生成する。この任意選択機能は以下に論じられる。
【0085】
一般に、制御65は、セグメントのいくつかのパターンのいずれが符号化ブロックの2つのサブフレームから回復されるべきかを示す制御信号を生成する。セグメントのこれらのパターンは、符号器に関して上述されるパターンに対応し、より詳細には以下で論じられる。
【0086】
3.適応性のあるフィルタバンク
音声情報の部分的に重なるセグメントを解析し、合成するためにTDACフィルタバンクを適用する符号器50と復号器70の実施の形態は、ここで記述される。以下に記述される実施の形態は、余分なスタックか時間領域エイリアシング解除(O−TDAC)として知られるTDAC変換システムを用いる。これらの実施の形態では、ウィンドウ関数と変換カーネル関数は、セグメント長が上述のいくつかのパターンのいずれかに従って変化し得るセグメントの列又はサブフレームを処理するのに適応される。種々のパターンの各セグメントのために用いられるセグメント長、ウィンドウ関数及び変換カーネル関数は、TDAC変換への一般的導入に続いて以下に記述される。
【0087】
a.TDAC概要
(1)変換
Princen他によって教示され、図11に示されるように、TDAC変換解析−合成システムは、信号サンプルの部分的に重なったセグメントに適用される解析ウィンドウ関数131と、ウィンドウ化されたセグメントに適用される解析変換132と、解析変換から得られる係数のブロックに適用される合成変換133と、合成変換から得られるサンプルのセグメントに適用される合成ウィンドウ関数134と、時間領域エイリアシングを解除し、オリジナルの信号を回復するために、部分的に重ねられウィンドウ化されたセグメントの対応するサンプルを加える重複加算処理135とを備える。
【0088】
前方又は解析O−TDAC変換は、以下のように表現され得る:
【式3】
そして、逆又は合成O−TDAC変換は、以下のように表現され得る:
【式4】
ここで、k=頻度インデックス、
n=信号サンプル番号、
G=スケーリング定数、
N=セグメント長、
n0=エイリアシング解除のための期間、
x(n)=ウィンドウ化された入力信号サンプルn、
X(k)=変換係数である。
【0089】
これらの変換は、G、N及びn0のパラメータによって特徴付けられる。Gパラメータは、解析−合成システムのための望ましいエンドツゥエンドの利得を達成するために用いられる利得パラメータである。Nパラメータは、各セグメントのサンプル数、又はセグメント長に関し、一般に変換長さとして言及される。上述のように、この長さは、変換の頻度と時間分解能を釣り合わせるために変更されてもよい。n0パラメータは、変換のエイリアシング生成とエイリアシング解除特性を制御する。
【0090】
解析−合成システムによって生成される時間領域エイリアシングアーティファクトは、本質的に、オリジナルの信号の時間反転レプリカである。解析及び合成変換のn0期間は、アーティファクトが反転又は反射される各セグメントの「反射」ポイントを制御する。反射ポイントとエイリアシングアーティファクトのサインを制御することによって、これらのアーティファクトは、隣接するセグメントを部分的に重なり合わせ、加えることによって解除され得る。エイリアシング解除についての追加の情報は、米国特許第5,394,473号から得ることができる。
【0091】
(2)ウィンドウ関数
好ましい実施の形態では、解析及び合成ウィンドウ関数は、基底ウィンドウ関数から得られる1以上の初等関数から構成される。基底関数のいくつかは、方形ウィンドウ基底関数から得られる:
φ(n,p,N)=p 0≦n<Nにおいて (4)
【0092】
他の初等関数は、次のパラグラフで記述される技術を用いてもう一つの基底ウィンドウ関数から得られる。TDACのための適切なオーバーラップ−アド特性を持つあらゆる関数が、この基底ウィンドウ関数のために用いられ得る。しかしながら、好ましい実施の形態で用いられる基底ウィンドウ関数は、カイザー・ベッセルウィンドウ関数である。そのウィンドウ関数の最初の部分は、以下のように表現され得る:
【式5】
ここで、α=カイザー・ベッセルウィンドウ関数α因子、
n=得られたウィンドウ関数のセグメントオーバーラップインターバルであり、
【式6】
このウィンドウ関数の最後の部分は、式5の最初のνサンプルの時間反転レプリカである。
【0093】
カイザー・ベッセルによって得られた(KBD)ウィンドウ関数WKBC(n,α,ν)は、コアカイザー・ベッセルウィンドウ関数WKB(n,α,ν)から得られる。KBDウィンドウ関数の最初の部分は、以下に従って得られる:
【式7】
KBDウィンドウ関数の最後の部分は、式6の時間反転レプリカである。
【0094】
(a)解析ウィンドウ関数
この特定の実施の形態で用いられる各解析ウィンドウ関数は、表VI−Aに示される2以上の初等関数を結び付けることによって得られる。
【0095】
【表5】
【0096】
2つの異なる制御方式で用いられるいくつかのセグメントパターンのための解析ウィンドウ関数は、以下に記述される方法でこれらの初等関数から構成される。
【0097】
(b)合成ウィンドウ関数
従来のTDACシステムでは、同一の解析及び合成ウィンドウ関数が各セグメントに適用される。ここで記述される実施の形態では、同一の解析及び合成ウィンドウ関数は、一般に、各セグメントのために用いられるが、代わりの又は「修正された」合成ウィンドウ関数は、解析−合成システムのエンドツゥエンドのパフォーマンスを改善するためにいくつかのセグメントに用いられる。一般に、代わりの又は修正された解析ウィンドウ関数は、256サンプルに等しいフレームオーバーラップインターバルのためのエンドツゥエンドのフレーム利得特性を得るために、「short」と「bridge」セグメントパターンの末端におけるセグメントのために用いられる。
【0098】
代わりの合成ウィンドウ関数の適用は、経路67及び随意に経路66から受信される制御信号に応じて、フレーム内の種々のセグメントに異なる合同フィルタバンクを適用する、図6に示されるようなブロック復号器70の一実施の形態によって提供されてもよい。例えば、代わりの合成ウィンドウ関数を用いるフィルタバンク74及び76は、フレームの末端におけるセグメントに適用され得、従来の合成ウィンドウ関数を持つフィルタバンク75は、フレーム内にあるセグメントに適用され得る。
【0099】
(i)周波数応答特性を改める
フレームオーバーラップインターバルにおける「終わりの」セグメントのために代わりの合成ウィンドウ関数を用いることによって、ブロック復号化処理は、フレームの末端におけるセグメントのために、望ましいエンドツゥエンドの解析−合成システム周波数領域応答又は時間領域応答(利得特性)を得ることができる。各セグメントのエンドツゥエンドの応答は、本質的に、そのセグメントに適用される解析ウィンドウ関数と合成ウィンドウ関数の積から形成されるウィンドウ関数の応答に等しい。これは以下のように代数的に表され得る:
WP(n)=WA(n)WS(n) (7)
ここで、WA(n)=解析ウィンドウ関数、
WS(n)=合成ウィンドウ関数、
WP(n)=積ウィンドウ関数。
【0100】
もし、合成ウィンドウ関数がエンドツゥエンドの周波数応答を何か他の望ましい応答に変換するために修正されるならば、それは、それ自身と解析ウィンドウ関数の積が望ましい応答を有する積ウィンドウに等しいように修正される。もし、WPDに対応する周波数応答が望ましく、解析ウィンドウ関数WAが信号解析のために用いられるならば、この関係は、以下のように表現され得る:
WPD(n)=WA(n)WSX(n) (8)
ここで、WSX(n)=周波数応答を変換するのに必要な合成ウィンドウ関数である。これは、以下のように書き直され得る:
【式8】
フレーム内の最後のセグメントのためのウィンドウ関数WSXの実際の形状は、フレームオーバーラップインターバルが最後のセグメントを部分的に重なる隣接するセグメントまで延びるならば、幾分複雑である。いずれにしても、式9は、正確に、フレーム内の他のいかなるセグメントをも部分的に重ねられない最後のセグメントのその部分でウィンドウ関数WSXに要求されることを表す。O−TDACを用いるシステムのために、その部分はセグメント長の半分か、あるいは0≦n<1/2Nに等しい。
【0101】
もし、KBD積ウィンドウ関数WPDのα因子がKBD解析ウィンドウ関数WAのα因子より際立って高いならば、エンドツゥエンドの周波数応答を修正するために用いられる合成ウィンドウ関数WSXは、フレーム境界に近い非常に大きい値を持たなければならない。不幸にも、そのような形状を持つ合成ウィンドウ関数は、非常に不十分な周波数応答特性を有し、回復された信号の音質を下げる。
【0102】
この問題は、解析ウィンドウ関数が最小値を有するフレーム境界においてわずかなサンプルを捨てることによって、最小にされるかあるいは避けられ得る。捨てられたサンプルは、ゼロに設定されてもよく、さもなければ処理から除外されてもよい。
【0103】
標準的コーディングのためにαより低い値にKBDウィンドウ関数を用いるシステムは、一般的に、合成ウィンドウ関数へのより小さい修正と、フレームの終わりにおいて捨てられるより少ないサンプルとを要求する。
【0104】
エンドツゥエンドの周波数応答と解析−合成システムの時間領域利得プロフィール特性を変更するための合成ウィンドウ関数を修正することについての追加の情報は、米国特許第5,903,872号から得ることができる。
【0105】
望ましい積ウィンドウ関数WPD(n)は、また、望ましい時間領域応答又は利得プロフィールを提供すべきである。積ウィンドウのための望ましい利得プロフィールの一例は、式10に示され、次のパラグラフで論じられる。
【0106】
(ii)フレーム利得特性を改める
代わりの合成ウィンドウ関数の使用は、また、ブロック復号化処理が各フレームのための望ましい時間領域利得プロフィールを得ることを可能にする。フレームのための望ましい利得プロフィールが従来の修正されていない合成ウィンドウ関数から生じる利得プロフィールとは異なるとき、代わりの又は修正された合成ウィンドウ関数は、フレームオーバーラップインターバル内のセグメントのために用いられる。
【0107】
合成ウィンドウ関数を修正する前の、フレームのための「最初の」利得プロフィールは、以下のように表現され得る:
【式9】
ここで、x=フレーム境界で捨てられたサンプル数、
ν=フレームオーバーラップインターバルである。
【0108】
(iii)初等関数
この特定の実施の形態で用いられる各合成ウィンドウ関数は、表VI−AとVI−Bに示される2以上の初等関数を結び付けることによって得られる。
【0109】
【表6】
【0110】
表VI−Bに示される関数WA0(n)は、3つの初等関数EA0(n)+EA1(−n)+E064(n)の結び付きから形成される256サンプルウィンドウ関数である。関数WA1(n)は、初等関数EA1(n)+EA1(−n)の結び付きから形成される256サンプルウィンドウ関数である。
【0111】
2つの異なる制御方式で用いられるいくつかのセグメントパターンのための合成ウィンドウ関数は、以下に記述される方法でこれらの初等関数から構築される。
【0112】
b.ブロック符号化のための制御方式
ブロック符号化処理を適応するための方式は、ここで記述される。各方式では、2048サンプルのフレームが、256サンプルの最小長と1152サンプルの有効最大長の間で変化する長さを有する部分的に重なるセグメントに分割される。およそ30Hz以下のフレームレートを有するフレームの情報を処理するシステムの好ましい実施の形態では、各フレーム内の2つのサブフレームは、長さを変化する部分的に重なるセグメントに分割される。
【0113】
各サブフレームは、セグメントのいくつかのパターンの一つに従ってセグメントに分割される。各パターンは、各セグメントが特定の解析ウィンドウ関数によってウィンドウ化され、特定の解析変換によって変換されるセグメントの列を明示する。それぞれのセグメントパターンにおける種々のセグメントに適用される特定の解析ウィンドウ関数と解析変換は、表VIIに列挙される。
【0114】
【表7】
【0115】
各表項目は、サンプルのセグメントに適用されるべき解析ウィンドウ関数と、サンプルのウィンドウ化されたセグメントに適用されるべき解析変換とを指定することによって、それぞれのセグメントタイプを記述する。表に示される解析ウィンドウ関数は、上述の初等ウィンドウ関数の結び付きに関して記述される。解析変換は、パラメータG、N及びn0に関して記述される。
【0116】
(1)第1の方式
第1の方式では、各パターンのセグメントは、2の整数倍に等しい長さを有するように制限される。この制限は、解析及び合成変換を実行するように要求される処理リソースを減少する。
【0117】
short-1パターンは、最初のセグメントがA256−Aタイプのセグメントであり、続く7つのセグメントがA256−Bタイプのセグメントである8つのセグメントを含む。short-2パターンは、最初の7つのセグメントがA256−Bタイプのセグメントであり、最後のセグメントがA256−Cタイプのセグメントである8つのセグメントを含む。
【0118】
bridge-1パターンは、最初のセグメントがA256−Aタイプのセグメントであり、中間の5つのセグメントがA256−Bタイプのセグメントであり、最後のセグメントがA512−Aタイプのセグメントである7つのセグメントを含む。bridge-2パターンは、最初のセグメントがA512−Bタイプのセグメントであり、中間の5つのセグメントがA256−Bタイプのセグメントであり、最後のセグメントがA256−Cタイプのセグメントである7つのセグメントを含む。
【0119】
long-1パターンは、一つのA2048−Aタイプのセグメントを含む。このセグメントは実際に2048サンプル長であるけれども、時間分解能の有効長さは、1152サンプルだけである。なぜならば、解析ウィンドウ関数の1152サンプルのみがゼロではないからである。long-2パターンは、一つのA2048−Bタイプのセグメントを含む。このセグメントの有効長さは1152である。
【0120】
これらのセグメントパターンのそれぞれは、表VIII−Aに要約される。
【0121】
【表8】
【0122】
第1の制御方式に従って制御46によって指定され得るセグメントパターンの種々の組み合わせが図12に示される。ラベル「short-short」を持つ列は、セグメントパターンのshort-1とshort-2の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。ラベル「long-bridge」を持つ列は、セグメントパターンのlong-1とbridge-2の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。図の他の列は、bridge及びlongセグメントパターンの他の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。
【0123】
(2)第2の方式
第2の方式では、いくつかのパターンにおける少しのセグメントは、2の整数倍ではない384に等しい長さを有する。このセグメント長の使用は、追加のコストを招くが、第1の制御方式と比較して同様な利点を提供する。追加のコストは、384サンプルセグメントのための変換を実行するように要求される追加の処理リソースから発生する。追加のコストは、各384サンプルセグメントを3つの128サンプルセグメントに分割し、32の複素数値を生成するために各セグメントのサンプル対を結合し、複素数値のサンプルの各セグメントに複雑な高速フーリエ変換(FFT)を適用し、望ましい変換係数を得るためにその結果を結合することによって、減少させることができる。この処理技術についての追加の情報は、米国特許第5,394,473号、米国特許第5,297,236号、米国特許第5,890,106号、及びOppenheimとSchaferの「デジタル信号処理」(1975年、Englewood Cliffs, N.J.:Prentice-Hall, Inc.)の307〜314頁から得ることができる。384サンプルブロックを用いて実現される利点は、より良い周波数応答特性を有するウィンドウ関数の使用を可能とし、処理遅延を減少することから起こる。
【0124】
short-1パターンは、最初のセグメントがA384−Aタイプのセグメントであり、続く7つのセグメントがA256−Bタイプのセグメントである8つのセグメントを含む。A384−Aタイプのセグメントの有効長さは256である。short-2タイプのセグメントと最後のセグメントは、A384−Dタイプのセグメントである。A384−Dタイプのセグメントの有効長さは256である。セグメントパターンの他の組み合わせとは異なり、パターンのこの組み合わせの2つのサブフレームの長さは等しくない。
【0125】
bridge-1パターンは、最初のセグメントがA384−Aタイプのセグメントであり、中間の5つのセグメントがA256−Bタイプのセグメントであり、最後のセグメントがA384−Cタイプのセグメントである7つのセグメントを含む。bridge-2パターンは、最初のセグメントがA384−Bタイプのセグメントであり、中間の5つのセグメントがA256−Bタイプのセグメントであり、最後のセグメントがA384−Dタイプのセグメントである7つのセグメントを含む。
【0126】
long-1パターンは、一つのA2048−Aタイプのセグメントを含む。このセグメントの有効長さは1152である。long-2パターンは、一つのA2048−Bタイプのセグメントを含む。このセグメントの有効長さは1152である。
【0127】
これらのセグメントパターンのそれぞれは、表VIII−Bに要約される。
【0128】
【表9】
【0129】
第2の制御方式に従って制御46によって指定され得るセグメントパターンの種々の組み合わせが図13に示される。ラベル「short-short」を持つ列は、セグメントパターンのshort-1とshort-2の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。ラベル「long-bridge」を持つ列は、セグメントパターンのlong-1とbridge-2の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。図の他の列は、bridge及びlongセグメントパターンの他の組み合わせのために、解析ウィンドウ関数の利得プロフィールを示す。bridge-1とbridge-2の組み合わせは示されないが、この制御方式のための有効な組み合わせである。
【0130】
c.ブロック復号化のための制御方式
ブロック復号化処理を適応するための2つの方式は、ここで記述される。各方式では、符号化情報のフレームは、256サンプルの最小長さと1152サンプルの有効最大長さの間で変化する長さを有する部分的に重なるセグメントに分割された、2048サンプルのフレームを生成するために復号化される。およそ30Hz以下のフレームレートを有するフレームの情報を処理するシステムの好ましい実施の形態では、各フレーム内の2つのサブフレームは、長さを変える部分的に重なるセグメントに分割される。
【0131】
各サブフレームは、セグメントのいくつかのパターンの一つに従ってセグメントに分割される。各パターンは、各セグメントが特定の合成変換によって生成され、変換の結果が特定の合成ウィンドウ関数によってウィンドウ化されるセグメントの列を指定する。特定の合成変換と合成ウィンドウ関数は、表IXに列挙される。
【0132】
【表10】
【0133】
各表項目は、サンプルのセグメントを生成するために符号化情報のブロックに適用されるべき合成変換と、サンプルのウィンドウ化されたセグメントを生成するために結果として生じるセグメントに適用されるべき合成ウィンドウ関数とを指定することによってそれぞれのセグメントタイプを記述する。合成変換は、上述のパラメータN及びn0に関して記述される。表に示される合成ウィンドウ関数は、上述の初等ウィンドウ関数の結び付きに関して記述される。復号化処理の間用いられる合成ウィンドウ関数のいくつかは、表に列挙される関数の修正された形式である。これらの修正されたあるいは代わりのウィンドウ関数は、エンドツゥエンドのシステム性能を改善するために用いられる。
【0134】
(1)第1の方式
第1の方式では、各パターンのセグメント長は、2の整数倍になるように制限される。この制限は、解析及び合成変換を実行するように要求される処理リソースを減少する。
【0135】
short-1パターンは、1番目のセグメントがS256−Aタイプのセグメントであり、2番目のセグメントがS256−D1タイプのセグメントであり、3番目のセグメントがS256−D3タイプのセグメントであり、続く5つのセグメントがS256−Bタイプのセグメントである8つのセグメントを含む。short-2パターンは、最初の5つのセグメントがS256−Bタイプのセグメントであり、6番目のセグメントがS256−D4タイプのセグメントであり、7番目のセグメントがS256−D2タイプのセグメントであり、最後のセグメントがS256−Cタイプのセグメントである8つのセグメントを含む。
【0136】
解析及び合成ウィンドウ関数の形状と、short-1パターンの最初のセグメントのための解析及び合成変換のパラメータNとn0は、この最初のセグメントの音声情報がセグメントの最初の64サンプル内のエイリアシングアーティファクトなしに、他のセグメントから独立して回復され得るように設計される。これは、short-1パターンに従ってセグメントに分割される情報のフレームが、エイリアシング解除に関係することなく、情報のあらゆる任意のストリームに添付されることを可能にする。
【0137】
解析及び合成ウィンドウ関数と、short-2パターンの最後のセグメントのための解析及び合成変換は、この最後のセグメントのための音声情報がセグメントの最後の64サンプルのエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得るように設計される。これは、short-2パターンに従ってセグメントに分割される情報のフレームがエイリアシング解除に関係なく、情報のあらゆる任意のストリームによって続けられることを可能にする。
【0138】
ウィンドウ関数と変換の設計のための種々の考察は、より詳細に米国特許第5,913,191号で論じられる。
【0139】
bridge-1パターンは、最初のセグメントがA256−Aタイプのセグメントであり、2番目のセグメントがS256−D1タイプのセグメントであり、3番目のセグメントがS256−D3タイプのセグメントであり、次の3つのセグメントがA256−Bタイプのセグメントであり、最後のセグメントがA512−Aタイプのセグメントである7つのセグメントを含む。bridge-2パターンは、最初のセグメントがA512−Bタイプのセグメントであり、次の3つのセグメントがA256−Bタイプのセグメントであり、5番目のセグメントがS256−D4タイプのセグメントであり、6番目のセグメントがS256−D2タイプのセグメントであり、最後のセグメントがA256−Cタイプのセグメントである7つのセグメントを含む。
【0140】
bridge-1パターンの最初のセグメントとbridge-2パターンの最後のセグメントは、それぞれ、最初と最後の64サンプル内のエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得る。これは、セグメントのbridge-1パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームを続けることを可能にし、それは、セグメントのbridge-2パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームによって続けられることを可能にする。
【0141】
long-1パターンは、一つのS2048−Aタイプのセグメントを含む。このセグメントは実際に2048サンプル長であるけれども、時間分解能に関してその有効長さは、1152サンプルのみである。なぜならば、合成ウィンドウ関数の1152ポイントだけがゼロではないからである。long-2パターンは、一つのS2048−Bタイプのセグメントを含む。このセグメントの有効長さは1152である。
【0142】
long-1とlong-2パターンのセグメントは、それぞれ、最初と最後の256サンプルのエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得る。これは、セグメントのlong-1パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームに続くことを可能にし、それは、セグメントのlong-2パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームによって続けられることを可能にする。
【0143】
これらのセグメントパターンのそれぞれは、表X−Aに要約される。
【0144】
【表11】
【0145】
第1の制御方式に従って制御65によって指定され得るセグメントパターンの種々の組み合わせが図14に示される。ラベル「short-short」を持つ列は、セグメントパターンのshort-1とshort-2の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。ラベル「long-bridge」を持つ列は、セグメントパターンのlong-1とbridge-2の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。図の他の列は、bridge及びlongセグメントパターンの他の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。
【0146】
(2)第2の方式
第2の方式では、セグメントのいくつかは、2の整数倍ではない384に等しい長さを有する。この方式の利点と欠点は上述される。
【0147】
short-1パターンは、最初のセグメントがS384−Aタイプのセグメントであり、2番目のセグメントがS256−E1タイプのセグメントであり、続く6つのセグメントがS256−Bタイプのセグメントである7つのセグメントを含む。short-2パターンは、最初の5つのセグメントがS256−Bタイプのセグメントであり、6番目のセグメントがS256−E2タイプのセグメントであり、最後のセグメントがS384−Dタイプのセグメントである8つのセグメントを含む。セグメントパターンの他の組み合わせと異なり、パターンのこの組み合わせの2つのサブフレームの長さは等しくない。
【0148】
short-1パターンの最初のセグメントとshort-2パターンの最後のセグメントは、それぞれ、最初と最後の128サンプルのエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得る。これは、short-1とshort-2パターンに従ってセグメントに分割されるフレームが、エイリアシング解除に関係することなく、情報のあらゆる任意のストリームによって続き、あるいは続けられることを可能にする。
【0149】
bridge-1パターンは、最初のセグメントがS384−Aタイプのセグメントであり、中間の5つのセグメントがS256−Bタイプのセグメントであり、最後のセグメントがS384−Cタイプのセグメントである7つのセグメントを含む。bridge-2パターンは、最初のセグメントがS384−Bタイプのセグメントであり、中間の5つのセグメントがS256−Bタイプのセグメントであり、最後のセグメントがS384−Dタイプのセグメントである7つのセグメントを含む。S384−A、S384−B、S384−C及びS384−Dタイプのセグメントの有効長さは256である。
【0150】
bridge-1パターンの最初のセグメントとbridge-2パターンの最後のセグメントは、それぞれ、最初と最後の128サンプル内のエイリアシングアーティファクトなしに、他のセグメントに独立して回復され得る。これは、セグメントのbridge-1パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームを続けることを可能にし、それは、セグメントのbridge-2パターンがエイリアシング解除に関係することなく、情報のあらゆる任意のストリームによって続けられることを可能にする。
【0151】
long-1パターンは、一つのS2048−Aタイプのセグメントを含む。このセグメントの有効長さは1152である。long-2パターンは、一つのS2048−Bタイプのセグメントを含む。このセグメントの有効長さは1152である。第2の制御方式のためのlong-1とlong-2パターンは、第1の制御方式のためのlong-1とlong-2パターンと全く同じである。
【0152】
これらのセグメントパターンのそれぞれは、表X−Bに要約される。
【0153】
【表12】
【0154】
第2の制御方式に従って制御65によって指定され得るセグメントパターンの種々の組み合わせが図15に示される。ラベル「short-short」を持つ列は、セグメントパターンのshort-1とshort-2の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。ラベル「long-bridge」を持つ列は、セグメントパターンのlong-1とbridge-2の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。図の他の列は、bridge及びlongセグメントパターンの他の組み合わせのために、合成ウィンドウ関数の利得プロフィールを示す。bridge-1とbridge-2の組み合わせは示されないが、この制御方式のための有効な組み合わせである。
【0155】
4.フレームフォーマット化
フレーム48は、多種多様なフォーマットに従って符号化情報をフレームに組み立てることができる。2つの代わりのフォーマットがここで記述される。これらの2つのフォーマットによれば、各フレームは、他のフレームに独立して復号され得る1以上の音声チャネルの同時のセグメントのために符号化情報を伝える。好ましくは、各フレームの情報は、セクションに分類される、1以上の固定ビット長デジタル「ワード」によって伝えられる。好ましくは、特定のフレームのために用いられるワード長は、復号器がこの長さにその処理を適応するように、フレームの内容から決定され得る。もし、符号化情報ストリームが伝送又は記憶エラーを受けやすいならば、巡回冗長検査(CRC)コード又はフレッチャーの検査合計のようなエラー検出コードが、各フレームセクションに含まれてもよく、及び/又は全フレームのために提供されてもよい。
【0156】
a.第1のフォーマット
第1のフレームフォーマットは、図16Aに示される。図に示されるように符号化情報ストリーム80は、第1のフォーマットに従ってアセンブルされた情報を持つフレームを含む。隣接するフレームは、情報消失を起こすことなく編集又はカットがなされ得るインターバルを供給するギャップあるいは保護帯域によって切り離される。例えば、図に示されるように、特定のフレームは、保護帯域81及び88によって隣接するフレームから分離される。
【0157】
第1のフォーマットによれば、フレームセクション82は、信号処理装置が情報ストリームの内容と操作を同期するために用いられ得る特有のデータパターンを有する同期化ワードを伝える。フレームセクション83は、フレームセクション84で伝えられた符号化音声情報に関する制御情報を伝えるが、符号化情報自体の一部ではない。フレームセクション84は、1以上の音声チャネルのための符号化音声情報を伝える。フレームセクション87は、望ましい全長に詰め込むために用いられてもよい。その代わりに、フレームセクション87は、フレームパッディングの代わりに又はそれに加えて情報を伝えるために用いられてもよい。この情報は、例えば、符号化デジタル音声情報から得ることが困難であるアナログメートル示数のような、符号化音声情報によって表される音声信号の特性を伝えてもよい。
【0158】
図16Bにおいて、フレームセクション83は、いくつかのサブセクションに配列される制御情報を伝える。サブセクション83−1は、フレームの識別子とフレームフォーマットの表示を伝える。フレーム識別子は、値256から値0までをくるめて、各次のフレームのために1ずつ増加する値を有する8ビット数であってもよい。フレームフォーマットの表示は、フレームで伝えられる情報の位置と大きさを識別する。サブセクション83−2は、フレームセクション84内の符号化音声情報を適切に復号するために必要な1以上のパラメータを伝える。サブセクション83−3は、音声チャネル番号と、フレームセクションの符号化音声情報によって表されるこれらのチャネルのプログラム構成とを伝える。このプログラム構成は、例えば、1以上のモノラルプログラム、1以上の2チャネルプログラム、あるいは3チャネルの左−中心−右及び2チャネルのサラウンドを持つプログラムを示してもよい。サブセクション83−4は、フレームセクション83のためのCRCコード又は他のエラー検出コードを伝える。
【0159】
図16Cにおいて、フレームセクション84は、それぞれが8チャネルの最大値までの音声チャネルの同時のセグメントを表す符号化情報を伝える、1以上のサブセクションに配置される符号化音声情報を伝える。例えば、サブセクション84−1、84−2及び84−8では、フレームセクション84は、それぞれ、チャネル番号1、2及び8の音声の同時のセグメントを表す符号化音声情報を伝える。サブセクション84−9は、フレームセクション84のためのCRCコード又は他のエラー検出コードを伝える。
【0160】
b.第2のフォーマット
第2のフレームフォーマットは、図17Aに示される。この第2のフォーマットは、第1のフォーマットと類似するが、およそ30Hz以下のビデオフレームレートを有するビデオ/音声適用では第1のフォーマットより好ましい。隣接するフレームは、情報消失を起こすことなく編集又はカットがなされ得るインターバルを提供する保護帯域91及び98のようなギャップあるいは保護帯域によって切り離される。
【0161】
第2のフォーマットによれば、フレームセクション92は、同期化ワードを伝える。フレームセクション93及び94は、それぞれ、第1のフォーマットにおいてフレームセクション83及び84として上述されるものに類似する制御情報及び符号化音声情報を伝える。フレームセクション97は、望ましい全長にフレームを詰め込むために、及び/又は、例えば、アナログメートル示数のような情報を伝えるために、用いられてもよい。
【0162】
第2のフォーマットは、音声情報が2つのサブフレームに分割される点で第1のフォーマットとは異なる。フレームセクション94は、1以上の音声チャネルのための同時のセグメントのフレームの第1部分を表す符号化音声情報の第1のサブフレームを伝える。フレームセクション96は、同時のセグメントのフレームの第2部分を表す符号化音声情報の第2のサブフレームを伝える。音声情報を2つのサブフレームに分割することによって、以下に説明されるように、ブロック復号化処理で受ける遅延が減少され得る。
【0163】
図17Bにおいて、フレームセクション95は、フレームセクション96で伝えられる符号化情報に関する追加の制御情報を伝える。サブセクション95−1は、フレームフォーマットの表示を伝える。サブセクション95−4は、フレームセクション95のためのCRCコード又は他のエラー検出コードを伝える。
【0164】
図17Cにおいて、フレームセクション96は、それぞれが音声チャネルの符号化情報を伝える1以上のサブセクションに配置される符号化音声情報の第2のサブフレームを伝える。サブセクション96−1、96−2及び96−8では、例えば、それぞれ、音声チャネル番号1、2及び8のための第2のサブフレームを表す符号化音声情報を伝える。サブセクション96−9は、フレームセクション96のためのCRCコード又は他のエラー検出コードを伝える。
【0165】
c.追加の特性
あるデータパターンがフレームによって伝えられる符号化情報に発生するのを防ぐことは、いくつかの符号化/復号化システムでは望ましい。例えば、上述の同期化ワードは、フレームの他のどこでも発生すべきでない特有なデータパターンを有する。もし、この特有のデータパターンが他所で起こったならば、そのような発生は、装置に情報ストリームの同期化を喪失させて、有効な同期化ワードとして誤って識別され得る。もう一つの例として、16ビットのPCMデータを処理するいくつかの音声装置は、制御又は信号情報を伝えるために、(16進数で0x8000として表現される)データ値−32768を取っておく。それゆえ、なお、この値の発生を避けることがいくつかのシステムでは望ましい。「取りおかれた」あるいは「禁じられた」データパターンを避けるためのいくつかの技術は、1999年9月27日に出願された国際特許出願番号PCT/US99/22410に開示される。これらの技術は、あらゆる特別なデータパターンを避け、キーあるいは、改良又は符号化を反転することによってオリジナルの情報を回復するために用いられ得る他の制御情報を符号化情報で渡すために、情報を変更又は符号化する。好ましい実施の形態では、特定のフレームセクションにおける情報に関するキー又は制御情報は、それぞれフレームセクションで伝えられ、あるいはその代わりに、全フレームに関する1つのキー又は制御情報は、それぞれのフレームのどこかに伝えられる。
【0166】
5.接続検出
上述の2つの制御方式は、時々実質的に静止し、他の時には高度に静止していない音声信号を符号化及び復号化するための全システムパフォーマンスを向上するために、信号解析及び信号合成処理を適応する。しかしながら、好ましい実施の形態では、追加の特性が、スプライシングのような編集操作に属する音声情報を符号化するためのさらなる改善を提供し得る。
【0167】
上に説明されるように、接続は、一般に、知覚可能であるか否かの音声情報のストリーム内に不連続性を作り出す。もし、従来のTDAC解析−合成処理が用いられるならば、接合部分のいずれかの側面におけるエイリアシングアーティファクトは、ほとんど確かに解除されない。上述の両制御方式は、エイリアシングアーティファクトから自由な音声情報の個別のフレームを回復することによって、この問題を避ける。結果として、いずれかの制御方式に従って符号化及び復号化される音声情報のフレームは、エイリアシング解除に関係することなく、互いに接合され得る。
【0168】
さらに、上述の「short」と「bridge」セグメントパターン内の最後のセグメントのために、代わりのあるいは修正された合成ウィンドウ関数を用いることによって、いずれかの制御方式は、実質的に一定の時間領域利得を得るための256サンプルフレームオーバーラップインターバル内に部分的に重ね、加える利得プロフィールを有するセグメントフレームの列を回復することができる。従って、フレームオーバーラップインターバル内のフレーム利得プロフィールは、接合部分にわたってフレームの任意の対のために正確である。
【0169】
ここまで議論された特性は、より広いフィルタ通過帯域と引き換えにフィルタストップバンドで増加される減衰を持つ周波数応答特性を有するフィルタバンクを実行することによって、知覚の符号化処理のために十分に最適化される。不幸にも、接合部分編集は、通常フィルタストップバンドとみなされるもの内にない周波数の範囲内にスペクトルアーティファクト又は「スペクトルスプラッタ」を生成する傾向がある。このゆえに、上述の特性によって実行されるフィルタバンクは、一般的な知覚の符号化パフォーマンスを最適化するように設計されるが、接合部分編集で作られるこれらのスペクトルアーティファクトを聞き取れなくするのに十分な減衰を提供しない。
【0170】
システムパフォーマンスは、結合の発生を検出し、応答で、このスペクトルスプラッタを減衰するために、合成フィルタバンクの周波数応答を適応することによって改善され得る。このことがなされる一方法は以下に論じられる。追加の情報は、米国特許第5,903,872号から得られることができる。
【0171】
図4において、制御65は、経路61から受信される各フレームから得られるいくつかの制御情報又は「フレーム識別子」を検査することによって、結合を検出してもよい。例えば、符号器40は、数を増加させることによって、あるいは、各連続するフレームのための時間とデータの表示を生成し、この識別子をそれぞれのフレームにアセンブルすることによって、フレーム識別子を提供してもよい。制御65がフレームのストリームから得られるフレーム識別子の列内の不連続性を検出するとき、結合検出信号は、経路66に沿って生成される。経路66から受信される結合検出信号に応じて、復号化70は、合成フィルタバンクの周波数応答を適応してもよく、あるいは、結合が起こると思われるフレーム間の境界のいずれかの側面における1以上のセグメントを処理するために、望ましい周波数応答を有する代わりのフィルタバンクを選択してもよい。
【0172】
好ましい実施の形態では、検出された結合のいずれかの側面におけるフレームのための望ましい周波数応答は、結合ウィンドウ処理を適用することによって得られる。これは、上述の制御方式から得られるように、フレーム結合ウィンドウ関数をセグメントの全フレームに適用することによって達成されてもよく、あるいは、セグメント結合ウィンドウ関数を合成変換から得られる各セグメントに適用することによって、制御方式内で達成されてもよい。原則として、これらの2つの処理は同等である。
【0173】
それぞれのセグメントのためのセグメント結合ウィンドウ関数は、表IXに示されるそれぞれのセグメントのための標準的な合成ウィンドウ関数と、それぞれのセグメントと同列に揃えられるフレーム結合ウィンドウ関数の一部とを掛け算することによって得られてもよい。フレーム結合ウィンドウ関数は、表VI−Cで示される2以上の初等関数を連結することによって得られる。
【0174】
【表13】
【0175】
フレームの3タイプのためのフレーム結合ウィンドウ関数は表XIで示される。
【0176】
【表14】
【0177】
上記で列挙されるフレーム結合ウィンドウ関数を用いることによって、結合ウィンドウ処理は、本質的に、3のα値を持つKBDウィンドウ関数から1のα値を持つKBDウィンドウ関数へ、フレームオーバーラップインターバル内のセグメントのためのエンドツゥエンドの解析−合成ウィンドウ関数を変える。この変更は、ストップバンド内の減衰のレベルを減少させるのと引き換えに、フィルタ通過帯域の幅を減少させ、それによって、可聴スペクトルスプラッタをより効率的に抑制する周波数応答を得る。
【0178】
6.信号変換
上述の音声符号器及び復号器の実施の形態は、本質的にあらゆるフォーマットとサンプルレートを有する音声情報を処理する適用に組み込まれてもよい。例えば、48kHzの音声サンプルレートは、専門的装置で通常用いられ、44.1kHzのサンプルレートは、消費者装置で通常用いられる。さらに、上述の実施の形態は、標準の広範囲に従ってフレームフォーマットとフレームレートでビデオ情報を処理する適用に組み込まれてもよい。好ましくは、ビデオフレームレートがおよそ30kHz以下の適用のために、音声情報は、上述の第2のフォーマットに従って処理される。
【0179】
実用装置の実行は、音声情報が外部音声サンプルレート又はビデオフレームレートから独立して共通の構造に符号化され得るように、音声情報を内部音声サンプルレートに変換することによって単純化され得る。
【0180】
図3及び4において、変換43は、適切な内部サンプルレートに音声情報を変換するために用いられ、変換68は、内部サンプルレートからの音声情報を望ましい外部音声サンプルレートに変換するために用いられる。変換は、内部音声サンプルレートがビデオフレームレートの整数倍であるように実行される。いくつかのビデオフレームレートのための適切な内部サンプルレートの例は、表XIIに示される。変換は、音声サンプルの同数が符号化され、ビデオフレームとともに伝えられることを可能にする。
【0181】
【表15】
【0182】
NTSC(29.97Hz)とDTV(23.976Hz)のために表に示される内部サンプルレートは、概算だけである。これらのビデオ標準のためのレートは、それぞれ、53,760,000/1001と43,008,000/1001に等しい。
【0183】
本質的に、サンプルレート変換のためのあらゆる技術が用いられ得る。サンプルレート変換のための種々の考察と実行は、AdamsとKwanの「非同期サンプルレートコンバータのための理論とVLSIアーキテクチャ」、1993年7月、J of Audio Engr. Soc.41巻、No. 7/8、539〜555頁に開示される。
【0184】
もし、サンプルレート変換が用いられるならば、解析45のために上述される過渡現象検出器内のHPF101のためのフィルタ係数は、一定の遮断周波数を保持するために修正される必要があり得る。この特性の恩恵は、経験的に決定され得る。
【0185】
D.処理遅延
ブロック符号器50とブロック復号器70によって実行される処理は、情報のセグメントとブロックを受信してバッファに入れるために被る遅延を有する。さらに、上述のブロック符号化処理を制御するための2つの方式は、セグメント長制御のために解析45によって解析される音声サンプルのブロックを受信してバッファに入れるために要求される追加の遅延を被る。
【0186】
第2のフォーマットが用いられるとき、第1の制御方式は、図10に示されるセグメント長制御方法における第1のステップS461を始めることができる前に、1344の音声サンプル又は音声情報の21個の64サンプルブロックを受信してバッファに入れなければならない。第2の制御方式は、ただ1280の音声サンプル又は音声情報の20個の64サンプルブロックを受信してバッファに入れる必要のため、わずかに低い遅延を被る。
【0187】
もし、符号器40がリアルタイムでその処理を実行するならば、そのフレームの最初の部分が受信され、バッファに入れられ、セグメント長制御方式のために解析された後、各フレームのために残る時間でブロック符号化処理を完了しなければならない。第1の制御方式がブロックを解析し始めるのにより長い遅延を被るので、それは、符号化50に第2の制御方式によって要求されるよりも短い時間でその処理を完了することを要求する。
【0188】
好ましい実施の形態では、符号器40によって受けられる全処理遅延は、隣接するビデオフレーム間のインターバルに等しいように調整される。必要ならば、構成要素が、追加の遅延を供給するために符号器40内に含まれてもよい。もし、1フレームインターバルの全遅延が可能ではないならば、全遅延は、ビデオフレームインターバルの整数倍に等しいように調整される。
【0189】
両制御方式は、復号化60で実質的に等しい計算要求を課す。復号器60で受けられる最大遅延は、総称で述べることが難しい。なぜならば、それは、正確な符号化フレームフォーマットや符号化音声情報と制御情報を伝えるために用いられるビット数のようなファクターの数に依存するからである。
【0190】
第1のフォーマットが用いられるとき、全フレームは、セグメント制御方法が始まる前に受信され、バッファに入れられなければならない。なぜならば、符号化と信号サンプルレート変換処理は、同時に実行できず、符号器40のための1フレームの遅延が可能ではないからである。この場合、2フレームレートの全遅延が好ましい。類似の制限は復号器60にも当てはまる。
【図面の簡単な説明】
【図1】 図1は、セグメントに配列された音声情報と基準信号と同列に揃えられるブロックに配列された符号化情報の概略表示である。
【図2】 図2は、フレームに配列された音声情報のセグメントと基準信号と同列に揃えられるフレームに配列された符号化信号のブロックの概略図である。
【図3】 図3は、音声情報のセグメントに適応するブロック符号化処理を適用する音声符号器の一実施の形態のブロック図である。
【図4】 図4は、符号化情報のフレームに適応するブロック復号化処理を適用することによって音声情報のセグメントを生成する音声復号器の一実施の形態のブロック図である。
【図5】 図5は、音声情報のセグメントに複数のフィルタバンクの一つを適用するブロック符号器の一実施の形態のブロック図である。
【図6】 図6は、符号化音声情報に複数の合成フィルタバンクの一つを適用するブロック復号器の一実施の形態のブロック図である。
【図7】 図7は、音声情報のセグメントを解析するために用いられ得る過渡電流検出器のブロック図である。
【図8】 図8は、図7の過渡電流検出器によって用いられるブロック及びサブブロックの階層構造を示す。
【図9】 図9は、図7の過渡電流検出器において比較器を実行する方法のステップを示す。
【図10】 図10は、ブロック符号化処理を制御する方法のステップを示す。
【図11】 図11は、時間領域エイリアシング解除解析−合成システムのブロック図である。
【図12】 図12は、2つの制御方式に従ってセグメントのいくつかのパターンのための解析の利得プロフィールと合成ウィンドウ関数を示す。
【図13】 図13は、2つの制御方式に従ってセグメントのいくつかのパターンのための解析の利得プロフィールと合成ウィンドウ関数を示す。
【図14】 図14は、2つの制御方式に従ってセグメントのいくつかのパターンのための解析の利得プロフィールと合成ウィンドウ関数を示す。
【図15】 図15は、2つの制御方式に従ってセグメントのいくつかのパターンのための解析の利得プロフィールと合成ウィンドウ関数を示す。
【図16】 図16A〜16Cは、第1のフレームフォーマットに従って、制御情報と符号化音声情報の集合を示す。
【図17】 図17A〜17Cは、第2のフレームフォーマットに従って、制御情報と符号化音声情報の集合を示す。
Claims (41)
- 音声符号化のための方法であって、
隣接するフレームがフレームインターバルによって分離されるビデオ情報フレームの列におけるビデオ情報フレームの配列を伝える基準信号を受信するステップと、
音声情報を伝える音声信号を受信するステップと、
前記音声情報の特性を識別するために前記音声信号を解析するステップと、
部分的に重なるセグメントの列における前記音声情報のセグメントのためにセグメント長を伝える制御信号を生成するステップであって、それぞれのセグメントは、隣接するセグメントでそれぞれのオーバーラップインターバルを有し、該列は、前記フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有し、ここで、セグメント長は、前記音声情報の特性に応じて適応される、前記生成ステップと、
複数の符号化情報のブロックを生成するために、前記列内の前記部分的に重なるセグメントに適切なブロック符号化処理を適用するステップであって、該ブロック符号化処理が前記制御信号に応じて適応する、前記適用ステップと、
前記基準信号と同列に揃えられる符号化情報フレームを形成するために、前記複数の符号化情報のブロックと前記セグメント長を伝える制御情報とをアセンブルするステップと、
を含むことを特徴とする音声符号化方法。 - 前記ブロック符号化処理は、それぞれ、サブバンド信号のブロックあるいは変換係数を生成するために、前記音声情報のセグメントに帯域フィルタのバンク又は変換を適用することを特徴とする請求項1記載の音声符号化方法。
- 前記ブロック符号化処理は、ウィンドウ化セグメントを生成するために前記音声情報の各セグメントにそれぞれの解析ウィンドウ関数を適用し、変換係数のブロックを生成するために該ウィンドウ化セグメントに時間領域エイリアシング解除解析変換を適用することを特徴とする請求項1記載の音声符号化方法。
- 相補的な合成変換及び合成ウィンドウ関数の適用が前記列の末端セグメントのオーバーラップインターバル内の時間領域エイリアシングを実質的に持たない音声情報を回復するのを可能にするそれぞれの符号化情報フレームのためのセグメントの前記列内の末端セグメントを表すブロックを生成するために前記解析ウィンドウ関数及び前記時間領域エイリアシング解除解析変換を適応することを特徴とする請求項3記載の音声符号化方法。
- 前記ブロック符号化処理は、前記セグメント長を2の整数倍になるように強要することを特徴とする請求項1乃至4のいずれかに記載の音声符号化方法。
- 前記ブロック符号化処理は、最大セグメント長と最小セグメント長の間のセグメント長を適応し、それぞれの符号化情報フレームのために、
前記最大セグメント長に等しい長さを有するセグメントの列への解析ウィンドウ関数のlong-long列、
前記最小セグメント長に等しい有効長さを有するセグメントの列への解析ウィンドウ関数のshort-short列、
前記最小セグメント長から前記最大セグメント長までシフトする長さを有するセグメントの列への解析ウィンドウ関数のbridge-long列であって、該最大セグメント長と等しい長さを有するセグメントのためにウィンドウ関数によって続けられるウィンドウ関数の第1のbridge列を含む、前記bridge-long列、
前記最大セグメント長から前記最小セグメント長までシフトする長さを有するセグメントの列への解析ウィンドウ関数のlong-bridge列であって、ウィンドウ関数の第2のbridge列によって続けられる該最大セグメント長に等しい長さを有するセグメントのためのウィンドウ関数を含む、前記long-bridge列、
可変長であるセグメントの列への解析ウィンドウ関数のbridge-bridge列であって、前記第2のbridge列によって続けられる前記第1のbridge列を含む、前記bridge-bridge列、
のいずれかを適用することを特徴とする請求項1乃至4のいずれかに記載の音声符号化方法。 - 前記short-short列のすべてのセグメントが同一の長さを有することを特徴とする請求項6記載の音声符号化方法。
- 前記short-short列のすべての解析ウィンドウ関数は、形状及び長さが同一のゼロではない部分を有し、1以上の該解析ウィンドウ関数がゼロ部分を有することを特徴とする請求項6記載の音声符号化方法。
- 前記ブロック符号化処理を適用する前に、入力音声サンプルレートから内部音声サンプルレートまで前記音声情報を変換するステップであって、前記基準信号は、ビデオ情報フレームレートを伝え、該内部音声サンプルレートは、該ビデオ情報フレームレートの整数倍に等しい、前記変換ステップを含むことを特徴とする請求項1乃至8のいずれかに記載の音声符号化方法。
- 音声復号化のための方法であって、
隣接するフレームがフレームインターバルによって分離されるビデオ情報フレームの列におけるビデオ情報フレームの配列を伝える基準信号を受信するステップと、
前記基準信号と同列に揃えられ、それぞれが制御情報及び複数の符号化音声情報のブロックを備える符号化情報フレームを受信するステップと、
部分的に重なるセグメントの列内の音声情報のセグメントのためにセグメント長を伝える制御信号を生成するステップであって、それぞれのセグメントは、隣接するセグメントを持つオーバーラップインターバルを有し、該列は、前記フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有し、ここで、前記セグメント長は、前記制御情報に応じて適応される、前記生成ステップと、
それぞれの符号化情報フレーム内の前記複数の符号化音声情報のブロックに適切なブロック復号化処理を適用するステップであって、該ブロック復号化処理が音声情報の部分的に重なるセグメントの列を生成するために前記制御信号に応じて適応する、前記適用ステップと、
を含むことを特徴とする音声復号化方法。 - 前記ブロック復号化処理は、音声情報の部分的に重なるセグメントを生成するために、前記複数の符号化情報のブロックに帯域フィルタのバンク又は合成変換を適用することを特徴とする請求項10記載の音声復号化方法。
- 前記ブロック復号化処理は、前記複数の符号化情報のブロックに時間領域エイリアシング解除合成変換を適用し、音声情報の前記部分的に重なるセグメントを生成するために該合成変換の結果にそれぞれの合成ウィンドウ関数を適用することを特徴とする請求項10記載の音声複号化方法。
- 前記時間領域エイリアシング解除解析変換を適応し、前記列の末端セグメントのオーバーラップインターバル内の時間領域エイリアシングを実質的に持たないそれぞれの符号化情報フレームのための該列の該末端セグメントを回復するために、合成ウィンドウ関数を該変換の結果に適用することを特徴とする請求項12記載の音声複号化方法。
- 前記ブロック復号化処理は、2の整数倍である長さを有するセグメントを生成するように強要することを特徴とする請求項10乃至13のいずれかに記載の音声複号化方法。
- 前記ブロック復号化処理は、最大セグメント長と最小セグメント長の間の異なるセグメント長を有する音声情報のセグメントを表すブロックを復号し、それぞれの符号化情報フレームのために、
前記最大セグメント長に等しい長さを有するセグメントの列への合成ウィンドウ関数のlong-long列、
前記最小セグメント長に等しい有効長さを有するセグメントの列への合成ウィンドウ関数のshort-short列、
前記最小セグメント長から前記最大セグメント長までシフトする長さを有するセグメントの列への合成ウィンドウ関数のbridge-long列であって、該最大セグメント長と等しい長さを有するセグメントのためにウィンドウ関数によって続けられるウィンドウ関数の第1のbridge列を含む、前記bridge-long列、
前記最大セグメント長から前記最小セグメント長までシフトする長さを有するセグメントの列への合成ウィンドウ関数のlong-bridge列であって、ウィンドウ関数の第2のbridge列によって続けられる該最大セグメント長に等しい長さを有するセグメントのためのウィンドウ関数を含む、前記long-bridge列、
可変長であるセグメントの列への合成ウィンドウ関数のbridge-bridge列であって、前記第2のbridge列によって続けられる前記第1のbridge列を含む、前記bridge-bridge列、
のいずれかを適用することを特徴とする請求項10乃至13のいずれかに記載の音声複号化方法。 - 前記short-short列から生成されるすべてのセグメントが同一の長さを有することを特徴とする請求項15記載の音声複号化方法。
- 前記short-short列のすべての合成ウィンドウ関数は、形状及び長さが同一のゼロではない部分を有し、1以上の該合成ウィンドウ関数がゼロ部分を有することを特徴とする請求項15記載の音声符号化方法。
- 不連続性を検出するために2つの符号化情報フレームから得られる制御情報を解析し、それに応じて、該2つの符号化情報フレームのいずれかのためにセグメントのそれぞれの列内の音声情報の最初又は最後のセグメントを受信することにおいて、前記ブロック復号化処理の周波数応答特性を適応することを特徴とする請求項10乃至17のいずれかに記載の音声複号化方法。
- ビデオフレームに配列されるビデオ情報と、
符号化情報フレームに配列される符号化音声情報であって、それぞれの符号化情報フレームは、それぞれのビデオフレームに対応し、
部分的に重なるセグメントの列内の音声情報のセグメントために可変セグメント長と、隣接するセグメントを持つそれぞれのオーバーラップインターバルを有するそれぞれのセグメントと、フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有する列とを伝える制御情報と、
符号化音声情報のブロックであって、適切なブロック復号化処理によって処理されるとき、それぞれのブロックが、部分的に重なるセグメントの列内の音声情報のそれぞれのセグメントをもたらすそれぞれの長さと内容を有する、前記符号化音声情報のブロックと、を含む、前記符号化音声情報と、
を有するデータが記録されたコンピュータ読み取り可能な記録媒体。 - 時間領域エイリアシング解除合成変換を適用し、及び合成ウィンドウ関数を適用することを含む適切な復号化処理によって処理されるとき、前記符号化音声情報のブロックの各々は、音声情報のそれぞれのセグメントを生じるそれぞれの内容を有することを特徴とする請求項19記載の記録媒体。
- 前記適切なブロック復号化処理は、前記時間領域エイリアシング解除合成変換を適応し、実質的に時間領域エイリアシングを独立して有さない音声情報の部分的に重なるセグメントの列を生成するために前記合成ウィンドウ関数を適応することを特徴とする請求項20記載の記録媒体。
- 符号化音声情報のすべてのブロックは、2の整数倍であるそれぞれの長さを有する音声情報のセグメントを表すことを特徴とする請求項19乃至21のいずれかに記載の記録媒体。
- 前記制御情報は、符号化情報フレームの列内の前記それぞれの符号化情報フレームの順序の表示を含むことを特徴とする請求項19乃至22のいずれかに記載の記録媒体。
- 音声符号化のための装置であって、
隣接するフレームがフレームインターバルによって分離されるビデオ情報フレームの列におけるビデオ情報フレームの配列を伝える基準信号を受信するための手段と、
音声情報を伝える音声信号を受信するための手段と、
前記音声情報の特性を識別するために前記音声信号を解析するための手段と、
部分的に重なるセグメントの列における前記音声情報のセグメントのためにセグメント長を伝える制御信号を生成するための手段であって、それぞれのセグメントは、隣接するセグメントでそれぞれのオーバーラップインターバルを有し、
該列は、前記フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有し、ここで、セグメント長は、前記音声情報の特性に応じて適応される、前記生成手段と、
複数の符号化情報のブロックを生成するために、前記列内の前記部分的に重なるセグメントに適切なブロック符号化処理を適用するための手段であって、該ブロック符号化処理が前記制御信号に応じて適応する、前記適用手段と、
前記基準信号と同列に揃えられる符号化情報フレームを形成するために、前記複数の符号化情報のブロックと前記セグメント長を伝える制御情報とをアセンブルするための手段と、
を備えることを特徴とする音声符号化装置。 - 前記ブロック符号化処理は、それぞれ、サブバンド信号のブロックあるいは変換係数を生成するために、前記音声情報のセグメントに帯域フィルタのバンク又は変換を適用することを特徴とする請求項24記載の音声符号化装置。
- 前記ブロック符号化処理は、ウィンドウ化セグメントを生成するために前記音声情報の各セグメントにそれぞれの解析ウィンドウ関数を適用し、変換係数のブロックを生成するために該ウィンドウ化セグメントに時間領域エイリアシング解除解析変換を適用することを特徴とする請求項24記載の音声符号化装置。
- 相補的な合成変換及び合成ウィンドウ関数の適用が前記列の末端セグメントのオーバーラップインターバル内の時間領域エイリアシングを実質的に持たない音声情報を回復するのを可能にするそれぞれの符号化情報フレームのためのセグメントの前記列内の末端セグメントを表すブロックを生成するために前記解析ウィンドウ関数及び前記時間領域エイリアシング解除解析変換を適応する手段を備えることを特徴とする請求項26記載の音声符号化装置。
- 前記ブロック符号化処理は、前記セグメント長を2の整数倍になるように強要することを特徴とする請求項24乃至27のいずれかに記載の音声符号化装置。
- 前記ブロック符号化処理は、最大セグメント長と最小セグメント長の間のセグメント長を適応し、それぞれの符号化情報フレームのために、
前記最大セグメント長に等しい長さを有するセグメントの列への解析ウィンドウ関数のlong-long列、
前記最小セグメント長に等しい有効長さを有するセグメントの列への解析ウィンドウ関数のshort-short列、
前記最小セグメント長から前記最大セグメント長までシフトする長さを有するセグメントの列への解析ウィンドウ関数のbridge-long列であって、該最大セグメント長と等しい長さを有するセグメントのためにウィンドウ関数によって続けられるウィンドウ関数の第1のbridge列を含む、前記bridge-long列、
前記最大セグメント長から前記最小セグメント長までシフトする長さを有するセグメントの列への解析ウィンドウ関数のlong-bridge列であって、ウィンドウ関数の第2のbridge列によって続けられる該最大セグメント長に等しい長さを有するセグメントのためのウィンドウ関数を含む、前記long-bridge列、
可変長であるセグメントの列への解析ウィンドウ関数のbridge-bridge列であって、前記第2のbridge列によって続けられる前記第1のbridge列を含む、前記bridge-bridge列、
のいずれかを適用することを特徴とする請求項24乃至27のいずれかに記載の音声符号化装置。 - 前記short-short列のすべてのセグメントが同一の長さを有することを特徴とする請求項29記載の音声符号化装置。
- 前記short-short列のすべての解析ウィンドウ関数は、形状及び長さが同一のゼロではない部分を有し、1以上の該解析ウィンドウ関数がゼロ部分を有することを特徴とする請求項29記載の音声符号化装置。
- 前記ブロック符号化処理を適用する前に、入力音声サンプルレートから内部音声サンプルレートまで前記音声情報を変換するための手段であって、前記基準信号は、ビデオ情報フレームレートを伝え、該内部音声サンプルレートは、該ビデオ情報フレームレートの整数倍に等しい、前記変換手段を備えることを特徴とする請求項24乃至31のいずれかに記載の音声符号化装置。
- 音声復号化のための装置であって、
隣接するフレームがフレームインターバルによって分離されるビデオ情報フレームの列におけるビデオ情報フレームの配列を伝える基準信号を受信するための手段と、
前記基準信号と同列に揃えられ、それぞれが制御情報及び複数の符号化音声情報のブロックを備える符号化情報フレームを受信するための手段と、
部分的に重なるセグメントの列内の音声情報のセグメントのためにセグメント長を伝える制御信号を生成するための手段であって、それぞれのセグメントは、隣接するセグメントを持つオーバーラップインターバルを有し、該列は、前記フレームインターバルにフレームオーバーラップインターバルを加えたものに等しい長さを有し、ここで、前記セグメント長は、前記制御情報に応じて適応される、前記生成手段と、
それぞれの符号化情報フレーム内の前記複数の符号化音声情報のブロックに適切なブロック復号化処理を適用するための手段であって、該ブロック復号化処理が音声情報の部分的に重なるセグメントの列を生成するために前記制御信号に応じて適応する、前記適用手段と、
を備えることを特徴とする音声復号化装置。 - 前記ブロック復号化処理は、音声情報の部分的に重なるセグメントを生成するために、前記複数の符号化情報のブロックに帯域フィルタのバンク又は合成変換を適用することを特徴とする請求項33記載の音声復号化装置。
- 前記ブロック復号化処理は、前記複数の符号化情報のブロックに時間領域エイリアシング解除合成変換を適用し、音声情報の前記部分的に重なるセグメントを生成するために該合成変換の結果にそれぞれの合成ウィンドウ関数を適用することを特徴とする請求項33記載の音声複号化装置。
- 前記時間領域エイリアシング解除解析変換を適応し、前記列の末端セグメントのオーバーラップインターバル内の時間領域エイリアシングを実質的に持たないそれぞれの符号化情報フレームのための該列の該末端セグメントを回復するために、合成ウィンドウ関数を該変換の結果に適用するための手段を備えることを特徴とする請求項35記載の音声複号化装置。
- 前記ブロック復号化処理は、2の整数倍である長さを有するセグメントを生成するように強要することを特徴とする請求項33乃至36のいずれかに記載の音声複号化装置。
- 前記ブロック復号化処理は、最大セグメント長と最小セグメント長の間の異なるセグメント長を有する音声情報のセグメントを表すブロックを復号し、それぞれの符号化情報フレームのために、
前記最大セグメント長に等しい長さを有するセグメントの列への合成ウィンドウ関数のlong-long列、
前記最小セグメント長に等しい有効長さを有するセグメントの列への合成ウィンドウ関数のshort-short列、
前記最小セグメント長から前記最大セグメント長までシフトする長さを有するセグメントの列への合成ウィンドウ関数のbridge-long列であって、該最大セグメント長と等しい長さを有するセグメントのためにウィンドウ関数によって続けられるウィンドウ関数の第1のbridge列を含む、前記bridge-long列、
前記最大セグメント長から前記最小セグメント長までシフトする長さを有するセグメントの列への合成ウィンドウ関数のlong-bridge列であって、ウィンドウ関数の第2のbridge列によって続けられる該最大セグメント長に等しい長さを有するセグメントのためのウィンドウ関数を含む、前記long-bridge列、
可変長であるセグメントの列への合成ウィンドウ関数のbridge-bridge列であって、前記第2のbridge列によって続けられる前記第1のbridge列を含む、前記bridge-bridge列、
のいずれかを適用することを特徴とする請求項33乃至36のいずれかに記載の音声複号化装置。 - 前記short-short列から生成されるすべてのセグメントが同一の長さを有することを特徴とする請求項38記載の音声複号化装置。
- 前記short-short列のすべての合成ウィンドウ関数は、形状及び長さが同一のゼロではない部分を有し、1以上の該合成ウィンドウ関数がゼロ部分を有することを特徴とする請求項38記載の音声符号化装置。
- 不連続性を検出するために2つの符号化情報フレームから得られる制御情報を解析し、それに応じて、該2つの符号化情報フレームのいずれかのためにセグメントのそれぞれの列内の音声情報の最初又は最後のセグメントを受信することにおいて、前記ブロック復号化処理の周波数応答特性を適応するための手段を備えることを特徴とする請求項33乃至40のいずれかに記載の音声複号化装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/239,345 | 1999-01-28 | ||
US09/239,345 US6226608B1 (en) | 1999-01-28 | 1999-01-28 | Data framing for adaptive-block-length coding system |
PCT/US2000/001424 WO2000045389A1 (en) | 1999-01-28 | 2000-01-20 | Data framing for adaptive-block-length coding system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002536681A JP2002536681A (ja) | 2002-10-29 |
JP4540232B2 true JP4540232B2 (ja) | 2010-09-08 |
Family
ID=22901762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000596567A Expired - Lifetime JP4540232B2 (ja) | 1999-01-28 | 2000-01-20 | 適応性のあるブロック長符号化システムのためのデータ構成 |
Country Status (18)
Country | Link |
---|---|
US (1) | US6226608B1 (ja) |
EP (1) | EP1151435B1 (ja) |
JP (1) | JP4540232B2 (ja) |
KR (1) | KR100702058B1 (ja) |
CN (1) | CN1255809C (ja) |
AR (1) | AR022335A1 (ja) |
AT (1) | ATE223612T1 (ja) |
AU (1) | AU771332B2 (ja) |
BR (1) | BR0007775A (ja) |
CA (1) | CA2354396C (ja) |
DE (1) | DE60000412T2 (ja) |
DK (1) | DK1151435T3 (ja) |
ES (1) | ES2179018T3 (ja) |
HK (1) | HK1043429B (ja) |
MX (1) | MXPA01007547A (ja) |
MY (1) | MY128069A (ja) |
TW (1) | TW519629B (ja) |
WO (1) | WO2000045389A1 (ja) |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19736669C1 (de) * | 1997-08-22 | 1998-10-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals |
US6687663B1 (en) * | 1999-06-25 | 2004-02-03 | Lake Technology Limited | Audio processing method and apparatus |
WO2001001570A1 (de) * | 1999-06-25 | 2001-01-04 | Infineon Technologies Ag | Programmierbares digitales bandpass-filter für eine kodec-schaltung |
US7283965B1 (en) * | 1999-06-30 | 2007-10-16 | The Directv Group, Inc. | Delivery and transmission of dolby digital AC-3 over television broadcast |
EP1076297A1 (en) * | 1999-08-09 | 2001-02-14 | Deutsche Thomson-Brandt Gmbh | Method for fast Fourier transformation of audio signals |
US6748363B1 (en) * | 2000-06-28 | 2004-06-08 | Texas Instruments Incorporated | TI window compression/expansion method |
JP2002050996A (ja) * | 2000-07-31 | 2002-02-15 | Sony Corp | 整数倍相互関係を有するブロック長を用いて符号化された信号を通信伝送路を介して送信する通信システム |
US8006186B2 (en) * | 2000-12-22 | 2011-08-23 | Muvee Technologies Pte. Ltd. | System and method for media production |
US7450693B2 (en) * | 2001-03-07 | 2008-11-11 | T-Mobile Deutschland Gmbh | Method and device for improving voice quality on transparent telecommunication-transmission paths |
US6650762B2 (en) * | 2001-05-31 | 2003-11-18 | Southern Methodist University | Types-based, lossy data embedding |
DE10138650A1 (de) * | 2001-08-07 | 2003-02-27 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verschlüsseln eines diskreten Signals sowie Verfahren und Vorrichtung zur Entschlüsselung |
JP3779580B2 (ja) * | 2001-09-27 | 2006-05-31 | 株式会社東芝 | 信号処理方法及び装置、信号再生方法及び装置、記録媒体 |
JP4467984B2 (ja) * | 2002-01-18 | 2010-05-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオのコード化 |
US7328151B2 (en) | 2002-03-22 | 2008-02-05 | Sound Id | Audio decoder with dynamic adjustment of signal modification |
US20030233230A1 (en) * | 2002-06-12 | 2003-12-18 | Lucent Technologies Inc. | System and method for representing and resolving ambiguity in spoken dialogue systems |
US7426470B2 (en) * | 2002-10-03 | 2008-09-16 | Ntt Docomo, Inc. | Energy-based nonuniform time-scale modification of audio signals |
US7330812B2 (en) * | 2002-10-04 | 2008-02-12 | National Research Council Of Canada | Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel |
US7389226B2 (en) * | 2002-10-29 | 2008-06-17 | Ntt Docomo, Inc. | Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard |
US7508846B2 (en) * | 2002-11-22 | 2009-03-24 | Nortel Networks Ltd. | Physical capacity aggregation system and method |
US7512534B2 (en) * | 2002-12-17 | 2009-03-31 | Ntt Docomo, Inc. | Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard |
US7904797B2 (en) * | 2003-01-21 | 2011-03-08 | Microsoft Corporation | Rapid media group annotation |
US7509321B2 (en) * | 2003-01-21 | 2009-03-24 | Microsoft Corporation | Selection bins for browsing, annotating, sorting, clustering, and filtering media objects |
US7117453B2 (en) * | 2003-01-21 | 2006-10-03 | Microsoft Corporation | Media frame object visualization system |
US7383497B2 (en) * | 2003-01-21 | 2008-06-03 | Microsoft Corporation | Random access editing of media |
US6973538B2 (en) * | 2003-04-02 | 2005-12-06 | Motorola, Inc. | Adaptive segmentation of shared cache |
KR100546398B1 (ko) * | 2003-11-25 | 2006-01-26 | 삼성전자주식회사 | 압축된 오디오 비트스트림에서 싱크 워드를 찾는 방법 및상기 방법을 기록한 기록 매체 |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
EP1743326B1 (en) * | 2004-03-25 | 2011-05-18 | DTS, Inc. | Lossless multi-channel audio codec |
US7512536B2 (en) * | 2004-05-14 | 2009-03-31 | Texas Instruments Incorporated | Efficient filter bank computation for audio coding |
TWI253059B (en) * | 2004-08-04 | 2006-04-11 | Via Tech Inc | Sound fast-forward method and device |
KR20070074546A (ko) * | 2004-08-31 | 2007-07-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 트랜스코딩을 위한 방법 및 디바이스 |
US8744862B2 (en) * | 2006-08-18 | 2014-06-03 | Digital Rise Technology Co., Ltd. | Window selection based on transient detection and location to provide variable time resolution in processing frame-based data |
US7895034B2 (en) * | 2004-09-17 | 2011-02-22 | Digital Rise Technology Co., Ltd. | Audio encoding system |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
US7937271B2 (en) * | 2004-09-17 | 2011-05-03 | Digital Rise Technology Co., Ltd. | Audio decoding using variable-length codebook application ranges |
KR100668319B1 (ko) * | 2004-12-07 | 2007-01-12 | 삼성전자주식회사 | 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치 |
US7418394B2 (en) * | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
JP4639966B2 (ja) * | 2005-05-31 | 2011-02-23 | ヤマハ株式会社 | オーディオデータ圧縮方法およびオーディオデータ圧縮回路並びにオーディオデータ伸張回路 |
US7411528B2 (en) * | 2005-07-11 | 2008-08-12 | Lg Electronics Co., Ltd. | Apparatus and method of processing an audio signal |
WO2007010785A1 (ja) * | 2005-07-15 | 2007-01-25 | Matsushita Electric Industrial Co., Ltd. | オーディオデコーダ |
US20070081663A1 (en) * | 2005-10-12 | 2007-04-12 | Atsuhiro Sakurai | Time scale modification of audio based on power-complementary IIR filter decomposition |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
KR100735417B1 (ko) * | 2006-01-24 | 2007-07-04 | 삼성전자주식회사 | 음성 신호에서의 피크 특징 추출이 가능한 윈도우를정렬하는 방법 및 그 시스템 |
US20100211690A1 (en) * | 2009-02-13 | 2010-08-19 | Digital Fountain, Inc. | Block partitioning for a data stream |
ATE520120T1 (de) * | 2006-06-29 | 2011-08-15 | Nxp Bv | Klangrahmenlängenanpassung |
JP5093514B2 (ja) * | 2006-07-07 | 2012-12-12 | 日本電気株式会社 | オーディオ符号化装置、オーディオ符号化方法およびそのプログラム |
US7672842B2 (en) * | 2006-07-26 | 2010-03-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for FFT-based companding for automatic speech recognition |
CN101136901B (zh) * | 2006-08-18 | 2012-11-21 | 广州广晟数码技术有限公司 | 用于处理基于帧的数据的方法和系统 |
US8036903B2 (en) | 2006-10-18 | 2011-10-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
ES2631906T3 (es) | 2006-10-25 | 2017-09-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para la generación de valores de subbanda de audio, aparato y procedimiento para la generación de muestras de audio en el dominio temporal |
KR20080053739A (ko) * | 2006-12-11 | 2008-06-16 | 삼성전자주식회사 | 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법 |
CN101589623B (zh) | 2006-12-12 | 2013-03-13 | 弗劳恩霍夫应用研究促进协会 | 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法 |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
US8630863B2 (en) * | 2007-04-24 | 2014-01-14 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding audio/speech signal |
US7852197B2 (en) * | 2007-06-08 | 2010-12-14 | Sensomatic Electronics, LLC | System and method for inhibiting detection of deactivated labels using detection filters having an adaptive threshold |
CN106850118B (zh) | 2007-06-18 | 2019-05-10 | 松下电器(美国)知识产权公司 | 发送装置、参照信号生成方法、集成电路、接收装置及接收方法 |
ES2823560T3 (es) * | 2007-08-27 | 2021-05-07 | Ericsson Telefon Ab L M | Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable |
CA2697920C (en) * | 2007-08-27 | 2018-01-02 | Telefonaktiebolaget L M Ericsson (Publ) | Transient detector and method for supporting encoding of an audio signal |
JP5414684B2 (ja) | 2007-11-12 | 2014-02-12 | ザ ニールセン カンパニー (ユー エス) エルエルシー | 音声透かし、透かし検出、および透かし抽出を実行する方法および装置 |
US8457951B2 (en) * | 2008-01-29 | 2013-06-04 | The Nielsen Company (Us), Llc | Methods and apparatus for performing variable black length watermarking of media |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
US8630848B2 (en) | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
MY181231A (en) * | 2008-07-11 | 2020-12-21 | Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
KR101250309B1 (ko) * | 2008-07-11 | 2013-04-04 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법 |
PL3300076T3 (pl) | 2008-07-11 | 2019-11-29 | Fraunhofer Ges Forschung | Koder audio i dekoder audio |
JP5245622B2 (ja) * | 2008-07-31 | 2013-07-24 | 富士通株式会社 | ノイズ検出装置及びノイズ検出方法 |
US8108887B2 (en) | 2008-10-30 | 2012-01-31 | The Nielsen Company (Us), Llc | Methods and apparatus for identifying media content using temporal signal characteristics |
CN101751926B (zh) * | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码系统 |
JP5163545B2 (ja) * | 2009-03-05 | 2013-03-13 | 富士通株式会社 | オーディオ復号装置及びオーディオ復号方法 |
JP2010232861A (ja) * | 2009-03-26 | 2010-10-14 | Sony Corp | 情報処理装置、音声信号処理方法、およびプログラム |
US11657788B2 (en) | 2009-05-27 | 2023-05-23 | Dolby International Ab | Efficient combined harmonic transposition |
TWI484481B (zh) | 2009-05-27 | 2015-05-11 | 杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
JP5365363B2 (ja) * | 2009-06-23 | 2013-12-11 | ソニー株式会社 | 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム |
US8909531B2 (en) * | 2009-10-02 | 2014-12-09 | Mediatek Inc. | Methods and devices for displaying multimedia data emulating emotions based on image shuttering speed |
CN101694773B (zh) * | 2009-10-29 | 2011-06-22 | 北京理工大学 | 一种基于tda域的自适应窗切换方法 |
US8374858B2 (en) * | 2010-03-09 | 2013-02-12 | Dts, Inc. | Scalable lossless audio codec and authoring tool |
EP2553928A4 (en) * | 2010-03-26 | 2014-06-25 | Agency Science Tech & Res | METHODS AND DEVICES FOR OBTAINING AN ENCODED DIGITAL SIGNAL |
EP2619758B1 (en) * | 2010-10-15 | 2015-08-19 | Huawei Technologies Co., Ltd. | Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis |
US9197888B2 (en) | 2012-03-13 | 2015-11-24 | Dolby Laboratories Licensing Corporation | Overlapped rate control for video splicing applications |
US8725508B2 (en) * | 2012-03-27 | 2014-05-13 | Novospeech | Method and apparatus for element identification in a signal |
US9489962B2 (en) * | 2012-05-11 | 2016-11-08 | Panasonic Corporation | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method |
WO2014046916A1 (en) | 2012-09-21 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
TWI557727B (zh) | 2013-04-05 | 2016-11-11 | 杜比國際公司 | 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品 |
BR112016003029B1 (pt) * | 2013-08-23 | 2023-04-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Aparelho e método para processamento de um sinal de áudio utilizando uma combinação em uma faixa de sobreposição |
BR112016025850B1 (pt) * | 2014-05-08 | 2022-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Métodos para codificar um sinal de áudio e para discriminação de sinal de áudio, codificador para codificação de um sinal de áudio, discriminador de sinal de áudio, dispositivo de comunicação, e, meio de armazenamento legível por computador |
WO2017050398A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
US10861475B2 (en) * | 2015-11-10 | 2020-12-08 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
EP3616196A4 (en) * | 2017-04-28 | 2021-01-20 | DTS, Inc. | AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS |
WO2020061797A1 (zh) * | 2018-09-26 | 2020-04-02 | 华为技术有限公司 | 一种3d图形数据压缩和解压缩的方法及装置 |
CN111179970B (zh) * | 2019-08-02 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 音视频处理方法、合成方法、装置、电子设备及存储介质 |
EP4229633A1 (en) | 2020-10-16 | 2023-08-23 | Dolby Laboratories Licensing Corporation | Adaptive block switching with deep neural networks |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479562A (en) * | 1989-01-27 | 1995-12-26 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding audio information |
US5222189A (en) | 1989-01-27 | 1993-06-22 | Dolby Laboratories Licensing Corporation | Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio |
CA2332407C (en) * | 1989-01-27 | 2002-03-05 | Dolby Laboratories Licensing Corporation | Method for defining coding information |
DE3902948A1 (de) | 1989-02-01 | 1990-08-09 | Telefunken Fernseh & Rundfunk | Verfahren zur uebertragung eines signals |
CN1062963C (zh) | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US5369724A (en) * | 1992-01-17 | 1994-11-29 | Massachusetts Institute Of Technology | Method and apparatus for encoding, decoding and compression of audio-type data using reference coefficients located within a band of coefficients |
US5933567A (en) * | 1993-01-13 | 1999-08-03 | Hitachi America, Ltd. | Method and apparatus for controlling the position of the heads of a digital video tape recorder during trick play operation and for recording digital data on a tape |
US6137834A (en) | 1996-05-29 | 2000-10-24 | Sarnoff Corporation | Method and apparatus for splicing compressed information streams |
US5913190A (en) | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with video/audio data synchronization by audio sample rate conversion |
US5903872A (en) * | 1997-10-17 | 1999-05-11 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries |
US6124895A (en) * | 1997-10-17 | 2000-09-26 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with video/audio data synchronization by dynamic audio frame alignment |
-
1999
- 1999-01-28 US US09/239,345 patent/US6226608B1/en not_active Expired - Lifetime
-
2000
- 2000-01-20 WO PCT/US2000/001424 patent/WO2000045389A1/en active IP Right Grant
- 2000-01-20 EP EP00904459A patent/EP1151435B1/en not_active Expired - Lifetime
- 2000-01-20 BR BR0007775-5A patent/BR0007775A/pt not_active Application Discontinuation
- 2000-01-20 AT AT00904459T patent/ATE223612T1/de active
- 2000-01-20 AU AU26215/00A patent/AU771332B2/en not_active Expired
- 2000-01-20 JP JP2000596567A patent/JP4540232B2/ja not_active Expired - Lifetime
- 2000-01-20 DK DK00904459T patent/DK1151435T3/da active
- 2000-01-20 CN CNB008030634A patent/CN1255809C/zh not_active Expired - Lifetime
- 2000-01-20 ES ES00904459T patent/ES2179018T3/es not_active Expired - Lifetime
- 2000-01-20 DE DE60000412T patent/DE60000412T2/de not_active Expired - Lifetime
- 2000-01-20 MX MXPA01007547A patent/MXPA01007547A/es active IP Right Grant
- 2000-01-20 CA CA002354396A patent/CA2354396C/en not_active Expired - Lifetime
- 2000-01-20 KR KR1020017009474A patent/KR100702058B1/ko active IP Right Grant
- 2000-01-26 TW TW089101300A patent/TW519629B/zh not_active IP Right Cessation
- 2000-01-27 MY MYPI20000298A patent/MY128069A/en unknown
- 2000-01-27 AR ARP000100351A patent/AR022335A1/es unknown
-
2002
- 2002-07-02 HK HK02104927.8A patent/HK1043429B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CA2354396A1 (en) | 2000-08-03 |
CN1255809C (zh) | 2006-05-10 |
AR022335A1 (es) | 2002-09-04 |
EP1151435B1 (en) | 2002-09-04 |
TW519629B (en) | 2003-02-01 |
CN1338104A (zh) | 2002-02-27 |
HK1043429B (zh) | 2006-10-06 |
KR100702058B1 (ko) | 2007-03-30 |
DK1151435T3 (da) | 2002-10-14 |
WO2000045389A1 (en) | 2000-08-03 |
HK1043429A1 (en) | 2002-09-13 |
MY128069A (en) | 2007-01-31 |
DE60000412T2 (de) | 2003-08-07 |
DE60000412D1 (de) | 2002-10-10 |
AU2621500A (en) | 2000-08-18 |
CA2354396C (en) | 2008-10-21 |
EP1151435A1 (en) | 2001-11-07 |
BR0007775A (pt) | 2002-02-05 |
MXPA01007547A (es) | 2002-07-02 |
KR20010101749A (ko) | 2001-11-14 |
JP2002536681A (ja) | 2002-10-29 |
ATE223612T1 (de) | 2002-09-15 |
US6226608B1 (en) | 2001-05-01 |
AU771332B2 (en) | 2004-03-18 |
ES2179018T3 (es) | 2003-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4540232B2 (ja) | 適応性のあるブロック長符号化システムのためのデータ構成 | |
KR101455915B1 (ko) | 일반 오디오 및 음성 프레임을 포함하는 오디오 신호용 디코더 | |
KR101430332B1 (ko) | 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더 | |
JP4126681B2 (ja) | エイリアシング抑制追加フィルタバンク付フレーム・基礎オーディオ符号化 | |
EP2250572B1 (en) | Lossless multi-channel audio codec using adaptive segmentation with random access point (rap) capability | |
EP2054879B1 (en) | Re-phasing of decoder states after packet loss | |
JP4290997B2 (ja) | プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 | |
JP2001521309A5 (ja) | ||
US20060173675A1 (en) | Switching between coding schemes | |
JP4126680B2 (ja) | エイリアシング抑制追加フィルタバンク付フレーム・基礎オーディオ符号化 | |
EP1743326B1 (en) | Lossless multi-channel audio codec | |
JP4229586B2 (ja) | エイリアシング抑制追加フィルタバンク付フレーム・基礎オーディオ符号化 | |
KR100955014B1 (ko) | 디지털 정보 신호의 인코딩과 디코딩을 위한 방법 및 장치 | |
JP2001521308A5 (ja) | ||
JP2001521347A5 (ja) | ||
JP4126682B2 (ja) | エイリアシング抑制追加フィルタバンク付フレーム・基礎オーディオ符号化 | |
JP2001521259A (ja) | エイリアシング抑制追加フィルタバンク付フレーム・基礎オーディオ符号化 | |
JP2001521310A5 (ja) | ||
WO2005050651A1 (en) | Frame based audio transmission/storage with overlap to facilitate smooth crossfading | |
JP2004538502A (ja) | オーディオ信号の編集 | |
JP6654236B2 (ja) | オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070119 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4540232 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130702 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |