JP2004528597A - プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 - Google Patents
プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 Download PDFInfo
- Publication number
- JP2004528597A JP2004528597A JP2002590350A JP2002590350A JP2004528597A JP 2004528597 A JP2004528597 A JP 2004528597A JP 2002590350 A JP2002590350 A JP 2002590350A JP 2002590350 A JP2002590350 A JP 2002590350A JP 2004528597 A JP2004528597 A JP 2004528597A
- Authority
- JP
- Japan
- Prior art keywords
- transient
- audio
- time scaling
- time
- stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001052 transient effect Effects 0.000 title claims description 277
- 230000005236 sound signal Effects 0.000 claims abstract description 78
- 230000002123 temporal effect Effects 0.000 claims abstract description 52
- 230000002829 reductive effect Effects 0.000 claims abstract description 22
- 238000007906 compression Methods 0.000 claims abstract description 17
- 230000006835 compression Effects 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 141
- 238000012545 processing Methods 0.000 claims description 43
- 230000000694 effects Effects 0.000 claims description 31
- 230000008859 change Effects 0.000 claims description 9
- 230000001447 compensatory effect Effects 0.000 claims 4
- 230000004075 alteration Effects 0.000 claims 1
- 238000013139 quantization Methods 0.000 abstract description 8
- 238000006243 chemical reaction Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 57
- 238000007781 pre-processing Methods 0.000 description 29
- 238000012805 post-processing Methods 0.000 description 25
- 230000000873 masking effect Effects 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 19
- 238000001514 detection method Methods 0.000 description 17
- 230000009467 reduction Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 239000000872 buffer Substances 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 239000007787 solid Substances 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Noise Elimination (AREA)
Abstract
Description
【0001】
本発明は、一般的に音楽や音声のようなオーディオ信号を表現する情報の低ビットレートディジタル変換によるコーディングとデコーディングの分野に関する。とりわけ、本発明は、このようなコーディングとデコーディングにより生み出されるオーディオ信号の流れにおけるシグナルトランジエント(「プレノイズ」)に先立つひずみによるアーティファクトの縮減に関する。
【背景技術】
【0002】
タイムスケーリング
タイムスケーリングは、スペクトル内容(音色の認識)、もしくは、知覚された信号のピッチ(ここでピッチとは、周期的なオーディオ信号に関連する特徴である)を変化させないで、オーディオ信号の時間的展開又は継続時間を変化させることに関するものである。ピッチスケーリングは、オーディオ信号の時間展開又は継続時間に影響を与えないで、オーディオ信号のスペクトル内容、もしくは、知覚された信号のピッチを変化させることに関するものである。タイムスケーリング及びピッチスケーリングは、お互いに二元的な方法である。例えば、オーディオ信号を5%タイムスケーリングし(信号継続時間を増加させ)、そして、5%高いサンプルレートで(例えば再サンプルにより)サンプル値を読み取り、それによりそのオリジナルな信号継続時間を維持させるようにしながら、ディジタル化されたオーディオシグナルのピッチをその継続時間に影響を与えることなく5%スケールアップすることが可能である。この結果としての信号は、オリジナルの信号と同じ継続時間となるが、修正されたピッチあるいはスペクトル特性となる。一定の出力サンプリングレート又は入出力サンプリングレートを同じにすることが要求されないなら、再サンプリングは、タイムスケーリング又はピッチスケーリング本質的なステップではない。
【0003】
本発明の特徴では、オーディオの流れに対してタイムスケーリング処理が採用されている。しかし、上述の通り、タイムスケーリングは、お互いに一対のものであるから、ピッチスケーリングの技術も使って実行される。このように、ここで「タイムスケーリング」の用語が使われるときは、タイムスケーリングを実行するためのピッチスケーリングを用いた技術もまた採用されている。
【0004】
低ビットレートオーディオコーディング
信号の質を知覚できるほど落とさないで、信号を表現するのに必要な情報量を最小限にすることは、信号処理の分野で大きな関心がもたれている。要求情報量を減らすことによって、信号伝達チャンネルや記憶媒体に対する情報処理容量の要求が低くなる。ディジタルコーディング技術に関しては、情報処理要求を最小限にすることは、2進ビットの必要量を最小限にすることと同義となる。
【0005】
人に聞かせることを意図するオーディオ信号のコーディング技術についての先行技術では、サイコアコースティックな効果を活用することにより、聴覚的な質の低下なしで要求情報量を減らそうとする。人間の耳は、様々な中心周波数を持った非対称の高度に調整されたフィルターの特性に似た周波数特性を発揮する。人間の耳が音色の違いを検知する能力は、一般には、音色同士の周波数の違いが大きくなるにつれて大きくなる。しかし、耳の分解能は、上述のフィルターのバンド幅より小さい周波数の差に対しては、実質的に一定である。したがって、人間の耳の周波数分解能は、オーディオスペクトル全体にわたるこれらのフィルターのバンド幅に従い変化する。このような聴覚的フィルターの効果の大きいバンド幅をクリティカルバンドと称する。クリティカルバンド内における優位な信号は、クリティカルバンドの外にある周波数の他の信号より、クリティカルバンド内の他のどの信号に対しても可聴性をマスクするのに適している。優位な信号は、同時に発生した他の信号のみならず、このマスキング信号より前又は後に発生した信号に対してもマスクすることができる。クリティカルバンド内のプレ及びポストマスキング効果の継続時間は、マスキング信号の振幅に依存するが、プレマスキング効果は、普通、ポストマスキング効果に比べてかなり短い継続時間となる。一般技術として「the Audio Engineering Handbook」K. Blair Benson編著 McGraw-Hill, San Francisco, 1988, 1.40 - 1.42及び4.8 - 4.10ページ参照。
【0006】
有用な信号バンド幅を耳のクリティカルバンドに近似したバンド幅の周波数バンドに分割する録音及び伝達技術は、バンド幅を広げる技術よりサイコアコースティックな効果を活用することができる。サイコアコースティックなマスキング効果を活用する技術により、PCMコーディングに要求されるビットレートよりも低いビットレートを用いても、元の入力信号と見分けのつかない信号をエンコードし再生することができる。
【0007】
クリティカルバンド技術は、信号バンド幅を周波数バンドに分割すること、各周波数バンドにおいて信号処理を行うこと、そして、各周波数バンドにおいて処理された信号から元の信号の複製を再構築することからなる。2つのこのような技術としては、サブバンドコーディングとトランスフォームコーディングとがある。サブバンド及びトランスフォームコーダーは、特定の周波数バンドで伝達する情報要求量を減らすことができ、そこでは精度の低いコーディングの結果(ノイズ)は、エンコードされた信号の品質を落とさずに、近隣の周波数成分によりサイコアコースティックにマスクされる。
【0008】
ディジタルバンドパスフィルターバンクはサブバンドコーディングの要求を満たす。トランスフォームコーディングは、ディジタルバンドパスフィルターバンクを提供する不連続な時間領域から周波数領域へのどんな変換によっても実行され得る。残りの議論は特にトランスフォームコーダーに関するので、サブバンドコーダーによるものであろうと、トランスフォームコーダーによるものであろうと、「サブバンド」の語は、ここでは全信号のバンド幅における選択された部分をいう。トランスフォームコーダーにより実行されたサブバンドは1以上の隣り合う変換係数のセットにより定義される。したがって、サブバンドのバンド幅は、バンド幅変換係数の複合体である。変換係数のバンド幅は、入力信号のサンプリングレートに比例し、入力信号を再現するための変換により発生する係数の数に逆比例する。
【0009】
サイコアコースティックなマスキングは、可聴なスペクトル全体にわたるサブバンドのバンド幅が、同じスペクトルにおいて、人間のクリティカルバンド幅の約半分であれば、トランスフォームコーダーにより実施され得る。これは、サブバンド及びトランスフォームコーダーは典型的に固定されたサブバンドの中心周波数を持つのに対し、人間の耳のクリティカルバンドは音の刺激に順応して変化する中心周波数を持つからである。サイコアコースティックなマスキング効果を最適化するために、優位な信号の存在の結果生ずるひずみアーティファクトは、優位な信号を含むサブバンド内に制限すべきである。もし、サブバンドのバンド幅がクリティカルバンドの約半分以下であり、フィルターの選択性能が十分高ければ、周波数がサブバンドのパスバンドバンド幅の端近くにあっても、好ましくないひずみの発生に対するマスキングには好都合である。もし、サブバンドのバンド幅がクリティカルバンドの半分以上であれば、優位な信号が耳のクリティカルバンドにコーダーのサブバンドからのずれを起こさせ、耳のクリティカルバンド幅の外側にある好ましくないひずみの発生がマスクされない。この効果は耳のクリティカルバンド幅が狭くなる低周波においてもっとも好ましくない事象である。
【0010】
優位な信号が耳のクリティカルバンドにコーダーのサブバンドからのずれを起こさせ、これにより、同じコーダーのサブバンドにおける他の信号がカバーされない可能性は、一般的に、耳のクリティカルバンド幅が狭くなる低周波において大きくなる。トランスフォームコーダーにおいて、最も狭いサブバンドは1つの変換係数であり、したがって、サイコアコースティックなマスキングは、もし、変換係数のバンド幅が耳の最狭のクリティカルバンドにおけるバンド幅の2分の1を超えなければもっと簡単に実行されるであろう。変換の長さを増大することは、変換係数のバンド幅を減少させる可能性がある。変換の長さを増大させることの1つの不利益は、変換を計算し、より多くの数の狭いサブバンドをエンコードするための、処理の複雑さを増大させることである。他の不利益については以下に説明する。
【0011】
もちろん、もし、これらのサブバンドの中心周波数が優位な信号成分に応じて、耳のクリティカルバンドの中心周波数がずれるのと同じようにずれるのなら、サイコアコースティックなマスキングは、広いサブバンドに用いることができる。
【0012】
サイコアコースティックなマスキング効果を活用する能力は、変換により実行されるフィルターバンクの選択性にも依存する。フィルターの「選択性」は、ここで使われている用語のように、サブバンドのバンドパスフィルターとしての2つの特性をいう。1番目は、フィルターのパスバンドとストップバンドの間の領域のバンド幅(伝達バンドの幅)である。2番目は、ストップバンドにおける減衰の程度である。このように、フィルターの選択性とは、トランジッションバンド内でのフィルター応答曲線の急峻さ(トランジッションバンドのロールオフの急峻さ)と、ストップバンドにおける減衰の程度(ストップバンドリジェクジョンの深さ)を言う。
【0013】
フィルターの選択性は、以下に論ずる3つのファクター、すなわち、ブロック長さ、重み付け窓関数、及び変換、を含めた数多くのファクターにより直接的に影響を受ける。ごく一般的には、ブロック長さはコーダーの時間的および周波数的分解能に影響し、窓と変換はコーディングのゲインに影響を及ぼす。
【0014】
低ビットレートのコーディング/ブロック長さ
エンコードされる入力信号は、サンプルリングされ、サブバンドフィルタリングの前に「信号サンプルブロック」にセグメント化される。信号サンプルにおけるサンプルの数が信号サンプルブロック長さとなる。
【0015】
変換フィルターバンクによりつくられた係数の数(変換長さ)が信号サンプルブロック長さに等しくなることは一般的であるが、必ずしもその必要はない。重複ブロック変換が使われ、これは、長さN信号サンプルブロックを2Nのサンプルを持った信号サンプルブロックに変換する変換技術としてたまに記述されている。この変換は、また、Nの一意的な係数を発生させる2Nの長さを変換させるものとして記載されることもある。なぜなら、ここで論ずるすべての変換は信号サンプルブロック長さと同じ長さを持つと考えることができ、この二つの長さは一般にここではお互いに同じ意味で使われるからである。
【0016】
信号サンプルブロックは、変換コーダーの時間的および周波数的分解能に影響する。短いブロック長さに用いられる変換コーダーは、離散的な変換係数のビット幅が広くそしてフィルターの選択性が低いため、貧弱な周波数分解能(低いトランジッション・バンド・ロールオフと減少したストップバンド・リジェクション)を持つ。このようなフィルター特性の低下は信号のスペクトル成分のエネルギーを近傍の変換係数に拡散させてしまう。この好ましくないスペクトルエネルギーの拡散は、「サイドローブリーケージ(sidelobe leakage)」と呼ばれ、フィルターの特性の低下をもたらす。
【0017】
量子化誤差により、変換コーダー/デコーダーシステムは、信号サンプルブロック全長にわたってサンプルされた信号の周波数成分が「不鮮明」になるので、長いブロック長さに用いる変換コーダーは、時間的分解能が貧弱となる。逆変換により回復した信号中のひずみによるアーティファクトは、信号サンプルブロック長さに比べてはるかに短い時間内で行われる信号振幅の大きな変化の結果、概して可聴なものとなる。このような振幅の変化をここでは「トランジエント」と称す。このようなひずみは、エコー又はリンギングとなって、トランジエントの直前(プレトランジエントノイズ又は「プレノイズ」)又は直後(ポストトランジエントノイズ)に現れる。オーディオ機器のトランジエントの高周波成分が、それが発生したオーディオコーダーブロックの長さにわたって一時的に不鮮明になるとき、プレノイズが発生する。本発明はプレノイズを最小限にすることに関するものである。ポストトランジエントノイズは、おおむねマスクされるので本発明の対象ではない。
【0018】
固定ブロック長さ変換コーダーは、時間的分解能が周波数分解能に対して二律背反関係にある妥協的なブロック長さを用いる。短いブロック長さは、サブバンドフィルターの選択性を劣化させ、低周波数領域又は全領域で耳のクリティカルバンド幅を超えるバンド幅の名目的なパスバンドフィルターとなってしまうかもしれない。たとえこの名目的なサブバンドのバンド幅が耳のクリティカルバンド幅より狭くても、広いトランジッション・バンド及び/又は貧弱なストップバンド・リジェクションとして表現される劣化した特性は、耳のクリティカルバンド幅の外側に、著しい信号アーティファクトをもたらすであろう。一方、長いブロック長さは、フィルターの選択性を改善するが時間的分解能を低下させ、耳のサイコアコースティックな時間的なマスキングの時間間隔の外側に、可聴な信号ひずみを起こさせる結果となるかもしれない。
【0019】
窓関数
有限時間の信号セグメントつまり信号サンプルブロック内で作用するので、離散的な変換は全く正確な信号係数を生み出すわけではない。厳密にいえば、離散的変換は、無限のサンプルブロック長さの信号サンプルを必要とする真の周波数領域を表現するというより、入力時間領域における時間と周波数の関係を表現する。しかしここでは議論を簡単にするため、離散的変換の出力は周波数領域を表現するものとする。実質的に、離散的変換は信号サンプルブロック長さの約数となる周期の周波数成分のみを持つサンプル信号であると想定する。これは、有限長さの信号が周期的であるという想定と等価である。この想定は一般的にはもちろん正しくない。この想定された周期は、信号サンプルブロックの端で不連続性を生み、変換により実体のないスペクトル成分を生み出す原因となる。
【0020】
このような影響を最小限に抑える技術の1つは、変換の前に信号サンプルブロックの端近くのサンプルがゼロ又はゼロ付近になるような信号サンプルに対する重み付けを行って不連続性を減少させる技術である。信号サンプルブロックの中央にあるサンプルは、原則として変化させずに、つまり係数1の重み付けを行って、通過する。この重み付け関数は「分析窓(analysis window)」と呼ばれる。窓の形は直接的にフィルターの選択性に影響を及ぼす。
【0021】
ここで用いたように、「分析窓」の用語は、正変換の適用に先立って実行される窓関数のみをいう。分析窓は時間領域の関数である。窓の効果に対する補償がなければ、復元された又は「合成された(synthesized)」信号は、分析窓の形に応じてひずむ。1つの補償方法はオーバーラップアド(overlap-add)として芸術の分野でよく知られている。この方法は入力信号サンプルのブロックに重複して変換するコーダーを必要とする。2つの隣り合う窓が一体となるよう重複しながらつながるよう注意深く分析窓を設計することで、窓の効果は完全に相殺される。
【0022】
窓の形は、フィルターの選択性に大きな影響を与える。一般技術としてHarrisの「On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform」Proc IEEE, vol. 66, January, 1978, 51 - 83ページ参照のこと。一般的に、窓に形成され重複期間の大きい「スムーサー」はよい選択性をもたらす。例えば、カイザー‐ベッセル窓は正弦波の傾きを持った方形窓より良い選択性を提供する。
【0023】
離散フーリエ変換(DFT)のようなタイプの変換を用いると、重複期間における信号部分は、重複した2つの信号サンプルブロックの各々について1回、つまり2度変換し送信しなければならないので、オーバーラップアドは、信号を表現するのに必要なビット数を増やす。オーバーラップアドに用いるこのような変換に使うシステムのための信号の分析/合成は注意深くサンプルされた(critically sampled)ものではない。「注意深くサンプルされた(critically sampled)」の用語は、1周期にわたって、受け取った入力信号サンプルの数と同じ数の周波数係数を発生させる信号の分析/合成をいう。したがって、注意深くサンプルされたものでないシステムは、コード化された信号情報に対する要求を最小限にするために、できるだけ重複期間を小さくするよう窓を設計することが望ましい。
【0024】
いくつかの変換においては、逆変換による合成出力が窓化されることも要求される。合成窓は、各合成された信号ブロックに用いられる。したがって、合成された信号は分析及び合成窓の両方により重み付けされる。この2つのステップによる重み付けは、サンプルごとに分析および合成窓の出力と同じ形の窓により元の信号に対し1度重み付けをするのと数学的に同等である。したがって、窓によるひずみを補償するためのオーバーラップアドに用いるために、2つの窓は、両者の合計がオーバーラップアドの周期にわたって一貫するように設計されなければならない。窓の最適化を評価するために用いる単一の基準がないので、窓を使ったフィルターの選択性が「良い」と考えられれば、その窓は一般的に「良い」と考えられる。したがって、うまく設計された分析窓(分析窓のみを用いた変換に対して)又は分析/合成窓のペア(分析窓及び合成窓の両方を用いた変換に対して)はサイドローブリーケージを減らすことができる。
【0025】
ブロック切り替え
固定ブロック長さの変換コーダーにおける時間と周波数の分解能に関する妥協に対応する一般的な解決手段は、トランジエントの検出とブロック長さの切り替えである。この解決手段において、信号トランジエントの存在とその位置は、様々なトランジエント検出法を用いて検出される。信号コーダーブロック長さの長いものを用いると、プレノイズが発生しそうなトランジエント・オーディオ信号が検出されたとき、低ビットレートのコーダーが、効率の良い長いブロック長さから効率が劣る短いブロック長さに切り替える。これは、エンコードされたオーディオ信号の周波数分解能とコーディング効率を下げる一方、コーディングプロセスにより発生する過渡的なプレノイズの長さも短くし、低ビットレートでのデコーディングにおけるオーディオの知覚される質を改善する。ブロック長さを切り替える技術は、米国特許5,394,473、5,848,391、及び6,226,608B1に開示されており、これらは、全体的に参照用として本出願に組み込まれる。しかし、本発明はブロック切り替えの複雑さや不都合なしに、プレノイズを減らすもので、ブロック切り替えとともにあるいはブロック切り替えに付け加えて用いられる。
【発明の開示】
【0026】
本発明の第1の特徴によれば、コーディングブロックに用いる低ビットレートのオーディオコーディングシステムを基本とする変換により処理されるオーディオ信号の流れにおける信号トランジエントに先立つひずみアーティファクトを縮減する方法であって、オーディオ信号の流れにおけるトランジエントの検出と、コーディングブロックに関してトランジエントの時間的な関係をひずみアーティファクトの継続時間を縮減するように切り替えることとを具備する。
【0027】
オーディオ信号は分析されトランジエント信号の位置は特定される。次いで、デコードされたオーディオ信号内のプレノイズの量を減らすために、低ビットレートのオーディオエンコーダーを基本とする変換における量子化に先立って、トランジエントが一時的に位置を変えるような方法で、オーディオデータがタイムスケールされる。このような、エンコーディングやデコーディングに先立つ処理をここでは「プレプロセッシング」という。
【0028】
このように、量子化処理は、不要なプレノイズアーティファクトを発生しエンコーディングブロック全体にわたってトランジエントを不鮮明にするので、エンコーダーにおける量子化に先立って、トランジエントは、タイムスケーリング(時間圧縮又は時間伸張)を用いてブロックエンドに対してよい位置に移行される。このようなプレプロセッシングは「トランジエントタイムシフティング」と称しても良い。トランジエントタイムシフティングは、トランジエントの特定を必要とし、また、ブロックエンドからの一時的な相対位置に関する情報も必要とする。原則として、トランジエントタイムシフティングは、時間領域において前向きの変換の適用に先立って、あるいは周波数領域において正変換の適用に続いて、しかし、量子化の前に実行することができる。実際には、トランジエントタイムシフティングは、特に、以下に述べる補償のためのタイムスケーリングを行うときは、時間領域において正変換の適用に先立って実行するのがより簡単であろう。
【0029】
トランジエントとオーディオの流れはもはや元の相対時間位置にないから、すなわち、オーディオの流れにおける時間展開は、トランジエントの前のオーディオの流れに対する時間圧縮又は時間伸張の結果変化しているから、トランジエントタイムシフティングの結果、可聴となるかもしれない。リスナーは、例えば音楽の一部としてのリズムが変化したように感じるであろう。
【0030】
このようなオーディオの流れにおける時間展開の変化を減らすための、本発明の特徴となるいくつかの補償技術がある。これらの補償技術は、オーディオ信号における時間展開の多少の変動をほとんどのリスナーは認識しないため、任意的なものである。補償技術については、本発明の第2の特徴について論じた後に論ずる。
【0031】
本発明の第2の特徴によれば、コーディングブロックに用いる低ビットレートのオーディオコーディングシステムを基本とする変換によるエンコーダーにおいて、逆変換に続くオーディオ信号の流れにおける信号トランジエントに先立つひずみアーティファクトを縮減する方法であって、オーディオ信号の流れにおけるトランジエントの検出と、少なくともひずみアーティファクトの部分を、ひずみアーティファクトの継続時間を縮減するように時間圧縮することとを具備する。
【0032】
かかる処理により、ここでは「ポストプロセッシング」と称し、プレプロセッシングを採用しようとしないとにかかわらず、採用した場合は、エンコーダーがポストプロセッシングに有効なメタデータを送ろうと送らないとにかかわらず、低ビットレートのオーディオエンコーディングに耐えるどのようなオーディオの質の改善も可能となる。トランジエント信号の位置を特定し、過渡的なプレノイズアーティファクトの継続時間を推定するために、低ビットレートのオーディオエンコーディング及びデコーディングに耐えるあらゆるオーディオ信号が分析される。次いで、トランジエント信号のプレノイズを除去するため又はその持続時間を短くするため、タイムスケールのポストプロセッシングがオーディオに対して実行される。
【0033】
前述の通り、オーディオの流れでの時間展開における変質を少なくするため、いくつかの補償技術が存在する。これらのタイムスケーリングを補償する技術は、オーディオのサンプル数を一定に保つという有益な効果も持つ。
【0034】
最初にタイムスケーリングを補償する技術は、プレプロセッシングに関連して有用であり、正変換に先立って実行される。トランジエントに続くオーディオの流れに補償のためのタイムスケーリングが適用され、ここでのタイムスケーリングはトランジエントの位置をずらすために適用されるタイムスケーリングとは反対の意図を持っており、実質的にトランジエントの位置をずらすタイムスケーリングと同じ継続時間を持つことが好ましい。議論を容易にするため、このタイプの補償をここでは、「サンプル数補償」と称する。なぜなら、オーディオのサンプル数を一定に保つことができるからであるが、元のオーディオ信号の流れの時間展開を全部記憶することはできない(トランジエントとトランジエントの近傍の信号の流れを一時的にその場所の外に残す)。サンプル数を補償することに供するタイムスケーリングは、トランジエントによって時間的にポストマスキングされるようなトランジエントのすぐ後に続くことが好ましい。
【0035】
サンプル数補償によりトランジエントは元の時間的位置から移動されるが、タイムスケーリングの補償に続くオーディオの流れは元の時間的相対位置に戻される。このように、トランジエントは依然として元の位置のからずれているため、タイムシフティングのトランジエントが可聴となる可能性は減少するが、トランジエントは消去されない。それにもかかわらず、これは可聴性を十分減少させることができ、標準的な修正されないデコーダーを用いて低ビットレートオーディオのエンコーディングに先立って実行されるという有利な点を持っている。以下に説明するように、オーディオ信号の流れの時間展開の完全な復元はデコーダーの処理中又はデコーダーの後でのみ実行することができる。トランジエントタイムシフティングが可聴となる可能性を減らすことに加え、正変換に先立つタイムスケーリング補償はオーディオサンプル数を一定に保つという有利な点を持っており、これは処理及び/又は処理に用いられたハードウエアの運転のために重要であろう。正変換に先立つタイムスケーリング補償を最適化するために、トランジエントの位置及びトランジエントタイムシフティングの時間的な長さに関する情報は補償処理において採用されるべきである。
【0036】
もし、トランジエントタイムシフティングがブロッキングの後で(しかし、正変換の前に)適用されると、ブロック長さが同じに保たれるようにトランジエントタイムシフティングが行われるようなブロックと同じブロック内でサンプル数補償を適用することが必要となる。したがって、ブロッキングの前にトランジエントタイムシフティングとサンプル数補償を実行することが望ましい。
【0037】
サンプル数補償は、ポストプロセッシングに関連して、逆変換(デコーダーの中あるいはデコーディングの後のどちらか)の後に適用しても良い。この場合は、補償の実行に有用な情報は、(情報はエンコーダー及び/又はデコーダーに起因しているかもしれない)デコーダーから補償処理に伝達される。
【0038】
元のオーディオサンプル数の復元を伴うもっと完全なオーディオ信号の流れの時間展開の復元は、補償のためのタイムスケーリングを適用することにより、逆変換(デコーダーの中あるいはデコーディングの後のどちらか)の後に実行しても良い。ここでのタイムスケーリングはトランジエントの位置をずらすために適用されるタイムスケーリングとは反対の意図を持っており、実質的にトランジエントの位置をずらすタイムスケーリングと同じ継続時間を持つことが好ましい。議論を容易にするため、このタイプの補償をここでは「時間展開補償」と称する。このタイムスケーリング補償は、元の時間的相対位置にたいするトランジエントを含めてオーディオの流れ全体を復元するのに著しく有利である。このように、2つのタイムスケーリング自身が可聴なアーティファクトの原因になるので、タイムスケーリング処理における可聴性を削除できないが、可聴となる可能性を大幅に削減することができる。
【0039】
時間展開の補償を最適化するために、トランジエントの位置、ブロックエンドの位置、トランジエントタイムシフティングの長さ、及びプレノイズの長さのような種々の情報が有効となる。プレノイズの長さは、時間展開の補償におけるタイムスケーリングがプレノイズ中に起こらないこと、例えばプレノイズの時間的長さを拡大する可能性がないことを確かなものとするために有益である。もしオーディオの流れを元の時間的相対位置に戻すことが要求されるのなら、またサンプル数を一定に保持することが要求されるのなら、トランジエントタイムシフティングの長さは、有益である。トランジエントの位置は、プレノイズの長さがコーディングブロックの終端に関連してトランジエントの元の位置から決定されるので、有益である。プレノイズの長さは、高周波成分のような信号パラメーターの計測により推定されるかあるいは初期設定値が用いられる。もし補償がデコーダーの中あるいはデコーディングの後に実行されるなら、有益な情報はエンコードされたオーディオとともにメタデータとしてエンコーダーにより送られる。デコーディングの後に実行されたとき、メタデータは、デコーダー(情報はエンコーダー及び/又はデコーダーに起因しているかもしれない)から補償プロセスへと送られる。
【0040】
前述の通り、プレノイズのアーティファクトの長さを減らすためのポストプロセッシングを、タイムスケーリングのプレプロセッシングを実行するオーディオコーダーに対する追加のステップとして適用してもよい。このようなポストプロセッシングは、プレプロセッシングの後であってもなお残るプレノイズを減らすことでさらに質を向上させる役割を果たすであろう。プレプロセッシングは、コストの高い専門家用のエンコーダーに採用されることが望ましく、デコーダーに関してポストプロセッシングと比べて複雑さと時間遅れはあまり重要ではなく、一般消費者向けのものは普通は複雑さは少ない。本発明における低ビットレートのオーディオコーディングシステムの質向上のための技術は、将来有効となるタイムスケーリング技術も含めてどんなタイムスケーリング技術にも用いられる。このような技術のひとつは、国際出願PCT/US02/04317、2002年2月12日出願、表題「High Quality Time-Scaling and Pitch-Scaling of Audio Signals」に記載されている。前記出願は米国その他を指定している。この出願は、全体的に参照用としてここに組み込まれる。先に論じたように、タイムスケーリングとピッチスケーリングはお互いに二元的な方法なので、タイムスケーリングは、将来可能となるすべてのピッチスケーリング技術も含めてあらゆる適当なピッチスケーリング技術を用いて実行することができる。入力サンプルレートとは異なる適当なレートでのオーディオサンプルの読み込みに続くピッチスケーリングは、同じスペクトル内容又は元のオーディオと同じピッチのタイムスケーリングされたオーディオをもたらすので、本発明に適用することができる。低ビットレートのオーディオコーディングについての背景概要で論じた通り、オーディオコーディングシステムにおけるブロック長さの選択は、時間的分解能と周波数分解能との二律背反関係になってしまう。一般的に、長いブロック長さは、短いブロック長さと比較して、コーダー(一般には、データービット数を減らすことで知覚できるオーディオの質は非常に向上する)の効率の増大をもたらすので好ましい。しかし、発生するトランジエント信号とプレノイズ信号は、聴覚を損なうので、長いブロック長さによる質の向上を相殺してしまう。低ビットレートオーディオコーダーにおいて、ブロック切り替え又は固定の短いブロック長さが実際のアプリケーションに用いられるのはこのためである。しかし、本発明によるタイムスケーリングを、低ビットレートのオーディオコーディングに耐える及び/又はポストプロセッシングに耐えていたオーディオに適用することは、過渡的なプレノイズの持続時間を削減するかもしれない。このことは、より長いオーディオコーディングブロック長さの使用を可能とし、それによりコーディング効率の向上と、ブロック長さの切り替えの適用なしに知覚されたオーディオの質の向上をもたらす。しかし、本発明によるプレノイズの縮減は、ブロック長さの切り替えに採用されるコーディングシステムにも採用される。このようなシステムにおいて、いくらかのプレノイズは最小の窓サイズにおいても存在することがある。窓を大きくすればするほど、長い、したがってもっとよく聞こえるプレノイズが発生する。典型的なトランジエントは、約5msecのプレマスキングを提供し、これは48kHzのサンプリングレートにおいて240個のサンプルに相当する。もし窓が、ブロック切り替え構成において一般的な256個のサンプルより大きければ、本発明は利益をもたらす。
【0041】
オーディオコーディング・トランジエント・プレノイズアーティファクト
図1a−1eは、固定ブロック長さのオーディオコードシステムにおいて発生した過渡的なプレノイズアーティファクトの例を示す。図1aは50%重複とした、固定長さのオーディオコーディング窓化された1から6までのブロックを示す。この図及び他のすべての図において、各窓はオーディオコーディングブロックと連続しており、「窓ブロック」、「窓」、又は「ブロック」と称する。本図及び他の図において、図示された窓は、一般にカイザー‐ベッセル窓の形で示される。他の図では簡単に表現するために半円の形で窓を図示している。窓の形は本発明では決定的なものではない。図1a及び他の図における窓ブロックの長さは本発明では決定的ではないが、固定長の窓ブロックは典型的には256個から2048個のサンプル数の長さになる。図1bから1eまでの4つのオーディオ信号の例は、各々、オーディオコーディング窓ブロックと過渡的なプレノイズアーティファクトとの関係を描いている。
【0042】
図1bは、コードされるべき入力オーディオの流れにおけるトランジエント信号の位置と50%重複した窓ブロックの端との関係を描いている。50%重複した固定長さブロックが描かれているが、本発明は固定及び可変ブロック長さのコーディングシステムに適用可能であり、図2aから5bまでに関連して以下に説明するような重複がない場合も含めて、50%重複ではないブロックに対しても適用可能である。
【0043】
図1cは、図1bに図示したオーディオ信号の流れを入力とした場合におけるオーディオコーディングシステムの出力オーディオ信号の流れを示す。図1bと1cに示すように、トランジエントは窓ブロック3の終端と窓ブロック4の終端の間に位置している。図1cは、トランジエント位置と窓ブロック2の終端とに関連して、低ビットレートオーディオコーディング処理により誘起された過渡的なプレノイズの長さと位置を描いている。プレノイズはトランジエントの前にあり、トランジエントが横たわるサンプルブロックである窓ブロック4及び5に制限されていることに注意すべきである。
【0044】
図1b及び1cと同様に、図1d及び1eは、各々、窓ブロック2の終端と窓ブロック3の終端の間に位置するトランジエントを含む入力オーディオ信号の流れと、出力オーディオ信号の流れ内にオーディオコーディング処理により誘起されたプレノイズとの関係を示している。プレノイズは、トランジエントが横たわる窓ブロック3及び4に制限されているので、プレノイズは、窓ブロック3の始点にまで後ろに伸びている。この場合は、図1b及び1cにおけるトランジエントの窓ブロック4の終端までの距離に比べて、この場合のトランジエントは、窓ブロック3の終端近くにあるため、プレノイズが長く継続している。プレノイズがその次の前方窓ブロックの終端までにしか伸張しないような、理想的なトランジエントの位置は、その前の窓ブロックの終端にごく近いことである(このような50%重複ブロックの例では、ブロック長さの半分程度)。
【0045】
図1a−1eの例では、コーディング窓の境界でのクロスフェードの効果を明確に考慮していないことに注意すべきである。一般に、オーディオコーディング窓はだんだん小さくなっているので、プレノイズによるアーティファクトはそれに従い縮小してゆきその可聴性も減少する。表現を簡単にするため、ここではプレノイズによるアーティファクトの縮小は理想的な形の波形では示されていない。
【0046】
図1a−1eに示唆し、図2A,2B,3A,3B,4A,4B,5A及び5Bに示したように、オーディオのエンコーディングに先立ち、トランジエント信号の位置を注意深く決めれば、オーディオコーダーによる過渡的なプレノイズによるアーティファクトは最小限にすることができる。
【0047】
プレノイズを減らすために、トランジエントの位置を再配置する例を、重複なしのブロック(図2aと2b)、50%以下の重複ブロック(図3aと3b)、50%重複ブロック(図4aと4b)、及び50%以下の重複ブロック(図5aと5b)において、図2a,2b,3a,3b,4a,4b,5a及び5bに示した。各場合において、トランジエントの元の位置が2つの連続するブロックの終端と等距離の位置(この場合、選べない)にない限り、トランジエントを近い方のブロック終端のごく近くに移動させることが好ましい。移動先が前のブロック終端であろうと、次のブロック終端であろうと、最も近くのブロック終端であろうとなかろうと、結果発生するプレノイズは実質的に同じである。しかし、一時的にトランジエントを最も近いブロック終端のごく後ろに移動させることで、オーディオの流れの時間展開における混乱を最小限にすることができ、トランジエントを移動することによる可聴性の発生を最小限にすることができる。それにもかかわらず、いくつかの場合は、もっと離れたブロックへの移動であっても非可聴である。さらに、もっと離れたブロックへの移動により可聴となっても、時間展開の補償により、以下に述べるように、このような可聴性を削減又は削除することができる。
【0048】
図2aと2bは、理想化された重複のない一連の理想化された窓ブロックを示している。図2aにおいて、トランジエントの最初の位置は、図の実線矢印で示すように、次の窓の終端よりも先の窓の終端に近くにある。図に示すように、トランジエントの最初の位置に対するプレノイズの位置は窓の始点の限界にまで時間的にさかのぼって伸びている。もし、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、先の窓ブロックの終端に続く、終端に非常に近い位置まで、「左」(時間をさかのぼる)方向に移動すべきである。その結果プレノイズは窓ブロックの始点にまでさかのぼって伸びてゆくが、この長さは、最初のトランジエント位置の結果起こるプレノイズに比べて非常に短い。この図及びその他の図では、窓ブロック終端位置から移動後のトランジエント間での距離は明確に表示するために誇張してある。図2bでは、トランジエントの最初の位置は、前の窓ブロックの終端までより、次の窓ブロックの終端までの方に、より近く位置している。したがって、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、次の窓ブロックの終端に続く、終端に非常に近い位置まで、「右」(時間を遅らせる)方向に移動すべきである。プレノイズ削減の効果はトランジエントの最初の位置が窓ブロックの後ろにあるほど大きくなることに注意すべきである。
【0049】
図3aと3bは、50%以下の重複で連なった一連の理想化された窓ブロックを示している。図3aにおいて、トランジエントの最初の位置は、図の実線矢印で示すように、次の窓の終端よりも先の窓の終端に近くにある。図に示すように、トランジエントの最初の位置に対するプレノイズの位置は窓の始点の限界にまで時間的にさかのぼって伸びている。もし、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、先の窓ブロックの終端の後方で、終端にごく近い位置まで、「左」方向に移動すべきである。その結果プレノイズは窓ブロックの始点にまでさかのぼって伸びてゆくが、この長さは、最初のトランジエント位置の結果起こるプレノイズに比べて短い。図3bでは、トランジエントの最初の位置は、前の窓ブロックの終端までより、次の窓ブロックの終端までの方に、より近く位置している。したがって、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、次の窓ブロックの終端の後方で、終端にごく近い位置まで、「右」方向に移動すべきである。プレノイズ削減の効果はトランジエントの最初の位置が連続する窓ブロックと窓ブロックとの間で後ろにあるほど大きくなることに注意すべきである。
【0050】
図4aと4bは、50%重複で連なった一連の理想化された窓ブロックを示している。図4aにおいて、トランジエントの最初の位置は、図の実線矢印で示すように、次の窓の終端よりも先の窓の終端に近くにある。図に示すように、トランジエントの最初の位置に対するプレノイズの位置は窓の始点の限界にまで時間的にさかのぼって伸びている。もし、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、先の窓ブロックの終端の後方で、終端にごく近い位置まで、「左」方向に移動すべきである。その結果プレノイズは窓ブロックの始点にまでさかのぼって伸びてゆくが、この長さは、最初のトランジエント位置の結果起こるプレノイズに比べて短い。図4bでは、トランジエントの最初の位置は、前の窓ブロックの終端までより、次の窓ブロックの終端までの方に、より近く位置している。したがって、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、次の窓ブロックの終端の後方で、終端にごく近い位置まで、「右」方向に移動すべきである。プレノイズ削減の効果は、50%より少ない重複ブロックの場合は、重複トランジエントの最初の位置が連続する窓ブロック終端と窓ブロック終端との間で後ろにあるほど大きくなることに注意すべきである。
【0051】
図5aと5bは、50%以上の重複で連なった一連の理想化された窓ブロックを示している。図5aにおいて、トランジエントの最初の位置は、図の実線矢印で示すように、次の窓の終端よりも先の窓の終端に近くにある。図に示すように、トランジエントの最初の位置に対するプレノイズの位置は窓の始点の限界にまで時間的にさかのぼって伸びている。もし、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、先の窓ブロックの終端の後方で、終端にごく近い位置まで、「左」方向に移動すべきである。その結果プレノイズは窓ブロックの始点にまでさかのぼって伸びてゆくが、この長さは、最初のトランジエント位置の結果起こるプレノイズに比べていくらか短い。図5bでは、トランジエントの最初の位置は、前の窓ブロックの終端までより、次の窓ブロックの終端までの方に、より近く位置している。したがって、トランジエントの時間的移動の程度を最低限にすることが望まれるならば、図に示すように、次の窓ブロックの終端の後方で、終端にごく近い位置まで、「右」方向に移動すべきである。プレノイズ削減の効果は、50%の重複ブロックの場合は、重複トランジエントの最初の位置が連続する窓ブロック終端と窓ブロック終端との間で後ろにあるほど大きくなることに注意すべきである。
【0052】
プレノイズ削減の効果は、重複のないブロックの場合が最大で、ブロックの重複度が上がるにつれて、削減効果が下がってゆくことに注意すべきである。
【発明を実施するための最良の形態】
【0053】
タイムスケーリング前処理概観
図6は、低ビットレートのエンコーディングを行う前に、タイムスケーリングによる過渡的なプレノイズの量を低減するための方法(すなわち、「前処理」)を描いたフローチャートである。この方法は、N個のサンプルブロックにおける入力オーディオの処理を行う。ここで、Nはオーディオコーディングブロックに使用するオーディオサンプル数より大きいか又は等しい数に対応する。タイムスケーリング処理に用いるためのオーディオコーディングブロック外部に付加的なオーディオデータを提供するためには、オーディオコーディングブロックのサイズより大きな数Nの処理サイズが望ましい。この付加的なデータは、例えば、トランジエントの位置を改善するために実行されるタイムスケーリング処理のためのサンプル数補償に使うことができる。
【0054】
図6の第1のステップ202では、N個のオーディオデータサンプルがタイムスケーリング処理に使用可能かをチェックする。これらのオーディオデータサンプルは、例えば、PCベースのハードディスク上のファイル又はハードウエア装置内のデータバッファの形態を取ることができる。オーディオデータは、オーディオのコーディングに先立ちタイムスケーリング処理を呼び出す低ビットレートのオーディオコーディング処理によっても提供される。もしN個のオーディオデータサンプルが使用可能ならば、それらは(ステップ204)を通って、次のステップであるタイムスケーリングの前処理プロセスに用いられる。
【0055】
前処理プロセスの第3のステップ206では、プレノイズアーティファクトを誘起しそうなオーディオデータトランジエント信号の位置を検出する。この機能を実行するための多くの異なった処理方法が可能であり、具体的な実施例では、プレノイズアーティファクトを誘起しそうなオーディオデータトランジエント信号を正確に検出する限りにおいて、この機能は決定的なものではない。多くのオーディオコーディング処理がオーディオ信号のトランジエントの検出を実行するので、もしオーディオコーディング処理が、入力オーディオデータと共にトランジエントの情報を次のタイムスケーリング処理ブロック210に提供するならば、このステップは省略しても良い。
【0056】
トランジエントの検出
1つの適当なオーディオ信号トランジエントの検出方法は、以下の通りである。トランジエントの検出分析における第1のステップは、入力データ(入力サンプルを時間機能として扱う)をフィルターに通すことである。入力データを、例えば、約8kHzにおいて3dBのカットオフ周波数を持つ2次IIRハイパスフィルターによるフィルターに通しても良い。フィルターの特性は必須事項ではない。このフィルターを通ったデータは、次に、トランジエントの分析に用いられる。入力データをフィルターに通すことは高周波トランジエントを隔離し、これらを特定することを容易にする。次に、図7に示すように、約1.5msec(又は44.1kHzで64サンプル)の64個のサブブロックにおいて、フィルターを通ってきた入力データが処理される。実際の処理するサブブロックのサイズは、1.5msecにしなければならないわけではなく、変更しても良いので、このサイズは、実時間処理からの要求(ブロックサイズが長ければ、処理時間は短くなる)と、トランジエントの位置の分解能(ブロックサイズが短ければ、トランジエントの位置についてのさらに詳細な情報が得られる)との二律背反関係となる。4096個のサンプルの信号サンプルブロックを使い64個のサンプルのサブブロックを使うことは、単なる例示であってこの発明における必須事項ではない。
【0057】
トランジエント検出処理の次のステップは、各64個のサンプルに含まれる最大絶対値のデータ値をローパスフィルターに通すことである。この処理は、最大絶対値データを平滑化し、実際のサブバッファにおけるピーク値を比較することができる入力バッファに平均ピーク値の概略的な値を与える。以下に記載する方法は、平滑を行う1つの方法である。
【0058】
データの平滑のために、各64サンプル数のサブブロックは信号値の最大絶対値を細かく調べる。次いで、信号値の最大絶対値は平滑化された移動平均値の計算に用いられる。フィルターを通った、各K次サブバッファーの高周波移動平均、各々hi_mavg(k)とする、が式1及び2を用いて計算される。
【0059】
ここで、hi_mavg(0)は、先の連続処理のための入力バッファから、hi_mavg(64)と等しく設定される。この実施例では、変数AVG_WHTは0.25に設定されている。この値は一般的なオーディオ材料を用いて、以下の実験的な分析により決められた。
【0060】
次に、トランジエント検出処理において、平滑化され、移動平均されたピーク値群と各サブブロックのピークとを比較し、トランジエントの存在の有無を決定する。これらの2つの値を比較するための方法はたくさんあるが、広いレンジのオーディオ信号を分析することで決定されような最適な実行ができるように、設定されたスケールファクターを用いて比較を微調整するので、以下に示した方法を用いた。
【0061】
k番目のサブブロックのピーク値は、フィルターを通すために、高周波スケール値HI_FREQ_SCALEを乗算し、平滑化され、移動平均された各kのピーク値と比較される。もしサブブロックの縮尺されたピーク値が移動平均値より大きければ、トランジエントが存在するとしてフラグが立てられる。これらの比較は以下の式3と4であらわされる。
【0062】
トランジエントの検出に続いて、64個のサンプルのサブブロックについてトランジエ
ントフラグを解消すべきかどうか(TRUEからFALSEにリセットすべきかどうか)を決定するためいくつかの修正点検がなされる。これらの点検は、間違ったトランジエント検出を削減するためになされる。第1に、もし高周波ピーク値が最低ピーク値以下に下がったらトランジエントは解消される(低レベルトランジエントと呼ぶ)。第2に、もしサブブロックのピークがトランジエントの引き金となったが先のサブブロックより明らかに大きくはない場合、トランジエントフラグを立てる引き金にはなってしまったが、このサブブロックのトランジエントは解消される。このことはトランジエントが存在するところでの情報の不明確かを減少させる。
【0063】
再度図6を参照すると、処理における次のステップ208では、現在のN個のサンプル入力データ群にトランジエントが存在するかどうかを決定している。トランジエントが存在しないならば、入力データはタイムスケーリング処理がなされることなく出力される(又は、低ビットレートオーディオコーダーに戻される)。もしトランジエントが存在すると、現在のN個のサンプルのオーディオデータ中に存在するトランジエントの数と位置が、入力オーディオデータの時間修正処理のためにオーディオタイムスケーリング処理部分210に送られる。適切なタイムスケーリング処理は図8a−8eの説明に関連して記述されている。この処理において、例えば、オーディオデータの流れについての窓サンプルの位置に関する、エンコーダーからの情報を必要とすることに注意すべきである。トランジエントがない場合、任意的に、もしタイムスケーリングのメタデータ情報を出力させたとすると(図6に示すように)、それはどんな前処理も実行されなかったことを意味する。タイムスケーリングのメタデータには、例えば、位置や実行されたタイムスケーリングの量のようなタイムスケーリングパラメータや、接合されたオーディオ区分にクロスフェードがタイムスケーリング技術により採用された場合には、クロスフェード長さが含まれてもよい。コード化されたオーディオビットの流れ中のメタデータには、一時的な移動前及び/又は移動後のトランジエント位置を含めてトランジエントに関する情報が含まれてもよい。オーディオデータはステップ212にて出力される。
【0064】
オーディオ前処理
図8a−8eは、トランジエントが、オーディオコーディングブロック内にあり、かつ、次の窓の終端よりも先の窓の終端近くにあるときの、本発明の特徴によるオーディオタイムスケーリングの前処理の例を示している。例えば、図1a−1eと図4a及び4bのような50%重複を想定する。先に論じたとおり、低ビットレートのオーディオコーディングに起因するトランジエントの量を減らすために、オーディオ信号トランジエントが先の窓ブロックの終端の後方で、終端にごく近い位置にあるようなオーディオ入力信号の時間展開を調整することが望まれる。このようなトランジエント位置の移動は、トランジエントプレノイズ長さを最適に制限するときに信号の流れの時間展開に対する混乱を最小限にするので、望ましい。しかし、上述のとおり、先の窓ブロックの終端の後方で、終端にごく近い位置への移動は最適にトランジエントプレノイズの長さを制限するが信号の流れの時間展開に対する混乱を最小限にはしない。ある場合は、特に時間展開補償の適用された場合は、混乱はほとんどないか又は可聴とならない。このように、この実施例及びここに記載した他の実施例において、本発明により、どちらか近い方のブロック終端に移動することがもくろまれている。上述の通り、タイムスケーリングの過渡的な時間移動は、オーディオ信号の流れのエンコーダーによるブロックへの分割の後に処理が実行されない限り、単一のブロック内で実行される必要はない。
【0065】
図8aは、3個連続した50%重複のコーディングブロックの窓を示している。図8bは、1つのトランジエントを含む元の入力オーディオデータの流れとコーディングブロックの窓との関係を示している。前方のブロックの終端のTサンプル分だけ後方に1群のトランジエントが存在している。トランジエントは次のブロック終端より先のブロック終端に近いので、トランジエントの前方のT個のサンプルを削除する効果を持つ時間圧縮を適用することで、トランジエントを左に移動し、前方のブロック終端のごく近くに置くことが望ましい。図8cは、オーディオタイムスケーリングが実行されるオーディオの流れにおける2つの領域を示す。最初の領域は、時間圧縮を適用することによって、T個のサンプル数分だけオーディオの継続を減少させ、トランジエントの位置を前方のブロック終端のごく近くの望ましい位置まで左に、「ずらし」又は移動した、トランジエントの前にあるオーディオサンプルに対応している。図2Aから5B及び他の図に記載されているように、図8a及び8eのブロック終端からトランジエント間での空間は明確に表現するために形が誇張されている。第2番目の領域は、オーディオデータの全体的な長さがN個のサンプル数を維持するように時間伸張を適用して、オーディオの継続をT個のサンプル数分だけ増加させるために、トランジエントの後に、タイムスケーリングを任意的に実行することができる領域を示す。T個のサンプルの削除と、サンプル数を補償するための任意的なT個のサンプルの追加は、両方ともオーディオコーディングサンプルブロックの窓内で起こっているものとして描かれているが、これは必須要件ではない。すなわち、オーディオ信号の流れがエンコーダーによりブロックに分割された後にトランジエントタイムスケーリングが実行される場合でない限り、相殺のためのタイムスケーリング処理は単一のオーディオコーディングブロック内で起こる必要はない。このようなタイムスケーリング処理の最適な位置は、適用されるタイムスケーリング処理により決定されてもよい。トランジエントは有益なポストマスキングをもたらすので、サンプル数を補償するタイムスケーリングはトランジエントのごく近くでなされることが好ましい。
【0066】
図8dは、トランジエントの前の領域でT個のサンプル数分だけ、オーディオ入力データの流れの時間継続を削減することで、タイムスケーリング処理を実行し、トランジエント信号の後ではサンプル数を補償する時間伸張は行わない場合の、結果を示す信号の流れを表したものである。先に説明した通り、オーディオ信号の時間展開における多少の変動はほとんどのリスナーにとって認識できない。したがって、タイムスケーリングを行ったオーディオデータの流れのサンプル数が入力サンプル数Nと等しいことが要求されないならば、トランジエントの前のオーディオの流れを処理するだけで十分であろう。図8eは、トランジエントの前のオーディオデータの流れをT個のサンプル数分だけ削減し、トランジエントの後ろのオーディオデータの流れをT個のサンプル数分だけ増やして、タイムスケーリング処理ブロックの入り口と出口でオーディオのサンプル数Nを保持し、トランジエント及びトランジエントに近い信号の流れの部分を除いてオーディオ信号の流れの時間展開を復活させる場合を図示している。図8a−8eにおける信号波形の長さの違いは、記載された条件によりオーディオデータの流れにおけるサンプル数が変化することを概念的に示そうとするものである。図8dに示すように、オーディオサンプル数が削減されたとき、付加的なオーディオコーディングが行われる前に、付加的なサンプルを獲得することが必要となるだろう。これは、実時間システムにおいて、ファイルからさらにサンプルを読み込むか又は、一時的に蓄えるためのさらなるオーディオを待つことを意味するだろう。
【0067】
図9a−9eは、トランジエントが窓のオーディオコーディングブロック内にあり、かつ、ブロックの終端からTサンプル数分だけ前方にある時のオーディオタイムスケーリング処理の例を示す。トランジエント移動を最小限にする一方、低ビットレートのオーディオコーディングに起因するトランジエントの量を減らすために、オーディオ信号トランジエントが先の窓ブロックの終端に続く、終端に非常に近い位置にあるようなオーディオ入力信号を時間的に調整することが望ましい。50%重複ブロックの場合は、次のブロック終端(又は前のブロックの終端)の後ろまで移動することは、そのブロックとその前のオーディオブロック全体にトランジエントプレノイズを拡散する代わりに、トランジエントプレノイズをオーディオコーディングブロックの前半部に制限することになる。
【0068】
図9aは、3個連続する50%重複した窓のコーディンブブロックを示している。図9bは、1つのトランジエントとオーディオブロックを含む元の入力オーディオデータとオーディオブロックとの関係を示している。次のブロックの終端のTサンプル分だけ前方に1群のトランジエントが存在している。トランジエントは前のブロック終端より次のブロック終端に近いので、トランジエントの前方にT個のサンプルを付加する効果を持つ時間伸張を適用することで、トランジエントを右に移動し、次のブロック終端のごく近くに置くことが望ましい。図9cは、オーディオタイムスケーリングが実行されるオーディオの流れにおける2つの領域を示す。最初の領域は、時間伸張を適用することによって、T個のサンプル数分だけオーディオの継続を増大させ、トランジエントの位置を次のブロック終端のごく近くの望ましい位置までずらした、トランジエントの前にあるオーディオサンプルに対応している。図9cはまた、オーディオデータの全体的な長さがN個のサンプル数を維持するように、オーディオの継続をT個のサンプル数分だけ減少させるために、トランジエントの後に、タイムスケーリングを実行することができる領域を示す。図9dは、トランジエントの前の時間領域でT個のサンプル数分だけ、オーディオ入力データの流れの時間継続を増加することで、タイムスケーリング処理を実行し、トランジエント信号の後では時間伸張によるサンプル数の補償は行わない場合の、結果を示す信号の流れを表したものである。先に説明した通り、オーディオ信号の時間展開における多少の変動はほとんどのリスナーにとって認識できない。したがって、タイムスケーリングを行ったオーディオデータの流れのサンプル数が入力サンプル数Nと等しいことが要求されないならば、トランジエントの前のオーディオの流れを処理するだけで十分であろう。
【0069】
図9eは、トランジエントの前のオーディオデータの流れをT個のサンプル数分だけ増やし、トランジエントの後ろのオーディオデータの流れをT個のサンプル数分だけ減少して、タイムスケーリング前後でオーディオのサンプル数を一定の数に保持する場合を図示している。他の図にも示したように、図9a−9eにおけるブロック終端からトランジエントまでの間隔は、明確に表示するために誇張してある。
【0070】
多数トランジエントに対するオーディオタイムスケーリング処理
オーディオコーディングブロック長さとコード化されたオーディオデータの中身によっては、処理された入力オーディオデータの流れが、処理されたN個のサンプル内に、プレノイズアーティファクトを引き起こす2以上のトランジエント信号を含むことがあり得る。前述のとおり、処理されたN個のサンプルには2以上のコーディングブロックが含まれ得る。
【0071】
図10a−10dは、1つのコーディングブロック内に2個のトランジエントが発生したときの処理を描いたものである。一般に、2以上のトランジエントも、オーディオデータの流れ中の最初のトランジエントを対象のトランジエントとして扱うことにより、単一のトランジエントと同じ方法で扱われる。
【0072】
図10aは、3個連続する50%重複した窓のコーディンブブロックを示している。図10bは、入力オーディオ中の2つのトランジエントがオーディオコーディングブロックの終端をまたぐ場合を示している。このような場合、2番目のトランジエントの結果発生するプレノイズは最初のトランジエントによりポストマスクされるので、早いほうのトランジエントが最も知覚できるプレノイズを誘起する。プレノイズアーティファクトを最小限にするために、入力オーディオ信号は、最初のトランジエントの前部オーディオがT個のサンプル数分だけ時間伸張されるようにタイムスケールして、最初のトランジエントを右に移動しても良い。ここでT個は、最初のトランジエントを次のブロック終端の後方で、終端にごく近い位置に配置させるようなサンプル数である。
【0073】
図10bにおいて最初のトランジエントの前の時間伸張処理のためのサンプル数補償のため、および、時間的に2つのトランジエントをさらに近づけることで2番目のトランジエントにより発生したプレノイズのポストマスキングを最適化するために、最初のトランジエントの後ろで、2番目のトランジエントの前にあるオーディオは、T個のサンプル分だけ削減するようタイムスケールされることが望ましい。図10bに図示したように、最初と2番目のトランジエントの間には、タイムスケール処理を行うために十分なオーディオ処理データがある。しかし、場合によっては、2番目のトランジエントが最初のトランジエントに近すぎるため、これらの間には、タイムスケール処理を行うために十分なオーディオ処理データがないかもしれない。トランジエント間に必要なオーディオデータの量は、この処理に使われるタイムスケーリング処理に依存する。2つのトランジエント間に十分なオーディオデータが存在しない場合は、サンプル数を埋め合わせるために、2番目のトランジエントに続くオーディオデータを時間伸張することが必要になるかもしれない。2番目のトランジエントの後ろにあるオーディオデータの伸張を実行するために、前述のように、タイムスケーリング処理には、オーディオコーディング処理に用いられるブロックにおけるサンプル数よりも大きな部分のオーディオデータにアクセスする処理が必要かもしれない。
【0074】
図10cは、最初のトランジエントが、次のブロックの終端よりも前のブロックの終端に近く、すべて(この場合は2個)のトランジエントが、2番目のトランジエントの結果発生するプレノイズが最初のトランジエントにより実質的にマスクされる程度に、十分近くにある場合について図示したものである。このように、最初のトランジエントに先立つオーディオの流れは、最初のトランジエントが、先立つブロック終端のすぐ後ろに位置するよう動かされるように、T個のサンプル数分だけ時間圧縮することが望ましい。元のサンプル数を復元するためサンプル数補償は、時間伸張という形式で、2番目のトランジエントの後のオーディオデータの流れ中で実行することができる。
【0075】
図10dは、最初のトランジエントが、前のブロックの終端よりも次のブロックの終端に近く、すべて(この場合は2個)のトランジエントが、2番目のトランジエントの結果発生するプレノイズが最初のトランジエントにより実質的にマスクされる程度に、十分近くにある場合について図示したものである。したがって、最初のトランジエントを次のブロック終端すぐ後ろに移動するために、最初のトランジエントの前のオーディオの流れはT個のサンプル数分だけ時間伸張される。サンプル数の補償は、時間圧縮という形で、2番目のトランジエントに続くオーディオデータの流れにおいて任意に実行され得る。
【0076】
多数トランジエントの場合は、ほぼ完全に前処理の時間展開補償が要求されるのなら、前述の単一トランジエントの場合と同様にコード化されたオーディオブロックとともにメタデータ情報を伝達しても良い。
【0077】
タイムスケーリング前処理の時間展開補償により制御されるメタデータ
前述のように、処理されたオーディオ信号の流れの時間展開が実質的に元のオーディオの時間展開と同じになり、元の信号の流れの時間展開を復元するために、デコーダーによる逆変換に引き続き、トランジエントの後のオーディオ信号の流れに対して時間補償のためのタイムスケーリングを適用するのが望ましい。しかしながら、実験的な研究では、オーディオ信号の時間的な多少の変動はほとんどのリスナーにとって認識できないので、時間展開の補償は必ずしも必要ではないことを示している。しかし、平均するとトランジエントは、同じように進ませ遅らせるので、十分長い時間においては、時間展開に対する補償なしに蓄積された効果は無視できないだろう。もう1つの考慮すべき問題は、前処理に使われるタイムスケーリングの形式によって、付加した時間展開補償処理によりオーディオに可聴なアーティファクトを誘起するかもしれないことである。このようなアーティファクトは、タイムスケーリング処理が、多くの場合、完全な可逆処理ではないことに起因して発生するのであろう。言い換えれば、タイムスケーリング処理を用いて固定量のオーディオを削減し、後でオーディオを同じだけ時間伸張することは、可聴なアーティファクトを発生させる可能性がある。
【0078】
タイムスケーリングすることで、トランジエント情報を含むオーディオ処理を行う利点は、タイムスケーリングによりアーティファクトがトランジエント信号による時間的なマスキング効果によりマスクされることである。オーディオトランジエントは前方および後方に時間的マスキングを行う。トランジエントオーディオ情報は、そのオーディオのすぐ前後がリスナーに聞こえないようにトランジエントの前と後ろの両方の可聴な情報を「マスク」する。プレマスキングは測定されており、比較的短く、ほんの数ミリセカンドしか続かない一方、ポストマスキングは100msec以上続く。したがって、タイムスケーリングによる時間展開の補償処理は、時間的なポストマスキング効果により非可聴となる。このように、もし実行されるとすれば、時間的にマスクされる領域内で時間展開の補償のためのタイムスケーリングが実施されることは有利なことである。
【0079】
図11a−11fは、メタデータ情報を使って、コーダーの逆変換に引き続きインテリジェントな時間展開補償を実行した例を描いたものである。メタデータは、タイムスケーリング処理が実行されるべき場所と、タイムスケーリングが必要としている時間を示すので、時間展開による補償の実行に必要な分析量を大幅に減少させる。上述のように、時間展開補償処理は、デコードされたオーディオ信号を、トランジエントを含む信号の流れがオーディオの流れ中の元の位置を持つような元の時間展開のところに戻すこと意図している。図11aは、3個連続する50%重複した窓のコーディンブブロックを示している。図11bは、ブロック終端の後のT個のサンプルトのランジエントを持つ前処理に先立つ入力オーディオの流れを示している。図11cは、入力オーディオの流れが、トランジエントをより前方位置に移すために、トランジエントの前のT個のサンプルを削除することで処理するさまを示している。T個のサンプルが、オーディオデータのサンプル数が変化しないように、トランジエントの後ろに加えられる(サンプル数補償)。図11dは、トランジエントが前方位置に移され、トランジエントの後ろのオーディオは元の位置に引き戻された、修正されたオーディオの流れを示している。図11eは、T個のサンプルの削除(時間圧縮)が、T個のサンプルを加えて(時間伸張)補償され、T個のサンプルの追加(時間伸張)が、T個のサンプルを削除(時間圧縮)して補償されるのに必要な、時間展開補償タイムスケーリング領域を示している。その結果、図11aの入力信号同じ時間展開出力信号を持つ補償された「ほぼ完全な」出力信号が図11fに示されている(問題は、主にタイムスケーリング処理の不完全さである)。
【0080】
トランジエントプレノイズを削減するためのタイムスケーリング後処理
前述の多くの例により論証したとおり、オーディオコーディングブロック内で最適にトランジエントを配置したとしても、プレノイズはまだ低ビットコーディングシステム処理により発生する。前述の通り、長いオーディオコーディングブロックのほうが、大きな周波数分解能を持ちコーディング利得を増大するので、短いコーディングブロックより好ましい。しかし、タイムスケーリングによりオーディオエンコーディング(前処理)に先立って、トランジエントが最適に配置されたとしても、オーディオコーディングブロックが増加すると、プレノイズも増加する。過渡的な時間的プレノイズのプレマスキングは約5msec(ミリセカンド)のオーダーであり、これは48kHzのサンプリングレートにおいて240個のサンプルに相当する。これは、約512個のサンプルより大きなブロックサイズを持つコーダーにとって、最適な配置であっても過渡的なプレノイズが可聴となることを意味する(50%重複の場合半分だけがマスクされる)。(これはコーダーブロックにおいて、窓端効果によるトランジエントプレノイズの減少については考慮していない)
トランジエントプレノイズが低ビットレートコーディングシステムから完全には除去できないかもしれないのに対し、前処理を適用するしないにかかわらず、トランジエントプレノイズの量を減らすために、低ビットレートのオーディオデコーダーを基礎とする変換において逆変換に耐えたオーディオデータにタイムスケーリング後処理(自然に起こるもの、あるいは前処理に付け加えることによるもの)を実行することは可能である。タイムスケーリング後処理は、低ビットレートオーディオコーダーと関連しても(すなわち、デコーダーの一部として、及び/又はデコーダーから及び/又はデコーダーを経由したエンコーダーからメタデータを受け取ることで)又は単独の後処理としても実行することができる。オーディオコーディングブロック長さのみならずコーディングブロックに関連したトランジエントの位置のような有益な情報が容易に使用可能であり、メタデータを通して後処理工程に伝達することが可能なので、メタデータを使うことが望ましい。しかし、後処理は、低ビットレートオーディオコーダーとの相互作用なしに使うことができる。以下に二つの方法について論ずる。
【0081】
低ビットレートオーディオデコーダー(メタデータの受領)と連動したタイムスケーリングの後処理
図12は、トランジエントプレノイズを低減するための低ビットレートのオーディオデコーダーと連動したタイムスケーリングの後処理の実行の工程を描いたフローチャートである。図12に描かれた工程は、入力データが低ビットレートでエンコードされたオーディオデータであることを前提とする(ステップ802)。圧縮されたデータのオーディオ内へのデコーディング(ステップ804)に続いて、(単数又は複数の)ブロックに関連するオーディオは、トランジエントプレノイズの継続を提言するのに有効なメタデータ情報とともに、タイムスケール装置806に送信される。この情報には、例えば、トランジエントの位置、オーディオコーダーブロックの長さ、コーダーブロック境界とオーディオデータとの関係、及びトランジエントプレノイズの必要長さを含めても良い。もし、トランジエントのオーディオコーダーブロックの境界との関係位置が利用できるのなら、プレノイズアーティファクトの長さと位置が計算され、後処理で正確に縮減される。トランジエントは時間的プレマスキングを行うので、完全にトランジエントプレノイズを取り去る必要はない。タイムスケーリングの後処理工程において、希望するプレノイズの長さを与えることにより、ステップ808において、オーディオ出力の出力中に残されたプレノイズの量にコントロールをかけることができる。ステップ806の適切なタイムスケール処理の結果を図13a−13cの説明と関連して以下に説明する。
【0082】
エンコーディング前に前処理が適用されてもされなくても、後処理は有益であることに注意すべきである。トランジエントが、ブロック後端からどの位置にあるかとは無関係に、トランジエントプレノイズは存在する。例えば、50%重複の場合は少なくともオーディオコーディング窓の半分の長さとなる。長い窓サイズでは可聴なアーティファクトを発生させるかもしれない。後処理を行うことで、エンコーダーにより量子化する前にブロック終端との関係で最適に配置することでプレノイズを縮減した場合よりもさらにプレノイズの長さを縮減することができる。
【0083】
図13a−13cは、逆変換後に現れるプレノイズアーティファクトを削減する単一のトランジエントに対する後処理の例を図示したものである。図13aに示したように、1つのトランジエントはプレノイズアーティファクトを発生させる。コーディングブロックの長さにもよるが、プレノイズは、もしあれば、前処理の後でも、トランジエントによる時間的なプレマスキング効果によりマスクされる長さより長い時間となるかもしれない。しかし図13bに示すように、デコーダーからのトランジエント位置のメタデータ情報を用いることにより、プレノイズを含むオーディの領域を特定することができ、この領域で、オーディオのタイムスケーリングによりT個のサンプル分だけプレノイズの長さを削減することができる。Tの数は、プレマスキングを活用してプレノイズの長さを最小にするように選択したり、あるいは、プレノイズを完全に又はほぼ完全に除去するように選択したりすることができる。もし、元の信号と同じ数のサンプルを保持したい場合は、トランジエントに続くオーディオを、+T個のサンプル分だけ時間伸張すればよい。図16aの例に関連して示すように、代案として、時間展開補償の利点も持っているこのようなサンプル数補償は、プレノイズの前に適用してもよい。
【0084】
もし、タイムスケーリング前処理に関連して、後処理が実行されれば、出力オーディオの流れの時間展開に対するさらなる乱れの量は最低限になる。先に論じたタイムスケーリングの前処理によりプレノイズの長さは、50%重複の場合、N/2個のサンプルに減るので、元の入力オーディオと比較して出力オーディオの時間領域におけるさらなる乱れはN/2個のサンプル数以下になることが保証される。前処理がない場合は、50%重複のとき、プレノイズはN個のサンプル数のコーディングブロック長さにまでなることがある。
【0085】
低ビットレートのコーディングシステムにおいて、もしコーダーが位置情報を伝達しなければ信号トランジエントの位置は、簡単に利用することができない。このような場合、数多くのトランジエント検出処理工程や、先に説明した効率的な方法で、デコーダー又はタイムスケーリング処理により、トランジエント検出を行う。
【0086】
多数のトランジエントに対しては、前処理について前述と同様の課題が適用される。
【0087】
前処理なしのタイムスケーリング後処理
前述の通り、場合によっては、トランジエントプレノイズタイムスケーリング処理(前処理)を実行しない圧縮システムを用いる低ビットコーディングを経た知覚されるオーディオの質を改善することが望まれる。図14はこのような処理の概要である。
【0088】
第1番目のステップ1402では、低ビットレートのオーディオエンコーディング及びデコーディングを経たN個のオーディオデータサンプルについて使用可能性をチェックする。これらのオーディオデータサンプルはPCベースのハードディスク上のファイルやハードウエア装置のデータバッファからのものである。もしN個のオーディオデータサンプルが使用可能であれば、これらは、ステップ1404にてタイムスケーリング後処理工程に送られる。
【0089】
タイムスケーリング後処理工程の3番目のステップ1406にて、プレノイズアーティファクトをもたらすおそれがあるオーディオデータのトランジエント信号位置を特定する。この機能を実行するために多くの異なった工程が可能であり、プレノイズアーティファクトをもたらすおそれがあるトランジエント信号の検出が確かにできる限り、具体的二度のように実施するかは重要ではない。しかし、上述の処理は、使用するうえで効率的かつ正確な方法である。
【0090】
第4番目のステップ1408は、ステップ1406で検出したように、現在のN個のサンプル中にトランジエント存在するかどうかを決定する。もしトランジエントが存在しなければ、入力データはステップ1414にて、タイムスケーリング処理なしで出力される。もしトランジエントが存在するならば、トランジエントの数と位置が、トランジエントプレノイズ評価処理ステップ1410の工程へ送られ、トランジエントプレノイズの位置と継続時間を特定する。処理工程における5番目と6番目のステップ1410では、トランジエントプレノイズアーティファクトの位置と継続時間の算定を行い、タイムスケーリング処理1412と共に、その長さを削減する。定義により、プレノイズアーティファクトはオーディオデータ中のアーティファクトのすぐ前の領域に限られているので、検索する領域は、トランジエント検出処理により伝達された情報によって限定される。図1に示したように、50%重複のオーディオコーディングブロックにおいてN個がオーディオサンプルの数である場合に、最小N/2から最大N個のサンプルにプレノイズの長さは制限される。したがって、Nが1024個のサンプルでオーディオが48kHzでサンプリングされたとき、トランジエントプレノイズは、オーディオの流れにおけるトランジエントの位置によって、トランジエントの前方10.7msecから21.3msecの範囲で存在し、トランジエント信号から期待される時間的マスキングの範囲を明らかに超える。代案として、トランジエントに先立つプレノイズアーティファクトの長さを計算する代わりに、ステップ1410で、プレノイズアーティファクトの長さが初期設定値を持つと仮定してもよい。
【0091】
トランジエントプレノイズの低減に関して2つの対応が実行可能である。第1番目は、すべてのトランジエントはプレノイズを持ち、したがって、すべてのトランジエントの前にあるオーディオは、トランジエント毎に期待されるプレノイズ量に基づき決定された(既定の)量によりタムスケール(時間圧縮)されることを想定する。もしこの技術が適用される場合は、時間的なプレノイズに先行するオーディオの時間伸張は、プレノイズの長さを減らすために適用される時間圧縮タイムスケーリング処理のためのサンプル数補償と、時間展開補償(プレノイズ内の時間圧縮により、トランジエントを元のその時間的位置あるいはその近くに残すためのプレノイズ前方の時間伸張)の両方のためになされる。しかし、プレノイズの開始位置の正確な位置がわからなければ、このようなサンプル数補償処理は、プレノイズ成分の継続を目的もなく増大してしまうかも知れない。
【0092】
図15a−15cは、初期設定値使って各トランジエントの前のオーディオに対してタイムスケールを行い、プレノイズの継続を減少させるがサンプル数の補償は行わない技術を示したものである。図15aに示すように、低ビットレベルオーディオデコーダーからのオーディオ信号の流れはプレノイズが前にあるトランジエントを持つ。図15bは、タイムスケーリング処理により実行される時間圧縮量として用いられる既定の処理量長さを示している。図15cは、結果的にプレノイズを縮減したオーディオ信号の流れを示す。この例では、トランジエントをオーディオデータの流れ中の元の位置に戻すための時間展開補償は実施されていない。しかし、先の処理例と同様に、同じ数の入出力サンプル数が望ましいならば、図13bの例と同様に又は、場合によっては、図16a−16cの例に関連して以下に説明するように、プレノイズの前のこともあるが、トランジエントの後に時間伸張処理がなされる。しかし、処理長さの初期設定値を適用するとき、もし実際のプレノイズの長さが初期設定値より長ければ、このような補償をプレノイズに先立って行うことは、プレノイズ内で時間伸張処理を行う(したがって、プレノイズ長さの思わぬ増大となる)危険を冒すことになる。さらに、場合によっては、後処理はプレノイズの前のオーディオの流れを利用できないかもしれない、すなわち、オーディオは潜在時間を減らすために、すでに出力されているかもしれない。
【0093】
図16a−16cに描かれた、第2のプレノイズ削減後処理技術では、プレノイズ部分だけを処理するために、その長さとオーディオの処理を決めるためのトランジエントから決まるプレノイズの分析を実施する。上記で指摘したように、トランジエントプレノイズは、エンコーダー内の処理において量子化した結果のブロック全体に、高周波成分のトランジエントオーディオ材料が時間的に広がったとき、トランジエントプレノイズが生まれる。したがって、素直な検出方法の1つは、トランジエントに先立ってオーディオにハイパスフィルターを通し、高周波エネルギーを計測することである。トランジエントプレノイズの始点は、ノイズのような、高周波のプレノイズが、あらかじめ定めた閾値を超過するトランジエントに関連し、それより引き起こされたとき、特定される。トランジエントプレノイズのサイズと位置がわかると、オーディオをその元の時間展開にもどしオーディオの流れの時間展開を実質的に元の状態に復元するために、プレノイズの時間削減に先立ってオーディオの時間伸張補償が実行される。本発明は高周波による検出の適用に限定されない。プレノイズの長さを計算し検出する他の技術も適用することが可能である。
【0094】
図16aでは、低ビットレートオーディオデコーダーがプレノイズに先行するトランジエントを有している。図16bは、ブロック内の高周波オーディオの内容から計測されたプレノイズ長さの予測値に基づいて、タイムスケーリング処理により実行されるべき時間圧縮の量として用いられる時間圧縮処理長さを示している。図16bはまた、信号の流れにおける元の時間展開を復元するため、また、元のサンプル数を復元するため、T個のサンプル数分だけ時間伸張するのに用いたものを示している。図16cは、元の時間展開と元の信号の流れと同じサンプル数を維持した状態でオーディオ信号の流れのプレノイズを削減した結果を示している。
【0095】
本発明とその種々の特徴は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び/又は専用ディジタルコンピュータのソフトウエアの機能により実行することができる。アナログ信号の流れとディジタル信号の流れは適当なハードウエアにより、及び/又はファームウエアとして実行され得る。
【図面の簡単な説明】
【0096】
【図1】図1a−1eは、入力信号条件の2つの場合に対する、固定ブロック長さのオーディオコーダーシステムにより発生した過渡的なプレノイズアーティファクトの例を描いた一連の理想化された波形である。
【図2】図2aと2bは、最初と移動後のトランジエントの時間的な位置を、最初の位置が次の窓の終端よりも先の窓の終端近くにある場合と、最初の位置が先の窓の終端よりも次の窓の終端近くにある場合との各々について、このような位置に対するプレノイズとともに描いた、一連の理想化された重複なしの窓ブロックを示したものである。
【図3】図3aと3bは、最初と移動後のトランジエントの時間的な位置を、最初の位置が次の窓の終端よりも先の窓の終端近くにある場合と、最初の位置が先の窓の終端よりも次の窓の終端近くにある場合との各々について、このような位置に対するプレノイズとともに描いた、50%以下の重複で連なった一連の理想化された窓ブロックを示したものである。
【図4】図4aと4bは、最初と移動後のトランジエントの時間的な位置を、最初の位置が次の窓の終端よりも先の窓の終端近くにある場合と、最初の位置が先の窓の終端よりも次の窓の終端近くにある場合との各々について、このような位置に対するプレノイズとともに描いた、50%の重複で連なった一連の理想化された窓ブロックを示したものである。
【図5】図5aと5bは、最初と移動後のトランジエントの時間的な位置を、最初の位置が次の窓の終端よりも先の窓の終端近くにある場合と、最初の位置が先の窓の終端よりも次の窓の終端近くにある場合との各々について、このような位置に対するプレノイズとともに描いた、50%以上の重複で連なった一連の理想化された窓ブロックを示したものである。
【図6】図6は、低ビットレートのエンコーディングを行う前のタイムスケーリングによる過渡的なプレノイズアーティファクトの低減のためのステップを描いたフローチャートである。
【図7】図7は、トランジエント検出のために使われる入力データバッファの概念的に表したものである。
【図8】図8a−8eは、トランジエントが、オーディオコーディングブロック内にあり、かつ、次の窓の終端よりも先の窓の終端近くにあるときの、本発明の特徴によるオーディオタイムスケーリングの前処理の例を示す、一連の理想化された波形である。
【図9】図9a−9eは、トランジエントが窓のオーディオコーディングブロック内にあり、かつ、ブロックの終端からTサンプル数分だけ前方にある時のオーディオタイムスケーリング処理の例を示す、一連の理想化された波形である。
【図10】図10a−10dは、複数のトランジエントがある場合のタイムスケーリングを描いた一連の理想化された波形である。
【図11】図11a−11fはオーディオの流れ内で転送された、メタデータを使ってタイムスケーリングのインテリジェントな時間展開補償を描いた一連の理想化された波形である。
【図12】図12は、低ビットレートのオーディオデコーダーと連動したタイムスケーリングの後処理の例を描いたフローチャートである。
【図13】図13a−13cは、デコーディング後に現れるプレノイズアーティファクトを減少させる、単一のトランジエントに対する後処理の例を描いた一連の理想化された波形である。
【図14】図14は、タイムスケーリングの後処理なしに低ビットレートのコーディングに耐えたオーディオの知覚される質を向上させるための後処理プロセスのフローチャートである。
【図15】図15a−15cは、サンプル数補償を行わずに、初期設定値を用いて各トランジエントの前に、プレノイズを減らすためにオーディオのタイムスケールをする技術を描いた一連の理想化された波形である。
【図16】図16a−16cは、サンプル数補償と時間展開補償を行って、プレノイズ継続時間の計算値を用いて各トランジエントの前に、プレノイズを減らすためにオーディオのタイムスケールをする技術を描いた一連の理想化された波形である。
Claims (37)
- コーディングブロックを用いた、変換を基盤とする低ビットレートのオーディオコーディングシステムによるオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記コーディングシステムによる処理に先立ち、オーディオ信号の流れの中にトランジエントを検出し、そして、
前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることにより、前記ひずみアーティファクトの継続時間を削減するような、前記コーディングブロックに関する前記トランジエントの時間的な関係の変更を行うことを含む、ひずみアーティファクトを低減する方法。 - 前記変更は、前記コーディングシステムのエンコーダーにおける正変換の前に、前記コーディングブロックに関して前記トランジエントの時間的な関係を変更する、請求項1に記載の方法。
- 前記トランジエントは、次のブロック終端の後方で当該終端の近く又は前のブロック終端の後方で当該終端の近くに時間的な位置を変更する、請求項2に記載の方法。
- 前記トランジエントは、時間的位置の変更長さが結果的に短くなるように、次のブロック終端の後方で当該終端の近く又は前のブロック終端の後方で当該終端の近くに時間的な位置を変更する、請求項3に記載の方法。
- 前記コーディングシステムのコーダーにおいて、逆変換の後に残留するひずみアーティファクトの少なくとも一部を除去する工程をさらに含む、請求項1乃至4のいずれか1項に記載の方法。
- 残留するひずみアーティファクトの部分は、前記コーディングシステムにより伝達されたメタデータ情報により少なくとも一部分は検出される、請求項5に記載の方法。
- 残留するひずみアーティファクトの部分は、初期設定値により少なくとも一部分は検出される、請求項5に記載の方法。
- 残留するひずみアーティファクトの部分は、前記オーディオ信号の流れ内の高周波オーディオ成分により少なくとも一部分は検出される、請求項5に記載の方法。
- 処理されたオーディオ信号の流れの時間展開が、前記変更の前のオーディオ信号の流れの時間展開と実質的に同じになるような補償的タイムスケーリングを、前記コーディングシステムのデコーダーにおいて、オーディオ信号の流れに、逆変換に続いて適用する、請求項1に記載の方法。
- 前記補償的タイムスケーリングを、前記信号トランジエントに先行する前記オーディオ信号の流れの部分に適用する請求項9に記載の方法。
- 前記コーディングシステムは、エンコーダーとデコーダーとを含み、前記エンコーダーは、前記オーディオ信号の流れのエンコードされたものと共にメタデータを前記デコーダーに伝達し、前記メタデータは、前記補償的タイムスケーリングの適用に有効な情報を含んでいる、請求項9に記載の方法。
- 前記タイムスケーリングは、前記トランジエントの近傍に先行する前記オーディオの流れの部分に対して実行される請求項1に記載の方法。
- 前記タイムスケーリングは、前記トランジエントの近傍に先行し、少なくとも一部はトランジエントにより時間的にプレマスクされた前記オーディオの流れの部分に対して実行される請求項12に記載の方法。
- 前記タイムスケーリングは、コーディングシステムが適用されたオーディオ信号の流れから信号成分を削除、又はコーディングシステムが適用されたオーディオ信号の流れに信号成分を追加する効果をもつ請求項1に記載の方法。
- 追加のタイムスケーリングが、前記信号トランジエントの後ろに適用され、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たす、請求項14に記載の方法。
- 前記追加のタイムスケーリングは、前記コーディングシステムのエンコーダーにおいて正変換に先立ち適用される請求項15に記載の方法。
- 前記追加のタイムスケーリングは、前記コーディングシステムのデコーダーにおいて逆変換に引き続き適用される請求項15に記載の方法。
- 前記追加のタイムスケーリングにより追加又は削除された信号成分の継続時間は、最初のタイムスケーリングにより追加又は削除された信号成分の継続時間と各々同じであり、前記オーディオ信号の流れの継続時間が実質的に変化しない、請求項15に記載の方法。
- 処理されたオーディオ信号の流れの時間展開が実質的に前記時間的位置の変更の前のオーディオ信号の流れの時間展開と同じになり、前記オーディオ信号の流れの継続時間が実質的に変化しないように、前記コーディングシステムのデコーダー内の逆変換に続いて、前記トランジエントの前の前記ひずみアーティファクトに先行するオーディオ信号の流れに補償的タイムスケーリングを適用する、請求項14に記載の方法。
- 前記コーディングシステムは、エンコーダーとデコーダーとを含み、前記エンコーダーは、メタデータを前記デコーダーに伝達し、前記メタデータは、前記補償的タイムスケーリングの適用に有効な情報を含んでいる、請求項19に記載の方法。
- コーディングシステムに適用された前記オーディオ信号の流れは、オーディオ情報がサンプルにより表され、サンプルの順番が時間を表し、前記タイムスケーリングはコーディングシステムに適用されたディジタル信号の流れからサンプルを削除又はディジタル信号の流れにサンプルを追加する効果をもつディジタル信号の流れである請求項1に記載の方法。
- 追加のタイムスケーリングが前記信号トランジエントの後ろに適用され、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たす、請求項1に記載の方法。
- 前記追加のタイムスケーリングは、前記トランジエントの近傍に続く前記オーディオの流れの部分に対して実行される請求項22に記載の方法。
- 前記タイムスケーリングは、少なくとも一部はトランジエントにより時間的ポストマスクされた前記オーディオの流れの部分に対して実行される請求項23に記載の方法。
- 最初のタイムスケーリングは、コーディングシステムに適用されたオーディオ信号の流れから信号成分を削除又はオーディオ信号の流れに信号成分を追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングが信号成分を削除したとき、オーディオ信号の流れに信号成分を追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングが信号成分を追加したとき、オーディオ信号の流れから信号成分を削除する効果を持つ、請求項22に記載の方法。
- 前記追加のタイムスケーリングにより追加又は削除された信号成分の継続時間は、最初のタイムスケーリングにより追加又は削除された信号成分の継続時間と各々同じであり、前記オーディオ信号の流れの継続時間が実質的に変化しない、請求項25に記載の方法。
- コーディングシステムに適用された前記オーディオ信号の流れは、オーディオ情報がサンプルにより表され、サンプルの順番が時間を表し、前記最初のタイムスケーリングはコーディングシステムに適用されたディジタル信号の流れからサンプルを削除又はディジタル信号の流れにサンプルを追加する効果をもち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングがディジタル信号の流れからサンプルを削除したとき、ディジタル信号の流れにサンプルを追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングがディジタル信号の流れにサンプルを追加したとき、ディジタル信号の流れからサンプルを削除する効果を持つ、ディジタル信号の流れである、請求項22に記載の方法。
- 前記検出は、複数のトランジエントを検出し、前記変更は、最初の前記トランジエントに先行するひずみアーティファクトを削減する最初の前記トランジエントの時間的位置を変更する、請求項1に記載の方法。
- コーディングブロックに関する最初の前記トランジエントの時間的位置は、最初の前記トランジエントに先行する前記オーディオ信号の流れに対するタイムスケーリングにより変更される請求項28に記載の方法。
- 追加のタイムスケーリングが最初の前記トランジエントの後ろで、かつ、1以上の他の前記複数のトランジエントの前に適用され、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たす、請求項29に記載の方法。
- 追加のタイムスケーリングが前記トランジエントの後ろに適用され、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たす、請求項29に記載の方法。
- 変換を基盤とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出し、そして、
前記ひずみアーティファクトの継続時間を削減するような時間圧縮を、少なくとも前記ひずみアーティファクトの一部に行うことを含む、ひずみアーティファクトを低減する方法。 - 前記ひずみアーティファクトの部分は、検出されたトランジエントの位置と初期設定の変数値により少なくとも一部分は検出される、請求項32に記載の方法。
- 前記ひずみアーティファクトの部分は、検出されたトランジエントの位置と前記トランジエントに先行する信号特性により少なくとも一部分は検出される、請求項32に記載の方法。
- 前記信号特性はオーディオ信号の流れにおける高周波成分の程度を含む請求項34に記載の方法。
- さらに、前記時間圧縮に先立って、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を含む請求項33または請求34に記載の方法。
- さらに、前記時間圧縮に引き続いて、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を含む請求項33または請求34に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29028601P | 2001-05-10 | 2001-05-10 | |
PCT/US2002/012957 WO2002093560A1 (en) | 2001-05-10 | 2002-04-25 | Improving transient performance of low bit rate audio coding systems by reducing pre-noise |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004528597A true JP2004528597A (ja) | 2004-09-16 |
JP2004528597A5 JP2004528597A5 (ja) | 2005-12-22 |
JP4290997B2 JP4290997B2 (ja) | 2009-07-08 |
Family
ID=23115313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002590350A Expired - Lifetime JP4290997B2 (ja) | 2001-05-10 | 2002-04-25 | プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 |
Country Status (14)
Country | Link |
---|---|
US (1) | US7313519B2 (ja) |
EP (1) | EP1386312B1 (ja) |
JP (1) | JP4290997B2 (ja) |
KR (1) | KR100945673B1 (ja) |
CN (1) | CN1312662C (ja) |
AT (1) | ATE387000T1 (ja) |
AU (1) | AU2002307533B2 (ja) |
CA (1) | CA2445480C (ja) |
DE (1) | DE60225130T2 (ja) |
DK (1) | DK1386312T3 (ja) |
ES (1) | ES2298394T3 (ja) |
HK (1) | HK1070457A1 (ja) |
MX (1) | MXPA03010237A (ja) |
WO (1) | WO2002093560A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010507113A (ja) * | 2006-10-18 | 2010-03-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 情報信号の符号化 |
JP2013156667A (ja) * | 2008-12-29 | 2013-08-15 | Huawei Technologies Co Ltd | 過渡信号符号化方法、復号化方法、及びコンピュータ読取可能媒体 |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4134297A1 (de) * | 1991-10-17 | 1993-04-22 | Behringwerke Ag | Monoclonale antikoerper gegen mycoplasma pneumoniae, diese produzierende hybridome, verfahren zu deren herstellung sowie deren verwendung |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
MXPA03010237A (es) | 2001-05-10 | 2004-03-16 | Dolby Lab Licensing Corp | Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido. |
US7171367B2 (en) | 2001-12-05 | 2007-01-30 | Ssi Corporation | Digital audio with parameters for real-time time scaling |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
JP4076887B2 (ja) * | 2003-03-24 | 2008-04-16 | ローランド株式会社 | ボコーダ装置 |
EP1642265B1 (en) * | 2003-06-30 | 2010-10-27 | Koninklijke Philips Electronics N.V. | Improving quality of decoded audio by adding noise |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
DE602005005640T2 (de) * | 2004-03-01 | 2009-05-14 | Dolby Laboratories Licensing Corp., San Francisco | Mehrkanalige audiocodierung |
US20090196126A1 (en) * | 2004-07-30 | 2009-08-06 | Dietmar Peter | Method for buffering audio data in optical disc systems in case of mechanical shocks or vibrations |
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
JP2006084754A (ja) * | 2004-09-16 | 2006-03-30 | Oki Electric Ind Co Ltd | 音声録音再生装置 |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
KR101251426B1 (ko) * | 2005-06-03 | 2013-04-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법 |
US7562021B2 (en) | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7546240B2 (en) | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
US7917358B2 (en) * | 2005-09-30 | 2011-03-29 | Apple Inc. | Transient detection by power weighted average |
CN101308655B (zh) * | 2007-05-16 | 2011-07-06 | 展讯通信(上海)有限公司 | 一种音频编解码方法与装置 |
CN101308656A (zh) * | 2007-05-17 | 2008-11-19 | 展讯通信(上海)有限公司 | 音频暂态信号的编解码方法 |
BRPI0813334A2 (pt) * | 2007-06-08 | 2014-12-23 | Dolby Lab Licensing Corp | Derivação híbrida de canais de áudio de som surround pela combinação de forma controlável de componentes de sinal de ambiente e decodificado com matriz. |
US7761290B2 (en) * | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US8046214B2 (en) | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
CN101790756B (zh) * | 2007-08-27 | 2012-09-05 | 爱立信电话股份有限公司 | 瞬态检测器以及用于支持音频信号的编码的方法 |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
WO2009081003A1 (fr) * | 2007-12-21 | 2009-07-02 | France Telecom | Codage/decodage par transformee, a fenetres adaptatives |
CN101488344B (zh) * | 2008-01-16 | 2011-09-21 | 华为技术有限公司 | 一种量化噪声泄漏控制方法及装置 |
BR122012006265B1 (pt) * | 2008-03-10 | 2024-01-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Equipamento e método para a manipulação de um sinal de áudio tendo um evento transiente |
JP2010017216A (ja) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
RU2621965C2 (ru) | 2008-07-11 | 2017-06-08 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US9384748B2 (en) | 2008-11-26 | 2016-07-05 | Electronics And Telecommunications Research Institute | Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
US8554348B2 (en) * | 2009-07-20 | 2013-10-08 | Apple Inc. | Transient detection using a digital audio workstation |
US8153882B2 (en) * | 2009-07-20 | 2012-04-10 | Apple Inc. | Time compression/expansion of selected audio segments in an audio file |
KR100940532B1 (ko) | 2009-09-28 | 2010-02-10 | 삼성전자주식회사 | 저비트율 복호화방법 및 장치 |
TWI557723B (zh) | 2010-02-18 | 2016-11-11 | 杜比實驗室特許公司 | 解碼方法及系統 |
EP2372703A1 (en) * | 2010-03-11 | 2011-10-05 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
FR2961938B1 (fr) * | 2010-06-25 | 2013-03-01 | Inst Nat Rech Inf Automat | Synthetiseur numerique audio ameliore |
KR101429564B1 (ko) | 2010-09-28 | 2014-08-13 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 디코딩된 다중채널 오디오 신호 또는 디코딩된 스테레오 신호를 포스트프로세싱하기 위한 장치 및 방법 |
CN103262158B (zh) | 2010-09-28 | 2015-07-29 | 华为技术有限公司 | 对解码的多声道音频信号或立体声信号进行后处理的装置和方法 |
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
EP2828854B1 (en) | 2012-03-23 | 2016-03-16 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
SG11201506542QA (en) | 2013-02-20 | 2015-09-29 | Fraunhofer Ges Forschung | Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap |
US20150179181A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Adapting audio based upon detected environmental accoustics |
US10200134B2 (en) * | 2014-02-10 | 2019-02-05 | Audimax, Llc | Communications systems, methods and devices having improved noise immunity |
PL232466B1 (pl) * | 2015-01-19 | 2019-06-28 | Zylia Spolka Z Ograniczona Odpowiedzialnoscia | Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
US10726851B2 (en) * | 2017-08-31 | 2020-07-28 | Sony Interactive Entertainment Inc. | Low latency audio stream acceleration by selectively dropping and blending audio blocks |
Family Cites Families (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624009A (en) * | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
US4464784A (en) * | 1981-04-30 | 1984-08-07 | Eventide Clockworks, Inc. | Pitch changer with glitch minimizer |
US4723290A (en) * | 1983-05-16 | 1988-02-02 | Kabushiki Kaisha Toshiba | Speech recognition apparatus |
US4700391A (en) * | 1983-06-03 | 1987-10-13 | The Variable Speech Control Company ("Vsc") | Method and apparatus for pitch controlled voice signal processing |
US4792975A (en) * | 1983-06-03 | 1988-12-20 | The Variable Speech Control ("Vsc") | Digital speech signal processing for pitch change with jump control in accordance with pitch period |
US5202761A (en) * | 1984-11-26 | 1993-04-13 | Cooper J Carl | Audio synchronization apparatus |
US4703355A (en) * | 1985-09-16 | 1987-10-27 | Cooper J Carl | Audio to video timing equalizer method and apparatus |
USRE33535E (en) * | 1985-09-16 | 1991-02-12 | Audio to video timing equalizer method and apparatus | |
US5040081A (en) * | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
US4852170A (en) * | 1986-12-18 | 1989-07-25 | R & D Associates | Real time computer speech recognition system |
JPS63225300A (ja) * | 1987-03-16 | 1988-09-20 | 株式会社東芝 | パタ−ン認識装置 |
GB8720527D0 (en) * | 1987-09-01 | 1987-10-07 | King R A | Voice recognition |
US5055939A (en) | 1987-12-15 | 1991-10-08 | Karamon John J | Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track |
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
JP2739950B2 (ja) * | 1988-03-31 | 1998-04-15 | 株式会社東芝 | パターン認識装置 |
CA2085887A1 (en) | 1990-06-21 | 1991-12-22 | Kentyn Reynolds | Method and apparatus for wave analysis and event recognition |
US5313531A (en) * | 1990-11-05 | 1994-05-17 | International Business Machines Corporation | Method and apparatus for speech analysis and speech recognition |
US5216744A (en) * | 1991-03-21 | 1993-06-01 | Dictaphone Corporation | Time scale modification of speech signals |
FR2674710B1 (fr) * | 1991-03-27 | 1994-11-04 | France Telecom | Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle. |
JP3134338B2 (ja) * | 1991-03-30 | 2001-02-13 | ソニー株式会社 | ディジタル音声信号符号化方法 |
US5175769A (en) | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
US5621857A (en) * | 1991-12-20 | 1997-04-15 | Oregon Graduate Institute Of Science And Technology | Method and system for identifying and recognizing speech |
JP3104400B2 (ja) * | 1992-04-27 | 2000-10-30 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
DE69428612T2 (de) | 1993-01-25 | 2002-07-11 | Matsushita Electric Industrial Co., Ltd. | Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen |
KR100372208B1 (ko) * | 1993-09-09 | 2003-04-07 | 산요 덴키 가부시키가이샤 | 음성신호의시간축압축/신장방법 |
JP3186412B2 (ja) * | 1994-04-01 | 2001-07-11 | ソニー株式会社 | 情報符号化方法、情報復号化方法、及び情報伝送方法 |
JPH0863194A (ja) * | 1994-08-23 | 1996-03-08 | Hitachi Denshi Ltd | 残差駆動形線形予測方式ボコーダ |
JP3307138B2 (ja) * | 1995-02-27 | 2002-07-24 | ソニー株式会社 | 信号符号化方法及び装置、並びに信号復号化方法及び装置 |
US5920840A (en) | 1995-02-28 | 1999-07-06 | Motorola, Inc. | Communication system and method using a speaker dependent time-scaling technique |
US5730140A (en) * | 1995-04-28 | 1998-03-24 | Fitch; William Tecumseh S. | Sonification system using synthesized realistic body sounds modified by other medically-important variables for physiological monitoring |
US5699404A (en) | 1995-06-26 | 1997-12-16 | Motorola, Inc. | Apparatus for time-scaling in communication products |
US6002776A (en) * | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US5960390A (en) * | 1995-10-05 | 1999-09-28 | Sony Corporation | Coding method for using multi channel audio signals |
FR2739736B1 (fr) * | 1995-10-05 | 1997-12-05 | Jean Laroche | Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio |
DE69612958T2 (de) * | 1995-11-22 | 2001-11-29 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals |
US5749073A (en) * | 1996-03-15 | 1998-05-05 | Interval Research Corporation | System for automatically morphing audio information |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
JPH1074097A (ja) | 1996-07-26 | 1998-03-17 | Ind Technol Res Inst | オーディオ信号のパラメータを変更する方法及び装置 |
US6049766A (en) | 1996-11-07 | 2000-04-11 | Creative Technology Ltd. | Time-domain time/pitch scaling of speech or audio signals with transient handling |
US5893062A (en) * | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
DE19710545C1 (de) | 1997-03-14 | 1997-12-04 | Grundig Ag | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
US6211919B1 (en) * | 1997-03-28 | 2001-04-03 | Tektronix, Inc. | Transparent embedment of data in a video signal |
TW357335B (en) * | 1997-10-08 | 1999-05-01 | Winbond Electronics Corp | Apparatus and method for variation of tone of digital audio signals |
JP2001513225A (ja) | 1997-12-19 | 2001-08-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伸長オーディオ信号からの周期性の除去 |
US6266003B1 (en) * | 1998-08-28 | 2001-07-24 | Sigma Audio Research Limited | Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals |
US6266644B1 (en) | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US6374225B1 (en) * | 1998-10-09 | 2002-04-16 | Enounce, Incorporated | Method and apparatus to prepare listener-interest-filtered works |
SE9903552D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching |
JP3430968B2 (ja) * | 1999-05-06 | 2003-07-28 | ヤマハ株式会社 | ディジタル信号の時間軸圧伸方法及び装置 |
JP3430974B2 (ja) * | 1999-06-22 | 2003-07-28 | ヤマハ株式会社 | ステレオ信号の時間軸圧伸方法及び装置 |
US6505153B1 (en) * | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
BR0107420A (pt) * | 2000-11-03 | 2002-10-08 | Koninkl Philips Electronics Nv | Processos de codificação de um sinal de entrada e de decodificação, sinal modificado modelado, meio de armazenagem, decodificador, reprodutor de áudio, e ,aparelho para codificação de sinais |
CN1279511C (zh) | 2001-04-13 | 2006-10-11 | 多尔拜实验特许公司 | 一种时间标度和/或音调偏移一个音频信号的方法 |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US20020116178A1 (en) * | 2001-04-13 | 2002-08-22 | Crockett Brett G. | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
MXPA03010237A (es) | 2001-05-10 | 2004-03-16 | Dolby Lab Licensing Corp | Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido. |
AU2002240461B2 (en) | 2001-05-25 | 2007-05-17 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
MXPA03010751A (es) | 2001-05-25 | 2005-03-07 | Dolby Lab Licensing Corp | Segmentacion de senales de audio en eventos auditivos. |
US7346667B2 (en) | 2001-05-31 | 2008-03-18 | Ubs Ag | System for delivering dynamic content |
US20040122772A1 (en) * | 2002-12-18 | 2004-06-24 | International Business Machines Corporation | Method, system and program product for protecting privacy |
-
2002
- 2002-04-25 MX MXPA03010237A patent/MXPA03010237A/es active IP Right Grant
- 2002-04-25 CN CNB028095421A patent/CN1312662C/zh not_active Expired - Lifetime
- 2002-04-25 DK DK02769666T patent/DK1386312T3/da active
- 2002-04-25 AU AU2002307533A patent/AU2002307533B2/en not_active Expired
- 2002-04-25 CA CA2445480A patent/CA2445480C/en not_active Expired - Lifetime
- 2002-04-25 AT AT02769666T patent/ATE387000T1/de active
- 2002-04-25 KR KR1020037014462A patent/KR100945673B1/ko active IP Right Grant
- 2002-04-25 WO PCT/US2002/012957 patent/WO2002093560A1/en active IP Right Grant
- 2002-04-25 ES ES02769666T patent/ES2298394T3/es not_active Expired - Lifetime
- 2002-04-25 DE DE60225130T patent/DE60225130T2/de not_active Expired - Lifetime
- 2002-04-25 US US10/476,347 patent/US7313519B2/en not_active Expired - Lifetime
- 2002-04-25 JP JP2002590350A patent/JP4290997B2/ja not_active Expired - Lifetime
- 2002-04-25 EP EP02769666A patent/EP1386312B1/en not_active Expired - Lifetime
-
2005
- 2005-04-08 HK HK05102947A patent/HK1070457A1/xx not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010507113A (ja) * | 2006-10-18 | 2010-03-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 情報信号の符号化 |
JP2013156667A (ja) * | 2008-12-29 | 2013-08-15 | Huawei Technologies Co Ltd | 過渡信号符号化方法、復号化方法、及びコンピュータ読取可能媒体 |
Also Published As
Publication number | Publication date |
---|---|
US7313519B2 (en) | 2007-12-25 |
CN1552060A (zh) | 2004-12-01 |
EP1386312A1 (en) | 2004-02-04 |
WO2002093560A1 (en) | 2002-11-21 |
CA2445480C (en) | 2011-04-12 |
ATE387000T1 (de) | 2008-03-15 |
JP4290997B2 (ja) | 2009-07-08 |
KR20040034604A (ko) | 2004-04-28 |
ES2298394T3 (es) | 2008-05-16 |
US20040133423A1 (en) | 2004-07-08 |
MXPA03010237A (es) | 2004-03-16 |
HK1070457A1 (en) | 2005-06-17 |
AU2002307533B2 (en) | 2008-01-31 |
KR100945673B1 (ko) | 2010-03-05 |
EP1386312B1 (en) | 2008-02-20 |
CN1312662C (zh) | 2007-04-25 |
DE60225130T2 (de) | 2009-02-26 |
DE60225130D1 (de) | 2008-04-03 |
DK1386312T3 (da) | 2008-06-09 |
CA2445480A1 (en) | 2002-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4290997B2 (ja) | プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 | |
AU2002307533A1 (en) | Improving transient performance of low bit rate audio coding systems by reducing pre-noise | |
EP1356454B1 (en) | Wideband signal transmission system | |
JP3224130B2 (ja) | 高品質オーディオ用符号器・復号器 | |
Sinha et al. | Audio compression at low bit rates using a signal adaptive switched filterbank | |
US7610205B2 (en) | High quality time-scaling and pitch-scaling of audio signals | |
EP0797313B1 (en) | Switched filterbank for use in audio signal coding | |
JP3307138B2 (ja) | 信号符号化方法及び装置、並びに信号復号化方法及び装置 | |
KR101632599B1 (ko) | 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법 | |
KR100567353B1 (ko) | 프레임 경계에서의 엘리어스 아티팩트를 억제하기 위한부가 필터뱅크를 구비한 프레임 기반 오디오 코딩 | |
JP6271531B2 (ja) | デジタル音声信号における効果的なプレエコー減衰 | |
KR100630893B1 (ko) | 프레임 경계에서 분광 스플래터를 감쇠하기 위한 추가의필터뱅크를 갖는 프레임 기반 오디오 코딩 | |
KR20010024531A (ko) | 다이나믹 오디오 프레임 배열에 의해 비디오/오디오데이터 동기된 프레임 기반 오디오 코딩 | |
US20030088404A1 (en) | Compression method and apparatus, decompression method and apparatus, compression/decompression system, peak detection method, program, and recording medium | |
KR20010024342A (ko) | 이득 제어 워드들을 구비한 프레임 기반 오디오 코딩 | |
JP3219762B2 (ja) | 信号伝送方法 | |
KR20010024530A (ko) | 오디오 샘플 레이트 변환에 의해 비디오/오디오 데이터동기된 프레임 기반 오디오 코딩 | |
JP5295372B2 (ja) | デジタルオーディオ信号におけるプリエコーの減衰 | |
EP3602548A1 (en) | Apparatus and method for post-processing an audio signal using prediction based shaping | |
KR970002686B1 (ko) | 오디오 신호의 전송방법 | |
JPH113091A (ja) | 音声信号の立ち上がり検出装置 | |
Johnston | Audio coding with filter banks | |
Ofir et al. | Packet loss concealment for audio streaming based on the GAPES and MAPES algorithms | |
JPH0766733A (ja) | 音声高能率符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050420 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081021 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090120 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090324 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090402 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4290997 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120410 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120410 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130410 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130410 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140410 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |