JP4290997B2 - プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 - Google Patents
プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 Download PDFInfo
- Publication number
- JP4290997B2 JP4290997B2 JP2002590350A JP2002590350A JP4290997B2 JP 4290997 B2 JP4290997 B2 JP 4290997B2 JP 2002590350 A JP2002590350 A JP 2002590350A JP 2002590350 A JP2002590350 A JP 2002590350A JP 4290997 B2 JP4290997 B2 JP 4290997B2
- Authority
- JP
- Japan
- Prior art keywords
- transient
- audio
- time
- signal
- time scaling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001052 transient effect Effects 0.000 title claims abstract description 301
- 230000005236 sound signal Effects 0.000 claims abstract description 97
- 230000002123 temporal effect Effects 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims description 151
- 230000000694 effects Effects 0.000 claims description 30
- 230000009466 transformation Effects 0.000 claims description 29
- 230000006835 compression Effects 0.000 claims description 20
- 238000007906 compression Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 7
- 230000001447 compensatory effect Effects 0.000 claims 4
- 230000002829 reductive effect Effects 0.000 abstract description 22
- 238000013139 quantization Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 59
- 238000012545 processing Methods 0.000 description 41
- 238000012805 post-processing Methods 0.000 description 29
- 238000007781 pre-processing Methods 0.000 description 28
- 238000004458 analytical method Methods 0.000 description 19
- 230000000873 masking effect Effects 0.000 description 18
- 238000001514 detection method Methods 0.000 description 16
- 230000009467 reduction Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000000844 transformation Methods 0.000 description 5
- 239000007787 solid Substances 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Analogue/Digital Conversion (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
タイムスケーリングは、スペクトル内容(音色の認識)、もしくは、知覚された信号のピッチ(ここでピッチとは、周期的なオーディオ信号に関連する特徴である)を変化させないで、オーディオ信号の時間的展開又は継続時間を変化させることに関するものである。ピッチスケーリングは、オーディオ信号の時間展開又は継続時間に影響を与えないで、オーディオ信号のスペクトル内容、もしくは、知覚された信号のピッチを変化させることに関するものである。タイムスケーリング及びピッチスケーリングは、お互いに二元的な方法である。例えば、オーディオ信号を5%タイムスケーリングし(信号継続時間を増加させ)、そして、5%高いサンプルレートで(例えば再サンプルにより)サンプル値を読み取り、それによりそのオリジナルな信号継続時間を維持させるようにしながら、ディジタル化されたオーディオシグナルのピッチをその継続時間に影響を与えることなく5%スケールアップすることが可能である。この結果としての信号は、オリジナルの信号と同じ継続時間となるが、修正されたピッチあるいはスペクトル特性となる。一定の出力サンプリングレート又は入出力サンプリングレートを同じにすることが要求されないなら、再サンプリングは、タイムスケーリング又はピッチスケーリング本質的なステップではない。
信号の質を知覚できるほど落とさないで、信号を表現するのに必要な情報量を最小限にすることは、信号処理の分野で大きな関心がもたれている。要求情報量を減らすことによって、信号伝達チャンネルや記憶媒体に対する情報処理容量の要求が低くなる。ディジタルコーディング技術に関しては、情報処理要求を最小限にすることは、2進ビットの必要量を最小限にすることと同義となる。
エンコードされる入力信号は、サンプルリングされ、サブバンドフィルタリングの前に「信号サンプルブロック」にセグメント化される。信号サンプルにおけるサンプルの数が信号サンプルブロック長さとなる。
有限時間の信号セグメントつまり信号サンプルブロック内で作用するので、離散的な変換は全く正確な信号係数を生み出すわけではない。厳密にいえば、離散的変換は、無限のサンプルブロック長さの信号サンプルを必要とする真の周波数領域を表現するというより、入力時間領域における時間と周波数の関係を表現する。しかしここでは議論を簡単にするため、離散的変換の出力は周波数領域を表現するものとする。実質的に、離散的変換は信号サンプルブロック長さの約数となる周期の周波数成分のみを持つサンプル信号であると想定する。これは、有限長さの信号が周期的であるという想定と等価である。この想定は一般的にはもちろん正しくない。この想定された周期は、信号サンプルブロックの端で不連続性を生み、変換により実体のないスペクトル成分を生み出す原因となる。
固定ブロック長さの変換コーダーにおける時間と周波数の分解能に関する妥協に対応する一般的な解決手段は、トランジエントの検出とブロック長さの切り替えである。この解決手段において、信号トランジエントの存在とその位置は、様々なトランジエント検出法を用いて検出される。信号コーダーブロック長さの長いものを用いると、プレノイズが発生しそうなトランジエント・オーディオ信号が検出されたとき、低ビットレートのコーダーが、効率の良い長いブロック長さから効率が劣る短いブロック長さに切り替える。これは、エンコードされたオーディオ信号の周波数分解能とコーディング効率を下げる一方、コーディングプロセスにより発生する過渡的なプレノイズの長さも短くし、低ビットレートでのデコーディングにおけるオーディオの知覚される質を改善する。ブロック長さを切り替える技術は、米国特許5,394,473、5,848,391、及び6,226,608B1に開示されており、これらは、全体的に参照用として本出願に組み込まれる。しかし、本発明はブロック切り替えの複雑さや不都合なしに、プレノイズを減らすもので、ブロック切り替えとともにあるいはブロック切り替えに付け加えて用いられる。
トレートオーディオコーダーにおいて、ブロック切り替え又は固定の短いブロック長さが実際のアプリケーションに用いられるのはこのためである。しかし、本発明によるタイムスケーリングを、低ビットレートのオーディオコーディングに耐える及び/又はポストプロセッシングに耐えていたオーディオに適用することは、過渡的なプレノイズの持続時間を削減するかもしれない。このことは、より長いオーディオコーディングブロック長さの使用を可能とし、それによりコーディング効率の向上と、ブロック長さの切り替えの適用なしに知覚されたオーディオの質の向上をもたらす。しかし、本発明によるプレノイズの縮減は、ブロック長さの切り替えに採用されるコーディングシステムにも採用される。このようなシステムにおいて、いくらかのプレノイズは最小の窓サイズにおいても存在することがある。窓を大きくすればするほど、長い、したがってもっとよく聞こえるプレノイズが発生する。典型的なトランジエントは、約5msecのプレマスキングを提供し、これは48kHzのサンプリングレートにおいて240個のサンプルに相当する。もし窓が、ブロック切り替え構成において一般的な256個のサンプルより大きければ、本発明は利益をもたらす。
図1a−1eは、固定ブロック長さのオーディオコードシステムにおいて発生した過渡的なプレノイズアーティファクトの例を示す。図1aは50%重複とした、固定長さのオーディオコーディング窓化された1から6までのブロックを示す。この図及び他のすべての図において、各窓はオーディオコーディングブロックと連続しており、「窓ブロック」、「窓」、又は「ブロック」と称する。本図及び他の図において、図示された窓は、一般にカイザー‐ベッセル窓の形で示される。他の図では簡単に表現するために半円の形で窓を図示している。窓の形は本発明では決定的なものではない。図1a及び他の図における窓ブロックの長さは本発明では決定的ではないが、固定長の窓ブロックは典型的には256個から2048個のサンプル数の長さになる。図1bから1eまでの4つのオーディオ信号の例は、各々、オーディオコーディング窓ブロックと過渡的なプレノイズアーティファクトとの関係を描いている。
図6は、低ビットレートのエンコーディングを行う前に、タイムスケーリングによる過渡的なプレノイズの量を低減するための方法(すなわち、「前処理」)を描いたフローチャートである。この方法は、N個のサンプルブロックにおける入力オーディオの処理を行う。ここで、Nはオーディオコーディングブロックに使用するオーディオサンプル数より大きいか又は等しい数に対応する。タイムスケーリング処理に用いるためのオーディオコーディングブロック外部に付加的なオーディオデータを提供するためには、オーディオコーディングブロックのサイズより大きな数Nの処理サイズが望ましい。この付加的なデータは、例えば、トランジエントの位置を改善するために実行されるタイムスケーリング処理のためのサンプル数補償に使うことができる。
1つの適当なオーディオ信号トランジエントの検出方法は、以下の通りである。トランジエントの検出分析における第1のステップは、入力データ(入力サンプルを時間機能として扱う)をフィルターに通すことである。入力データを、例えば、約8kHzにおいて3dBのカットオフ周波数を持つ2次IIRハイパスフィルターによるフィルターに通しても良い。フィルターの特性は必須事項ではない。このフィルターを通ったデータは、次に、トランジエントの分析に用いられる。入力データをフィルターに通すことは高周波トランジエントを隔離し、これらを特定することを容易にする。次に、図7に示すように、約1.5msec(又は44.1kHzで64サンプル)の64個のサブブロックにおいて、フィルターを通ってきた入力データが処理される。実際の処理するサブブロックのサイズは、1.5msecにしなければならないわけではなく、変更しても良いので、このサイズは、実時間処理からの要求(ブロックサイズが長ければ、処理時間は短くなる)と、トランジエントの位置の分解能(ブロックサイズが短ければ、トランジエントの位置についてのさらに詳細な情報が得られる)との二律背反関係となる。4096個のサンプルの信号サンプルブロックを使い64個のサンプルのサブブロックを使うことは、単なる例示であってこの発明における必須事項ではない。
hi_mavg(k) = hi_mavg(k - 1)+((hi feq peak val in buffer k) - hi_mavg(k - 1))*AVG_WHT) (1)
end
ここで、hi_mavg(0)は、先の連続処理のための入力バッファから、hi_mavg(64)と等しく設定される。この実施例では、変数AVG_WHTは0.25に設定されている。この値は一般的なオーディオ材料を用いて、以下の実験的な分析により決められた。
if (((hi feq peak val in buffer k)* HI_FREQ_SCALE) >hi_mavg(k)) (2)
flag high frequency transient in sub-block k = TRUE
end
end
トランジエントの検出に続いて、64個のサンプルのサブブロックについてトランジエントフラグを解消すべきかどうか(TRUEからFALSEにリセットすべきかどうか)を決定するためいくつかの修正点検がなされる。これらの点検は、間違ったトランジエント検出を削減するためになされる。第1に、もし高周波ピーク値が最低ピーク値以下に下がったらトランジエントは解消される(低レベルトランジエントと呼ぶ)。第2に、もしサブブロックのピークがトランジエントの引き金となったが先のサブブロックより明らかに大きくはない場合、トランジエントフラグを立てる引き金にはなってしまったが、このサブブロックのトランジエントは解消される。このことはトランジエントが存在するところでの情報の不明確かを減少させる。
図8a−8eは、トランジエントが、オーディオコーディングブロック内にあり、かつ、次の窓の終端よりも先の窓の終端近くにあるときの、本発明の特徴によるオーディオタイムスケーリングの前処理の例を示している。例えば、図1a−1eと図4a及び4bのような50%重複を想定する。先に論じたとおり、低ビットレートのオーディオコーディングに起因するトランジエントの量を減らすために、オーディオ信号トランジエントが先の窓ブロックの終端の後方で、終端にごく近い位置にあるようなオーディオ入力信号の時間展開を調整することが望まれる。このようなトランジエント位置の移動は、トランジエントプレノイズ長さを最適に制限するときに信号の流れの時間展開に対する混乱を最小限にするので、望ましい。しかし、上述のとおり、先の窓ブロックの終端の後方で、終端にごく近い位置への移動は最適にトランジエントプレノイズの長さを制限するが信号の流れの時間展開に対する混乱を最小限にはしない。ある場合は、特に時間展開補償の適用された場合は、混乱はほとんどないか又は可聴とならない。このように、この実施例及びここに記載した他の実施例において、本発明により、どちらか近い方のブロック終端に移動することがもくろまれている。上述の通り、タイムスケーリングの過渡的な時間移動は、オーディオ信号の流れのエンコーダーによるブロックへの分割の後に処理が実行されない限り、単一のブロック内で実行される必要はない。
オーディオコーディングブロック長さとコード化されたオーディオデータの中身によっては、処理された入力オーディオデータの流れが、処理されたN個のサンプル内に、プレノイズアーティファクトを引き起こす2以上のトランジエント信号を含むことがあり得る。前述のとおり、処理されたN個のサンプルには2以上のコーディングブロックが含まれ得る。
前述のように、処理されたオーディオ信号の流れの時間展開が実質的に元のオーディオの時間展開と同じになり、元の信号の流れの時間展開を復元するために、デコーダーによる逆変換に引き続き、トランジエントの後のオーディオ信号の流れに対して時間補償のためのタイムスケーリングを適用するのが望ましい。しかしながら、実験的な研究では、オーディオ信号の時間的な多少の変動はほとんどのリスナーにとって認識できないので、時間展開の補償は必ずしも必要ではないことを示している。しかし、平均するとトランジエントは、同じように進ませ遅らせるので、十分長い時間においては、時間展開に対する補償なしに蓄積された効果は無視できないだろう。もう1つの考慮すべき問題は、前処理に使われるタイムスケーリングの形式によって、付加した時間展開補償処理によりオーディオに可聴なアーティファクトを誘起するかもしれないことである。このようなアーティファクトは、タイムスケーリング処理が、多くの場合、完全な可逆処理ではないことに起因して発生するのであろう。言い換えれば、タイムスケーリング処理を用いて固定量のオーディオを削減し、後でオーディオを同じだけ時間伸張することは、可聴なアーティファクトを発生させる可能性がある。
前述の多くの例により論証したとおり、オーディオコーディングブロック内で最適にトランジエントを配置したとしても、プレノイズはまだ低ビットコーディングシステム処理により発生する。前述の通り、長いオーディオコーディングブロックのほうが、大きな周波数分解能を持ちコーディング利得を増大するので、短いコーディングブロックより好ましい。しかし、タイムスケーリングによりオーディオエンコーディング(前処理)に先立って、トランジエントが最適に配置されたとしても、オーディオコーディングブロックが増加すると、プレノイズも増加する。過渡的な時間的プレノイズのプレマスキングは約5msec(ミリセカンド)のオーダーであり、これは48kHzのサンプリングレートにおいて240個のサンプルに相当する。これは、約512個のサンプルより大きなブロックサイズを持つコーダーにとって、最適な配置であっても過渡的なプレノイズが可聴となることを意味する(50%重複の場合半分だけがマスクされる)。(これはコーダーブロックにおいて、窓端効果によるトランジエントプレノイズの減少については考慮していない)
トランジエントプレノイズが低ビットレートコーディングシステムから完全には除去できないかもしれないのに対し、前処理を適用するしないにかかわらず、トランジエントプレノイズの量を減らすために、低ビットレートのオーディオデコーダーを基礎とする変換において逆変換に耐えたオーディオデータにタイムスケーリング後処理(自然に起こるもの、あるいは前処理に付け加えることによるもの)を実行することは可能である。タイムスケーリング後処理は、低ビットレートオーディオコーダーと関連しても(すなわち、デコーダーの一部として、及び/又はデコーダーから及び/又はデコーダーを経由したエンコーダーからメタデータを受け取ることで)又は単独の後処理としても実行することができる。オーディオコーディングブロック長さのみならずコーディングブロックに関連したトランジエントの位置のような有益な情報が容易に使用可能であり、メタデータを通して後処理工程に伝達することが可能なので、メタデータを使うことが望ましい。しかし、後処理は、低ビットレートオーディオコーダーとの相互作用なしに使うことができる。以下に二つの方法について論ずる。
図12は、トランジエントプレノイズを低減するための低ビットレートのオーディオデコーダーと連動したタイムスケーリングの後処理の実行の工程を描いたフローチャートである。図12に描かれた工程は、入力データが低ビットレートでエンコードされたオーディオデータであることを前提とする(ステップ802)。圧縮されたデータのオーディオ内へのデコーディング(ステップ804)に続いて、(単数又は複数の)ブロックに関連するオーディオは、トランジエントプレノイズの継続を提言するのに有効なメタデータ情報とともに、タイムスケール装置806に送信される。この情報には、例えば、トランジエントの位置、オーディオコーダーブロックの長さ、コーダーブロック境界とオーディオデータとの関係、及びトランジエントプレノイズの必要長さを含めても良い。もし、トランジエントのオーディオコーダーブロックの境界との関係位置が利用できるのなら、プレノイズアーティファクトの長さと位置が計算され、後処理で正確に縮減される。トランジエントは時間的プレマスキングを行うので、完全にトランジエントプレノイズを取り去る必要はない。タイムスケーリングの後処理工程において、希望するプレノイズの長さを与えることにより、ステップ808において、オーディオ出力の出力中に残されたプレノイズの量にコントロールをかけることができる。ステップ806の適切なタイムスケール処理の結果を図13a−13cの説明と関連して以下に説明する。
前述の通り、場合によっては、トランジエントプレノイズタイムスケーリング処理(前処理)を実行しない圧縮システムを用いる低ビットコーディングを経た知覚されるオーディオの質を改善することが望まれる。図14はこのような処理の概要である。
Claims (38)
- コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
前記ひずみアーティファクトの継続時間を削減するために、前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップと、
処理されたオーディオ信号の流れの時間展開が、前記変化させる前のオーディオ信号の流れの時間展開と実質的に同じになるような補償的タイムスケーリングを、前記コーディングシステムのデコーダーにおいて、オーディオ信号の流れに、逆変換に続いて適用するステップと、
を具備するひずみアーティファクトを低減する方法。 - 前記補償的タイムスケーリングを、前記信号トランジエントに先行する前記オーディオ信号の流れの部分に適用する請求項1に記載の方法。
- 前記コーディングシステムは、エンコーダーとデコーダーとを含み、前記エンコーダーは、前記オーディオ信号の流れのエンコードされたものと共にメタデータを前記デコーダーに伝達し、前記メタデータは、前記補償的タイムスケーリングの適用に有効な情報を含んでいる、請求項1に記載の方法。
- 前記タイムスケーリングは、前記トランジエントの近傍に先行する前記オーディオの流れの部分に対して実行される請求項1に記載の方法。
- 前記変化させるステップは、前記コーディングシステムのエンコーダーにおける正変換の前に、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップである、請求項1に記載の方法。
- 前記トランジエントの時間的な位置は、次のブロック終端の後方で当該終端の近く又は前のブロック終端の後方で当該終端の近くに移動する、請求項5に記載の方法。
- 前記トランジエントの時間的な位置は、時間的位置の移動長さが結果的に短くなるように、次のブロック終端の後方で当該終端の近く又は前のブロック終端の後方で当該終端の近くに移動する、請求項5に記載の方法。
- 前記コーディングシステムのデコーダーにおいて、逆変換の後に残留するひずみアーティファクトの少なくとも一部を除去するステップをさらに具備する、請求項1乃至7のいずれか1項に記載の方法。
- 残留するひずみアーティファクト部分は、前記コーディングシステムにより伝達されたメタデータ情報により少なくとも一部分は検出される、請求項8に記載の方法。
- 残留するひずみアーティファクト部分は、初期設定値により少なくとも一部分は検出される、請求項8に記載の方法。
- 残留するひずみアーティファクト部分は、前記オーディオ信号の流れ内の高周波オーディオ成分の程度により少なくとも一部分は検出される、請求項8に記載の方法。
- 前記メタデータ情報には1以上のトランジエントの情報と、前記オーディオコーダーブロックの長さと、前記コーダーブロックの境界とオーディオデータとの関係と、前記トランジエントプレノイズの必要長さと、を具備する請求項6に記載の方法。
- 前記タイムスケーリングは、前記トランジエントの近傍に先行し、少なくとも一部はトランジエントにより時間的にプレマスクされた前記オーディオの流れの部分に対して実行される請求項4に記載の方法。
- 変換を前提とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記オーディオ信号の流れの中にトランジエントを検出するステップと、
少なくとも前記ひずみアーティファクトの一部に対して、前記ひずみアーティファクトの継続時間を削減するような時間圧縮を行うステップと、
前記時間圧縮に先立って、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を行うステップと、
を具備するひずみアーティファクトを低減する方法。 - 変換を前提とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記トランジエントプレノイズの継続時間を削減するのに有用なメタデータ情報を受信するステップと、
少なくとも前記ひずみアーティファクトの一部に対して、前記ひずみアーティファクトの継続時間を削減するような時間圧縮を行うステップと、
前記時間圧縮に先立って、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を行うステップと、
を具備するひずみアーティファクトを低減する方法。 - コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
前記ひずみアーティファクトの継続時間を削減するために、前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップであって、前記タイムスケーリングはコーディングシステムが適用されたオーディオ信号の流れから信号成分を削除、又はコーディングシステムが適用されたオーディオ信号の流れに信号成分を追加する効果をもつことを特徴とするステップと、
前記信号トランジエントの後ろに追加のタイムスケーリングを適用するステップであって、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たすことを特徴とするステップと、
を具備するひずみアーティファクトを低減する方法。 - コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
前記ひずみアーティファクトの継続時間を削減するために、前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップであって、前記タイムスケーリングはコーディングシステムが適用されたオーディオ信号の流れから信号成分を削除、又はコーディングシステムが適用されたオーディオ信号の流れに信号成分を追加する効果をもつことを特徴とするステップと、
処理されたオーディオ信号の流れの時間展開が実質的に前記時間的位置の変更の前のオーディオ信号の流れの時間展開と同じになり、前記オーディオ信号の流れの継続時間が実質的に変化しないように、前記コーディングシステムのデコーダー内の逆変換に続いて、前記トランジエントの前の前記ひずみアーティファクトに先行するオーディオ信号の流れに補償的タイムスケーリングを適用するステップと、
を具備するひずみアーティファクトを低減する方法。 - コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
前記ひずみアーティファクトの継続時間を削減するために、前記信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと前記トランジエントとの時間的な関係を変化させるステップと、
前記信号トランジエントの後ろに追加のタイムスケーリングを適用するステップであって、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たすことを特徴とするステップと、
を具備するひずみアーティファクトを低減する方法。 - コーディングブロックを用いた、変換を前提とする低ビットレートのオーディオコーディングシステムにより処理されたオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
オーディオ信号の流れの中にトランジエントを検出するステップと、
最初の前記トランジエントの前のひずみアーティファクトの継続時間を削減するために、前記最初の信号トランジエントに先立つ前記オーディオ信号の流れの一部をタイムスケーリングすることで、前記コーディングブロックと最初の前記トランジエントとの時間的な関係を変化させるステップと、
前記最初の前記トランジエントの後ろで、かつ、1以上の他の前記複数のトランジエントの前に適用追加のタイムスケーリングを適用するステップであって、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たすことを特徴とするステップと、
を具備するひずみアーティファクトを低減する方法。 - 変換を前提とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記オーディオ信号の流れの中にトランジエントを検出するステップと、
少なくとも前記ひずみアーティファクトの一部に対して、前記ひずみアーティファクトの継続時間を削減するような時間圧縮を行うステップと、
前記時間圧縮に引き続いて、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を行うステップと、
を具備するひずみアーティファクトを低減する方法。 - 変換を前提とする低ビットレートのオーディオコーディングシステムのデコーダーにおいて、逆変換に続くオーディオ信号の流れの中で、信号トランジエントに先立つひずみアーティファクトを低減する方法であって、
前記トランジエントプレノイズの継続時間を削減するのに有用なメタデータ情報を受信するステップと、
少なくとも前記ひずみアーティファクトの一部に対して、前記ひずみアーティファクトの継続時間を削減するような時間圧縮を行うステップと、
前記時間圧縮に引き続いて、オーディオ信号の流れにおける時間展開と長さが実質的に変化しないような時間伸張を行うステップと、
を具備するひずみアーティファクトを低減する方法。 - 前記追加のタイムスケーリングは、前記コーディングシステムのエンコーダーにおいて正変換に先立ち適用される請求項16に記載の方法。
- 前記追加のタイムスケーリングは、前記コーディングシステムのデコーダーにおいて逆変換に引き続き適用される請求項16に記載の方法。
- 前記追加のタイムスケーリングにより追加又は削除された信号成分の継続時間は、最初のタイムスケーリングにより追加又は削除された信号成分の継続時間と各々実質的に同じであり、前記オーディオ信号の流れの継続時間が実質的に変化しない、請求項16に記載の方法。
- 前記コーディングシステムは、エンコーダーとデコーダーとを含み、前記エンコーダーは、メタデータを前記デコーダーに伝達し、前記メタデータは、前記補償的タイムスケーリングの適用に有効な情報を含んでいる、請求項17に記載の方法。
- コーディングシステムに適用された前記オーディオ信号の流れは、オーディオ情報がサンプルにより表され、サンプルの順番が時間を表し、前記タイムスケーリングはコーディングシステムに適用されたディジタル信号の流れからサンプルを削除又はディジタル信号の流れにサンプルを追加する効果をもつディジタル信号の流れである請求項1、請求項14、請求項15、及び請求項16乃至請求項21のいずれか1項に記載の方法。
- 前記追加のタイムスケーリングは、前記トランジエントの近傍に続く前記オーディオの流れの部分に対して実行される請求項18に記載の方法。
- 前記タイムスケーリングは、少なくとも一部はトランジエントにより時間的ポストマスクされた前記オーディオの流れの部分に対して実行される請求項27に記載の方法。
- 最初のタイムスケーリングは、コーディングシステムに適用されたオーディオ信号の流れから信号成分を削除又はオーディオ信号の流れに信号成分を追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングが信号成分を削除したとき、オーディオ信号の流れに信号成分を追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングが信号成分を追加したとき、オーディオ信号の流れから信号成分を削除する効果を持つ、請求項18に記載の方法。
- 前記追加のタイムスケーリングにより追加又は削除された信号成分の継続時間は、最初のタイムスケーリングにより追加又は削除された信号成分の継続時間と各々同じであり、前記オーディオ信号の流れの継続時間が実質的に変化しない、請求項29に記載の方法。
- コーディングシステムに適用された前記オーディオ信号の流れは、オーディオ情報がサンプルにより表され、サンプルの順番が時間を表し、前記最初のタイムスケーリングはコーディングシステムに適用されたディジタル信号の流れからサンプルを削除又はディジタル信号の流れにサンプルを追加する効果をもち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングがディジタル信号の流れからサンプルを削除したとき、ディジタル信号の流れにサンプルを追加する効果を持ち、前記追加のタイムスケーリングは、前記最初のタイムスケーリングがディジタル信号の流れにサンプルを追加したとき、ディジタル信号の流れからサンプルを削除する効果を持つ、ディジタル信号の流れである、請求項18に記載の方法。
- 追加のタイムスケーリングが最初の前記トランジエントに続く1以上の他の前記複数のトランジエントの後ろに適用され、前記追加のタイムスケーリングは最初のタイムスケーリングとは反対の役割を果たす、請求項19に記載の方法。
- 前記ひずみアーティファクト部分は、検出されたトランジエントの位置と初期設定の変数値により少なくとも一部分は検出される、請求項14又は請求項20に記載の方法。
- 前記ひずみアーティファクト部分は、検出されたトランジエントの位置と前記トランジエントに先行する信号特性により少なくとも一部分は検出される、請求項14又は請求項20に記載の方法。
- 前記信号特性はオーディオ信号の流れにおける高周波成分の程度を含む請求項34に記載の方法。
- 前記トランジエントプレノイズの継続時間を削減するのに有用なメタデータ情報を受信するステップ、
を具備する請求項14又は請求項20に記載の方法。 - 前記メタデータ情報には、1以上のオーディオブロックコーダーブロックの長さと、前記コーダーブロックの境界とオーディオデータとの関係と、前記トランジエントプレノイズの必要長さと、を具備する請求項14又は請求項20に記載の方法。
- 前記メタデータ情報には1以上のトランジエントの情報と、前記オーディオコーダーブロックの長さと、前記コーダーブロックの境界とオーディオデータとの関係と、前記トランジエントプレノイズの必要長さと、を具備する請求項15又は請求項21に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29028601P | 2001-05-10 | 2001-05-10 | |
PCT/US2002/012957 WO2002093560A1 (en) | 2001-05-10 | 2002-04-25 | Improving transient performance of low bit rate audio coding systems by reducing pre-noise |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004528597A JP2004528597A (ja) | 2004-09-16 |
JP2004528597A5 JP2004528597A5 (ja) | 2005-12-22 |
JP4290997B2 true JP4290997B2 (ja) | 2009-07-08 |
Family
ID=23115313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002590350A Expired - Lifetime JP4290997B2 (ja) | 2001-05-10 | 2002-04-25 | プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 |
Country Status (14)
Country | Link |
---|---|
US (1) | US7313519B2 (ja) |
EP (1) | EP1386312B1 (ja) |
JP (1) | JP4290997B2 (ja) |
KR (1) | KR100945673B1 (ja) |
CN (1) | CN1312662C (ja) |
AT (1) | ATE387000T1 (ja) |
AU (1) | AU2002307533B2 (ja) |
CA (1) | CA2445480C (ja) |
DE (1) | DE60225130T2 (ja) |
DK (1) | DK1386312T3 (ja) |
ES (1) | ES2298394T3 (ja) |
HK (1) | HK1070457A1 (ja) |
MX (1) | MXPA03010237A (ja) |
WO (1) | WO2002093560A1 (ja) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4134297A1 (de) * | 1991-10-17 | 1993-04-22 | Behringwerke Ag | Monoclonale antikoerper gegen mycoplasma pneumoniae, diese produzierende hybridome, verfahren zu deren herstellung sowie deren verwendung |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
DE60225130T2 (de) | 2001-05-10 | 2009-02-26 | Dolby Laboratories Licensing Corp., San Francisco | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches |
US7171367B2 (en) * | 2001-12-05 | 2007-01-30 | Ssi Corporation | Digital audio with parameters for real-time time scaling |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
JP4076887B2 (ja) * | 2003-03-24 | 2008-04-16 | ローランド株式会社 | ボコーダ装置 |
KR101058062B1 (ko) * | 2003-06-30 | 2011-08-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 잡음 부가에 의한 디코딩된 오디오의 품질 개선 |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
WO2005086139A1 (en) * | 2004-03-01 | 2005-09-15 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
US20090196126A1 (en) * | 2004-07-30 | 2009-08-06 | Dietmar Peter | Method for buffering audio data in optical disc systems in case of mechanical shocks or vibrations |
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
JP2006084754A (ja) * | 2004-09-16 | 2006-03-30 | Oki Electric Ind Co Ltd | 音声録音再生装置 |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
CA2610430C (en) * | 2005-06-03 | 2016-02-23 | Dolby Laboratories Licensing Corporation | Channel reconfiguration with side information |
US7562021B2 (en) | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7546240B2 (en) | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
US7917358B2 (en) * | 2005-09-30 | 2011-03-29 | Apple Inc. | Transient detection by power weighted average |
DE102006049154B4 (de) * | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
CN101308655B (zh) * | 2007-05-16 | 2011-07-06 | 展讯通信(上海)有限公司 | 一种音频编解码方法与装置 |
CN101308656A (zh) * | 2007-05-17 | 2008-11-19 | 展讯通信(上海)有限公司 | 音频暂态信号的编解码方法 |
JP5021809B2 (ja) * | 2007-06-08 | 2012-09-12 | ドルビー ラボラトリーズ ライセンシング コーポレイション | アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出 |
US7761290B2 (en) * | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US8046214B2 (en) | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
CA2697920C (en) * | 2007-08-27 | 2018-01-02 | Telefonaktiebolaget L M Ericsson (Publ) | Transient detector and method for supporting encoding of an audio signal |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
ES2666719T3 (es) * | 2007-12-21 | 2018-05-07 | Orange | Codificación/decodificación por transformada, con ventanas adaptativas |
CN101488344B (zh) * | 2008-01-16 | 2011-09-21 | 华为技术有限公司 | 一种量化噪声泄漏控制方法及装置 |
EP2296145B1 (en) * | 2008-03-10 | 2019-05-22 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Device and method for manipulating an audio signal having a transient event |
JP2010017216A (ja) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
ES2654433T3 (es) | 2008-07-11 | 2018-02-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de señal de audio, método para codificar una señal de audio y programa informático |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US9384748B2 (en) * | 2008-11-26 | 2016-07-05 | Electronics And Telecommunications Research Institute | Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching |
CN101770776B (zh) | 2008-12-29 | 2011-06-08 | 华为技术有限公司 | 瞬态信号的编码方法和装置、解码方法和装置及处理系统 |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
US8554348B2 (en) * | 2009-07-20 | 2013-10-08 | Apple Inc. | Transient detection using a digital audio workstation |
US8153882B2 (en) * | 2009-07-20 | 2012-04-10 | Apple Inc. | Time compression/expansion of selected audio segments in an audio file |
KR100940532B1 (ko) | 2009-09-28 | 2010-02-10 | 삼성전자주식회사 | 저비트율 복호화방법 및 장치 |
TWI443646B (zh) | 2010-02-18 | 2014-07-01 | Dolby Lab Licensing Corp | 音訊解碼器及使用有效降混之解碼方法 |
EP2372703A1 (en) * | 2010-03-11 | 2011-10-05 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
FR2961938B1 (fr) * | 2010-06-25 | 2013-03-01 | Inst Nat Rech Inf Automat | Synthetiseur numerique audio ameliore |
ES2585587T3 (es) | 2010-09-28 | 2016-10-06 | Huawei Technologies Co., Ltd. | Dispositivo y método para post-procesamiento de señal de audio multicanal decodificada o de señal estéreo decodificada |
WO2012040898A1 (en) | 2010-09-28 | 2012-04-05 | Huawei Technologies Co., Ltd. | Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal |
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
US9064503B2 (en) | 2012-03-23 | 2015-06-23 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
CN105378835B (zh) | 2013-02-20 | 2019-10-01 | 弗劳恩霍夫应用研究促进协会 | 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法 |
US20150179181A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Adapting audio based upon detected environmental accoustics |
KR20160119859A (ko) * | 2014-02-10 | 2016-10-14 | 아우디맥스, 엘엘씨 | 개선된 잡음 내성을 갖는 통신 시스템들, 방법들 및 디바이스들 |
PL232466B1 (pl) * | 2015-01-19 | 2019-06-28 | Zylia Spolka Z Ograniczona Odpowiedzialnoscia | Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
US10726851B2 (en) * | 2017-08-31 | 2020-07-28 | Sony Interactive Entertainment Inc. | Low latency audio stream acceleration by selectively dropping and blending audio blocks |
Family Cites Families (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624009A (en) | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
US4464784A (en) | 1981-04-30 | 1984-08-07 | Eventide Clockworks, Inc. | Pitch changer with glitch minimizer |
US4723290A (en) | 1983-05-16 | 1988-02-02 | Kabushiki Kaisha Toshiba | Speech recognition apparatus |
US4792975A (en) | 1983-06-03 | 1988-12-20 | The Variable Speech Control ("Vsc") | Digital speech signal processing for pitch change with jump control in accordance with pitch period |
US4700391A (en) | 1983-06-03 | 1987-10-13 | The Variable Speech Control Company ("Vsc") | Method and apparatus for pitch controlled voice signal processing |
US5202761A (en) | 1984-11-26 | 1993-04-13 | Cooper J Carl | Audio synchronization apparatus |
USRE33535E (en) | 1985-09-16 | 1991-02-12 | Audio to video timing equalizer method and apparatus | |
US4703355A (en) | 1985-09-16 | 1987-10-27 | Cooper J Carl | Audio to video timing equalizer method and apparatus |
US5040081A (en) | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
US4852170A (en) | 1986-12-18 | 1989-07-25 | R & D Associates | Real time computer speech recognition system |
JPS63225300A (ja) | 1987-03-16 | 1988-09-20 | 株式会社東芝 | パタ−ン認識装置 |
GB8720527D0 (en) | 1987-09-01 | 1987-10-07 | King R A | Voice recognition |
US5055939A (en) | 1987-12-15 | 1991-10-08 | Karamon John J | Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track |
IL84902A (en) | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
JP2739950B2 (ja) | 1988-03-31 | 1998-04-15 | 株式会社東芝 | パターン認識装置 |
WO1991019989A1 (en) | 1990-06-21 | 1991-12-26 | Reynolds Software, Inc. | Method and apparatus for wave analysis and event recognition |
US5313531A (en) | 1990-11-05 | 1994-05-17 | International Business Machines Corporation | Method and apparatus for speech analysis and speech recognition |
US5216744A (en) | 1991-03-21 | 1993-06-01 | Dictaphone Corporation | Time scale modification of speech signals |
FR2674710B1 (fr) * | 1991-03-27 | 1994-11-04 | France Telecom | Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle. |
JP3134338B2 (ja) * | 1991-03-30 | 2001-02-13 | ソニー株式会社 | ディジタル音声信号符号化方法 |
US5175769A (en) | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
US5450522A (en) | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
US5621857A (en) | 1991-12-20 | 1997-04-15 | Oregon Graduate Institute Of Science And Technology | Method and system for identifying and recognizing speech |
JP3104400B2 (ja) * | 1992-04-27 | 2000-10-30 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
EP0608833B1 (en) | 1993-01-25 | 2001-10-17 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for performing time-scale modification of speech signals |
KR100372208B1 (ko) | 1993-09-09 | 2003-04-07 | 산요 덴키 가부시키가이샤 | 음성신호의시간축압축/신장방법 |
JP3186412B2 (ja) * | 1994-04-01 | 2001-07-11 | ソニー株式会社 | 情報符号化方法、情報復号化方法、及び情報伝送方法 |
JPH0863194A (ja) * | 1994-08-23 | 1996-03-08 | Hitachi Denshi Ltd | 残差駆動形線形予測方式ボコーダ |
JP3307138B2 (ja) * | 1995-02-27 | 2002-07-24 | ソニー株式会社 | 信号符号化方法及び装置、並びに信号復号化方法及び装置 |
US5920840A (en) | 1995-02-28 | 1999-07-06 | Motorola, Inc. | Communication system and method using a speaker dependent time-scaling technique |
US5730140A (en) | 1995-04-28 | 1998-03-24 | Fitch; William Tecumseh S. | Sonification system using synthesized realistic body sounds modified by other medically-important variables for physiological monitoring |
US5699404A (en) | 1995-06-26 | 1997-12-16 | Motorola, Inc. | Apparatus for time-scaling in communication products |
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
FR2739736B1 (fr) * | 1995-10-05 | 1997-12-05 | Jean Laroche | Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio |
US5960390A (en) * | 1995-10-05 | 1999-09-28 | Sony Corporation | Coding method for using multi channel audio signals |
WO1997019444A1 (en) | 1995-11-22 | 1997-05-29 | Philips Electronics N.V. | Method and device for resynthesizing a speech signal |
US5749073A (en) | 1996-03-15 | 1998-05-05 | Interval Research Corporation | System for automatically morphing audio information |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
JPH1074097A (ja) | 1996-07-26 | 1998-03-17 | Ind Technol Res Inst | オーディオ信号のパラメータを変更する方法及び装置 |
US6049766A (en) | 1996-11-07 | 2000-04-11 | Creative Technology Ltd. | Time-domain time/pitch scaling of speech or audio signals with transient handling |
US5893062A (en) | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
DE19710545C1 (de) | 1997-03-14 | 1997-12-04 | Grundig Ag | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
US6211919B1 (en) | 1997-03-28 | 2001-04-03 | Tektronix, Inc. | Transparent embedment of data in a video signal |
TW357335B (en) | 1997-10-08 | 1999-05-01 | Winbond Electronics Corp | Apparatus and method for variation of tone of digital audio signals |
JP2001513225A (ja) | 1997-12-19 | 2001-08-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伸長オーディオ信号からの周期性の除去 |
US6266003B1 (en) | 1998-08-28 | 2001-07-24 | Sigma Audio Research Limited | Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals |
US6266644B1 (en) | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US6374225B1 (en) * | 1998-10-09 | 2002-04-16 | Enounce, Incorporated | Method and apparatus to prepare listener-interest-filtered works |
SE9903552D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching |
JP3430968B2 (ja) * | 1999-05-06 | 2003-07-28 | ヤマハ株式会社 | ディジタル信号の時間軸圧伸方法及び装置 |
JP3430974B2 (ja) * | 1999-06-22 | 2003-07-28 | ヤマハ株式会社 | ステレオ信号の時間軸圧伸方法及び装置 |
US6505153B1 (en) | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
EP1340317A1 (en) * | 2000-11-03 | 2003-09-03 | Koninklijke Philips Electronics N.V. | Parametric coding of audio signals |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
JP4152192B2 (ja) | 2001-04-13 | 2008-09-17 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | オーディオ信号の高品質タイムスケーリング及びピッチスケーリング |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US20020116178A1 (en) | 2001-04-13 | 2002-08-22 | Crockett Brett G. | High quality time-scaling and pitch-scaling of audio signals |
DE60225130T2 (de) | 2001-05-10 | 2009-02-26 | Dolby Laboratories Licensing Corp., San Francisco | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches |
MXPA03010749A (es) | 2001-05-25 | 2004-07-01 | Dolby Lab Licensing Corp | Comparacion de audio usando caracterizaciones basadas en eventos auditivos. |
MXPA03010751A (es) | 2001-05-25 | 2005-03-07 | Dolby Lab Licensing Corp | Segmentacion de senales de audio en eventos auditivos. |
US7346667B2 (en) | 2001-05-31 | 2008-03-18 | Ubs Ag | System for delivering dynamic content |
US20040122772A1 (en) | 2002-12-18 | 2004-06-24 | International Business Machines Corporation | Method, system and program product for protecting privacy |
-
2002
- 2002-04-25 DE DE60225130T patent/DE60225130T2/de not_active Expired - Lifetime
- 2002-04-25 JP JP2002590350A patent/JP4290997B2/ja not_active Expired - Lifetime
- 2002-04-25 MX MXPA03010237A patent/MXPA03010237A/es active IP Right Grant
- 2002-04-25 DK DK02769666T patent/DK1386312T3/da active
- 2002-04-25 WO PCT/US2002/012957 patent/WO2002093560A1/en active IP Right Grant
- 2002-04-25 US US10/476,347 patent/US7313519B2/en not_active Expired - Lifetime
- 2002-04-25 AT AT02769666T patent/ATE387000T1/de active
- 2002-04-25 ES ES02769666T patent/ES2298394T3/es not_active Expired - Lifetime
- 2002-04-25 AU AU2002307533A patent/AU2002307533B2/en not_active Expired
- 2002-04-25 KR KR1020037014462A patent/KR100945673B1/ko active IP Right Grant
- 2002-04-25 CN CNB028095421A patent/CN1312662C/zh not_active Expired - Lifetime
- 2002-04-25 EP EP02769666A patent/EP1386312B1/en not_active Expired - Lifetime
- 2002-04-25 CA CA2445480A patent/CA2445480C/en not_active Expired - Lifetime
-
2005
- 2005-04-08 HK HK05102947A patent/HK1070457A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20040034604A (ko) | 2004-04-28 |
CN1552060A (zh) | 2004-12-01 |
EP1386312A1 (en) | 2004-02-04 |
CA2445480A1 (en) | 2002-11-21 |
MXPA03010237A (es) | 2004-03-16 |
JP2004528597A (ja) | 2004-09-16 |
AU2002307533B2 (en) | 2008-01-31 |
US20040133423A1 (en) | 2004-07-08 |
ATE387000T1 (de) | 2008-03-15 |
KR100945673B1 (ko) | 2010-03-05 |
CN1312662C (zh) | 2007-04-25 |
WO2002093560A1 (en) | 2002-11-21 |
DE60225130T2 (de) | 2009-02-26 |
ES2298394T3 (es) | 2008-05-16 |
CA2445480C (en) | 2011-04-12 |
DE60225130D1 (de) | 2008-04-03 |
HK1070457A1 (en) | 2005-06-17 |
EP1386312B1 (en) | 2008-02-20 |
DK1386312T3 (da) | 2008-06-09 |
US7313519B2 (en) | 2007-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4290997B2 (ja) | プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 | |
AU2002307533A1 (en) | Improving transient performance of low bit rate audio coding systems by reducing pre-noise | |
EP3602549B1 (en) | Apparatus and method for post-processing an audio signal using a transient location detection | |
KR101376762B1 (ko) | 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법 | |
US7610205B2 (en) | High quality time-scaling and pitch-scaling of audio signals | |
CA2443837C (en) | High quality time-scaling and pitch-scaling of audio signals | |
Sinha et al. | Audio compression at low bit rates using a signal adaptive switched filterbank | |
EP1356454B1 (en) | Wideband signal transmission system | |
JP3307138B2 (ja) | 信号符号化方法及び装置、並びに信号復号化方法及び装置 | |
KR101632599B1 (ko) | 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법 | |
KR100567353B1 (ko) | 프레임 경계에서의 엘리어스 아티팩트를 억제하기 위한부가 필터뱅크를 구비한 프레임 기반 오디오 코딩 | |
JP6271531B2 (ja) | デジタル音声信号における効果的なプレエコー減衰 | |
US20040181403A1 (en) | Coding apparatus and method thereof for detecting audio signal transient | |
US6785644B2 (en) | Alternate window compression/decompression method, apparatus, and system | |
KR20010024531A (ko) | 다이나믹 오디오 프레임 배열에 의해 비디오/오디오데이터 동기된 프레임 기반 오디오 코딩 | |
JP2976860B2 (ja) | 再生装置 | |
US20020116178A1 (en) | High quality time-scaling and pitch-scaling of audio signals | |
KR20010024342A (ko) | 이득 제어 워드들을 구비한 프레임 기반 오디오 코딩 | |
US7466245B2 (en) | Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method | |
JP5295372B2 (ja) | デジタルオーディオ信号におけるプリエコーの減衰 | |
US20200013421A1 (en) | Apparatus and method for post-processing an audio signal using prediction based shaping | |
KR970002686B1 (ko) | 오디오 신호의 전송방법 | |
JPH113091A (ja) | 音声信号の立ち上がり検出装置 | |
JP2917766B2 (ja) | 音声高能率符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050420 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081021 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090120 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090324 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090402 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4290997 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120410 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120410 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130410 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130410 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140410 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |