JPH1039897A - Method and device for coding audio signals and device to process audio signals which are perceptionally coded - Google Patents

Method and device for coding audio signals and device to process audio signals which are perceptionally coded

Info

Publication number
JPH1039897A
JPH1039897A JP6578397A JP6578397A JPH1039897A JP H1039897 A JPH1039897 A JP H1039897A JP 6578397 A JP6578397 A JP 6578397A JP 6578397 A JP6578397 A JP 6578397A JP H1039897 A JPH1039897 A JP H1039897A
Authority
JP
Japan
Prior art keywords
audio signal
signal
filter bank
encoding
method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6578397A
Other languages
Japanese (ja)
Other versions
JP3418305B2 (en
Inventor
James David Johnston
Deepen Sinha
デビッド ジョンストン ジェームス
シンバ ディーペン
Original Assignee
Lucent Technol Inc
ルーセント テクノロジーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US1472596P priority Critical
Priority to US014725 priority
Application filed by Lucent Technol Inc, ルーセント テクノロジーズ インコーポレイテッド filed Critical Lucent Technol Inc
Publication of JPH1039897A publication Critical patent/JPH1039897A/en
Application granted granted Critical
Publication of JP3418305B2 publication Critical patent/JP3418305B2/en
Anticipated expiration legal-status Critical
Application status is Expired - Fee Related legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide the exchange filter bank that is used for an audio signal coding and represents the signals in a compact manner even though an unusual signal is included. SOLUTION: The audio signal coding technology employs a first filter bank 204 and a signal adaptive type switching filter bank 202 which has a wavelet filter bank 208. The bank 202 is switched between the banks 204 and 208 in order to filter input signals as a normal function of the signals. The bank 204 is used to filter the normal signal components. The bank 208 is used to filter abnormal signal components (for example, an attack).

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、信号の処理に係り、特に、サブバンド符号化スキーム、たとえば、知覚オーディオコーディングを使用するオーディオ信号の符号化に関する。 BACKGROUND OF THE INVENTION The present invention relates to signal processing, in particular, subband coding schemes, for example, related to the coding of audio signals using perceptual audio coding.

【0002】 [0002]

【従来の技術】高品質のオーディオ信号を格納し、処理し、および通信するための家庭用、産業用、スタジオ用、および研究用機器が強く望まれている。 Stores BACKGROUND OF THE INVENTION high-quality audio signal, processing, and household for communication, industrial, studio, and research equipment has been strongly desired. 非常に低いビットレートにおけるオーディオ信号の圧縮は、デジタルオーディオテープ、コンパクトディスク、およびマルチメディアアプリケーションのような多数の出現してくるデジタルオーディオアプリケーションに対して、強く望まれている。 Compression of audio signals at very low bit rates, digital audio tape, for a number of emerging come digital audio applications, such as compact discs and multimedia applications, has been strongly desired. これらのディジタルアプリケーションに使用される圧縮技術は、高品質の信号を処理することができる。 Compression techniques employed in these digital applications can process a high quality signal. しかし、そのような性能は、かなり大きなデータ記憶容量または伝送帯域幅の犠牲によって、しばしば達成される。 However, such performance is the expense of significantly large data storage capacity or transmission bandwidth is often achieved.

【0003】デジタルオーディオ信号の符号化において、データ記憶および伝送帯域幅の要求を低減するために、この圧縮分野で、かなり大量の労力が求められてきた。 [0003] In coding of a digital audio signal, in order to reduce the requirements of data storage and transmission bandwidth in the compressed field, has quite a large amount of effort is required. 1つのそのような圧縮技術は、人間の知覚系のモデルを使用することにより、ソース信号中の無関係な情報を取り除く。 One such compression techniques, by using the human perceptual system model, removing irrelevant information in source signals. この知覚オーディオコーディング(以下、”PAC”という。)技術は、たとえば、米国特許第5,285,498号、JDJohnston,"Method and A The perceptual audio coding (hereinafter, referred to as "PAC".) Technique, for example, U.S. Pat. No. 5,285,498, JDJohnston, "Method and A
pparatus for Coding Audio Signals Based on Percept pparatus for Coding Audio Signals Based on Percept
ual Model"、1994年2月8日発行(以下、ジョンストン特許という。)に開示されている。 ual Model ", issued Feb. 8, 1994 has been disclosed in (hereinafter referred to as Johnston patent.).

【0004】たとえば、このジョンストン特許に示された知覚オーディオコーディングは、オーディオ信号を表現するために必要とされるビットレートまたはビットの総数を低減する技術である。 [0004] For example, perceptual audio coding shown in the Johnston patent, a technique for reducing the bit rate or the total number of bits required to represent the audio signal. このPAC技術は、周波数の関数としての短期間エネルギー分布を使用する。 The PAC technique uses short term energy distribution as a function of frequency. このエネルギー分布から、目立つ雑音レベルを表す1組のしきい値が計算できることが知られている。 This energy distribution, known to be calculated a set of thresholds that represent noticeable noise level. そして、とりわけ、所望の信号の信号成分を表すために使用される量子化の粗さが、そのコーディング自体によって誘導される量子化雑音が雑音しきい値を超えないように選択される。 Then, among other things, the roughness of quantization used to represent a signal component of the desired signal, quantization noise induced by the coding itself is selected so as not to exceed the noise threshold. したがって、この誘導された雑音は、知覚プロセスにおいて、マスクされる。 Therefore, the induced noise, the perception process, are masked. このマスキングは、人間の知覚メカニズムが、(1つは、信号に属し、もう1つは、 This masking, human perception mechanism, (one, belongs to the signal, the other one,
雑音に属する)2つの信号成分を、同じスペクトル的、 Noise belonging) two signal components, the same spectrally,
時間的、および空間的位置において区別することができないことにより起きる。 Temporal, and caused by the inability to distinguish at a spatial position.

【0005】最近、128〜256kbps(すなわち、6〜12の範囲の圧縮係数)の範囲におけるトランスペアレントな圧縮を提供する多数の知覚オーディオコーダが開発されてきた。 Recently, 128~256Kbps (i.e., the compression coefficient in the range of 6 to 12) a number of perceptual audio coder to provide a transparent compression in range have been developed. 典型的に、そのようなコーダは、入力信号をその周波数成分に分割する分析フィルタバンクを使用する。 Typically, such a coder using analysis filter bank for dividing an input signal into its frequency components. そして、これらの成分は、上述したように、人間の聴力のマスキング特性に基づく知覚モデルを使用して量子化される。 Then, these components, as described above, using a perceptual model based on masking properties of human hearing are quantized. たとえば、ジョンストン特許において、信号を周波数成分に分割するために、修正離散コサイン変換(以下、MDCTという。)フィルタバンクとして知られている高周波数分解能フィルタバンクを使用するPACアプローチが示されている。 For example, in Johnston patent, in order to divide the signal into frequency components, modified discrete cosine transform (hereinafter, referred to as MDCT.) PAC approach using high frequency resolution filter bank is known as a filter bank. たとえば1024個のサブバンドまたは周波数ラインを有するこの高周波数分解能MDCTフィルタバンクは、いわゆる定常信号(たとえば、楽器音楽およびほとんどのボーカル音楽)に対して、非常にコンパクトな表現を導く。 For example, the high frequency resolution MDCT filterbank having 1024 subbands or frequency lines, the so-called stationary signals (e.g., instrument music and most vocal music) to the leads to very compact representation.

【0006】しかし、過渡現象または鋭いアタック(たとえば、カスタネットまたはトライアングル)を含むいわゆる非定常オーディオ信号は、高周波数分解能フィルタバンクを使用してコンパクトに表現することはできない。 [0006] However, transients or sharp attack (for example, castanets or triangle) so-called non-stationary audio signal, including can not be expressed in a compact using a high frequency resolution filter bank. これは、コンパクトな表現のために、より高い周波数においてより高い分解能が要求されることによる。 This is due to the compact representation, due to the higher resolution is required at higher frequencies. また、非定常信号成分に対してMDCTを使用することは、符号化された信号の低い品質を導く。 Moreover, the use of MDCT for non-stationary signal components, leads to a lower encoded signal quality.

【0007】非定常信号を符号化する場合に直面するフィルタリング問題に対応する他の技術が開発されている。 [0007] Other techniques for non-stationary signals corresponding to the filtering problem encountered when coding have been developed. たとえば、ジョンストン特許に示された1つのそのような技術は、いわゆる「ウインドウ切換」スキームを使用する。 For example, one such technique disclosed in Johnston patent, to use so-called "window switching" scheme. このPACスキームは、非定常信号の鋭いアタックに対応するために、いわゆる「長い」および「短い」MDCTウインドウを使用する。 The PAC scheme, in order to cope with the sharp attack of non-stationary signals, to use so-called "long" and "short" MDCT window. 「ウインドウ切換」において、信号の定常性が、2つのレベルにおいて監視される。 In the "window switching", the stationarity of the signal is monitored at two levels. まず、長いMDCTウインドウ(たとえば、1024個のサブバンドを有するウインドウ)が、 First, long MDCT windows (e.g., windows having 1024 subbands),
定常信号成分に対して使用され、そして、もし必要であれば、短いウインドウ(たとえば、128個のサブバンドを有するウインドウ)が、非定常性の期間の間使用される。 It is used for stationary signal component, and, if necessary, a short window (e.g., window with 128 subbands) is used for non-stationarity of the period.

【0008】しかし、このアプローチの有利な点は、短いMDCTウインドウがすべての周波数に対して均一に時間分解能を増大させることである。 However, the advantage of this approach is that the short MDCT windows increase uniformly time resolution for all frequencies. 言い換えると、より高い周波数における所望の程度までこの時間分解能を増大させるために、この技術は、より低い周波数においても、時間分解能を増大させなければならない。 In other words, in order to increase the time resolution to a desired degree at higher frequencies, this technique, even at lower frequencies must be increased time resolution.

【0009】鋭いアタックをろ波するためのさらに望ましいフィルタバンクは、周波数軸のクリティカルなバンド分割にマッチするサブバンド(すなわち、このサブバンドは、バルクスケール上で均一である)を有する不均一な構造をもつものである。 Furthermore desirable filterbank for for filtering a sharp attack, a subband (i.e., this sub-band is uniform in the bulk scale) to match critical band division of the frequency axis heterogeneous with it is those having the structure. また、フィルタバンクの高周波フィルタが比例して短いことが非常に望ましい。 Moreover, it is highly desirable high frequency filter of the filter bank is shorter in proportion. これらの目的に合う1つのコーディングスキームは、ハイブリッドまたはカスケード構造を使用する。 One coding scheme that meet these purposes, to use the hybrid or cascade structure.

【0010】たとえば、K.Brandenburg et al.,"The IS [0010] For example, K.Brandenburg et al., "The IS
O-MPEG-Audio Codec: A Generic Standard for Coding O-MPEG-Audio Codec: A Generic Standard for Coding
of High Quality Digital Audio", Journal of Audio E of High Quality Digital Audio ", Journal of Audio E
ngineering Society, Vol.42, No.10,October,1994、およびJDJohnston,"Audio Coding with Signal Adaptiv ngineering Society, Vol.42, No.10, October, 1994, and JDJohnston, "Audio Coding with Signal Adaptiv
e Filterbanks", In proceedings of IEEE,ICASSP,Detr e Filterbanks ", In proceedings of IEEE, ICASSP, Detr
oit,1995を参照のこと。 oit, 1995 see. このコーディング技術は、均一または不均一のフィルタバンクを有する第1段からなる。 This coding technique consists first stage having a uniform or non-uniform filter bank. サブバンドのそれぞれは、均一フィルタバンクを使用して、さらに分割されうる。 Each sub-band, using a uniform filter bank, can be further divided.

【0011】 [0011]

【発明が解決しようとする課題】しかし、MDCTフィルタバンクとの比較でのこのアプローチの不都合な点は、遅い周波数応答及び増大するコストを導くハイブリッド/カスケード構造を、定常及び非定常信号に対して使用しなければならないことである。 [0008] However, disadvantage of this approach is in comparison to the MDCT filter bank, a hybrid / cascade structure for guiding the cost of slower frequency response and increase, relative to stationary and non-stationary signals it is that it does not have to be used. したがって、サブバンドコーディングにおける非定常信号の処理の対する従来技術によるフィルタリング装置の不都合を克服する必要がある。 Therefore, there is a need to overcome the disadvantages of the prior art filtering device against the processing of non-stationary signals in the sub-band coding.

【0012】 [0012]

【課題を解決するための手段】本発明の原理による信号圧縮技術は、オーディオ信号を知覚オーディオコーディングまたは同様のサブバンドタイプコーディングを使用して符号化するために、第1のフィルタバンクとウェーブレット(wavelet)フィルタバンクとを切り換える。 Signal compression technique according to the principles of the present invention, in order to solve the problems] In order to encode using a perceptual audio coding or similar subband type coding an audio signal, the first filter bank and Wavelet ( wavelet) switching between the filter bank.

【0013】本発明の好ましい実施形態において、2つのフィルタバンク間の切換は、信号の時間変化特性、好ましくはその知覚エントロピーレベルに基づく。 In a preferred embodiment of the present invention, the switching between the two filter banks, time variation characteristics of the signal, preferably based on the perceptual entropy level. また、 Also,
この好ましい実施形態において、第1のフィルタバンクは、高周波数分解能MDCTフィルタバンクである。 In this preferred embodiment, the first filter bank is a high frequency resolution MDCT filterbank. 通常、高周波数分解能MDCTフィルタバンクが、入力信号をろ波するために使用されるが、非定常信号の場合、 Normally, the high frequency resolution MDCT filterbank is used to input signals to for filtering, in the case of non-stationary signals,
ウェーブレットフィルタバンクが使用される。 Wavelet filter bank is used. 好都合なことに、本発明は、非定常成分を含む場合に、信号のさらにコンパクトな表現を達成する。 Advantageously, the present invention, when it contains a non-stationary component, to achieve a more compact representation of the signal. この好ましい実施形態において、ウェーブレットフィルタバンクは、不均一のツリー構造フィルタバンクである。 In this preferred embodiment, a wavelet filter bank is a tree structure filterbank heterogeneous.

【0014】 [0014]

【発明の実施の形態】本発明によるオーディオ信号圧縮技術は、知覚オーディオコーディングまたは同様のサブバンドタイプコーディングを使用して符号化された非定常信号を処理するために、第1のフィルタバンク(好ましくは、高周波数分解能MDCTフィルタバンク)とウェーブレットフィルタバンクとの間で切り換える信号適合型切換フィルタバンクを使用する。 Audio signal compression technique according to the embodiment of the present invention, in order to handle non-stationary signals encoded using a perceptual audio coding or similar subband type coding, a first filter bank (preferably uses a signal adaptive switched filter bank which switches between a high frequency resolution MDCT filterbank) and wavelet filter bank.

【0015】本発明の実施形態は、説明の明瞭さのために機能ブロックで表現される。 [0015] Embodiments of the present invention is represented by a functional block for clarity of description. これらのブロックが表す機能は、ソフトウエアを実行できるハードウエアを含むがこれに限定されない共用または専用のハードウエアのいずれかの使用により提供されうる。 The functions these blocks represent may be provided through the use of either shared or dedicated hardware, including hardware capable of executing software is not limited thereto. さらに、「プロセッサ」という用語の使用は、ソフトウエアを実行可能なハードウエアを排他的に指すものと解釈されるべきでない。 Furthermore, use of the term "processor" should not be construed to refer hardware capable of executing software exclusively. いくつかの実施形態は、AT&T社のDSP16またはDSP32のようなデジタルシグナルプロセッサ(以下、DSPという。)および以下に説明する動作を実行するためのソフトウエアを含みうる。 Some embodiments, AT & T Corp. digital signal processor such as DSP16 or DSP32 of can include software for performing the operations discussed (hereinafter, referred to. DSP) and less. 本発明の超大規模集積(以下、VLSIという。)ハードウエアによる実施例と同様にハイブリッドDSP/VLSIによる実施例も提供可能である。 Very large scale integration of the present invention (hereinafter, referred to as VLSI.) Example according to the hybrid DSP / VLSI Like the embodiment according to the hardware can also be provided.

【0016】図1は、本発明が具現化されるシステムの全体的ブロック図である。 [0016] Figure 1 is a general block diagram of a system in which the invention is embodied. 図1において、アナログオーディオ信号101が、プリプロセッサ102に与えられ、通常の方法で、典型的には48kHzでサンプリングされ、リード線103上で、16ビット/サンプルのデジタルパルス符号変調(以下、PCMという。)に変換される。 In Figure 1, an analog audio signal 101 is provided to the preprocessor 102, in a conventional manner, typically sampled at 48kHz, on lead 103, 16 bits / sample of the digital pulse code modulation (hereinafter, referred to as PCM is converted to.). PCM信号は、知覚オーディオコーダ200 PCM signal, perceptual audio coder 200
に与えられ、知覚オーディオコーダ200は、このPC It is given to, perceptual audio coder 200, the PC
M信号を圧縮し、通信チャネルまたは記憶媒体106のいずれかへのリード線105上へ圧縮されたPAC信号を出力する。 Compressing the M signal, and outputs a PAC signal compressed to lead 105 on to one of the communication channel or storage medium 106.

【0017】後者は、たとえば、磁気テープ、コンパクトディスクまたは他の記憶媒体であり得る。 [0017] The latter can be, for example, a magnetic tape, compact disk or other storage medium. 通信チャネルまたは記憶媒体から、リード線107上の圧縮されたPAC符号化された信号が知覚オーディオデコーダ10 From the communication channel or storage medium, compressed PAC-encoded signal on lead 107 is perceptual audio decoder 10
8に与えられる。 Given to 8. 知覚オーディオデコーダ108は、圧縮されたPAC符号化された信号を復元し、オリジナルのオーディオ信号101のデジタル表現であるPCM信号をリード線109上に出力する。 Perceptual audio decoder 108, the compressed PAC-encoded signal restored, and outputs the PCM signal is a digital representation of the original audio signal 101 onto the lead 109. 知覚オーディオデコーダから、リード線109上のPCM信号が、信号のアナログ表現をつくるポストプロセッサ110に与えられる。 From perceptual audio decoder, PCM signal on lead 109 is supplied to the post-processor 110 to create an analog representation of the signal.

【0018】知覚オーディオコーダ200の一実施形態が、図2のブロック図に示されている。 [0018] One embodiment of the perceptual audio coder 200 is shown in the block diagram of FIG. 知覚オーディオコーダ200は、好都合に、信号適合型切換フィルタバンク202,知覚モデルプロセッサ210,クオンタイザ/レートループプロセッサ212,およびエントロピーコーダ214を含む。 Perceptual audio coder 200 is advantageously comprises signal adaptive switched filter bank 202, a perceptual model processor 210, quantizer / rate loop processor 212, and the entropy coder 214. 信号適合型切換フィルタバンク202,知覚モデルプロセッサ210,クオンタイザ/ Signal adaptive switched filter bank 202, a perceptual model processor 210, quantizer /
レートループプロセッサ212,およびエントロピーコーダ214の構造及び動作は、オーディオ信号を処理するためのジョンストン特許中の構成要素とほぼ同様の構造及び動作であり、本発明に必要なものを除いて詳細には説明しない。 The structure and operation of the rate loop processor 212, and entropy coder 214 has substantially the same structure and operation as components in Johnston patent for processing audio signals, in particular except those necessary for the present invention It will not be described.

【0019】しかし、信号適合型切換フィルタバンク2 [0019] However, the signal adaptive switched filter bank 2
02は、第1のフィルタバンク(好ましくは、高周波数分解能MDCTフィルタバンク)とウェーブレットフィルタバンクとの間の切換に関して、詳細に説明する。 02, the first filter bank (preferably, a high frequency resolution MDCT filterbank) with respect to switching between the wavelet filter bank is described in detail. これは、切換フィルタバンク202の特徴であり、図2の他の要素との組み合わせで、本発明の効果を提供する。 It is characteristic of the switching filter bank 202, in combination with other elements of FIG. 2, provides the effect of the present invention.

【0020】図2において、信号適合型切換フィルタバンク202は、たとえば、ここで説明する所定の方法で信号の符号化の間に、2つのフィルタバンク間でのスイッチング206に使用するための高周波数分解能MDC [0020] In FIG. 2, the signal adaptive switched filter bank 202, for example, wherein during signal encoding in a predetermined method to be described, the high frequency for use in switching 206 between the two filter banks resolution MDC
Tフィルタバンク204およびウェーブレットフィルタバンク208を含む。 Including T filterbank 204 and wavelet filterbank 208. 上述したように、高周波数分解能MDCT(たとえば、PACにおける1024個のサブバンドまたは周波数ライン)を符号化プロセスに使用することは、MDCTが定常信号に対する非常にコンパクトな表現を導くことに有用である。 As described above, the high frequency resolution MDCT (e.g., sub-band or frequency lines 1024 in PAC) The use of the encoding process, MDCT is useful to directing a very compact representation for stationary signals .

【0021】PACのために、MDCTは、以下を含む特徴を提供する。 [0021] For PAC, MDCT provides features including the following. (i)クリティカルサンプリング特性(すなわち、フィルタバンクへのすべてのn個のサンプルに対して、n個のサンプルが得られる)。 (I) critical sampling characteristic (i.e., for all n samples into the filter bank, n samples are obtained). (ii)MD (Ii) MD
CTが典型的に半分のオーバーラップを提供する。 CT provides a typically half of the overlap. (すなわち、変換長は、フィルタバンク中にシフトされるサンプル数nの長さのちょうど2倍である)これは、フィルタバンクに独立に導入された雑音の制御を取り扱う良い方法を提供する。 (I.e., transform length is exactly twice the length of the sample number n to be shifted in the filter bank) which provides a good way of dealing with the control of noise introduced independently into the filter bank. (iii)MDCTは、サンプルの積分値の遅れのみを受ける入力サンプルの正確な復元を提供する。 (Iii) MDCT provides exact reconstruction of the input samples for receiving only delay of the integrated value of the sample.

【0022】よく知られたMDCTが、たとえば、JP [0022] The well-known MDCT, for example, JP
PrincenおよびABBradley,"Analysis/Synthesis Filte Princen and ABBradley, "Analysis / Synthesis Filte
r Bank Design Based on Time Domain Aliasing Cancel r Bank Design Based on Time Domain Aliasing Cancel
lation,"IEEE Trans. ASSP,Vol.34,No.5,October 1986 lation, "IEEE Trans. ASSP, Vol.34, No.5, October 1986
に示されている。 It is shown in. PACに使用するためのMDCTのよく知られた適応および高周波数分解能MDCTフィルタバンク204により実行される機能が、たとえばジョンストン特許に記載されている。 Functions performed by a well-known adaptive and high frequency resolution MDCT filterbank 204 MDCT for use in the PAC, for example, described in Johnston patent.

【0023】しかし、高周波数分解能MDCTフィルタバンク204は、定常信号の表現における使用に非常に有効であるが、上述したように、このMDCTフィルタバンクは、非定常信号(すなわち、一時的なまたは鋭いアタックを含む信号)のコンパクトな表現を提供しない。 [0023] However, high frequency resolution MDCT filterbank 204 are very effective for use in expression of the stationary signals, as described above, the MDCT filter bank, non-stationary signals (i.e., temporary or sharp It does not provide a compact representation of the signal), including the attack. しかし、我々は、知覚オーディオコーダ200のオーディオ圧縮特性を向上させると同時に、高周波数分解能MDCTフィルタバンク204を使用する利点を発展させた技術を実現した。 However, we, at the same time improving the audio compression characteristics of perceptual audio coder 200, and implementing the techniques developed the advantages of using a high frequency resolution MDCT filterbank 204.

【0024】本発明によれば、信号適合型切換フィルタバンク202は、たとえばオーディオ信号101を符号化するために、高周波数分解能MDCTフィルタバンク204とウェーブレットフィルタバンク208の両方を使用する。 According to the invention, the signal adaptive switched filter bank 202, for example, to encode the audio signal 101, the use of both high frequency resolution MDCT filterbank 204 and wavelet filterbank 208. 本発明の好ましい一実施形態において、高周波数分解能MDCTフィルタバンク204は、符号化のために、高周波数分解能MDCTを使用する。 In one preferred embodiment of the present invention, high frequency resolution MDCT filterbank 204, for encoding, using high frequency resolution MDCT. すなわち、高周波数分解能MDCTフィルタバンク204は、 That is, the high frequency resolution MDCT filterbank 204,
非定常信号と出会った場合、いわゆる長いウインドウ(すなわち、1024個のサブバンド)のみを使用し、 If met non-stationary signal, using a so-called long windows (i.e., 1024 sub-bands) only,
いわゆる短いウインドウ(すなわち、1024個のサブバンドに対して、128個のサブバンド)へ切り換えない。 So-called short windows (i.e., with respect to 1024 subbands, 128 subbands) not switched to. もちろん、これは、上述した従来技術によるウインドウ切換技術であり、ジョンストン特許に示されている。 Of course, this is a window switching recombination techniques according to the prior art described above, is shown in Johnston patent. 本発明によれば、短いMDCTウインドウへの切換ではなく、信号適合型切換フィルタバンク202は、そのような非定常性の期間の間、ウェーブレットフィルタバンク208を使用する。 According to the present invention, rather than switching to short MDCT window, signal adaptive switched filter bank 202, during such unsteadiness period, using a wavelet filter bank 208.

【0025】より具体的には、ウェーブレットフィルタバンク208は、非定常成分を有する入力信号を有効にフィルタリングするために、ウェーブレット変換を使用する。 [0025] More specifically, the wavelet filter bank 208, in order to effectively filter the input signal having a non-stationary component, using a wavelet transform. ウェーブレットは、その様々な平行移動および相似変換特性により、有限エネルギー信号の空間に対する完全な直交主成分を提供する関数である。 Wavelets, by its various translation and similar transformation characteristics, a function that provides a complete orthogonal principal components for the space of the finite energy signal. 最適化されたウェーブレット変換を使用するオーディオ信号の一般的なコーディングは、たとえば、D.SinhaおよびAHTewfi General coding of audio signals using an optimized wavelet transform, for example, D.Sinha and AHTewfi
k, "Low Bit Rate Transparent Audio Compression usi k, "Low Bit Rate Transparent Audio Compression usi
ng Asapted Wavelets",IEEE Transactions on Signal P ng Asapted Wavelets ", IEEE Transactions on Signal P
rocessing, Vol.41,No.12,pp.3463-3479,Dec.1993に示されている。 rocessing, Vol.41, No.12, pp.3463-3479, are shown in Dec.1993. 本発明の一実施形態により、我々は、このウェーブレット変換を、PACが基づく心理音響学モデルと一緒の使用および例示的ウェーブレットフィルタバンクの設計における主な規準としての所定の周波数及び時間的特性の使用に適合させた。 According to an exemplary embodiment of the present invention, use the predetermined frequency and temporal characteristics of the wavelet transformation, as the main criterion in the psychoacoustic model and with the use and exemplary wavelet filter bank design PAC is based It was adapted to.

【0026】心理音響学的分析の時間−周波数分解能が、聴覚系の時間−周波数分解能にマッチしなければならないことが、よく知られている。 [0026] The psychoacoustic analysis of time - frequency resolution, the auditory system of the time - is that you have to match the frequency resolution, is well known. これらの分解能特性は、クリティカルなバンドスケールにおいて反映されており、これは、心理音響学的モデルにおける周波数分解能は、低周波数における100Hzから高周波数における約4kHzまで(すなわち、分解能における40:1 These resolution characteristic is reflected in the critical band scale, which is the frequency resolution in the psychoacoustic model from 100Hz at low frequencies up to about 4kHz at high frequencies (i.e., 40 in the resolution: 1
の変化)変化しなければならないことを示す。 Of change) indicating that that must change. これは、 this is,
PACコーダにおける時間的分解能が、約40:1のファクターにより、低周波数から高周波数まで増加しなければならないことを示唆している。 Temporal resolution in PAC coder, about 40: the first factor, suggesting that must be increased from a low frequency to high frequency.

【0027】ほとんどの心理音響学的モデルが、非常に低い均一な時間的分解能を使用することが知られている。 [0027] Most psychoacoustic models, it is known to use a very low uniform temporal resolution. 高周波数における時間的分解能がないことは、定常信号に対して計算されたしきい値にほとんど効果を持たない。 No time resolution at high frequencies has little effect on the calculated thresholds for stationary signals. しかし、非定常信号に対して計算されたしきい値は、不正確となり、聞き取れるひずみを導きうる。 However, the calculated thresholds for non-stationary signal becomes inaccurate, it can lead to distortion audible. このふるまいは、本発明の信号適合型交換フィルタバンクを使用することにより補正することができる。 This behavior can be corrected by using a signal adaptive replacement filter bank of the present invention.

【0028】非定常信号セグメントまたは過渡現象のコーディングのために、本発明の信号適合型切換フィルタバンクを使用することは、従来技術に対していくつかの利点を提供する。 [0028] For non-stationary signal segment or coding transients, using a signal adaptive switched filter bank of the present invention provide several advantages over the prior art. たとえば、非定常信号成分のよりコンパクトな表現を導く。 For example, it leads to a more compact representation of the non-stationary signal components. また、信号の非定常セグメントの間の、より正確な心理音響学的モデリングを導く。 Further, between the non-stationary segment of the signal, it leads to more accurate psychoacoustic modeling. これらの特徴は、過渡現象を表現するための全体のビットレート要求を著しく節約することになる。 These features will greatly save the overall bit rate requirement for representing transients. さらに、本発明による信号適合型切換フィルタバンクの使用は、定常信号セグメントの圧縮に対する高周波数分解能MDCTフィルタバンクのよく知られた性能の利点を維持する。 Furthermore, use of a signal adaptive switched filter bank according to the present invention maintains the advantages of the well-known performance of the high frequency resolution MDCT filterbank for compression of stationary signal segments.

【0029】より具体的には、本発明の好ましい実施形態によれば、ツリー構造のウェーブレットフィルタバンクが使用される。 More specifically [0029] According to a preferred embodiment of the present invention, the wavelet filter bank tree structure is used. 上述したように、使用される周波数分割が周波数軸のクリティカルなバンク分割をよく近似することが、心理音響学的モデルの正確さにとって重要である。 As described above, be frequency division used to closely approximates critical bank division of the frequency axis, it is important for the accuracy of the psychoacoustic model. ウェーブレットフィルタバンクは、良好な周波数選択性(すなわち、隣接するサブバンドの周波数応答間の小さなオーバーラップ)を提供する。 Wavelet filter bank provides a good frequency selectivity (i.e., a small overlap between the frequency responses of adjacent sub-bands). さらに、ウェーブレットフィルタバンクは良好な時間的特性を提供し、 Furthermore, the wavelet filterbank provides good temporal characteristics,
より高い周波数サブバンドのインパルス応答が急速に減衰し、コンパクトに集中させられる。 Rapidly attenuated the impulse response of the higher frequency subbands, is concentrated compactly. コンパクトに集中させられるより高い周波数サブバンドは、非定常信号セグメントの効率的な表現を導く。 High frequency subbands than is concentrated compact leads to efficient expression of the non-stationary signal segments. 本発明の好ましい実施形態において使用されるツリー構造は、これらの上述した望ましいウェーブレットフィルタバンク特性を提供することを助ける。 Tree structure used in the preferred embodiment of the present invention helps to provide these aforementioned desired wavelet filter bank characteristics.

【0030】このツリー構造は、クリティカルバンドがより高い周波数においてより広く、所望の周波数分解能を達成するために、ツリー構造全体におけるより少ない段階を必要とするので、より高い周波数サブバンドのためのフィルタは比例してより短いという利点を提供する。 [0030] The tree structure is wider at higher frequencies critical band, filter for to achieve the desired frequency resolution, because it requires fewer steps than in the entire tree structure, higher frequency subbands It provides the advantage of a shorter and proportional. さらに、ツリー構造フィルタバンクの時間的特性の制御がモーメントコンディションにより提供される。 Furthermore, control of the temporal characteristics of the tree structure filter bank is provided by the moment conditions. モーメントコンディション及びその使用については、以下に説明する。 The moment conditions and its use are described below. ツリー構造がクリティカルなバンド分割にぴったりとマッチすることを確かにするために、好ましい実施形態のツリー構造ウェーブレットフィルタバンクは、3組のフィルタバンクを使用する。 In order to ensure that the tree structure matches snugly critical band division, a tree structure wavelet filter bank of the preferred embodiment uses three sets of filter banks. 1組のフィルタバンクは、4個のサブバンドスプリットを提供し、他の2組は、それぞれ2個のサブバンドスプリットを提供する。 A set of filter banks is to provide four sub-bands split, the other two sets, to provide two sub-band splitting, respectively.

【0031】図3は、信号適合型切換フィルタバンク2 [0031] FIG. 3 is a signal adaptive switched filter bank 2
02において使用されるツリー構造ウェーブレットフィルタバンクについての例示的な分解ツリー300を示す。 It illustrates an exemplary exploded tree 300 for a tree structure wavelet filter bank used in the 02. 好ましい実施形態によれば、ウェーブレットフィルタバンク208の例示的なツリー構造に使用される3組のフィルタバンクが、このツリー構造がクリティカルなバンド区分をしっかりと近似することを保証するために、十分な設計の柔軟性を提供する。 According to a preferred embodiment, three sets of filter bank used in the exemplary tree structure of wavelet filter bank 208, to ensure that the tree structure is firmly approximating the critical bands segment, sufficient to provide the flexibility of the design. 特に、第1のフィルタバンクセット310は、信号の4個のバンドスプリット(すなわち、311〜314)を提供する。 In particular, the first filter bank set 310 provides four band split signal (i.e., 311 to 314). この4 This 4
個のバンドフィルタスプリットは、フィルタ311から314へ周波数が増加し、各フィルタは、64のサポート(長さ)を有する。 Number of band filters split the frequency increases from the filter 311 to 314, each filter has a 64 support (length). 第2のフィルタバンク320は、 The second filter bank 320,
40のサポートを有する2個のバンドスプリット(すなわち、321および322)を提供し、第3のフィルタバンク330は、20のサポートを有する2個のバンドスプリット(すなわち、331および332)を有する。 Two band splitting (i.e., 321 and 322) with 40 of support provides, third filter bank 330 has a two band splitting with 20 support (i.e., 331 and 332).

【0032】当業者に理解されるように、分解ツリー3 [0032] As will be appreciated by those skilled in the art, decomposition tree 3
00のいずれかのノードにおけるフィルタバンク310 Filter bank 310 in either of the nodes 00
の適用は、4のファクターによるくじ引きを必要とする。 Application of requires a lottery by a factor of 4. 同様に、フィルタバンク320および330の適用は、2のファクターによるくじ引きを必要とする。 Similarly, application of the filter bank 320 and 330 require lottery by two factors. N個のサンプルの入力ブロックで、サブバンド331は、N An input block of N samples, subband 331, N
/64にフィルタリングされたサンプルを有し、サブバンド322は、N/4にフィルタリングされたサンプルを有する。 / 64 has the filtered samples, subband 322 comprises a filtered sample N / 4.

【0033】ウェーブレットフィルタバンク208により使用される3個のフィルタバンクは、たとえば、よく知られたパラメータ化されたパラユニティフィルタバンクの使用および標準最適化ツールの適用により最適化される。 The three filter bank used by the wavelet filter bank 208, for example, is optimized by applying commonly used in known parameterized para unity filter bank and standard optimization tool. ウェーブレットフィルタバンク208を最適化するために使用される最適化規準は、よく知られた重みづけストップバンドエネルギー規準に基づく。 Optimization criterion that is used to optimize the wavelet filter bank 208 is based on the well-known weighted stopband energy criterion. たとえば、 For example,
PPVaidyanathan,"Multirate Digital Filters, Filte PPVaidyanathan, "Multirate Digital Filters, Filte
rbanks, Polyphase Networks, and Applications: A Tu rbanks, Polyphase Networks, and Applications: A Tu
torial," Proceedings of the IEEE, Vol.78,No.1,pp.5 torial, "Proceedings of the IEEE, Vol.78, No.1, pp.5
6-92,January 1990を参照のこと。 6-92, see the January 1990. 上述したツリー構造フィルタバンクにより提供される最適化は、ツリーバンクのそれぞれおよびフィルタバンク全体それ自体が良好な周波数選択性を提供することを保証する。 Optimization provided by a tree structure filter bank described above ensures that each and entire filter bank tree bank itself provides good frequency selectivity.

【0034】好ましい実施形態において、モーメントコンディションは、高周波数フィルタ(すなわち、高周波数を含む分解ツリー300中のサブバンドに対応するフィルタ)の望ましい時間的特性を達成する上で重要な役割を果たす。 In a preferred embodiment, the moment conditions a high frequency filter (i.e., filter corresponding to the subbands in decomposition tree 300 containing high frequency) play an important role in achieving the desired temporal characteristics of. このモーメントコンディションは、中心周波数により近いより高いサブバンド周波数応答のなめらかさ(すなわち、微分可能性の次数)を決定する。 The moment condition is smoothness of the higher sub-band frequency response closer to the center frequency (i.e., the order of differentiability) determining. 以下に説明するように、中心周波数に接近したこの非常ななめらかさは、コンパクトに集中化された対応するインパルス応答を導く。 As described below, the great smoothness close to the center frequency leads to the corresponding impulse response compactly centralized. より具体的には、サブバンドフィルタ{H i=1toM }を有するMバンドパラユニティフィルタバンクは、i=2,3,…Mに対するH i (e iw )がw= More specifically, M band para unity filterbank having subband filters {H i = 1toM} is, i = 2,3, H i for ... M (e iw) is w =
0においてP次のゼロを有する場合、P次モーメントコンディションを満足するといわれる。 If having a P following zero at 0, it is said to satisfy the P th moment conditions.

【0035】そして、このフィルタは、Pバニシングモーメントを有するといわれる。 [0035] Then, this filter is said to have P vanishing moment. ウェーブレットフィルタバンク208設計において、所与のサポートKに対してP>1を必要とするフィルタは、「有効」サポートが増加するPを低減させるフィルタをもたらす。 In wavelet filterbank 208 design, filters that require P> 1 for a given support K results in a filter to reduce P to "valid" support is increased. 言い換えると、KTがより高いPに対してより小さい場合、ほとんどのエネルギーは、間隔KT中に集中化される。 In other words, if a smaller relative KT higher P, most of the energy, is centralized in the interval KT.

【0036】フィルタの時間応答における改良が、典型的に、振幅周波数応答における増加した過渡現象バンドにあることがよく知られている。 The improvement in the time response of the filter, typically, it is well known that in the transient band increased in the amplitude frequency response. たとえば、P.Vaidyana For example, P.Vaidyana
than,"Multirate Digital Filters, FilterBanks, Poly than, "Multirate Digital Filters, FilterBanks, Poly
phase Networks, and Applications: A Tutorial,"Proc phase Networks, and Applications: A Tutorial, "Proc
eedings of the IEEE, Vol.78,No.1,pp.56-92,January, eedings of the IEEE, Vol.78, No.1, pp.56-92, January,
1990を参照のこと。 1990 incorporated herein by reference. ツリー構造フィルタバンクは、フィルタの時間的特性における望ましい集中を達成するために、好ましくは、3組のフィルタバンクのそれぞれに対して2つのバニシングモーメント(すなわち、P=2) Tree filter bank, in order to achieve the concentration desired in the temporal characteristics of the filter, preferably, two burnishing moments for each of the three sets of filter banks (i.e., P = 2)
を有する。 Having. たとえば、ウェーブレットフィルタバンク2 For example, the wavelet filter bank 2
08の最高周波数サブバンド(たとえば、図3に示された314)のインパルス応答410が、比較のために、 08 the highest frequency sub-band (e.g., 314 shown in FIG. 3) the impulse response 410 of, for comparison,
同様の周波数特性を有するコサイン変調されたフィルタバンクのフィルタの応答420とともに、図4に示されている。 With a response 420 of the filter of the cosine modulated filter bank has similar frequency characteristics are shown in FIG.

【0037】本発明の好ましい実施形態により構成されたウェーブレットフィルタバンクの応答410は、時間的に優れた集中化を提供することが、高周波数ウェーブレットフィルタ314のインパルス応答410により証明されている。 The response 410 of a preferred wavelet filter bank constructed in accordance with an embodiment of the present invention is to provide a temporally better centralized, evidenced by the impulse response 410 of high frequency wavelet filter 314. この高周波数ウェーブレットフィルタ3 The high frequency wavelet filter 3
14は、そのエネルギーが、n=10からn=40の間に集中化されている。 14, the energy is concentrated into between n = 10 for n = 40. 比較において、コサイン変調されたフィルタバンクの応答420は、n=1からn=64 In comparison, the response 420 of cosine modulated filter bank, n = 1 from n = 64
の範囲全体に広がったエネルギーを有する。 With an energy that has spread to the entire range of.

【0038】本発明の原理によれば、高周波数分解能M In accordance with the principles of the [0038] present invention, high frequency resolution M
DCTフィルタバンク204が、定常信号を符号化するために使用され、ウェーブレットフィルタバンク208 DCT filter bank 204, are used to encode the stationary signal, wavelet filter bank 208
が、非定常信号を符号化するために使用される。 But the non-stationary signals is used to encode. この2 This 2
つのフィルタバンクを使用することの有効性に対してクリティカルなことは、特定の信号要求(すなわち、定常対非定常)に基づいてこれらの間を切り換えるためのメカニズムである。 One of the critical thing for the effectiveness of the use of filter banks, specific signal request (i.e., stationary vs. non-stationary) is a mechanism for switching between them on the basis of.

【0039】この目的のために、MDCTがオーバラップした直交変換であることを実現しなければならない。 [0039] For this purpose, MDCT must realize that the orthogonal transform overlap.
すなわち、従来のブロック変換と異なり、隣接するブロック間に50パーセントのオーバラップがある。 That is, unlike the conventional block transform, between adjacent blocks there is a 50% overlap. したがって、高周波数分解能MDCTフィルタバンク204とウェーブレットフィルタバンク208との間の切換は、 Therefore, switching between high frequency resolution MDCT filterbank 204 and wavelet filterbank 208,
MDCTブロックとウェーブレットブロックとの間のオーバラップ領域における直交化を必要とする。 It requires orthogonalization in the overlap region between the MDCT block and the wavelet blocks. 一般的直交化問題を設計する方法は良く知られている(たとえば、C.Herley et al.,"Tiling of the Time-Frequency How to design a common orthogonal problem it is well known (for example, C.Herley et al., "Tiling of the Time-Frequency
Plane: Construction of Arbitrary Orthogonal Bases Plane: Construction of Arbitrary Orthogonal Bases
and Fast Tiling Algorithm, IEEE Transaction on Sig and Fast Tiling Algorithm, IEEE Transaction on Sig
nal Processing, Vol.41,No.12, December, 1993)。 nal Processing, Vol.41, No.12, December, 1993). しかし、そのような設計における不都合な点は、得られる変換マトリクスが具現化の観点から非効率的であることである。 However, the disadvantage of such a design is that the transformation matrix obtained is inefficient in terms of realization. すなわち、結果として得られるフィルタにいかなる構造もないことは、ウェーブレット変換の高速演算を非常に困難にする。 In other words, the lack of any structure the resulting filter is very difficult fast calculation of the wavelet transform.

【0040】従って、2N個のサンプルの1ブロックについてのMDCT操作が、ウインドウ化されたデータ(すなわち、ウインドウのいずれか一方の端部からの外部のN/2個のサンプルが、そのウインドウの内部のN [0040] Therefore, MDCT operation on a block of 2N samples are windowed data (i.e., outside of the N / 2 samples from one end of the window, inside the window N of
/2個のサンプル中に折りたたまれている)における対称的操作およびその後に行われるこれらN個のサンプルについてのN点直交ブロック変換と等価であることに注目することによって、直交化アルゴリズムにおける単純化が実現できる。 / By noting that N-point orthogonal block transform and is equivalent for these N samples are performed symmetrically operation and thereafter in the folded are) in two samples, simplifies the orthogonalization algorithm There can be realized. 信号の完全な復元が、特定のブロック直交変換Qと無関係に保証される。 Full restore of the signal is independent of warranty and particular block orthogonal transformation Q. 従って、Qは、1つのブロックに対するMDCTおよび次のブロックに対するウェーブレット変換でありうる。 Therefore, Q is may be a wavelet transform for MDCT and the next block for one block. MDCTに対応する行列Qは、よく知られており、さらに説明することはしない。 Matrix corresponding to MDCT Q are well known and will not be further described. ウェーブレットフィルタバンク208において使用される行列Qについて、説明する。 For the matrix Q used in the wavelet filter bank 208 will be described.

【0041】ウェーブレット変換を使用する場合、直交行列Qフィルタバンク(以下、Q WF Bという。)は、上述したツリー構造ウェーブレットの3個のフィルタバンクに基づくN×N行列である。 [0041] When using the wavelet transform, orthogonal matrix Q filter bank (hereinafter, referred to as Q WF B.) Is a N × N matrix based on three filter bank tree wavelet described above. この行列Q WFBは、いくつかのブロックからなり、各ブロックは、図3の分解ツリー300における葉ノード(すなわち、サブバンド) The matrix Q WFB consists of several blocks, each leaf node in the degradation tree 300 of FIG. 3 (i.e., sub-band)
に対応する。 Corresponding to. 当業者に理解されるように、分解ツリー3 As it will be appreciated by those skilled in the art, decomposition tree 3
00についての行列は、3個のフィルタバンク310, Matrix for 00, three of the filter bank 310,
320および330中のフィルタおよび有限ブロックサイズ(すなわち、境界条件)を取り扱うためのストラテジィにより、完全に識別される。 Filter and a finite block size in the 320 and 330 (i.e., boundary conditions) by Sutoratejii for handling, is fully identified. 説明の明瞭さのために、図3に示された分解ツリー300の4バンドスプリット310に関連して、好ましい実施形態において、境界条件の取り扱いを説明する。 For clarity of description, in connection with the four bands split 310 of the decomposition tree 300 shown in FIG. 3, in the preferred embodiment, illustrating the handling of boundary conditions. それから全体のツリー構造への拡張は、当業者にとって明らかであろう。 Then extended to the entire tree structure will be apparent to those skilled in the art.

【0042】図3に示された4バンドスプリット310 [0042] shown in FIG 3 four bands split 310
に対して、対応する変換行列Qは、N/4×Nのサイズの4個のサブブロックからなり、1つのブロックは、各フィルタ311,312,313および314にそれぞれ対応する。 Against the corresponding transformation matrix Q consists of four sub-blocks of size N / 4 × N, 1 single block, corresponding to each filter 311, 312, 313 and 314. たとえば、これらのフィルタの長さをKと定義し、さらに別の定数K1=(K/4)−1を定義する。 For example, the length of these filters is defined as K, further define another constant K1 = (K / 4) -1. 4個のサブブロックのそれぞれに対して、サブブロックのN/4−K1行以外のすべてが、それぞれのサブバンドフィルタ自体(たとえば、311)に対応し、 For each of the four sub-blocks, all but N / 4-K1 row subblock, corresponding to the respective sub-band filter itself (e.g., 311),
(N/4−K1−1)は、サブバンドフィルタを平行移動させる。 (N / 4-K1-1) moves parallel subband filters. 円形の渦巻きを避けるために、サブブロックの残りのK1行は、ブロックのエッジ近くで動作するように設計された過渡現象フィルタである。 To avoid circular spiral, the remaining K1 row subblock is transient filter designed to work near the edge of the block. これらの過渡現象フィルタは、好ましくは、成分完了ストラテジィを使用して設計される。 These transients filter is preferably designed using the ingredients completion Sutoratejii.

【0043】より具体的には、Q1,Q2,Q3およびQ4は、4個のサブバンドの識別されない行に対応するK1×N行列である。 [0043] More specifically, Q1, Q2, Q3 and Q4 are K1 × N matrix corresponding to the identified non-line of the four sub-bands. 次に、Q1〜Q4は、これらの行列が、集合的に、それ自体がすでに定義されたQの4× Then, Q1 to Q4, these matrices is collectively, 4 × of Q, itself already defined
(N/4−K1)行と直交するサブスペースに対する直交成分を形成するように選ばれる。 (N / 4-K1) are selected to form the quadrature component for the subspace that is orthogonal to the line. また、Q1〜Q4 In addition, Q1~Q4
は、以下の形式を有するコスト関数を最大化するために選ばれる。 It is chosen to maximize the cost function having the following form. コスト=Trace(Q1W T D1+Q2W T D2 Cost = Trace (Q1W T D1 + Q2W T D2
WQ2 T +Q3W T D3WQ3 T +Q4W T D4WQ4 T )。 WQ2 T + Q3W T D3WQ3 T + Q4W T D4WQ4 T). ここで、Wは、N×Nフーリエ変換行列、D1〜D4は、ゼロではなく1に等しいN/4個のN対角線要素を有する対角線マトリクスである。 Here, W is, N × N Fourier transform matrix, D1 to D4 are diagonal matrices having equal N / 4 N-diagonal elements 1 not zero. 特定のサブバンドに対するN/ N for a particular sub-band /
4個の非ゼロ要素は、周波数軸上の特定のサブバンドの位置に対応する。 4 non-zero elements corresponds to the position of a particular sub-band on the frequency axis. 当業者に理解されるように、これは、 As will be appreciated by those skilled in the art, which,
たとえば、標準的最適化ツールを使用することにより解決されうるサブスペース抑制最適化問題である。 For example, a sub-space constraints optimization problem can be solved by using standard optimization tool. サブバンドのそれぞれに対して、過渡現象フィルタは、サブバンド係数が正確な時間的解釈を有するように、増加するグループ遅れの順序でQ WFB中に配置される。 For each sub-band, the transient filter, as the sub-band coefficient has the correct time interpretation, are placed in Q WFB in order of the group delay increases.

【0044】上述した直交化アプローチが、ウェーブレットフィルタを時間的に拡張し、および/またはウェーブレットフィルタ自体における不連続性を招く効果を有する可能性があることがわかった。 The orthogonal approach described above, to extend the wavelet filter in time, and / or may have the effect of causing a discontinuity in the wavelet filter itself was found in. ウェーブレットフィルタバンク208のそのようなあり得る損傷は、以下により軽減される。 Such possible damage wavelet filter bank 208 is reduced by below. (i)たとえば、ジョンストン特許に記載されているような高周波数分解能MDCTフィルタバンク204およびウェーブレットフィルタバンク20 (I) for example, the number of high frequency as described in Johnston patent resolution MDCT filterbank 204 and wavelet filterbank 20
8の使用間の遷移として使用される一時的STARTおよびSTOPウインドウ、および(ii)いわゆるスムースウインドウのファミリーを適用することにより、遷移ウインドウとウェーブレットウインドウとの間の有効なオーバラップを低減すること。 8 temporarily START and STOP window is used as a transition between the use of, and (ii) by applying a family of so-called smooth windows, reducing the effective overlap between the transition window and wavelet window.

【0045】前述した技術を使用する高周波数分解能M The high frequency resolution M to use the techniques described above
DCTフィルタバンク204とウェーブレットフィルタバンク208との間の例示的な切換シーケンスが、図5 Exemplary switching sequence between the DCT filter bank 204 and a wavelet filter bank 208, FIG. 5
に示されている。 It is shown in. 図5に示されているように、STAR As shown in Figure 5, STAR
Tウインドウ502が、高周波数分解能MDCTフィルタバンクウインドウ501とウェーブレットフィルタバンクウインドウ503との間の遷移において使用される。 T window 502 is used in the transition between high frequency resolution MDCT filterbank window 501 and wavelet filterbank window 503. さらに、STOPウインドウ504が、ウェーブレットフィルタバンクウインドウ503と高周波数分解能MDCTフィルタバンクウインドウ505との間の遷移において使用される。 Further, STOP window 504 is used in the transition between the wavelet filterbank window 503 and the high frequency resolution MDCT filterbank window 505.

【0046】いわゆるスムースウインドウは、STAR The so-called smooth window, STAR
Tウインドウ502とウェーブレットフィルタバンクウインドウ503との間のオーバラップ領域において使用され、そしてウェーブレットフィルタバンクウインドウ503と、STOPウインドウ504との間のオーバラップ領域においても使用される。 Used in the overlap region between the T window 502 and wavelet filterbank window 503, and a wavelet filterbank window 503, also used in the overlap region between the STOP window 504. これらのスムースウインドウは、ベースバンドフィルタとして有用であり、時間的にコンパクトに集中化される。 These smooth windows are useful as a baseband filter, it is centralized temporally compact. すなわち、ウインドウ中のほとんどのエネルギーは、中心付近に集中化される。 That is, most of the energy in the window is centralized in the vicinity of the center. このスムースウインドウは、式:h(n)=h This smooth window, the formula: h (n) = h
(t)| t=(n+1/2)(1/ N),n=0,1 ‥‥ N-1を使用して生成される。 (T) | t = (n + 1/2) (1 / N), is generated using the n = 0,1 ‥‥ N-1. ここで、h(t)は、区間[0,1]において非ゼロであり、外側でゼロである。 Here, h (t) is non-zero in the interval [0,1] is zero outside.

【0047】図2において、知覚モデルプロセッサ21 [0047] In Figure 2, the perceptual model processor 21
0は、信号適合型切換フィルタバンク202中の様々な信号成分の知覚的重要性および雑音マスキング特性の推定値を計算するために心理音響学的分析を使用する。 0 uses psychoacoustic analysis to calculate an estimate of the perceptual importance and noise masking properties of various signal components in the signal adaptive switched filter bank 202. 知覚モデルプロセッサ210中で行われる心理音響学的分析は、よく知られており、たとえば、ジョンストン特許、およびJDJohnston,"Transform Coding of Audio Psychoacoustic analysis performed in the perceptual model processor 210 are well known, for example, Johnston patent, and JDJohnston, "Transform Coding of Audio
Signals Using Perceptual Noise Criteria,"IEEE Jour Signals Using Perceptual Noise Criteria, "IEEE Jour
nal on Selected Areas in Communication,"Vol.6,pp.3 nal on Selected Areas in Communication, "Vol.6, pp.3
19-323,February, 1988に記載されている。 19-323, are described in the February, 1988. MDCTブロックにおける係数の量子化のためのしきい値が、心理音響学的分析からすでに知られた方法で直接的に得られるが、ウェーブレットブロックにより使用されるしきい値は、さらなる処理を必要とする。 Threshold for quantization of coefficients in MDCT block, is obtained directly by the psychoacoustic known methods from the analysis, the threshold used by the wavelet blocks, requires further processing to.

【0048】ウェーブレット係数の量子化のためのしきい値は、PACにおけるように、各サブバンドにおける時間的に変化する分布エネルギーの推定値および推定された調性量に基づく。 The threshold for quantization of wavelet coefficients, as in the PAC, based on the estimated value and the estimated tonality of time varying distributed energy in each subband. この分布エネルギーは、周波数および時間についてのマスキングの分布を顧慮することにより計算される。 The distribution energy is calculated by consideration of the distribution of masking for frequency and time. 言い換えると、周波数間および時間的な分布関数が使用される。 In other words, inter-frequency and temporal distribution function is used. これらの分布関数の形は、たとえば、JBAllen,"The ASA edition of Speech Heari Shape of these distribution functions, for example, JBAllen, "The ASA edition of Speech Heari
ng in Communications," Acoustical Societyof Americ ng in Communications, "Acoustical Societyof Americ
a, New York, 1995に記載されたようなChochlearフィルタから得られる。 a, obtained from Chochlear filter as described in New York, 1995. マスキングの時間的分布は、周波数に依存し、特定の周波数におけるChochlearフィルタの帯域幅の逆数により近似的に決定される。 Temporal distribution of masking is dependent on the frequency, it is approximately determined by the reciprocal of the bandwidth of Chochlear filter at specific frequencies.

【0049】好ましくは、1つの固定時間分布関数が、 [0049] Preferably, the one fixed time distribution function,
周波数のある範囲すなわちサブバンドについて使用される。 Used for the range or sub-band of frequencies. したがって、分布関数の形は、より高い周波数において、ますます狭くなる。 Thus, the shape of the distribution function, at higher frequencies, increasingly narrower. サブバンドにおける係数は、 Factor in the sub-band,
コーダバンド内でグループ化され、量子化において、コーダバンド当たり1つのしきい値が使用される。 They are grouped in the coder band, in the quantization, one threshold per coder band are used. たとえば、コーダバンドのスパンは、最低周波数サブバンドにおける10ミリ秒から最高周波数サブバンドにおける約2.5ミリ秒の範囲にある。 For example, the span of the coder bands, in the range of about 2.5 ms at the highest frequency subband 10 ms in the lowest frequency subband.

【0050】ジョンストン特許に記載されているように、クオンタイザ/レートループプロセッサ212は、 [0050] As described in Johnston patent, quantizer / rate loop processor 212,
信号適合型切換フィルタバンク202および知覚モデルプロセッサ210からの出力を得て、ビットおよび雑音を割り当て、所与の用途に必要とされるビットレートに合致するように、他のシステムパラメータを制御する。 Obtaining the output from the signal adaptive switched filter bank 202 and a perceptual model processor 210 assigns bits and noise, to match the bit rate required for a given application, to control other system parameters.
エントロピーデコーダ214は、クオンタイザ/レートループプロセッサ212と共同して、さらなるノイズレス圧縮を達成するために使用される。 The entropy decoder 214, in conjunction with the quantizer / rate loop processor 212, is used to achieve a further noiseless compression. たとえば、ジョンストン特許に記載されているように、エントロピーコーダ214は、クオンタイザ/レートループプロセッサ2 For example, as described in Johnston patent, the entropy coder 214, the quantizer / rate loop processor 2
12から量子化されたオーディオ信号を受け取る。 Receiving audio signal quantized by 12. そして、エントロピーコーダ214は、たとえばよく知られた最小冗長度ハフマン(Huffman)コーディング技術を使用して、量子化されたオーディオ信号についての無損失エンコーディングを実行する。 Then, the entropy coder 214, for example using well-known minimum redundancy Huffman (Huffman) coding technique, to perform the lossless encoding of the audio signal quantized.

【0051】ハフマンコードは、たとえは、DAHuffma [0051] Huffman code, even if is, DAHuffma
n,"A Method for the Constructionof Minimum Redunda n, "A Method for the Constructionof Minimum Redunda
ncy Codes," Roc.IRE,40:1090-1101,1952およびTMCov ncy Codes, "Roc.IRE, 40: 1090-1101,1952 and TMCov
erand JAYhomas,"Elements of Information Theory," erand JAYhomas, "Elements of Information Theory,"
pp.92-101,1991に記載されている。 It is described in the pp.92-101,1991. さらに、ジョンストン特許は、エントロピーコーダ214のPACに関するハフマンコーディングの使用を開示している。 Furthermore, Johnston patent discloses the use of Huffman coding relating PAC entropy coder 214. 当業者は、よく知られたLempel−ZiV圧縮方法を含む他のノイズレスデータ圧縮技術を使用して、エントロピーコーダ214の代替的な実施例をどのように具現化するかを容易に理解するであろう。 Those skilled in the art, der well known using other noiseless data compression techniques, including Lempel-Ziv compression method, readily appreciate how to implement the alternative embodiment of the entropy coder 214 wax.

【0052】最終的に、切換規準206が、高周波数分解能MDCTフィルタバンク204とウェーブレットフィルタバンク208との間の有効な切換をさらに容易にするために使用される。 [0052] Finally, switching 換規 quasi 206 is used to further facilitate effective switching between high frequency resolution MDCT filterbank 204 and wavelet filterbank 208. 有効にするために、規準は、いかなる誤警報またアタック失敗なしに正確にアタックを検出しなければならない。 To enable, criteria must accurately detect the attack without any false alarms also attack fails. たとえば、高周波数分解能M For example, high-frequency resolution M
DCTフィルタバンク204を使用して符号化された場合、検出されないアタックは、特に低ビットレートにおいて、信号の知覚的ひずみとなる。 If it is encoded using the DCT filter banks 204, undetected attack, especially at low bit rates, the signal perceptual distortion. 対照的に、ウェーブレットフィルタバンク208で比較的定常的な信号をコーディングすることは、出力ビットおよび処理能力のかなり大きな浪費となる。 In contrast, coding the relatively stationary signal in wavelet filterbank 208 is a fairly large waste of output bits and processing power.

【0053】したがって、本発明の好ましい実施形態によれば、知覚エントロピー規準が使用される。 [0053] Thus, according to a preferred embodiment of the present invention, the perceptual entropy criterion is used. 上述したように、知覚エントロピーは、特定の変換セグメントをトランスペアレントに符号化するためのサンプル当たりのビットの理論的下限を提供する信号の特定の変換セグメントの量である。 As mentioned above, the perceptual entropy is the amount of a particular transform segment of the signal to provide a theoretical lower limit of bits per sample for encoding a specific conversion segment transparently. 1つのセグメントから次のセグメントへの知覚エントロピーにおけるかなり大きな増加は、 Sizable increase in perceptual entropy from one segment to the next segment,
信号の強い非定常性(たとえば、アタック)の良い表示である。 Signal strong non-stationary (e.g., attack) is a good display with. 図2の実施形態によれば、このタイプの知覚エントロピー変化は、高周波数分解能MDCTフィルタバンク204からウェーブレットフィルタバンク208への切換規準206をトリガーするために、信号適合型切換フィルタバンク202により使用される。 According to the embodiment of FIG. 2, the perceptual entropy change of this type, a high frequency resolution MDCT filterbank 204 in order to trigger the switching 換規 quasi 206 to wavelet filter bank 208, are used by the signal adaptive switched filter bank 202 that. たとえば、 For example,
25ミリ秒ごとに一度、高周波数分解能MDCTフィルタバンク204とウェーブレットフィルタバンク208 Once every 25 milliseconds, the high frequency resolution MDCT filterbank 204 and wavelet filterbank 208
との間の切換に関する決定がなされる。 Determination is made as to switch between.

【0054】 [0054]

【発明の効果】以上述べたように、本発明によれば、非定常信号を含む場合にも、信号をコンパクトに表現することが可能なオーディオ信号コーディングに使用するための交換フィルタバンクを提供することができる。 As described above, according to the present invention, according to the present invention, even if it contains non-stationary signals, to provide a replacement filter bank for use in the audio signal coding capable of expressing the signal compactly be able to.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明が適用されるシステムの一例を示すブロック図。 Block diagram illustrating an example of a system [1] The present invention is applied.

【図2】本発明の信号適合型切換フィルタバンクを使用する図1のシステムにおいて使用される知覚オーディオコーダの一実施形態を示すブロック図。 Block diagram illustrating one embodiment of the perceptual audio coder used in the system of Figure 1, Figure 2 uses a signal adaptive switched filter bank of the present invention.

【図3】図2の信号適合型切換フィルタバンクにおいて使用されるツリー構造ウェーブレットフィルタバンクの一実施形態を示す図。 Figure 3 illustrates an embodiment of a tree structure wavelet filter bank used in a signal adaptive switched filter bank of FIG.

【図4】コサイン変調フィルタと図2の信号適合型切換フィルタバンクにおいて使用されるウェーブレットフィルタとの比較を示す図。 FIG. 4 shows a comparison of the wavelet filter that is used in the cosine modulated filter and a signal adaptive switched filter bank of FIG.

【図5】図2の信号適合型切換フィルタバンクを使用して生成されるフィルタバンク切換シーケンスの一例を示す図。 5 is a diagram showing an example of a filter bank switching sequence generated using a signal adaptive switched filter bank of FIG.

【符号の説明】 DESCRIPTION OF SYMBOLS

101 アナログオーディオ信号 102 プリプロセッサ 106 通信チャネル/記憶媒体 108 知覚オーディオデコーダ 110 ポストプロセッサ 200 知覚オーディオコーダ 202 信号適合型切換フィルタバンク 204 高周波数分解能MDCTフィルタバンク 206 切換規準 208 ウェーブレットフィルタバンク 210 知覚モデルプロセッサ 212 クオンタイザ/レートループプロセッサ 214 エントロピーエンコーダ 300 分解ツリー 310 フィルタバンクセット 311,312,313,314 フィルタ 320,330 フィルタバンク 321,322,331 バンドスプリット 410 ウェーブレットフィルタ 420 コサイン変調フィルタ 501 高周波数分解能MDCTフィルタバンクウィンドゥ 502 スタート 101 analog audio signal 102 preprocessor 106 communications channel / storage medium 108 perceptual audio decoder 110 postprocessor 200 perceptual audio coder 202 signal adaptive switched filter bank 204 high frequency resolution MDCT filterbank 206 switching 換規 quasi 208 wavelet filter bank 210 perceptual model processor 212 quantizers / rate loop processor 214 entropy encoder 300 decomposition tree 310 filterbank set 311, 312, 313, 314 filter 320 and 330 filter bank 321,322,331 band split 410 wavelet filter 420 cosine modulated filter 501 the high frequency resolution MDCT filterbank Windu 502 start (START)ウィンドゥ 503 ウェーブレットフィルタバンクウィンドゥ 504 ストップ(STOP)ウィンドゥ 505 高周波数分解能MDCTフィルタバンクウィンドゥ (START) Window 503 wavelet filter bank Windu 504 stop (STOP) Window 505 High frequency resolution MDCT filterbank Windu

フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U. Of the front page Continued (71) applicant 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974-0636U. S. S. A. (72)発明者 ディーペン シンバ アメリカ合衆国、07928 ニュージャージ ー、チェイサン、ノー アベニュー 169 A. (72) inventor Dipen Simba United States, 07928 New Jersey over, Cheisan, no Avenue 169

Claims (21)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 (A) オーディオ信号をサンプリングするステップと、 (B) ろ波された信号を生成するために、第1のフィルタバンクとウェーブレットフィルタバンクとを切り換えることにより、前記サンプリングされたオーディオ信号を交互にろ波するステップと、 (C) 圧縮された出力信号を提供するために、前記フィルタリングされた信号を符号化するステップとを有することを特徴とするオーディオ信号を符号化する方法。 And 1. A step of sampling (A) audio signal, (B) to produce a filtered signal, by switching a first filter bank and wavelet filter bank, the sampled audio a step for filtering the signals alternately, a method of encoding an audio signal, characterized in that a step of coding, the said filtered signal for providing an output signal (C) compression.
  2. 【請求項2】 前記第1のフィルタバンクは、高周波数分解能MDCTフィルタバンクであることを特徴とする請求項1記載のオーディオ信号を符号化する方法。 Wherein said first filter bank, a method for encoding an audio signal according to claim 1, characterized in that it is a high frequency resolution MDCT filterbank.
  3. 【請求項3】 前記(B)ろ波するステップにおいて、 3. A (B) the filtration wave steps,
    前記切換が、前記オーディオ信号の定常性の関数として行われることを特徴とする請求項2記載のオーディオ信号を符号化する方法。 Wherein said switching is to encode the audio signal according to claim 2, wherein the performed as constancy of the function of the audio signal.
  4. 【請求項4】 前記(B)ろ波するステップにおいて、 4. A (B) the filtration wave steps,
    前記高周波数分解能MDCTフィルタバンクが、前記オーディオ信号の定常成分をろ波するために使用され、前記ウェーブレットフィルタバンクが、前記オーディオ信号の非定常成分をろ波するために使用されることを特徴とする請求項2記載のオーディオ信号を符号化する方法。 It said high frequency resolution MDCT filterbank is a stationary component of the audio signal is used for filtering, the wavelet filter bank, and characterized in that it is used a non-stationary component of the audio signal in order to filter method of encoding an audio signal according to claim 2.
  5. 【請求項5】 前記(C)符号化するステップは、知覚オーディオコーディングを含むことを特徴とする請求項1記載のオーディオ信号を符号化する方法。 Wherein said (C) step of encoding method for encoding an audio signal according to claim 1, characterized in that it comprises a perceptual audio coding.
  6. 【請求項6】 (A)複数の雑音しきい値をオーディオ信号の周波数特性の関数として生成するステップと、 (B) ろ波された信号を生成するために、第1のフィルタバンクとウェーブレットフィルタバンクとを切り換えることにより、前記オーディオ信号を交互にろ波するステップと、 (C) 前記雑音しきい値により決定される粗さで、前記ろ波された信号を量子化するステップと、 (D) 前記量子化された信号を知覚的に符号化するステップとを有することを特徴とするオーディオ信号を符号化する方法。 Generating a wherein (A) a plurality of noise threshold as a function of the frequency characteristics of the audio signal, for generating a signal (B) filtering the first filter bank and wavelet filter by switching between bank, a step for filtering alternately the audio signal, comprising the steps of: quantizing the in roughness was the filtered signal determined by (C) the noise threshold, (D ) method of encoding an audio signal, characterized by a step of perceptually encoding said quantized signal.
  7. 【請求項7】 前記第1のフィルタバンクは、高周波数分解能MDCTフィルタバンクであることを特徴とする請求項6記載のオーディオ信号を符号化する方法。 Wherein said first filter bank, a method for encoding an audio signal according to claim 6, characterized in that the high frequency resolution MDCT filterbank.
  8. 【請求項8】 前記(B)ろ波するステップにおいて、 8. The (B) filtered wave steps,
    前記切換が、前記オーディオ信号の定常性に応じて行われることを特徴とする請求項7記載のオーディオ信号を符号化する方法。 Wherein said switching is to encode the audio signal according to claim 7, wherein the performed according to the continuity of the audio signal.
  9. 【請求項9】 前記(B)ろ波するステップにおいて、 前記高周波数分解能MDCTフィルタバンクが、前記オーディオ信号の定常成分をろ波するために使用され、 前記ウェーブレットフィルタバンクが、前記オーディオ信号の非定常成分をろ波するために使用されることを特徴とする請求項7記載のオーディオ信号を符号化する方法。 9. The (B)-filters for step, said high frequency resolution MDCT filterbank is the constant component of the audio signal is used for filtering, the wavelet filter bank, non of the audio signal method of encoding an audio signal according to claim 7, characterized in that it is used a stationary component in order to filter.
  10. 【請求項10】 前記オーディオ信号の定常性は、知覚エントロピーを使用して決定されることを特徴とする請求項8記載のオーディオ信号を符号化する方法。 Constancy of claim 10 wherein said audio signal, a method of encoding an audio signal according to claim 8, characterized in that it is determined using a perceptual entropy.
  11. 【請求項11】 前記ウェーブレットフィルタバンクは、1セットの不均一フィルタバンクを有するツリー構造フィルタバンクであることを特徴とする請求項6記載のオーディオ信号を符号化する方法。 Wherein said wavelet filterbank, a method of encoding an audio signal according to claim 6, characterized in that the tree structure filterbank having a non-uniform filter bank of a set.
  12. 【請求項12】 前記セットのうちの第1の不均一フィルタバンクは、前記オーディオ信号の4バンドスプリットを提供し、第2の不均一フィルタバンクは、前記オーディオ信号の2バンドスプリットを提供することを特徴とする請求項11記載のオーディオ信号を符号化する方法。 12. The first non-uniform filter bank of said set provides a 4-band splitting of the audio signal, a second non-uniform filter bank, to provide a 2 band splitting of the audio signal method of encoding an audio signal according to claim 11, wherein.
  13. 【請求項13】 (A) 複数の雑音しきい値をデジタル信号の周波数特性の関数として生成するステップと、 (B) ろ波された信号を生成するために、第1のフィルタバンクとウェーブレットフィルタバンクとを切り換えることにより、前記デジタル信号を交互にろ波するステップと、 (C) 圧縮された出力信号を提供するために、前記ろ波された信号を知覚的に符号化するステップとを有することを特徴とする圧縮された出力信号を生成するためにオーディオ信号を符号化する方法。 A step 13. A (A) a plurality of noise threshold is generated as a function of the frequency characteristics of the digital signal, for generating a signal (B) filtering the first filter bank and wavelet filter by switching between bank has a step for filtering alternately the digital signal, a step of perceptually encoded to provide, the filtered signal output signal (C) compression method of encoding an audio signal to produce a compressed output signal, characterized in that.
  14. 【請求項14】 前記第1のフィルタバンクは、高周波数分解能MDCTフィルタバンクであることを特徴とする請求項13記載のオーディオ信号を符号化する方法。 14. The method of claim 13, wherein the first filter bank, a method for encoding an audio signal according to claim 13 which is a high frequency resolution MDCT filterbank.
  15. 【請求項15】 オーディオ信号をサンプリングする手段と、 ろ波された信号を生成するために、第1のフィルタバンクとウェーブレットフィルタバンクとを切り換えることにより、前記サンプリングされたオーディオ信号を交互にろ波する手段と、 圧縮された出力信号を生成するために、前記ろ波された信号を符号化する手段とを有することを特徴とするオーディオ信号を符号化する装置。 15. A means for sampling the audio signal, to produce a filtered signal, by switching a first filter bank and wavelet filter bank, filtering alternately the sampled audio signal It means for, in order to generate a compressed output signal, apparatus for encoding an audio signal and having a means for encoding the filtered signal.
  16. 【請求項16】 前記第1のフィルタバンクは、高周波数分解能MDCTフィルタバンクであることを特徴とする請求項15記載のオーディオ信号を符号化する装置。 16. The first filter bank device for encoding an audio signal according to claim 15 which is a high frequency resolution MDCT filterbank.
  17. 【請求項17】 前記ろ波する手段において、前記切換は、前記オーディオ信号の知覚エントロピーの関数として起こることを特徴とする請求項16記載のオーディオ信号を符号化する方法。 17. A means for the-filters, the switching is a method of encoding an audio signal according to claim 16, wherein the place as a function of the perceptual entropy of the audio signal.
  18. 【請求項18】 (A) 複数の雑音しきい値をオーディオ信号の周波数特性の関数として生成する手段と、 (B) ろ波された信号を生成するために、第1のフィルタバンクとウェーブレットフィルタバンクとを切り換えることにより、前記サンプリングされたオーディオ信号を交互にろ波する手段と、 (C) 前記雑音しきい値により制御される粗さで、前記ろ波された信号を量子化する手段と、 (D) 前記量子化された信号を知覚的に符号化する手段とを有することを特徴とするオーディオ信号を符号化する装置。 18. (A) means for generating a plurality of noise threshold as a function of the frequency characteristics of the audio signal, for generating a signal (B) filtering the first filter bank and wavelet filter by switching between bank, and means for filtering said sampled audio signal alternately, and means for quantizing the (C) with said noise threshold crude controlled by of the was filtered signal apparatus for encoding an audio signal, characterized in that it comprises a means for perceptually encoding a signal the quantized (D).
  19. 【請求項19】 知覚的に符号化されたオーディオ信号を処理する装置であって、前記知覚的に符号化されたオーディオ信号が、 複数の雑音しきい値を入力信号の周波数特性の関数として生成し、 前記入力信号をサンプリングし、 ろ波された信号を生成するために、第1のフィルタバンクとウェーブレットフィルタバンクとを切り換えることにより、前記サンプリングされた信号を交互にろ波し、 前記雑音しきい値により決定される粗さで、前記ろ波された信号を量子化し、 前記知覚的に符号化されたオーディオ信号を生成するために、前記量子化された信号を知覚的に符号化し、 前記知覚的に符号化されたオーディオ信号を通信チャネルに与えることにより生成されるものであり、 前記知覚的に符号化されたオーディオ信号を前記通信 19. An apparatus for processing a perceptually encoded audio signal, the perceptually encoded audio signal, generating a plurality of noise threshold as a function of the frequency characteristic of the input signal and, sampling the input signal, to produce a filtered signal, by switching a first filter bank and wavelet filter bank, and filtering the sampled signal alternately, and the noise in roughness determined by threshold, said filtered signal is quantized, said to produce a perceptually encoded audio signal, the quantized signal perceptually encoded, the are those produced by providing a perceptually encoded audio signal to the communication channel, wherein the perceptually the communication audio signal encoded ャネルから受信するための手段と、 前記受信された知覚的に符号化されたオーディオ信号を復号化する手段と、 前記符号化されたオーディオ信号から前記入力信号を復元する手段とを有することを特徴とする装置。 Characterized in that it comprises means for receiving from Yaneru, means for decoding the received perceptually encoded audio signal, and means for restoring said input signal from said encoded audio signal and devices.
  20. 【請求項20】 前記第1のフィルタバンクは、高周波数分解能MDCTフィルタバンクであることを特徴とする請求項19記載の装置。 20. The method of claim 19, wherein the first filter bank according to claim 19, wherein it is a high frequency resolution MDCT filterbank.
  21. 【請求項21】 前記切換は、前記入力信号の知覚エントロピーのレベルの関数として起こることを特徴とする請求項20記載の装置。 21. The switching apparatus of claim 20, wherein the place as a function of the level of the perceptual entropy of the input signal.
JP06578397A 1996-03-19 1997-03-19 Apparatus for processing method and apparatus and a perceptually encoded audio signal encoding an audio signal Expired - Fee Related JP3418305B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US1472596P true 1996-03-19 1996-03-19
US014725 1996-03-19

Publications (2)

Publication Number Publication Date
JPH1039897A true JPH1039897A (en) 1998-02-13
JP3418305B2 JP3418305B2 (en) 2003-06-23

Family

ID=21767329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06578397A Expired - Fee Related JP3418305B2 (en) 1996-03-19 1997-03-19 Apparatus for processing method and apparatus and a perceptually encoded audio signal encoding an audio signal

Country Status (1)

Country Link
JP (1) JP3418305B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005036527A1 (en) * 2003-10-07 2006-12-21 松下電器産業株式会社 Time boundary and frequency resolution determination method for spectral envelope coding
JP2008310327A (en) * 2007-06-14 2008-12-25 Thomson Licensing Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in spectral domain
JP2011512549A (en) * 2008-01-28 2011-04-21 クゥアルコム・インコーポレイテッドQualcomm Incorporated System, method, and apparatus for processing a context using multiple resolution analyzes

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005036527A1 (en) * 2003-10-07 2006-12-21 松下電器産業株式会社 Time boundary and frequency resolution determination method for spectral envelope coding
JP4767687B2 (en) * 2003-10-07 2011-09-07 パナソニック株式会社 Time boundary and frequency resolution determination method for spectral envelope coding
JP2008310327A (en) * 2007-06-14 2008-12-25 Thomson Licensing Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in spectral domain
JP2011512549A (en) * 2008-01-28 2011-04-21 クゥアルコム・インコーポレイテッドQualcomm Incorporated System, method, and apparatus for processing a context using multiple resolution analyzes
US8483854B2 (en) 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
US8554550B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
US8554551B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
US8560307B2 (en) 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
US8600740B2 (en) 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission

Also Published As

Publication number Publication date
JP3418305B2 (en) 2003-06-23

Similar Documents

Publication Publication Date Title
JP5468566B2 (en) Mixed lossless audio compression
EP2207170B1 (en) System for audio decoding with filling of spectral holes
JP5543939B2 (en) Integrated irreversible lossless audio compression
US7548853B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN1038089C (en) Appratus for coding or decoding signals and method for coding or decoding
JP4290997B2 (en) Improving transient efficiency in low bit rate audio coding by reducing pre-noise
JP3203250B2 (en) Low computational complexity of the digital filter bank
Tribolet et al. Frequency domain coding of speech
US5845243A (en) Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of audio information
AU733156B2 (en) Audio coding method and apparatus
US6680972B1 (en) Source coding enhancement using spectral-band replication
JP2904472B2 (en) Method for efficiently compressing a digital audio signal, the data processing system and apparatus
US6064954A (en) Digital audio signal coding
RU2387023C2 (en) Lossless multichannel audio codec
JP3297051B2 (en) Adaptive bit allocation encoding apparatus and method
US6502069B1 (en) Method and a device for coding audio signals and a method and a device for decoding a bit stream
KR100304055B1 (en) Method for signalling a noise substitution during audio signal coding
AU643677B2 (en) Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
JP5520994B2 (en) Synthesis filter bank
CN1151705C (en) Method and apparatus for encoding and decoding multiple audio channels at low bit rates
EP1723638B1 (en) Adaptive hybrid transformation for signal analysis and synthesis
US5394473A (en) Adaptive-block-length, adaptive-transforn, and adaptive-window transform coder, decoder, and encoder/decoder for high-quality audio
JP2923406B2 (en) Audio signal processing method
Painter et al. A review of algorithms for perceptual coding of digital audio signals
US7110953B1 (en) Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 5

Free format text: PAYMENT UNTIL: 20080411

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090411

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 6

Free format text: PAYMENT UNTIL: 20090411

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 7

Free format text: PAYMENT UNTIL: 20100411

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 8

Free format text: PAYMENT UNTIL: 20110411

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20120411

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 10

Free format text: PAYMENT UNTIL: 20130411

LAPS Cancellation because of no payment of annual fees