WO1995013660A1 - Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d'enregistrement et de codage a haute efficacite - Google Patents

Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d'enregistrement et de codage a haute efficacite Download PDF

Info

Publication number
WO1995013660A1
WO1995013660A1 PCT/JP1994/001888 JP9401888W WO9513660A1 WO 1995013660 A1 WO1995013660 A1 WO 1995013660A1 JP 9401888 W JP9401888 W JP 9401888W WO 9513660 A1 WO9513660 A1 WO 9513660A1
Authority
WO
WIPO (PCT)
Prior art keywords
quantization
time
sample
domain
frequency
Prior art date
Application number
PCT/JP1994/001888
Other languages
English (en)
French (fr)
Inventor
Kenzo Akagiri
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP27938393A external-priority patent/JP3227945B2/ja
Priority claimed from JP28809693A external-priority patent/JP3227948B2/ja
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP95900276A priority Critical patent/EP0692881B1/en
Priority to US08/464,787 priority patent/US5774844A/en
Publication of WO1995013660A1 publication Critical patent/WO1995013660A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/04Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
    • H04B14/046Systems or methods for reducing noise or bandwidth

Definitions

  • Quantizer quantizing method, high-efficiency coding apparatus, high-efficiency coding method, decoding apparatus, high-efficiency code decoding apparatus, and recording media technology field
  • the present invention relates to a high-efficiency code decoding device and a decoding device used therein.
  • BACKGROUND ART There are various methods and devices for high-efficiency coding of signals such as audio or audio.
  • a time-domain audio signal or the like is blocked for each unit time, and this block is used for each block.
  • the so-called transform coding method which is a block frequency division method that converts a signal on the time axis into a signal on the frequency axis (orthogonal transform), divides the signal into a plurality of frequency bands, and encodes each band, , Audio signals in the time domain are divided into multiple frequency bands and encoded without being blocked for each unit time.
  • Band division coding sub-band • coding: SBC
  • SBC which is a hacking frequency band division method
  • band division is performed by the above-mentioned band division coding method.
  • the signal for each band is orthogonally transformed into a signal in the frequency domain by the above-mentioned transform coding scheme, and encoding is performed for each band that has been orthogonally transformed.
  • a filter such as a QMF (Quadrature Mirror filter), for example, is used as a filter for band division used in the above-mentioned band division coding method, which is a filter in 1976 RE Crochiere Digital coding of speech in subbands Bell. Syst. Tech. J. Vol.55, No.8, 1976.
  • ICASSP 83, BOSTON Polyphase Quadrature filter 1ters-A new subband coding technique Joseph H. Rothweiler includes a filter splitting method with an equal band width such as a polyphase quadrature filter. The device is described.
  • an input audio signal is divided into blocks in a predetermined unit time (frame), and for each block, a fast Fourier transform (FFT), a discrete cosine transform (DCT), a modifiable
  • FFT fast Fourier transform
  • DCT discrete cosine transform
  • MDCT is described in ICAS SP 1987 Subband / Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation JP Princen AB Bradley Univ. Of Surrey Royal Melbourne Inst, of Tech.
  • a frequency division width when quantizing each frequency component divided into frequency bands, for example, there is a band division in consideration of human auditory characteristics.
  • an audio signal may be divided into a plurality of bands (for example, 25 bands) with a bandwidth generally called a critical band, where the higher the band, the wider the bandwidth.
  • encoding is performed by performing predetermined bit allocation for each band or adaptive bit allocation for each band. For example, when the MDCT coefficient data obtained by the MDCT processing is encoded by the bit allocation, the MDCT coefficient data for each band obtained by the MDCT processing for each block described above is encoded. Therefore, encoding is performed with the adaptive number of allocated bits.
  • the following two methods and devices are known as the above-mentioned bit allocation method and the device for it.
  • bit allocation techniques expect playback (decoding) to be performed at a certain constant bit rate on the playback side (decoding side). If decoding is performed with a bit rate lower than this, significant sound quality degradation will occur. In other words, in order to decode using a bit rate lower than the bit rate used at the time of encoding, for example, a part of the bit after encoding on the encoding side is diverted to another data transfer. In this case, decoding is performed with a bit rate lower than the bit rate at the time of encoding on the decoding side, so it is expected that decoding will be performed with the bit rate at the time of encoding on the decoding side.
  • the above-mentioned known bit allocation technique causes a significant deterioration in sound quality during reproduction (decoding).
  • An object of the present invention is to provide a high-efficiency coding apparatus and a high-efficiency coding apparatus capable of minimizing the above-described sound quality deterioration and having compatibility with a backlight. It is an object of the present invention to provide a system comprising an efficiency coding method, a quantization device and a quantization method used for them, and a high efficiency code decoding device, a decoding device, and a recording medium corresponding thereto.
  • an object of the present invention is to perform recording on a storage medium using an expensive storage device, in order to record for a long time, for example, to extend the recording time from the initial setting.
  • a high-efficiency encoding apparatus and a high-efficiency encoding method that can appropriately reduce the bit rate of encoding information during recording to extend the recording time and minimize sound quality degradation at this time, and are used for these.
  • An object of the present invention is to provide a quantization device and a quantization method, and a high-efficiency code decoding device, a decoding device, and a recording medium corresponding thereto.
  • an object of the present invention is to provide a reproducing apparatus for a signal quantized by the quantizing apparatus or the high-efficiency coding apparatus of the present invention (a decoding apparatus for reproducing and decoding a signal from a recording medium or a high-efficiency code decoding
  • a reproducing apparatus for a signal quantized by the quantizing apparatus or the high-efficiency coding apparatus of the present invention (a decoding apparatus for reproducing and decoding a signal from a recording medium or a high-efficiency code decoding
  • LSI large-scale integrated circuit
  • a quantization apparatus of the present invention provides a time-domain sample obtained by frequency-decomposing an audio, audio, or image time signal by a filter or a time obtained by frequency-decomposition. After quantizing the frequency domain samples obtained by orthogonally transforming the domain samples or orthogonally transforming the direct input time signal, one sample at a time The time domain samples or frequency domain samples are decomposed into at least two words by at least one quantization function that further quantizes the preceding quantization error. Predetermining the word length of each word at this time is effective in reducing the bit rate because it is not necessary to send word length information from the encoder (quantizer) to the decoder (decoder). Of course, word length information can be sent to make the word length adaptive. In these quantizations, a rounding operation is performed to reduce the quantization error.
  • the output bit rate of at least one quantization function is set to a constant bit rate in a certain time unit, or the output bit rates of all the quantization functions are set to a certain bit in a certain time unit. Constant bit rate.
  • time-domain samples or frequency-domain samples are block-floated for each of a plurality of samples, and a scale factor for the sample data obtained by further quantizing the above-described quantization error is at least the quantization output of the preceding stage. From the scale factor for
  • the time domain sample or the frequency domain sample is block-floated for each of a plurality of samples, and a scale for sample data obtained by further quantizing the quantization error of the preceding stage is provided. Is obtained from at least the scale factor and the code length for the quantized output in the preceding stage.
  • the frequency bandwidth of the non-blocking frequency analysis is wider at least in the highest frequency band as the frequency becomes higher, in order to utilize the auditory effect based on the critical band.
  • the block size is changed according to the time characteristic of the input signal, so that mutual interference between frequency components is prevented and optimal processing is performed independently for each band component. It is effective in performing.
  • Determining the bit allocation amount given to each channel based on the scale factor or the sample maximum value of each channel is a simple operation and is effective in reducing the number of operations. In addition to this, changing the bit allocation amount given to each channel according to the temporal change of the amplitude information represented by the scale factor of each channel is also useful in reducing the bit rate.
  • the quantization device of the present invention quantizes the time domain sample or the frequency domain sample, and then quantizes the quantization error of the preceding stage by itself, one sample at a time.
  • the function breaks it down into at least two words and separates each quantized output into one sync block. Thereafter, the quantized output is recorded on the recording medium of the present invention, and is decoded and reproduced by the decoding device of the present invention. I do.
  • Another quantization device of the present invention quantizes a time-domain sample or a frequency-domain sample, and then singly samples one sample at a time so as to further quantize a quantization error of a preceding stage. Is decomposed into at least two words by the quantization function of. After that, with respect to the recording medium of the present invention, each quantized output is alternately recorded in the order of frequency or time in one sync block. Further, in the decoding device of the present invention, these time domain samples or Decode and play from frequency domain samples.
  • a predetermined sample in the time domain or the frequency domain of the input signal is quantized to generate a first quantization value, and the predetermined sample and the first quantization value are generated. Then, the quantization error is calculated, and the above-described quantization error is independently quantized one sample at a time to generate a second quantization value.
  • At least one of the first quantization value and the second quantization value is generated by quantization by a rounding operation.
  • the quantization method according to the present invention at least one of the first quantization value and the second quantization value is output at a constant bit rate.
  • the sum of the first quantization value and the second quantization value is output so as to have a constant bit rate.
  • the predetermined sample is subjected to block floating processing using a first scale factor for each block including a plurality of samples, and the quantization error is calculated based on the first scale factor. Is normalized by the second scale factor that was calculated.
  • the second scale factor is obtained based on the first scale factor and the word length when the first quantized value is generated.
  • normalization and quantization are performed on the sample data in the small block subdivided in time and frequency using the same scale factor and code length in the small block.
  • the high-efficiency coding apparatus of the present invention performs orthogonal transformation of a time-domain sample or a frequency-domain sample obtained by frequency-decomposing an audio, voice or image time signal by a filter, or directly interpolates an input time signal.
  • time-domain samples or frequency-domain samples can be obtained by using at least one quantization function that further quantizes the quantization error of the previous stage, one sample at a time. Is decomposed into at least two words. Determining the word length of each word in advance at this time is effective in reducing the bit rate because it is not necessary to send word length information from the encoder (encoding device) to the decoder (decoding device). .
  • word length information can be sent to make the word length adaptive. In these quantizations, rounding is performed to reduce the quantization error.
  • the output bit rate of at least one quantization function is set to a constant bit rate in a certain time unit, or the output bit rates of all the quantization functions are set to a certain time.
  • the bit rate is fixed in units.
  • time-domain samples or frequency-domain samples are block-floated for each of a plurality of samples, and the quantization error of the preceding stage is further quantized.
  • the scale factor for evening is obtained at least from the scale factor for the quantized output of the preceding stage.
  • the time domain sample or the frequency domain sample is block floating for each of a plurality of samples, and the quantization error of the preceding stage is further quantized to obtain sample data.
  • the scale factor is obtained at least from the scale factor and the code length for the quantized output in the preceding stage.
  • the frequency bandwidth of the non-blocking frequency analysis is wider at least in the highest frequency band as the frequency becomes higher, in order to utilize the auditory effect based on the critical band.
  • the block size is changed according to the time characteristic of the input signal, so that mutual interference between frequency components is prevented and optimal processing is performed independently for each band component. It is effective in performing.
  • bit allocation amount given to each channel is —Determining by the factor or the sample maximum is a simple operation, and is effective in reducing the number of operations. In addition to this, changing the bit allocation given to each channel by the temporal change of the amplitude information represented by the scale factor of each channel is also useful in reducing the bit rate.
  • the high-efficiency coding apparatus of the present invention quantizes the time-domain sample or the frequency-domain sample, and then singly samples at least one sample for further quantizing the quantization error of the preceding stage.
  • the quantization function of the present invention it is decomposed into at least two words, separated for each quantization output in one sync block, recorded on the media of the present invention, and Decoding and reproduction are performed by the decoding device.
  • another high-efficiency coding apparatus of the present invention quantizes a time-domain sample or a frequency-domain sample, and then, at least, quantizes a preceding-stage quantization error by itself, one sample at a time.
  • One quantization function breaks it down into at least two words. After that, for the recording medium of the present invention, each quantized output is alternately recorded in the order of frequency or time in one sync block, and then the time-efficient samples are recorded in the high-efficiency code decoding apparatus of the present invention. Alternatively, decoding and reproduction are performed from the frequency domain sample.
  • the total bit allocation is divided into the basic bit allocation and the additional bit allocation, and a predetermined sample of the input signal in the time domain or the frequency domain is allocated to the basic bit allocation.
  • a first quantized value is generated by quantizing with a word length based on the above, a quantization error between the predetermined sample and the first quantized value is calculated, and the quantization error is quantized independently by one sample.
  • the second quantization value is 1.2
  • At least one of the first quantized value and the second quantized value is generated by a rounding operation.
  • At least one of the first quantized value and the second quantized value is output in a fixed bit rate.
  • the sum of the first quantization value and the second quantization value is output so as to have a constant bit rate.
  • the predetermined sample is subjected to block floating processing using a first scale factor for each block including a plurality of samples, and the quantization error is calculated based on the second scale factor obtained based on the first scale factor. Normalize by scale factor.
  • the second scale factor is obtained based on the first scale factor and the code length at the time of generating the first quantized value.
  • the sample data in the small block segmented with respect to time and frequency are normalized and quantized with the same scale factor and the same length within the small block. Perform the conversion.
  • At least one quantization function for further quantizing the quantization error of the preceding stage is performed by each sample alone.
  • the output bit rate of at least one quantization function is set to a fixed bit rate in a certain fixed time unit, and the output bit rates of all the above quantization functions are set to a fixed bit rate in a certain fixed time unit.
  • time-domain samples or frequency-domain samples are block-floated for each of a plurality of samples, and the quantization error of the preceding stage is further quantized. From the scale factor for output, or from the scale factor and word length for the quantized output in the preceding stage, at least the scale factor for the sample data obtained by further quantizing the preceding quantization error This is effective in increasing the efficiency of high efficiency codes.
  • a non-blocking frequency analysis such as a filter
  • the output of the non-blocking frequency analysis such as a filter
  • a blocking frequency analysis such as an orthogonal transform
  • the block size is adaptively changed according to the time characteristic of the input signal, so that optimal processing corresponding to the time characteristic of the input signal becomes possible.
  • changing the block size independently for each of the output bands of at least the two non-blocking frequency analyses can prevent mutual interference between frequency components and perform optimal processing independently for each band component. It is effective.
  • each sample is independently converted into at least two words by at least one quantization function that further quantizes the preceding quantization error.
  • FIG. 1 is a block diagram showing a configuration example of a high-efficiency encoding apparatus to which a quantization apparatus according to an embodiment of the present invention is applied.
  • FIG. 2 is a diagram illustrating frequency and time division of a signal in the device of the present embodiment.
  • FIG. 3 is a diagram illustrating a bit allocation strategy according to the present embodiment.
  • Figure 4 is a diagram for explaining how to calculate tonality from scale factors.
  • FIG. 5 is a diagram for explaining a method of calculating the bit allocation amount of the bit allocation (1) from the tonality.
  • FIG. 6 is a diagram showing a noise spectrum at the time of uniform allocation in bit allocation (2).
  • FIG. 7 is a diagram showing an example of a noise spectrum by bit allocation for obtaining an audible effect having a dependency on the frequency spectrum and level of the information signal in bit allocation (2).
  • FIG. 8 is a diagram showing uniform distribution in bit distribution (2).
  • Figure 9 is a diagram showing a bit allocation method using bit allocation to obtain an audible effect that is dependent on the frequency spectrum and level of the information signal in bit allocation (2). .
  • FIG. 10 is a block circuit diagram showing a configuration example of the basic bit distribution function according to the embodiment of the present invention.
  • FIG. 11 is a block circuit diagram showing a configuration example of an auditory masking threshold calculation function according to the embodiment of the present invention.
  • FIG. 12 is a diagram showing masking by each critical band signal.
  • FIG. 13 is a diagram showing a masking threshold by each critical band signal.
  • FIG. 14 is a diagram showing the information spectrum, the masking threshold, and the minimum audibility.
  • FIG. 15 is a diagram illustrating bit distribution depending on the signal level and the permissible noise level for an information signal having a flat signal spectrum.
  • FIG. 16 is a diagram showing the bit allocation depending on the signal level and the permissible noise level for an information signal having a high tonality of the signal spectrum.
  • FIG. 17 is a diagram illustrating a quantization noise level for an information signal having a flat signal spectrum.
  • FIG. 18 is a diagram illustrating a quantization noise level for an information signal with high tonality.
  • FIG. 19 is a block circuit diagram showing a specific configuration for dividing the basic bit allocation and the additional bit allocation.
  • FIG. 20 is a block diagram showing a configuration example of a decoding device according to an embodiment of the present invention. It is a road map.
  • FIG. 21 is a diagram showing a configuration example of a bit array in the recording medium according to the embodiment of the present invention.
  • BEST MODE FOR CARRYING OUT THE INVENTION an input digital signal such as an audio PCM signal is enhanced using band division coding (SBC), adaptive transform coding (ATC), and adaptive bit allocation (APC-AB).
  • SBC band division coding
  • ATC adaptive transform coding
  • API-AB adaptive bit allocation
  • the present invention is applied to a high-efficiency encoding device that performs efficient encoding.
  • FIG. 1 is a diagram showing a specific configuration of a high-efficiency coding apparatus to which the present invention is applied. In the high-efficiency coding apparatus shown in FIG.
  • the input digital signal is divided into a plurality of frequency bands by filtering and the like, and orthogonal transform is performed for each frequency band to obtain the spectrum of the obtained frequency axis.
  • Data is encoded by adaptively allocating bits for each so-called critical bandwidth (critical band) taking into account the human auditory characteristics described later. At this time, in the high band, a band obtained by further dividing the critical bandwidth is used.
  • critical band critical band
  • the frequency division width of non-blocking due to filtering etc. may be the equal division width.
  • the block size (block length) is adaptively changed according to the input signal before the orthogonal transform, and the critical bandwidth (critical band) is determined in units of a critical band or in a high band. ) Is used for floating processing with blocks that are further subdivided.
  • this critical band is human hearing This is a frequency band divided in consideration of characteristics, and is a band of a noise when the pure tone is masked by a noise of a narrow band near the frequency of the pure tone and having the same strength. In this critical band, the higher the frequency band, the wider the bandwidth. For example, the entire frequency band of 0 to 20 kHz is divided into, for example, 25 critical bands.
  • an audio PCM signal of 0 to 22 kHz is supplied to the input terminal 10.
  • This input signal is divided into a band of 0 to 1 lk Hz and a band of 11 k to 22 kHz by a band dividing filter 11 such as a so-called QMF, and a signal of 0 to 11 kHz band.
  • a band division filter 12 such as a so-called QMF.
  • the signals in the llk to 22 kHz band from the band division filter 11 are sent to an MDCT (Modified Discrete Cosine Transform) circuit 13 which is an example of an orthogonal transformation circuit, and the signals from the band division filter 12 are
  • the signal in the 5.5 kHz to 11 kHz band is sent to the MDCT circuit 14, and the signal in the 0 kHz to 5.5 kHz band from the band splitting filter 12 is sent to the MDCT circuit 15.
  • MDCT circuits 13, 14, 15 perform MDCT processing based on the block sizes determined by the block determining circuits 19, 20, 21 provided for each band.
  • FIGS. 2A and 2B specific examples of the block sizes in the MDCT circuits 13, 14, 15 determined by the block determination circuits 19, 20, 21 are shown in FIGS. 2A and 2B.
  • Figure 2A shows the orthogonal transform block size. 1.91
  • Fig. 2B shows the case where the orthogonal transform block size is short (orthogonal transform block size in short mode).
  • two orthogonal transform block sizes are used for three filter outputs.
  • the long block length (Fig. 2A) is 1
  • the number of samples in a block is 128 samples, and when a short block is selected (Fig. 2B), the number of samples in one block is a block of 32 samples.
  • the block length is long (A in Fig. 2)
  • the number of samples in one block is assumed to be 256.
  • the number of samples in one block is used as a block for every 32 samples.
  • the number of samples of the orthogonal transform block in each band is made the same, and the higher the frequency, the higher the time resolution, and the number of windows used for block formation is reduced.
  • the information indicating the block size determined by the block decision circuits 19, 20 and 21 is sent to the adaptive bit allocation encoding circuits 16 to 17 described later and output terminal 2 Output from 3, 25, 27.
  • the spectrum data or MDCT coefficient data in the frequency domain obtained by the MDCT processing in each of the MDCT circuits 13, 14, and 15 is a so-called critical band. Or, in the high frequency range, the critical bands are further divided into sub-bands.
  • the adaptive bit allocation encoding circuits 16, 17, and 18 information on the above block size and, in the critical band (critical band) or in the high band, the bits allocated to each band obtained by further dividing the critical band Each spectrum data (or MDCT coefficient data) is requantized (normalized and quantized) according to the number.
  • each of these adaptive bit allocation encoding circuits 16, 17, 18 is output via output terminals 22, 24, 26.
  • the adaptive bit allocation coding circuits 16, 17, and 18 have a scale factor indicating what kind of signal size has been normalized and a bit length used for quantization. Also, bit length information indicating the length is obtained, and these are simultaneously output from the output terminals 22, 24, and 26.
  • each MDCT circuit 13, 14, 15 in FIG. 1 the energy of each critical band (critical band) or a band obtained by further dividing the critical band in the high band can be obtained, for example, within the band. It can be obtained by calculating the square root of the root mean square of each amplitude value.
  • the scale factor itself may be used for the subsequent bit allocation. In this case, a new energy calculation operation is not required, and the hardware scale is saved.
  • a peak value, an average value, or the like of the amplitude values can be used instead of the energy for each band.
  • step ST 2 the basic bit allocation (step ST 2) of 128 kbps per channel
  • bit allocation (1) (step ST 4) and bit allocation (2) (step ST 5).
  • bit allocation (1) (step ST 4)
  • bit allocation (2) (step ST 5).
  • bit allocation is performed adaptively by looking at the distribution of the frequency domain at the scale factor.
  • tonality information is used in the spectrum information of the signal information.
  • the tonality index the value obtained by dividing the sum of the absolute values of the differences between adjacent values of the signal spectrum by the number of signal spectra is used.
  • the average value of the differences between adjacent scale factor indices in the block-by-block scale factor for so-called block floating can be used.
  • This scale factor indicator roughly corresponds to the log value of the scale factor.
  • the maximum bit amount to be used for the bit allocation (1) is set to 80 kbps and the minimum to 10 kbps corresponding to the value representing the tonality.
  • the SFn scale factor index corresponds to the approximate logarithm of the peak value.
  • n Block floating band number
  • N Number of block floating bands
  • the tonality index T and the amount of bit allocation (1) obtained in this way are associated with each other as shown in FIG.
  • the allocation (1) is performed in the frequency and time domains depending on the scale factor.
  • bit allocation (2) After the amount of bits used for bit allocation (1) is determined in this way, the process then proceeds to allocation for bits not used in bit allocation (1), that is, bit allocation (2).
  • bit allocation is performed to obtain an audible effect that is dependent on the frequency spectrum and level of the signal information.
  • An example of a quantization noise spectrum for the bit allocation in this case (a noise spectrum based on the bit allocation for obtaining an auditory effect having a dependency on the frequency spectrum and level of the signal information).
  • the bits are allocated depending on the spectrum of the information signal, and in particular, the bits are allocated with the weight on the lower side of the spectrum of the information signal and compared with the higher side. It compensates for the reduction in masking effect on the low-frequency side that occurs due to this. This takes into account masking between adjacent critical bands. 13
  • FIG. 8 is a diagram showing the bit distribution (allocation) when the bit distribution (2) is uniformly distributed, and shows the bit distribution corresponding to FIG.
  • Fig. 9 is a diagram showing the bit allocation for obtaining an auditory effect having a dependency corresponding to the frequency spectrum and level of the signal information.
  • the bit allocation corresponding to Fig. 7 is shown. I have. 6 and 7, S represents the signal spectrum, NL1 represents the noise level due to the bit allocation (1), and NL2 represents the noise level due to the bit allocation (2).
  • AQ1 in FIGS. 8 and 9 indicates the bit amount of bit allocation (1), and AQ2 in the figures indicates the bit amount of bit allocation (2).
  • the operation of the adaptive bit distribution circuit in this case will be described with reference to FIG. 10.
  • the magnitude of the MDCT coefficient is obtained for each block, and the MDCT coefficient is supplied to the input terminal 801.
  • the MDCT coefficient supplied to the input terminal 801 is supplied to the energy calculation circuit 803 for each band (the energy calculation circuit 803 for each band converts the critical band or the critical band in a high frequency band). Further, the signal energy for each of the subdivided bands is calculated, and the energy for each band calculated by the energy calculation circuit 803 for each band is supplied to the energy-dependent bit distribution circuit 804.
  • the energy-dependent bit distribution circuit 804 uses the total available bits from the total available bit generation circuit 802, and in this embodiment, uses a certain percentage of 128 Kbps to quantize the white color. Bit allocation that creates noise is performed. At this time, the higher the tonality of the input signal, - twenty four -
  • the greater the unevenness of the spectrum of the input signal the greater the proportion of this bit amount in the above-mentioned 128 Kbps.
  • the sum of the absolute values of the differences between the block floating coefficients of adjacent blocks is used as an index. Then, based on the obtained available bit amount, a bit distribution is performed in proportion to the logarithmic value of the energy of each band.
  • the bit allocation calculation circuit 805 that depends on the permissible noise level of the auditory sense firstly determines the critical band of each critical band in consideration of the so-called masking effect based on the spectrum data divided for each critical band. Find the allowable noise amount. Next, bits are calculated by subtracting the energy-dependent bits from the total available bits so as to give the permissible noise spectrum. The energy-dependent bits obtained in this way and the bits dependent on the permissible noise level are added, and the critical bit is encoded by the adaptive bit allocation coding circuits 16, 17, and 18 in Fig. 1. At each frequency or in the high frequency range, each spectrum data is determined according to the number of bits allocated to the critical band divided into multiple bands.
  • the permissible noise spectrum calculation circuit in the above-mentioned permissible noise spectrum dependent circuit 805 is described.
  • the MDCT circuits 13, 14, 15 The MDCT coefficient is given to the allowable noise spectrum calculation circuit in the bit allocation calculation circuit 805.
  • FIG. 11 explains the above-mentioned allowable noise spectrum calculation circuit collectively.
  • FIG. 2 is a block circuit diagram showing a specific schematic configuration of the allowable noise spectrum calculation circuit.
  • spectrum data in the frequency domain from the MDCT circuits 13, 14, and 15 is supplied to the input terminal 5 21.
  • the input data in the frequency domain is sent to the energy calculation circuit 522 for each band, where the energy for each critical band (critical band) is, for example, the sum of the squares of each amplitude value within the band. It can be obtained by calculating Instead of the energy for each band, a peak value or an average value of the amplitude value may be used.
  • the spectrum of the total value of each band, for example, as an output from the energy calculation circuit 522 is generally called a bark spectrum.
  • Figure 12 shows the bark vector SB for each critical band. However, in FIG. 12, for simplicity of illustration, the number of bands of the critical band is represented by 12 bands (Bl to B12).
  • the convolution filter circuit 523 includes, for example, a plurality of delay elements for sequentially delaying the input data and a plurality of multipliers (for example, each for multiplying the output of these delay elements by a filter coefficient (weighting function)). (25 multipliers corresponding to the band) and a sum adder that sums the outputs of the multipliers.
  • the above-mentioned masking is a phenomenon in which a certain signal masks another signal and becomes inaudible due to human auditory characteristics.
  • This masking effect includes a time-domain audio signal.
  • the multiplication coefficient (filter coefficient) of each multiplier of the convolution filter circuit 53 when the coefficient of the multiplier M corresponding to an arbitrary band is set to 1, Multipliers M—1, M—2, M—3, M + l, M + 2, and M + 3 have coefficients of 0.15, 0.0019, 0.00.000, 00.086, 0 4, 0.06, and 0.007.
  • the coefficient 0.15 is calculated by the multiplier M ⁇ 1 and the coefficient 0.15 is calculated by the multiplier M ⁇ 2.
  • M is any integer from 1 to 25.
  • the output of the convolution filter circuit 523 is sent to the subtracter 524.
  • the subtracter 524 calculates a level ⁇ corresponding to an allowable noise level described later in the convolved region. Note that the level corresponding to the permissible noise level (permissible noise level) is determined by performing an inverse convolution process, as described later, to determine the permissible noise level of each critical band. Tona -2.7-
  • an allowance function (a function expressing a masking level) for obtaining the level H is supplied to the subtractor 524.
  • the above level of control is performed by increasing or decreasing this allowance function.
  • the permissible function is supplied from a (n ⁇ a i) function generation circuit 525 described below.
  • the level ⁇ corresponding to the allowable noise level can be obtained by the following equation, where i is a number sequentially given from the lower band of the critical band.
  • n and a are constants, a> 0, and S is the intensity of the convolution-processed bark vector, where (n-ai) is an allowable function.
  • the level ⁇ is obtained, and this data is sent to the divider 526.
  • the divider 526 is for inversely convolving the level in the convolved area. Therefore, by performing the inverse convolution processing, a masking threshold is obtained from the above-mentioned level ⁇ . That is, this masking threshold is an allowable noise vector.
  • the above inverse convolution processing requires a complicated operation, in the present embodiment, the inverse convolution is performed using a simplified divider 526.
  • the masking threshold is sent to a subtractor 528 via a synthesis circuit 527.
  • the spectrum SB is supplied via a delay circuit 529. Therefore, the subtraction of the masking threshold and the bark vector SB is performed by the subtractor 528, as shown in FIG. 13, so that the bark vector SB becomes The masking threshold below the level indicated by the MS level is masked.
  • the delay circuit 529 is provided to delay the bark vector SB from the energy detection circuit 522 in consideration of the amount of delay in each circuit before the synthesis circuit 527. .
  • the output of the subtracter 528 is taken out via an allowable noise correction circuit 530 and an output terminal 530, for example, a ROM or the like (not shown) in which information on the number of allocated bits is stored in advance.
  • Sent to The ROM and the like store the output obtained from the subtractor 528 through the allowable noise correction circuit 530 (the energy of each band output from the delay unit 529 and the divider
  • the information on the number of allocated bits for each band is output according to the level of the difference from the output of FIG.
  • each spectrum data in the frequency domain from the MDCT circuits 13, 14, and 15 is quantized by the number of bits allocated to each band.
  • the adaptive bit allocation coding circuits 16, 17, and 18 use the critical band for each band of the critical band (for each critical band) or the high band. Further, the number of bits allocated according to the level of the difference between the energy or peak value of the band divided into a plurality of bands and the output of the above-mentioned divider 52 6 2.9.1
  • the spectrum data of each band is quantized.
  • the synthesizing circuit 527 described above the data indicating the so-called minimum audible curve RC, which is a human auditory characteristic as shown in FIG. And MS.
  • this minimum audible curve R C if the absolute noise level is below this minimum audible curve R C, the noise will not be heard.
  • This minimum audible curve RC may differ due to differences in the playback volume during playback, for example, even if the coding is the same, but in a realistic digital system, for example, music in the 16-bit dynamic range Since there is not much difference in the way of entering, for example, if quantization noise in the most audible frequency band around 4 kHz is not audible, then in other frequency bands the minimum audible curve below the level of RC The quantization noise is considered inaudible. Therefore, assuming that the system is used so that noise around 4 kHz in the dynamic range of the system cannot be heard, for example, the minimum audible curve RC and the masking threshold MS are allowed to be synthesized together.
  • the allowable noise level in this case can be reduced to the shaded portion in FIG.
  • the 4 kHz level of the minimum audible curve R C is set to the lowest level corresponding to, for example, 20 bits.
  • FIG. 14 also shows the signal spectrum SS.
  • the allowable noise correction circuit 530 corrects the allowable noise level at the output of the subtracter 528 based on, for example, information on the equality curve sent from the correction information output circuit 533. I have. 3.0
  • the equal loudness curve is a characteristic curve relating to human auditory characteristics, and is obtained by, for example, obtaining the sound pressure of sound at each frequency that sounds as loud as a pure tone of 1 kHz and connecting the curves. Also called the loudness isosensitivity curve.
  • This equal loudness curve draws substantially the same curve as the minimum audible curve RC shown in FIG. In this iso-loudness curve, for example, at around 4 kHz, even if the sound pressure decreases by 8 to 10 dB from 1 kHz, it sounds the same as ik Hz, and conversely, 5 kHz At around 0 Hz, the sound does not sound the same unless it is about 15 dB higher than the sound pressure at 1 kHz.
  • the spectral shape depending on the permissible noise level described above is created by bit allocation using a certain percentage of the available total bits of 128 Kbps. This ratio decreases as the tonality of the input signal increases.
  • the signal from the input terminal 801 to which the outputs of the MDCT circuits 13, 14, and 15 are supplied is also supplied to the spectrum smoothness calculation circuit 808.
  • the smoothness of the spectrum is calculated.
  • a value obtained by dividing the sum of the absolute values of the differences between the adjacent values of the absolute value of the signal spectrum by the sum of the absolute values of the signal spectrum is calculated as I 3.1
  • the output of the spectrum smoothness calculation circuit 808 is given to a bit division ratio determination circuit 809, where the energy-dependent bit allocation and the bit by the permissible noise spectrum are performed.
  • the bit division ratio between allocations is determined.
  • the bit division ratio is assumed to be higher than the output value of the spectrum smoothness calculation circuit 808, because the smoother the spectrum is, the lower the permissible noise than the energy-dependent bit distribution. It performs bit allocation with emphasis on bit allocation by spectrum.
  • the bit division ratio decision circuit 809 controls the multipliers 811 and 812, which control the size of the energy-dependent bit allocation and the bit allocation due to the permissible noise spectrum, respectively. Send troll output.
  • the output of the bit division ratio decision circuit 809 to the multiplier 8111 is set to 0.8 so that the spectrum is smooth and the weight of the energy-dependent bit distribution is emphasized.
  • the outputs of these two multipliers 811 and 812 are added together in an adder 806 to form final bit allocation information, which is output from an output terminal 807.
  • Figures 15 and 16 show how the bits are allocated at this time.
  • Figures 17 and 18 show the corresponding quantization noise.
  • Fig. 15 shows the case where the signal spectrum is relatively flat
  • Fig. 16 shows the case where the signal spectrum shows high tonality.
  • QS in FIGS. 15 and 16 indicates the signal level-dependent bit amount
  • QN in the figures indicates the permissible noise level-dependent bit allocation.
  • L in FIGS. 17 and 18 indicates the signal level
  • N N represents the noise reduction due to the bit allocation depending on the permissible noise level.
  • bit allocation depending on the permissible noise level helps to obtain a large signal-to-noise ratio over the entire band. .
  • relatively low bit allocations are used in the low and high bands. This is because the sensitivity to noise in this band is small.
  • the amount of bit allocation depending on the signal energy level is small, but in this case, the frequency range where the signal level is high in the middle and low frequencies is adjusted so as to generate a white noise spectrum. Has been allocated to.
  • the improvement of the characteristics in the isolated spectrum input signal is achieved by the sum of the two bit allocations.
  • step ST 3 The additional bit allocation (step ST 3) is added to the basic bit allocation obtained as described above as follows.
  • the MDCT coefficients which are the outputs of the MDCT circuits 13, 14, and 15 of FIG. 1 are supplied to the input terminal 900 of the configuration of FIG. That is, the encoder side in FIG. 19 is included in the adaptive bit allocation coding circuits 16, 17, and 18 in FIG. 3.3-
  • the MDCT coefficients (MDCT samples) supplied to the input terminal 900 are subjected to normalization processing, that is, block floating, for each block by a normalization circuit 905 for each of a plurality of samples. You. At this time, a scale factor is obtained as a coefficient indicating how much block floating has been performed.
  • the next stage first quantizer 901 performs quantization with each sample word length (word length) given by the basic bit allocation. At this time, quantization is performed by rounding to reduce the quantization noise.
  • the output of the normalizing circuit 905 and the output of the quantizer 901 are sent to a differentiator 902. That is, the differentiator 902 obtains the difference (quantization error) between the input and output of the quantizer 901.
  • the output of the difference unit 902 is further sent to a second quantizer 903 via a normalization circuit 906.
  • the scale factor in the normalization circuit 906 is automatically determined from the scale factor and the word length used in the first quantizer 901.
  • the normalization circuit 90 6 is set to (2 ** N). The scale facsimile used in the process is obtained.
  • a bit including a rounding process is used in the same manner as in the first quantizer 901 for the basic bit allocation. Make a distribution. In this way two quantizations 3.4 I
  • the size of the additional bit allocation component can be determined from the scale factor and the word length of the basic bit allocation as described above. Since the distribution scale factor can be calculated, only the word length is needed for the decoder. In the present embodiment, since the initial length of the additional bit allocation is fixed at 2 bits, even the code length for the additional bit allocation is not required. In this way, high-efficiency quantization in which the outputs of the quantizers 91 and 93 are rounded off is realized.
  • the output bit rates of the quantizers 91 and 903 are both fixed, the system can be simplified when recording on media such as disks and tapes. In addition, it is also possible to make the total variable while making both variable. Of course, only the output rate of some quantizers may be fixed.
  • the configuration (decoder) corresponding to the configuration (encoder) in FIG. 19 includes denormalization circuits 908 and 9 that perform denormalization processing corresponding to the above-described normalization circuits 905 and 906. 0 7 is provided, and the outputs of the inverse normalization circuits 9 08 and 9 07 are added by the adder 9 04. The sum output is taken out from the output terminal 910.
  • FIG. 20 shows a basic decoding apparatus according to the embodiment of the present invention for decoding again a signal which has been encoded with high efficiency in this way.
  • the quantized MDCT coefficients of each band are given to input terminals 122, 124, and 126 of the decoding device, and the block size information used is input terminals 123, Given to 1 2 5, 1 2 7 You.
  • the decoding circuits 1 16, 1 17, 1 18 release the bit allocation using the adaptive bit allocation information consisting of the scale factor and word length transmitted together with the quantized MDCT coefficients. .
  • a signal in the frequency domain is converted into a signal in the time domain.
  • the time-domain signals of these partial bands are decoded into the entire-area signals by the IQMF circuits 112 and 111.
  • each of the basic bit allocation of 128 kbps and the additional bit allocation of 64 kbps are decoded by the decoding circuits 1 16, 1 17 and 1 18. Then, after these two decoded parts are decoded, the respective samples on the time axis are added to obtain highly accurate samples.
  • the basic bit allocation output and the additional bit allocation are calculated for each of the 11 ⁇ 0 ⁇ circuits 113, 114, and 115, and then combined, and 1 ( It can also be sent to 3 circuits 1 1 2 and 1 1 1.
  • the basic bit allocation and the additional bit allocation are added after the normalization processing is solved, and the results are subjected to IMD CT and IQMF processing, and finally added. You can also get output.
  • the recording medium of the embodiment of the present invention is a medium on which a signal quantized and coded by the high-efficiency coding apparatus to which the above-described quantization apparatus of the embodiment of the present invention is applied is recorded.
  • the recording medium include a disk-shaped recording medium such as an optical disk, a magneto-optical disk, and a magnetic disk on which the above-described encoded signal is recorded.
  • Examples thereof include those in which the above-mentioned encoded signals are recorded on a tape-shaped recording medium, semiconductor memories in which the encoded signals are stored, so-called IC cards, and the like.
  • one sync block is composed of sync information, sub-information (scale factor and word length), basic bit allocation, and additional bit allocation.
  • time-domain samples or frequency-domain samples are used.
  • each sample is decomposed into at least two words by at least one quantization function that further quantizes the quantization error of the previous stage by one sample.
  • At least one quantization function that further quantizes the quantization error of the preceding stage by itself, one sample at a time. Decompose into at least two words, record or transmit each quantized output alternately in frequency or time order in one sync block and decode from time domain samples or frequency domain samples Reproduction is effective in that when the bit rate is reduced, the bit string that should be removed can be collectively removed by limiting the frequency band.
  • the above-described bit arrangement can be applied to, for example, a so-called mini disk (Min Disc) using a magneto-optical disk / optical disk, a magnetic tape medium, and a communication medium.
  • a high-quality sound decoder can be created by using a plurality of inexpensive decoders that distribute bits at a lower bit rate than those usually used. The creation is not required, and the purpose can be achieved at low cost.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

明 細 書 量子化装置、 量子化方法、 高能率符号化装置、 高能率符号化方法、 複号化装置、 高能率符号復号化装置及び記録メディア 技 術 分 野 本発明は、 映画フィ ルム呋写システム、 ビデオテープレコーダ、 ビデオディスクプレーヤ等のステレオや、 いわゆるマルチサラウン ド音饗システムにおいて用いられるビッ トレー 卜の削減を行ういわ ゆる高能率符号化装置及び高能率符号化方法と、 それらに用いられ る量子化装置及び量子化方法と、 量子化装置又は高能率符号化装置 により量子化された信号が記録された記録メディアと、 当該記録メ ディァから再生された量子化された信号を復号化する高能率符号復 号化装置と、 それに用いられる復号化装置に関するものである。 背 景 技 術 オーディォ或いは音声等の信号の高能率符号化の手法及び装置に は種々のものがあるが、 例えば、 時間領域のオーディオ信号等を単 位時間毎にプロック化して、 このブロック毎の時間軸の信号を周波 数軸上の信号に変換 (直交変換) して複数の周波数帯域に分割し、 各帯域毎に符号化するプロック化周波数帯域分割方式であるいわゆ る変換符号化方式や、 時間領域のオーディォ信号等を単位時間毎に プロック化しないで、 複数の周波数帯域に分割して符号化する非ブ 口ック化周波数帯域分割方式である帯域分割符号化 (サブ ·バンド • コーディ ング: S B C) 方式等を挙げることができる。 また、 上 述の帯域分割符号化方式と変換符号化方式とを組み合わせた高能率 符号化の手法及び装置も考えられており、 この場合には、 例えば、 上記帯域分割符号化方式で帯域分割を行った後、 該各帯域毎の信号 を上記変換符号化方式で周波数領域の信号に直交変換し、 この直交 変換された各帯域毎に符号化を施すことになる。
ここで、 上述した帯域分割符号化方式に使用される帯域分割用フ ィルタとしては、 例えば QMF (Quadrature Mirror filter)等のフ イ ルクがあり、 これは 1976 R. E. Crochiere Digital coding of sp eech in subbands Bell Syst. Tech. J. Vol.55, No.8 1976 に述べ られている。 また、 ICASSP 83, BOSTON Polyphase Quadrature f i 1 ters-A new subband coding technique Joseph H. Rothwe i ler に は、 ポリ フヱーズ クヮ ドラチヤ フィ ルタ(Polyphase Quadratur e filter) などの等バン ド幅のフィ ルタ分割手法及び装置が述べら れている。
また、 上述した直交変換としては、 例えば、 入力オーディオ信号 を所定単位時間 (フレーム) でブロック化し、 該ブロック毎に高速 フ一リェ変換 (F F T) 、 離散コサイン変換 (D C T) 、 モディ フ ァィ ド D C T変換 (MD C T) などを行うことで時間軸を周波数軸 に変換するような直交変換がある。 上記 MD C Tについては、 ICAS SP 1987 Subband/Transform Coding Using Filter Bank Designs B ased on Time Domain Aliasing Cancellation J. P. Pr incen A. B. B radley Univ. of Surrey Royal Melbourne Inst, of Tech.に; ベら れている。 さらに、 周波数帯域分割された各周波数成分を量子化する場合の 周波数分割幅としては、 例えば人間の聴覚特性を考慮した帯域分割 がある。 すなわち、 一般に臨界帯域 (ク リティカルバン ド) と呼ば れている高域程帯域幅が広くなるような帯域幅で、 オーディォ信号 を複数 (例えば 2 5バン ト) の帯域に分割することがある。 また、 このときの各帯域毎のデータを符号化する際には、 各帯域毎に所定 のビッ ト配分或いは、 各帯域毎に適応的なビッ ト配分を行って、 符 号化が行われる。 例えば、 上記 MD C T処理されて得られた MD C T係数データを上記ビッ ト配分によって符号化する際には、 上記各 ブロック毎の MD C T処理により得られる各帯域毎の MD C T係数 データに対して、 適応的な配分ビッ ト数で符号化を行うことになる。 上記ビッ ト配分手法及びそのための装置としては、 次の 2手法及 び装置が知られている。
IEEE Transactions of Accoustics, Speech, and Signal Processi ng, VO1.ASSP-25. NO.4, August 1977 には、 各帯域毎の信号の大きさ をもとに、 ビッ ト配分を行うことが述べられている。 また、 ICASSP 1980 The critical band coder -- digital encoding of the perc eptual requirements of the auditory system M. A. Kransner MIT には、 聴覚マスキングを利用することで、 各帯域毎に必要な信号対 雑音比を得て固定的なビッ ト配分を行う手法及び装置が述べられて いる。
しかし、 これらのビッ ト配分技術は、 再生側 (デコード側) にお いてある一定ビッ トレートで再生 (デコ一ド) が行われることを期 待したものであり、 したがって、 当該一定ビッ トレー 卜を下回るビ ッ トレー トでデコードを行った場合には著しい音質劣化をもたらす。 すなわち、 ェンコ一ド時に使用されたビッ トレートよりも低いビ ッ トレー トを用いてデコードするために、 例えばェンコード側でェ ンコード処理後のビッ 卜の一部を別のデータ転送に流用するような 場合は、 デコード側においてェンコ一ド時のビッ トレ一トを下回る ビッ トレー 卜でデコードが行われることになるため、 上記デコ一ド 側においてェンコ一ド時のビッ トレー卜でデコードすることを期待 する上述の既知のビッ ト配分技術では、 再生 (デコ一ド) 時に著し い音質劣化をもたらすようになる。
また、 例えば既に低いビッ トレートで再生する再生機が使われて いるような場合において、 より高いビッ トレートを用いた音質の良 いシステムを導入しょうとしても、 上記既に用いられている低いビ ッ トレ一 卜で再生を行う再生機では良好な再生を行なうことが出来 ない。
すなわち、 従来のビッ ト配分技術においては、 バックワードの互 換性が無かった。
また、 音声、 オーディオ等の信号を符号化した情報を例えばいわ ゆる I Cカードのような記憶デバイスを用いた記憶媒体に記録させ るような場合においては、 当該記憶デバィスが高価であることから- より長時間の記録がなされることが望まれ、 また、 音質劣化も最小 とすることが望まれる。 発 明 の 開 示 本発明の目的は、 上述のような音質劣化を最小に止めることがで き、 またバックヮードの互換性をも有する高能率符号化装置及び高 能率符号化方法と、 それらに用いられる量子化装置及び量子化方法 と、 これらに対応する高能率符号復号化装置、 復号化装置及び記録 メディアとからなるシステムを提供することである。
また、 本発明の目的は、 高価な記憶デバイスを用いた記憶媒体に 記録を行うような場合において、 長時間記録のために、 例えば記録 時間を初期の設定から延長するために、 記録済み若しく は記録中の ェンコ一ド情報のビッ トレートを適宜減らして記録時間を延ばし、 且つこのときの音質劣化を最小とすることができる高能率符号化装 置及び高能率符号化方法と、 これらに用いられる量子化装置及び量 子化方法と、 これらに対応する高能率符号復号化装置、 複号化装置 及び記録メディアを提供することである。
さらに、 本発明の目的は、 本発明の量子化装置又は高能率符号化 装置によって量子化された信号の再生装置 (記録メディァから信号 を再生して復号化する復号化装置又は高能率符号復号化装置) を構 成する場合において、 例えば、 安価な通常良く使われる固定値以下 のビッ トレートを用いてビッ ト配分を行うデコーダを複数個使用し て作成することができ、 このことにより新たなデコーダ用 L S I (大規模集積回路) の作成を不要としてコス トを抑えることができ る安価な複号化装置又は高能率符号復号化装置を提供することであ る。
本発明は、 上述の目的を達成するために提案されたものであり、 本発明の量子化装置は、 オーディオ、 音声又は画像時間信号を、 フ ィルタで周波数分解した時間領域サンプル若しくは周波数分解した 時間領域サンプルを直交変換するか直接入力時間信号を直交変換し た周波数領域サンプルを、 量子化した後、 1 サンプルづっ単独で、 前段の量子化誤差を更に量子化するような少なく とも 1個の量子化 機能により、 時間領域サンプル若しく は周波数領域サンプルを少な ぐとも 2個の語に分解する。 このとき、 各語の語長を事前に決めて おく ことは、 語長情報をエンコーダ (量子化装置) からデコーダ (復号化装置) に送付する必要がなく ビッ トレート低減に有効であ る。 もちろん語長情報を送って適応的な語長とすることもできる。 これらの量子化において四捨五入動作を行い、 量子化誤差を小さく する。
また、 本発明の量子化装置では、 少なく とも一つの量子化機能の 出力ビッ トレートをある一定時間単位で一定ビッ トレートとしたり、 全ての上記量子化機能の出力ビッ トレートをある一定時間単位で一 定ビッ トレー トとする。 これらの場合、 時間領域サンプル若しくは 周波数領域サンプルを、 複数サンプル毎にブロックフローティ ング し、 上記前段の量子化誤差を更に量子化したサンプルデータのため のスケールファクタを、 少なく とも当該前段の量子化出力のための スケールファクタから求める。
また、 本発明の量子化装置では、 時間領域サンプル若しく は周波 数領域サンプルを、 複数サンプル毎にプロックフローティ ングし、 上記前段の量子化誤差を更に量子化したサンプルデータのためのス ケ一ルファクタを、 少なく とも上記前段の量子化出力のためのスケ ールファクタ及びヮードレングスから求める。
以上の場合、 時間と周波数について細分化された小プロック中の サンプルデータに対しては、 上記小プロック内で同一のプロックフ ローティ ング及び語長をもつ量子化を行なう。 また、 上記時間と周 波数について細分化された小プロック中のサンプルを得るためには、 フィルタなどの非プロック化周波数分析を行った後、 上記フィルタ などの非プロック化周波数分析の出力を直交変換等のブロック化周 波数分析する。 このとき、 上記非ブロック化周波数分析の周波数帯 域幅が少なく とも最低域の 2帯域で同じであることは、 コス トを低 減するうえで役に立つ。 また、 上記非ブロック化周波数分析の周波 数帯域幅が少なく とも最高域で高域程広いことは、 臨界帯域に基づ く聴覚の効果を利用するうえで重要である。 さらに、 上記ブロック 化周波数分析では、 入力信号の時間特性により適応的にそのプロッ クサイズを変更することにより、 入力信号の時間特性に対応した最 適な処理が可能となる。 ここで、 上記ブロックサイズの変更は、 少 なく とも 2つの上記非プロック化周波数分析の出力帯域ごとに独立 に行うことは、 周波数成分の間の相互干渉を防いで各帯域成分独立 に最適な処理を行う上で効果的である。
また、 各チャネルに与えられるビッ ト配分量を各チャネルのスケ ールファクタ又はサンプル最大値により決めるのは、 簡単な演算に よるため、 演算を低減させるうえで効果的である。 これに加えて、 各チャネルのスケールファクタで代表される振幅情報の時間的変化 によつて各チヤネルに与えられるビッ ト配分量を変化させることも、 ビッ 卜レートを下げるうえでは有益である。
さらに、 本発明の量子化装置は、 時間領域サンプル若しくは周波 数領域サンプルを量子化した後、 1サンプルづっ単独で、 前段の量 子化誤差を更に量子化するような少なく とも 1個の量子化機能によ り、 少なく とも 2個の語に分解し、 1つのシンクプロックの中に各 量子化出力毎に分離する。 その後、 この量子化出力を、 本発明の記 録メディァに記録し、 これを本発明の復号化装置によって復号再生 する。
また、 本発明の他の量子化装置は、 時間領域サンプル若しく は周 波数領域サンプルを量子化した後、 1サンプルづっ単独で、 前段の 量子化誤差を更に量子化するような少なく とも 1個の量子化機能に より、 少なく とも 2個の語に分解する。 その後、 本発明の記録メデ ィァに対して、 1つのシンクブロックの中に各量子化出力を周波数 又は時間順に交互に記録し、 更にその後本発明の復号化装置では、 これらの時間領域サンプル若しくは周波数領域サンプルから復号再 生する。
また、 本発明の量子化方法では、 入力信号の時間領域若しく は周 波数領域の所定サンプルを量子化して第 1の量子化値を生成し、 上 記所定サンプルと上記第 1の量子化値との量子化誤差を演算し、 上 記量子化誤差を 1サンプルづっ単独で量子化して第 2の量子化値を 生成する。
また、 本発明の量子化方法では、 上記第 1の量子化値及び上記第 2の量子化値の少なく とも一方を四捨五入動作による量子化により 生成する。
また、 本発明の量子化方法では、 上記第 1.の量子化値及び上記第 2の量子化値の少なく とも一方を一定ビッ トレートで出力する。 また、 本発明の量子化方法では、 上記第 1の量子化値及び上記第 2の量子化値の総和が一定ビッ トレー トとなるように出力する。 また、 本発明の量子化方法では、 上記所定サンプルを複数のサン プルからなるブロック毎に第 1のスケールファクタを用いてブロッ クフローティ ング処理し、 上記量子化誤差を上記第 1 のスケールフ ァクタに基づいて求められた第 2のスケールファク夕で正規化する。 また、 本発明の量子化方法では、 上記第 2のスケールファクタを 上記第 1のスケールファクタ及び上記第 1の量子化値を生成する際 のワードレングスに基づいて求める。
また、 本発明の量子化方法では、 時間と周波数について細分化し た小プロック中のサンプルデータに対しては、 当該小プロック内で 同一のスケールファク夕及びヮードレングスで正規化及び量子化を 行う。
本発明の高能率符号化装置は、 オーディオ、 音声又は面像時間信 号を、 フィルタで周波数分解した時間領域サンプル若しく は周波数 分解した時間領域サンプルを直交変換するか直接入力時間信号を直 交変換した周波数領域サンプルを、 量子化した後、 1 サンプルづっ 単独で、 前段の量子化誤差を更に量子化するような少なく とも 1個 の量子化機能により、 時間領域サンプル若しく は周波数領域サンプ ルを少なく とも 2個の語に分解する。 このとき、 各語の語長を事前 に決めておく ことは、 語長情報をエンコーダ (符号化装置) からデ コーダ (複号化装置) に送付する必要がなく ビッ トレート低減に有 効である。 もちろん語長情報を送って適応的な語長とすることもで きる。 これらの量子化において四捨五入動作を行い、 量子化誤差を 小さくする。
また、 本発明の高能率符号化装置では、 少なく とも一つの量子化 機能の出力ビッ トレートをある一定時間単位で一定ビッ トレートと したり、 全ての上記量子化機能の出力ビッ トレートをある一定時間 単位で一定ビッ トレートとする。 これらの場合、 時間領域サンプル 若しく は周波数領域サンプルを、 複数サンプル毎にプロックフロー ティ ングし、 上記前段の量子化誤差を更に量子化したサンプルデ一 夕のためのスケールファクタを、 少なく とも当該前段の量子化出力 のためのスケールファクタから求める。
また、 本発明の高能率符号化装置では、 時間領域サンプル若しく は周波数領域サンプルを、 複数サンプル毎にプロックフローティ ン グし、 上記前段の量子化誤差を更に量子化したサンプルデータのた めのスケールファクタを、 少なく とも上記前段の量子化出力のため のスケールファクタ及びヮードレングスから求める。
以上の場合、 時間と周波数について細分化された小プロック中の サンプルデータに対しては、 上記小プロック内で同一のプロックフ ローティ ング及び語長をもつ量子化を行なう。 また、 上記時間と周 波数について細分化された小プロック中のサンプルを得るためには、 フィルタなどの非プロック化周波数分析を行った後、 上記フィルタ などの非プロック化周波数分析の出力を直交変換等のプロック化周 波数分析する。 このとき、 上記非ブロック化周波数分析の周波数帯 域幅が少なく とも最低域の 2帯域で同じであることは、 コストを低 減するうえで役に立つ。 また、 上記非ブロック化周波数分析の周波 数帯域幅が少なく とも最高域で高域程広いことは、 臨界帯域に基づ く聴覚の効果を利用するうえで重要である。 さらに、 上記ブロック 化周波数分析では、 入力信号の時間特性により適応的にそのブロッ クサイズを変更することにより、 入力信号の時間特性に対応した最 適な処理が可能となる。 ここで、 上記ブロックサイズの変更は、 少 なく とも 2つの上記非プロック化周波数分析の出力帯域ごとに独立 に行うことは、 周波数成分の間の相互干渉を防いで各帯域成分独立 に最適な処理を行う上で効果的である。
また、 各チャネルに与えられるビッ ト配分量を各チャネルのスケ —ルファクタ又はサンプル最大値により決めるのは、 簡単な演算に よるため、 演算を低減させるうえで効果的である。 これに加えて、 各チャネルのスケールファクタで代表される振幅情報の時間的変化 によって各チヤネルに与えられるビッ ト配分量を変化させることも、 ビッ トレー トを下げるうえでは有益である。
さらに、 本発明の高能率符号化装置は、 時間領域サンプル若しく は周波数領域サンプルを量子化した後、 1サンプルづっ単独で、 前 段の量子化誤差を更に量子化するような少なく とも 1個の量子化機 能により、 少なく とも 2個の語に分解し、 1つのシンクブロックの 中に各量子化出力毎に分離して、 本発明のメディアに記録し、 これ を本発明の高能率符号複号化装置によって復号再生する。
また、 本発明の他の高能率符号化装置は、 時間領域サンプル若し くは周波数領域サンプルを量子化した後、 1サンプルづっ単独で、 前段の量子化誤差を更に量子化するような少なく とも 1個の量子化 機能により、 少なく とも 2個の語に分解する。 その後、 本発明の記 録メディァに対して、 1つのシンクプロックの中に各量子化出力を 周波数又は時間順に交互に記録し、 その後本発明の高能率符号復号 化装置では、 これらの時間領域サンプル若しくは周波数領域サンプ ルから復号再生する。
本発明の高能率符号化方法では、 総ビッ ト配分を基礎ビッ ト配分 と付加ビッ ト配分に分割し、 上記入力信号の時間領域若しく は周波 数領域の所定サンプルを上記基礎ビッ ト配分に基づく ワードレング スで量子化して第 1の量子化値を生成し、 上記所定サンプルと上記 第 1の量子化値との量子化誤差を演算し、 上記量子化誤差を 1 サン プルづっ単独で量子化して第 2の量子化値を上記付加ビッ 卜配分と 1. 2
して生成する。
また、 本発明の高能率符号化方法では、 上記第 1の量子化値及び 上記第 2の量子化値の少なく とも一方を四捨五入動作による量子化 により生成する。
また、 本発明の高能率符号化方法では、 上記第 1の量子化値及び 上記第 2の量子化値の少なく とも一方を一定ビッ トレ一卜で出力す る。
また、 本発明の高能率符号化方法では、 上記第 1の量子化値及び 上記第 2の量子化値の総和が一定ビッ トレ一トとなるように出力す また、 本発明の高能率符号化方法では、 上記所定サンプルを複数 のサンプルからなるブロック毎に第 1のスケールファクタを用いて ブロックフローティ ング処理し、 上記量子化誤差を上記第 1のスケ —ルファクタに基づいて求められた第 2のスケールファク夕で正規 化する。
また、 本発明の高能率符号化方法では、 上記第 2のスケールファ クタを上記第 1 のスケールファクタ及び上記第 1 の量子化値を生成 する際のヮードレングスに基づいて求める。
また、 本発明の高能率符号化方法では、 時間と周波数について細 分化した小プロック中のサンプルデータに対しては、 当該小プロッ ク内で同一のスケールファクタ及びヮ一ドレングスで正規化及び量 子化を行う。
そして、 本発明によれば、 時間領域サンプル若しくは周波数領域 サンプルを量子化した後、 1サンプルづっ単独で、 前段の量子化誤 差を更に量子化するような少なく とも 1個の量子化機能により、 時 間領域サンプル若しくは周波数領域サンプルを少なく とも 2個の語 に分解する。 このとき、 量子化された各語の語長を事前に決めてお く ことは、 語長情報をエンコーダからデコーダに送付する必要がな く、 ビッ トレート低減に有効である。 もちろん、 語長情報を送って 適応的な語長とすることもできる。 また、 これらの量子化において 四捨五入動作を行うことは、 量子化誤差を小さくする上で有効であ る。
また、 少なく とも 1つの量子化機能の出力ビッ トレートをある一 定時間単位で一定ビッ トレ一 トとすることや、 全ての上記量子化機 能の出力ビッ トレー トをある一定時間単位で一定ビッ トレートとす ることは、 ディスク、 テープ等の記録媒体への記録方式を簡単化す るうえで有効である。
また、 以上の場合、 時間と周波数について細分化された小ブロッ ク中のサンプルデータを上記小ブロック内では同一のプロックフ口 —ティ ング及び語長を持って量子化することは、 効率的な高能率符 号を実現するうえで有効である。 これらの場合、 時間領域サンプル 若しく は周波数領域サンプルを複数サンプル毎にプロックフローテ ィ ングし、 上記前段の量子化誤差を更に量子化したサンプルデータ のためのスケールファクタを少なく とも上記前段の量子化出力のた めのスケールファクタから求めることや、 上記前段の量子化誤差を 更に量子化したサンプルデータのためのスケールファク夕を少なく とも上記前段の量子化出力のためのスケールファクタ及びワードレ ングスから求めることは、 高能率符号の効率を高めるうえで有効で ある。
さらに、 時間と周波数について細分化された小プロック中のサン プルを得るために、 フィル夕などの非プロック化周波数分析を行な つた後、 このフィルタなどの非プロック化周波数分析の出力を直交 変換等のブロック化周波数分析をすることにより、 時間領域、 周波 数領域で聴覚マスキングを考慮した量子化雑音の発生が可能となり、 聴覚上好ましい周波数分析を得ることが可能となる。 このとき、 上 記非プロック化周波数分析の周波数帯域幅が少なく とも最低域の 2 帯域で同じであることはコスト _ 1.を低減するうえで役に立つ。 また、
4
この非プロック化周波数分析の周波数帯域幅を少なく とも最高域で 高域程広くすることにより、 臨界帯域に基づく聴覚の効果を効率的 に利用することが可能となる。 このブロック化周波数分析は、 入力 信号の時間特性により適応的にそのプロックサイズが変更されるこ とにより入力信号の時間特性に対応した最適な処理が可能となる。 また、 プロックサイズの変更は少なく とも 2つの上記非プロック化 周波数分析の出力帯域毎に独立に行うことは、 周波数成分の間の相 互干渉を防いで各帯域成分独立に最適な処理を行う上で効果的であ る。
さらに、 チャネルビッ 卜配分を各チャネルのスケールファクタに よって計算することにより、 ビッ ト配分計算の簡易化を図ることが できる。 また、 時間領域サンプル若しくは周波数領域サンプルを量 子化した後、 1サンプルづっ単独で、 前段の量子化誤差を更に量子 化するような少なく とも 1個の量子化機能により、 少なく とも 2個 の語に分解し、 1つのシンクブロックの中に各量子化出力毎に分離 して記録して、 復号再生することは、 ビッ トレ一 トを下げて再生す る場合に除去すべきビッ ト列部分を一括して除去できるという点で 有効である。 また、 時間領域サンプル若しくは周波数領域サンプルを量子化し た後、 1サンプルづっ単独で、 前段の量子化誤差を更に量子化する ような少なく とも 1個の量子化機能により、 少なく とも 2個の語に 分解し、 1つのシンクブロ ックの中に各量子化出力を周波数又は時 間順に交互に記録し、 時間領域サンプル若しくは周波数領域サンプ ルから復号再生することは、 ビッ トレートを下げて再生する場合に 周波数帯域を制限する形で除去すべきビッ ト列部分を一括して除去 できるという点で有効である。 図面の簡単な説明 図 1は、 本発明実施例の量子化装置が適用される高能率符号化装 置の構成例を示すプロック回路図である。
図 2は、 本実施例装置での信号の周波数及び時間分割を示す図で ある。
図 3は、 本実施例のビッ ト配分ストラテジを示す図である。
図 4は、 トーナリティをスケールファクタから計算する方法を説 明するための図である。
図 5は、 トーナリティからビッ ト配分(1) のビッ ト配分量を求め る方法を説明するための図である。
図 6は、 ビッ ト配分(2) において均一配分の時のノイズスぺク ト ルを示す図である。
図 7は、 ビッ ト配分(2) において情報信号の周波数スペク トル及 びレベルに対する依存性を持たせた聴覚的な効果を得るためのビッ ト配分によるノィズスペク トルの例を示す図である。 図 8は、 ビッ ト配分(2) において均一配分を示す図である。 図 9は、 ビッ ト配分(2) において情報信号の周波数スペク トル及 びレベルに対する依存性を持たせた聴覚的な効果を得るためのビッ ト配分を用いたビッ ト配分手法を示す図である。
図 1 0は、 本発明実施例の基礎ビッ ト配分機能の構成例を示すブ ロック回路図である。
図 1 1 は、 本発明実施例の聴覚マスキングスレツショールド算定 機能の構成例を示すプロック回路図である。
図 1 2は、 各臨界帯域信号によるマスキングを示す図である。 図 1 3は、 各臨界帯域信号によるマスキングスレショ一ルドを示 す図である。
図 1 4は、 情報スぺク トル、 マスキングスレショ一ルド、 最小可 聴限を示す図である。
図 1 5は、 信号スぺク トルが平坦な情報信号に対する信号レベル 依存及び聴覚許容雑音レベル依存のビッ 卜配分を示す図である。 図 1 6は、 信号スぺク トルのトナリティが高い情報信号に対する 信号レベル依存及び聴覚許容雑音レベル依存のビッ ト配分を示す図 である。
図 1 7は、 信号スぺク トルが平坦な情報信号に対する量子化雑音 レベルを示す図である。
図 1 8は、 トーナリティが高い情報信号に対する量子化雑音レべ ルを示す図である。
図 1 9は、 基礎ビッ ト配分と付加ビッ ト配分の分割を行う具体的 構成を示すプロック回路図である。
図 2 0は、 本発明実施例の復号化装置の構成例を示すプロック回 路図である。
図 2 1 は、 本発明実施例の記録メディァにおけるビッ ト配列の構 成例を示す図である。 発明を実施するための最良の形態 以下、 本発明の実施例について図面を参照しながら説明する。 本実施例は、 オーディオ P C M信号等の入力ディ ジタル信号を帯 域分割符号化 (S B C ) 、 適応変換符号化 (A T C ) 、 及び適応ビ ッ ト配分 (A P C - A B ) の各技術を用いて高能率符号化する高能 率符号化装置に、 本発明を適用したものである。 図 1は、 この本発 明を適用した高能率符号化装置の具体的な構成を示す図である。 図 1に示す高能率符号化装置では、 入力ディ ジタル信号をフィル 夕などにより複数の周波数帯域に分割すると共に、 各周波数帯域毎 に直交変換を行って、 得られた周波数軸のスぺク トルデータを、 後 述する人間の聴覚特性を考慮したいわゆる臨界帯域幅 (ク リティカ ルバンド) 毎に適応的にビッ ト配分して符号化している。 このとき- 高域では臨界帯域幅を更に分割した帯域を用いる。 もちろんフィ ル 夕などによる非プロッキングの周波数分割幅は等分割幅としてもよ い
さらに、 この高能率符号化装置においては、 直交変換の前に入力 信号に応じて適応的にブロックサイズ (ブロック長) を変化させる と共に、 ク リティカルバンド単位若しくは高域では臨界帯域幅 (ク リティカルバンド) を更に細分化したプロックでフローティ ング処 理を行っている。 なお、 このクリティカルバンドとは、 人間の聴覚 特性を考慮して分割された周波数帯域であり、 ある純音の周波数近 傍の同じ強さの狭帯域バンドのノィズによって当該純音がマスクさ れるときのそのノィズが有する帯域のことである。 このク リティ カ ルバンドは、 高域ほど帯域幅が広くなつており、 例えば 0~2 0 k H zの全周波数帯域は例えば 2 5のク リティ カルバン ドに分割され る。
すなわち、 図 1において、 入力端子 1 0には例えば 0〜 2 2 k H zのオーディオ P CM信号が供給されている。 この入力信号は、 例 えばいわゆる QMFなどの帯域分割フィルタ 1 1により 0 ~ 1 l k H z帯域と 1 1 k ~ 2 2 k H z帯域とに分割され、 0〜 1 1 k H z 帯域の信号は同じくいわゆる QMF等の帯域分割フィルタ 1 2によ り 0〜5. 5 kH z帯域と 5. 5 k〜 1 1 k H z帯域とに分割され る。
上記帯域分割フィルタ 1 1からの l l k~2 2 kH z帯域の信号 は、 直交変換回路の一例である MD C T (Modified Discrete Cosi ne Transform) 回路 1 3に送られ、 上記帯域分割フィルタ 1 2から の 5. 5 k~ 1 1 k H z帯域の信号は MD C T回路 1 4に送られ、 上記帯域分割フィルタ 1 2からの 0〜 5. 5 kH z帯域の信号は M D C T回路 1 5に送られる。 そして、 これらの信号は、 そこでそれ ぞれ M D C T処理される。 なお、 各 MD CT回路 1 3、 1 4、 1 5 では、 各帯域毎に設けたプロック決定回路 1 9、 2 0、 2 1により 決定されたプロックサイズに基づいて MD C T処理がなされる。 ここで、 上記ブロック決定回路 1 9、 2 0、 2 1により決定され る各 MD CT回路 1 3、 1 4、 1 5でのブロックサイズの具体例を 図 2 A及び 2 Bに示す。 なお、 図 2 Aには直交変換プロックサイズ 1. 9一
が長い場合 (ロングモー ドにおける直交変換ブロックサイズ) を、 図 2 Bには直交変換プロックサイズが短い場合 (ショートモー ドに おける直交変換ブロックサイズ) を示ししている。
この図 2の具体例においては、 3つのフィルタ出力に対しては、 それぞれ 2つの直交変換プロックサイズが用いられる。 すなわち、 低域側の 0〜5. 5 k H z帯域の信号及び中域の 5. 5 k〜l ik H z帯域の信号に対しては、 長いブロック長の場合 (図 2 A) は 1 ブロック内のサンプル数を 1 2 8サンプルとし、 短いブロックが選 ばれた場合 (図 2 B) には 1プロック内のサンプル数を 3 2サンプ ル毎のプロックとしている。 これに対して高域側の 1 1 k~ 2 2 k H z帯域の信号に対しては、 長いブロック長の場合 (図 2の A) は 1ブロック内のサンプル数を 2 5 6サンプルとし、 短いブロックが 選ばれた場合 (図 2の B) には 1ブロック内のサンプル数を 3 2サ ンプル毎のプロックとしている。 このようにして短いプロックが選 ばれた場合には各帯域の直交変換ブロックのサンプル数を同じとし て高域程時間分解能を上げ、 なおかつプロック化に使用するウイン ドウの種類を減らしている。
なお、 上記ブロック決定回路 1 9、 2 0、 2 1で決定されたプロ ックサイズを示す情報は、 後述の適応ビッ ト配分符号化回路 1 6、 1 7、 1 8に送られると共に、 出力端子 2 3、 2 5、 2 7から出力 される。
再び図 1において、 各 MD C T回路 1 3、 1 4、 1 5にて MD C T処理されて得られた周波数領域のスぺク トルデータあるいは MD C T係数データは、 いわゆる臨界帯域 (ク リティカルバンド) また は高域では更にク リティカルバンドを分割した帯域毎にまとめられ 一 2. 0—
て、 適応ビッ ト配分符号化回路 1 6、 1 7、 1 8に送られている。 適応ビッ ト配分符号化回路 1 6、 1 7、 1 8では、 上記ブロック サイズの情報、 及び臨界帯域 (クリティカルバンド) または高域で は更にク リティカルバンドを分割した帯域毎に割り当てられたビッ ト数に応じて各スぺク トルデータ (あるいは M D C T係数データ) を再量子化 (正規化して量子化) するようにしている。
これら各適応ビッ ト配分符号化回路 1 6、 1 7、 1 8によって符 号化されたデータは、 出力端子 2 2、 2 4、 2 6を介して出力され る。 また、 当該適応ビッ ト配分符号化回路 1 6、 1 7、 1 8では、 どのような信号の大きさに関する正規化がなされたかを示すスケー ルファクタと、 どのようなビッ ト長で量子化がされたかを示すビッ 卜長情報も求めており、 これらも同時に出力端子 2 2、 2 4、 2 6 から出力される。
また、 図 1 における各 M D C T回路 1 3、 1 4、 1 5の出力から は、 上記臨界帯域 (クリティカルバンド) または高域では更にクリ ティカルバンドを分割した帯域毎のエネルギを、 例えば当該バンド 内での各振幅値の 2乗平均の平方根を計算すること等により求めら れる。 もちろん、 上記スケールファクタそのものを以後のビッ ト配 分のために用いるようにしてもよい。 この場合には新たなエネルギ 計算の演算が不要となるため、 ハード規模の節約となる。 また、 各 バンド毎のエネルギの代わりに、 振幅値のピーク値、 平均値等を用 いることも可能である。
つぎに、 上記ビッ ト配分を行うための適応ビッ ト配分符号化回路 1 3、 1 4、 1 5での具体的なビッ ト配分の方法を図 3に示すビッ ト配分ス トラテジを用いて説明する。 一 2. 1
本実施例では、 ステップ S T 1の総ビッ ト配分から、
第 1に、 チャネル当たり 1 2 8 k b p sの基礎ビッ ト配分 (ステ ップ S T 2 ) と、
第 2に、 6 4 k b p sの付加ビッ ト配分 (ステップ S T 3 ) との
2つを求める。
このうち基礎ビッ ト配分は、 更にビッ ト配分(1) (ステップ S T 4 ) と、 ビッ ト配分(2) (ステップ S T 5 ) とに分割使用される。 まず、 ステップ S T 1からステップ S T 2への上記基礎ビッ ト配 分の手法について説明する。 ここではスケールファク夕の周波数領 域の分布をみて適応的にビッ ト配分を行なう。
最初に、 ビッ ト配分(1) に使うべきビッ ト量を確定する。 そのた めには信号情報のスぺク トル情報のうち トーナリティ情報を使用す る。 ここでのトーナリティの指標としては、 信号スペク トルの隣接 値間の差の絶対値の和を信号スぺク トル数で割った値を用いている なお、 より簡単な指標としては、 図 4に示すように、 いわゆるプロ ックフローティ ングのためのブロック毎のスケールファクタにおけ る隣接スケールファクタ指標の間の差の平均値を用いることができ る。 このスケールファクタ指標は、 概略スケールファクタの対数値 に対応している。
実施例では、 ビッ ト配分(1) に使うべきビッ ト量をこのトーナリ ティを表す値に対応させて最大 8 0 k b p s、 最小 1 0 k b p s と 設定している。
このトーナリティ計算は次の式のように行う。
T=(l/(WLmax*(N-l))(∑ ABS(SFn-SFn-D)
WLmax : ワー ドレングス最大値 = 1 6 SFn スケールファクタ指標で概略ピーク値の対数に対応 している。
n : ブロックフローディ ングバンド番号
N : ブロックフローティ ングバンドの数
このようにして求められたトーナリティ指標 Tとビッ ト配分(1) の配分量とは、 図 5に示すように対応付けられる。
ここでのゼッ ト配分(1) はスケールファクタに依存した周波数、 時間領域上の配分がなされる。
このようにしてビッ ト配分(1) に使用されるビッ ト量が決定され たら、 次にビッ ト配分(1) で使われなかったビッ 卜についての配分 すなわちビッ ト配分(2) に移る。
ここでは多種のビッ ト配分が行われるが、 以下に 2つの例を示す c 第 1に、 全てのサンプル値に対する均一配分を行う。 この場合の ビッ ト配分に対する量子化雑音スぺク トル (ビッ ト配分(2) の均一 配分のノイズスぺク トル) を図 6に示す。 これによれば、 全周波数 帯域で均一の雑音レベル低減が行える。
第 2に、 信号情報の周波数スぺク トル及びレベルに対する依存性 を持たせた聴覚的な効果を得るためのビッ ト配分を行う。 この場合 のビッ ト配分に対する量子化雑音スぺク トル (信号情報の周波数ス ベク トル及びレベルに対する依存性を持たせた聴覚的な効果を得る ためのビッ ト配分によるノィズスぺク トル) の一例を図 7に示す。 この例では情報信号のスぺク トルに依存させたビッ ト配分を行って いて、 特に情報信号のスぺク トルの低域側にウェイ トをおいたビッ ト配分を行い高域側に比して起きる低域側でのマスキング効果の減 少を補償している。 これは隣接臨界帯域間でのマスキングを考慮し 1 3
てスぺク トルの低域側を重視したマスキングカーブの非対象性に基 づいている。
なお、 図 8はビッ ト配分(2) の均一配分の時のビッ ト配分 (割 当) を示す図であり、 図 6に対応したビッ ト配分を表している。 図 9は信号情報の周波数スぺク トル及びレベルに対応する依存性を持 たせた聴覚的な効果を得るためのビッ ト配分を示す図であり、 図 7 に対応したビッ ト配分を表している。 また、 図 6、 図 7の図中 Sは 信号スぺク トルを、 N L 1 はビッ ト配分(1) による雑音レベルを、 N L 2はビッ ト配分(2) による雑音レベルを示している。 図 8、 図 9の図中 A Q 1はビッ ト配分(1) のビッ ト量を、 図中 A Q 2はビッ ト配分(2) のビッ ト量を示している。
次に基礎ビッ ト配分の別の手法を説明する。
この場合の適応ビッ ト配分回路の動作を図 1 0で説明すると、 M D C T係数の大きさが各プロックごとに求められ、 その M D C T係 数が入力端子 8 0 1 に供給される。 当該入力端子 8 0 1 に供給され た M D C T係数は、 帯域毎のエネルギ算出回路 8 0 3に与えられる ( 帯域毎のエネルギ算出回路 8 0 3では、 ク リティカルバンドまたは 高域においてはク リティカルバンドを更に再分割したそれぞれの帯 域に関する信号エネルギを算出する。 帯域毎のエネルギ算出回路 8 0 3で算出されたそれぞれの帯域に関するエネルギは、 エネルギ依 存ビッ ト配分回路 8 0 4に供給される。
エネルギ依存ビッ ト配分回路 8 0 4では、 使用可能総ビッ ト発生 回路 8 0 2からの使用可能総ビッ ト、 本実施例では 1 2 8 K b p s の内のある割合を用いて白色の量子化雑音を作り出すようなビッ ト 配分を行う。 このとき、 入力信号のトーナリティが高いほど、 すな - 2. 4 -
わち入力信号のスぺク トルの凸凹が大きいほど、 このビッ ト量が上 記 1 2 8 K b p sに占める割合が増加する。 なお、 入力信号のスぺ ク小ルの凸凹を検出するには、 隣接するプロックのブロックフロー ティ ング係数の差の絶対値の和を指標として使う。 そして、 求めら れた使用可能なビッ ト量にっき、 各帯域のエネルギの対数値に比例 したビッ 卜配分を行う。
聴覚許容雑音レベルに依存したビッ ト配分算出回路 8 0 5は、 ま ず上記ク リティカルバンド毎に分割されたスぺク トルデータに基づ き、 いわゆるマスキング効果等を考慮した各クリティカルバンド毎 の許容ノイズ量を求める。 次に、 聴覚許容雑音スぺク トルを与える ように使用可能総ビッ 卜からエネルギ依存ビッ トを引いたビッ ト分 が配分される。 このようにして求められたエネルギ依存ビッ 卜と聴 覚許容雑音レベルに依存したビッ トは加算されて、 図 1 の適応ビッ ト配分符号化回路 1 6、 1 7、 1 8によって各ク リティ カルバンド 毎若しく は高域においてはクリティカルバンドを更に複数帯域に分 割した帯域に割り当てられたビッ ト数に応じて各スぺク トルデータ
(あるいは M D C T係数データ) が再量子化されるようになってい る。 このようにして符号化されたデータは、 図 1 の出力端子 2 2、 2 4、 2 6を介して取り出される。
さらに詳しく上記聴覚許容雑音スぺク トル依存のビッ ト配分算出 回路 8 0 5中の聴覚許容雑音スぺク トル算出回路について説明する と、 M D C T回路 1 3、 1 4、 1 5で得られた M D C T係数が当該 ビッ ト配分算出回路 8 0 5中の許容雑音スぺク トル算出回路に与え られる。
図 1 1は、 上記許容雑音スぺク トル算出回路をまとめて説明する ためのものであり、 この許容雑音スぺク トル算出回路の具体的な概 略構成を示すブロック回路図である。 この図 1 1 において、 入力端 子 5 2 1には、 M D C T回路 1 3、 1 4、 1 5からの周波数領域の スぺク トルデータが供給されている。
この周波数領域の入力データは、 帯域毎のエネルギ算出回路 5 2 2に送られて、 ここで上記クリティカルバンド (臨界帯域) 毎のェ ネルギが、 例えば当該バンド内での各振幅値 2乗の総和を計算する こと等により求められる。 この各バンド毎のエネルギの代わりに、 振幅値のピーク値、 平均値等が用いられることもある。 このエネル ギ算出回路 5 2 2からの出力としての、 例えば各バンドの総和値の スぺク トルは、 一般にバークスぺク トルと称されている。 図 1 2は このような各クリティカルバンド毎のバークスぺク トル S Bを示し ている。 ただし、 この図 1 2では、 図示を簡略化するため、 上記ク リ ティ カルバン ドのバンド数を 1 2バン ド (B l ~ B 12) で表現し ている。
ここで、 上記バークスぺク トル S Bのいわゆるマスキングに於け る影響を考慮するために、 該バークスぺク トル S Bに所定の重み付 け関数を掛けて加算するような畳込み (コンボリューシヨン) 処理 を施す。 このため、 上記帯域毎のエネルギ算出回路 5 2 2の出力、 すなわち該バークスぺク トル S Bの各値は、 畳込みフィルタ回路 5 2 3に送られる。 該畳込みフィルタ回路 5 2 3は、 例えば、 入力デ 一夕を順次遅延させる複数の遅延素子と、 これらの遅延素子の出力 にフィ ルタ係数 (重み付け関数) を乗算する複数の乗算器 (例えば 各バンドに対応する 2 5個の乗算器) と、 各乗算器の出力の総和を とる総和加算器とから構成されるものである。 なお、 上記マスキングとは、 人間の聴覚上の特性により、 ある信 号によって他の信号がマスクされて聞こえなく なる現象をいう もの であり、 このマスキング効果には、 時間領域のオーディ オ信号によ る時間軸マスキング効果と、 周波数領域の信号による同時刻マスキ ング効果とがある。 これらのマスキング効果により、 マスキングさ れる部分にノィズがあったと しても、 このノイズは閬こえないこと になる。 このため、 実際のオーディ オ信号では、 このマスキングさ れる範囲内のノィズは許容可能なノィズとされる。
また、 上記畳込みフィ ルタ回路 5 2 3の各乗算器の乗算係数 (フ ィ ルタ係数) の一具体例を示すと、 任意のバン ドに対応する乗算器 Mの係数を 1 とするとき、 乗算器 M— 1、 M— 2、 M— 3、 M+ l、 M + 2、 M+ 3の各係数は 0. 1 5、 0. 0 0 1 9、 0. 0 0 0 0 0 8 6、 0. 4、 0. 0 6、 0. 0 0 7であり、 この畳込みフィ ル タ回路 5 2 3では、 乗算器 M— 1で係数 0. 1 5を、 乗算器 M— 2 で係数 0. 0 0 1 9を、 乗算器 M - 3で係数 0. 0 0 0 0 0 8 6を、 乗算器 M+ 1 で係数 0. 4を、 乗算器 M+ 2で係数 0. 0 6を、 乗 算器 M+ 3で係数 0. 0 0 7を各遅延素子の出力に乗算することに より、 上記バークスぺク トル S Bの畳込み処理が行われる。 ただし、 Mは 1〜2 5の任意の整数である。
次に、 上記畳込みフィ ルタ回路 5 2 3の出力は引算器 5 2 4 に送 られる。 該引算器 5 2 4 は、 上記畳込んだ領域での後述する許容可 能なノィズレベルに対応するレベル αを求めるものである。 なお、 当該許容可能なノイズレベル (許容ノイズレベル) に対応するレべ ルひは、 後述するように、 逆コンボリ ューショ ン処理を行う ことに よって、 ク リティ カルバン ドの各バン ド毎の許容ノィズレベルとな - 2. 7 -
るようなレベルである。
ここで、 上記引算器 5 2 4には、 上記レベルひを求めるための許 容関数 (マスキングレベルを表現する関数) が供給される。 この許 容関数を増減させることで上記レベル の制御を行っている。 当該 許容関数は、 次に説明するような (n— a i ) 関数発生回路 5 2 5 から供給されているものである。
すなわち、 許容ノィズレベルに対応するレベル αは、 クリティカ ルバンドのバンドの低域から順に与えられる番号を i とすると、 次 の式で求めることができる。
= S - ( n - a i )
この式において、 n , aは定数で a〉 0、 Sは畳込み処理された バークスぺク トルの強度であり、 式中(n- a i )が許容関数である。 例 として n = 3 8 , a =—0. 5 を用いることができる。
このようにして、 上記レベル αが求められ、 このデータは、 割算 器 5 2 6に送られる。 当該割算器 5 2 6は、 上記畳込みされた領域 での上記レベルひを逆コンボリュ一ショ ンするためのものである。 したがって、 この逆コンボリューション処理を行うことにより、 上 記レベル αからマスキングスレツショールドが得られる。 すなわち、 このマスキングスレツショールドが許容ノィズスぺク トルとなる。 なお、 上記逆コンボリユーショ ン処理は、 複雑な演算を必要とする が、 本実施例では簡略化した割算器 5 2 6を用いて逆コンボリユー ションを行っている。
次に、 上記マスキングスレツショールドは、 合成回路 5 2 7を介 して減算器 5 2 8に送られる。 ここで、 当該減算器 5 2 8には、 上 記帯域毎のエネルギ検出回路 5 2 2の出力、 すなわち前述したバー 2. 8
クスぺク トル S Bが、 遅延回路 5 2 9を介して供給されている。 し たがって、 この減算器 5 2 8で上記マスキングスレツショールドと バークスぺク トル S Bとの減算演算が行われることで、 図 1 3に示 すように、 上記バークスぺク トル S Bは、 当該マスキングスレツシ ヨールド M Sのレベルで示すレベル以下がマスキングされることに なる。 なお、 上記遅延回路 5 2 9は、 上記合成回路 5 2 7以前の各 回路での遅延量を考慮してエネルギ検出回路 5 2 2からのバークス ぺク トル S Bを遅延させるために設けられている。
当該減算器 5 2 8の出力は、 許容雑音補正回路 5 3 0を介し、 出 力端子 5 3 1を介して取り出され、 例えば配分ビッ ト数情報が予め 記憶された R O M等 (図示せず) に送られる。 この R O M等は、 上 記減算器 5 2 8から許容雑音補正回路 5 3 0を介して得られた出力 (上記遅延器 5 2 9の出力である各バンドのエネルギと、 上記割算 器 5 2 6の出力との差分のレベル) に応じ、 各バンド毎の配分ビッ ト数情報を出力する。
このようにしてエネルギ依存ビッ トと聴覚許容雑音レベルに依存 したビッ トは加算されて、 その配分ビッ ト数情報が上記適応ビッ ト 配分符号化回路 1 6、 1 7、 1 8に送られることで、 M D C T回路 1 3、 1 4、 1 5からの周波数領域の各スペク トルデータがそれぞ れのバンド毎に割り当てられたビッ ト数で量子化される。
すなわち要約すれば、 上記適応ビッ ト配分符号化回路 1 6、 1 7、 1 8では、 上記ク リティカルバンドの各バンド帯域毎 (クリティカ ルバンド毎) 若しく は高域においては当該ク リティカルバン ドを更 に複数帯域に分割した帯域のエネルギ若しくはピーク値と、 上記割 算器 5 2 6の出力との差分のレベルに応じて配分されたビッ ト数で 2. 9 一
上記各バン ド毎のスぺク トルデータを量子化することになる。
ところで、 上述した合成回路 5 2 7では、 最小可聴カーブ発生回 路 5 3 2から供給される図 1 4に示すような人間の聴覚特性である いわゆる最小可聴カーブ R Cを示すデータと、 上記マスキングスレ ッショールド M Sとを合成することができる。 この最小可聴カーブ R Cにおいて、 雑音絶対レベルがこの最小可聴カーブ R C以下なら ば該雑音は聞こえないことになる。 この最小可聴カーブ R Cは、 コ 一ディ ングが同じであっても例えば再生時の再生ボリユームの違い で異なるものとなが、 現実的なディ ジタルシステムでは、 例えば 1 6 ビッ トダイナミ ックレンジへの音楽のはいり方にはさほど違いが ないので、 例えば 4 k H z付近の最も耳に閬こえやすい周波数帯域 の量子化雑音が聞こえないとすれば、 他の周波数帯域ではこの最小 可聴カーブ R Cのレベル以下の量子化雑音は聞こえないと考えられ る。 したがって、 このように例えばシステムの持つダイナミ ックレ ンジの 4 k H z付近の雑音が聞こえない使い方をすると仮定し、 こ の最小可聴カーブ R Cとマスキングスレツショールド M Sとを共に 合成することで許容ノィズレベルを得るようにすると、 この場合の 許容ノイズレベルは、 図 1 4中の斜線で示す部分までとすることが できるようになる。 なお、 本実施例では、 上記最小可聴カーブ R C の 4 k H zのレベルを、 例えば 2 0 ビッ ト相当の最低レベルに合わ せている。 また、 この図 1 4は、 信号スぺク トル S Sも同時に示し ている。
また、 上記許容雑音補正回路 5 3 0では、 補正情報出力回路 5 3 3から送られてく る例えば等ラゥ ドネスカーブの情報に基づいて、 上記減算器 5 2 8の出力における許容雑音レベルを補正している。 3. 0
ここで、 等ラウ ドネスカーブとは、 人間の聴覚特性に関する特性曲 線であり、 例えば 1 k H zの純音と同じ大きさに聞こえる各周波数 での音の音圧を求めて曲線で結んだもので、 ラウ ドネスの等感度曲 線とも呼ばれる。 またこの等ラウ ドネス曲線は、 図 1 4に示した最 小可聴カーブ R Cと略同じ曲線を描く ものである。 この等ラウ ドネ ス曲線においては、 例えば 4 k H z付近では 1 k H zのところより 音圧が 8〜 1 0 d B下がっても i k H zと同じ大きさに聞こえ、 逆 に、 5 0 H z付近では 1 k H zでの音圧よりも約 1 5 d B高くない と同じ大きさに聞こえない。 このため、 上記最小可聴カーブ R Cの レベルを越えた雑音 (許容ノイズレベル) は、 この等ラウ ドネス曲 線に応じたカーブで与えられる周波数特性を持つようにするのが良 いことがわかる。 このようなことから、 上記等ラウ ドネス曲線を考 慮して上記許容ノィズレベルを補正することは、 人間の聴覚特性に 適合していることがわかる。
以上述べた聴覚許容雑音レベルに依存したスぺク トル形状を使用 可能総ビッ ト 1 2 8 K b p sの内のある割合を用いるビッ ト配分で つく る。 この割合は入力信号のトーナリティが高くなるほど減少す る。
次に 2つのビッ ト配分手法の間でのビッ ト量分割手法について説 明する。
図 1 0に戻って、 M D C T回路 1 3、 1 4、 1 5の出力が供給さ れる入力端子 8 0 1からの信号は、 スぺク トルの滑らかさ算出回路 8 0 8にも与えられ、 ここでスぺク トルの滑らかさが算出される。 本実施例では、 信号スぺク トルの絶対値の隣接値間の差の絶対値の 和を信号スぺク トルの絶対値の和で割った値を、 上記スぺク トルの 一 3. 1
滑らかさとして算出している。
上記スぺク トルの滑らかさ算出回路 8 0 8の出力は、 ビッ 卜分割 率決定回路 8 0 9に与えられ、 こでエネルギ依存のビッ ト配分と、 聴覚許容雑音スぺク トルによるビッ ト配分間のビッ ト分割率とが決 定される。 ビッ ト分割率はスぺク トルの滑らかさ算出回路 8 0 8の 出力値が大きいほど、 スぺク トルの滑らかさが無いと考えて、 エネ ルギ依存のビッ ト配分よりも、 聴覚許容雑音スぺク トルによるビッ ト配分に重点をおいたビッ ト配分を行う。 ビッ ト分割率決定回路 8 0 9は、 それぞれエネルギ依存のビッ ト配分及び聴覚許容雑音スぺ ク トルによるビッ ト配分の大きさをコントロールするマルチプライ ャ 8 1 1及び 8 1 2に対してコン トロール出力を送る。 ここで、 仮 にスぺク トルが滑らかであり、 エネルギ依存のビッ ト配分に重きを おくように、 マルチプライヤ 8 1 1へのビッ ト分割率決定回路 8 0 9の出力が 0 . 8の値を取ったとき、 マルチプライヤ 8 1 2へのビ ッ ト分割率決定回路 8 0 9の出力は 1 — 0 . 8 = 0 . 2とする。 こ れら 2つのマルチプライヤ 8 1 1、 8 1 2の出力は、 ァダー 8 0 6 で足し合わされて最終的なビッ ト配分情報となって、 出力端子 8 0 7から出力される。
このときのビッ ト配分の様子を図 1 5、 図 1 6に示す。 また、 こ れに対応する量子化雑音の様子を図 1 7、 図 1 8に示す。 図 1 5は 信号のスぺク トルが割合平坦である場合を示しており、 図 1 6は信 号スぺク トルが高いトーナリティを示す場合を示している。 また、 図 1 5及び図 1 6の図中 Q Sは信号レベル依存分のビッ ト量を示し、 図中 Q Nは聴覚許容雑音レベル依存のビッ ト割当分のビッ ト量を示 している。 図 1 7及び図 1 8の図中 Lは信号レベルを示し、 図中 N - 3. 2 -
Sは信号レベル依存分による雑音低下分を、 図中. N Nは聴覚許容雑 音レベル依存のビッ ト割当分による雑音低下分を示している。 先ず、 信号のスぺク トルが、 割合平坦である場合を示す図 1 5に おいて、 聴覚許容雑音レベルに依存したビッ ト配分は、 全帯域に渡 り大きい信号雑音比を取るために役立つ。 しかし低域及び高域では 比較的少ないビッ ト配分が使用されている。 これは聴覚的にこの帯 域の雑音に対する感度が小さいためである。 信号エネルギレベルに 依存したビッ ト配分の分は量としては少ないが、 ホワイ ト的な雑音 スぺク トルを生じるように、 この場合には中低域の信号レベルの高 い周波数領域に重点的に配分されている。
これに対して、 図 1 6に示すように、 信号スぺク トルが高いト一 ナリティを示す場合には、 信号エネルギレベルに依存したビッ ト配 分量が多くなり、 量子化雑音の低下は極めて狭い帯域の雑音を低減 するために使用される。 聴覚許容雑音レベルに依存したビッ ト配分 の集中はこれよりもきつくない。
図 1 6に示すように、 この両者のビッ ト配分の和により、 孤立ス ぺク トル入力信号での特性の向上が達成される。
以上の様にして得られた基礎ビッ ト配分に、 次のようにして上記 付加ビッ ト配分 (ステップ S T 3 ) 部分を付け加える。
次に、 図 1 9を用いて基礎ビッ ト配分と付加ビッ ト配分部分の分 離及び再生時の結合について説明する。
先ず、 図 1 9の構成の入力端子 9 0 0には、 図 1の M D C T回路 1 3 , 1 4, 1 5の出力である M D C T係数が供給されるとする。 すなわち、 図 1 9のエンコーダ側は図 1 の適応ビッ ト配分符号化回 路 1 6、 1 7、 1 8に含まれるものである。 3. 3 -
この図 1 9において、 上記入力端子 9 0 0に供給された M D C T 係数 (M D C Tサンプル) は正規化回路 9 0 5によって複数サンプ ル毎に、 ブロックについての正規化処理すなわちプロックフローテ ィ ングが施される。 このときどの程度のブロックフローティ ングが 行われたかを示す係数としてスケールファクタが得られる。
次段の第 1の量子化器(quan t i zer) 9 0 1 は、 上記基礎ビッ ト配 分で与えられた各サンプル語長 (ワードレングス) で量子化を行な う。 このとき、 量子化雑音を少なくするためには四捨五入による量 子化が行われる。
次に、 上記正規化回路 9 0 5の出力と上記量子化器 9 0 1の出力 が差分器 9 0 2に送られる。 すなわち、 当該差分器 9 0 2では、 量 子化器 9 0 1の入力と出力の差 (量子化誤差) が取られる。 この差 分器 9 0 2の出力は、 さらに正規化回路 9 0 6を介して第 2の量子 化器 9 0 3に送られる。
当該第 2の量子化器 9 0 3では、 例えば 2 ビッ 卜が各サンプル毎 に使用される。 正規化回路 9 0 6におけるスケールファクタは、 第 1の量子化器 9 0 1で用いられたスケールファクタとワードレング スから自動的に決定される。
すなわち、 この図 1 9の構成のエンコーダ側では、 第 1 の量子化 器 9 0 1で用いられた語長が例えば Nビッ 卜であったときには ( 2 * * N ) で正規化回路 9 0 6で用いられるスケールファク夕が得ら れる。
また、 上記付加ビッ ト配分のための第 2の量子化器 9 0 3では、 上記基礎ビッ ト配分のための第 1の量子化器 9 0 1 と同じように四 捨五入処理を含むビッ ト配分を行う。 このようにして 2つの量子化 3. 4 一
により、 2つのビッ ト配分に分けられる。
ここで、 もし付加ビッ ト配分のためのヮードレングスが固定的で ない場合でも、 前に述べたように付加ビッ ト配分の成分の大きさは 基礎ビッ ト配分のスケールファクタとワードレングスから付加ビッ ト配分のスケールファクタを算出できるので、 ワードレングスのみ がデコーダに必要とされる。 本実施例では、 付加ビッ ト配分のヮ一 ドレングスは 2 ビッ トと固定されているので、 付加ビッ ト配分のた めのヮードレングスさえ必要ではない。 このようにして量子化器 9 0 1及び 9 0 3の出力がそれぞれ四捨五入された効率の高い量子化 が実現されることになる。
なお、 量子化器 9 0 1及び 9 0 3の出力ビッ トレー 卜は、 両者と も固定にすると、 ディスク、 テープ等のメディアに記録するときに システムを簡単にすることができる。 また、 両者を可変としながら、 トータルで一定とすることもできる。 もちろん一部の量子化器の出 カビッ トレー トのみを一定としてもよい。
なお、 図 1 9の構成 (エンコーダ) に対応する構成 (デコーダ) には、 上記正規化回路 9 0 5, 9 0 6 に対応する逆正規化処理を行 う逆正規化回路 9 0 8 , 9 0 7が設けられ、 逆正規化回路 9 0 8 , 9 0 7の出力が加算器 9 0 4で加算される。 その加算出力が出力端 子 9 1 0から取りだされることになる。
図 2 0は、 このようにして高能率符号化された信号を再び復号化 するための基本的な本発明実施例の復号化装置を示している。
この図 2 0において、 各帯域の量子化された M D C T係数は復号 化装置の入力端子 1 2 2、 1 2 4、 1 2 6に与えられ、 使用された ブロックサイズ情報は入力端子 1 2 3、 1 2 5、 1 2 7に与えられ る。 復号化回路 1 1 6、 1 1 7、 1 1 8は、 量子化された MD C T 係数と共に伝送されてきたスケールファクタ及びワードレングスで なる適応ビッ ト配分情報を用いて、 ビッ ト割当を解除する。
次に、 11^0〇丁回路 1 1 3、 1 1 4、 1 1 5では、 周波数領域 の信号が時間領域の信号に変換される。 これらの部分帯域の時間領 域信号は、 I QMF回路 1 1 2、 1 1 1により、 全体域信号に復号 化される。
すなわち、 上記基礎ビッ ト配分の 1 2 8 k b p sのビッ ト配分と 上記付加ビッ ト配分の 6 4 k b p sのそれぞれが上記復号化回路 1 1 6、 1 1 7、 1 1 8で復号化される。 そしてこれらの 2つの復号 化部分は夫々が復号化された後、 夫々の時間軸上サンプルが加算さ れて精度の高いサンプルとなる。
もちろん図 2 0において、 11^0〇丁回路 1 1 3、 1 1 4、 1 1 5の各出力について基礎ビッ ト配分出力及び付加ビッ ト配分をそれ ぞれ計算してから合成し、 1 (3 回路 1 1 2、 1 1 1に送ること もできる。
さらには複号化回路 1 1 6、 1 1 7、 1 : 8において基礎ビッ ト 配分及び付加ビッ ト配分を正規化処理を解いた後に加算し、 それを I MD CT, I QMF処理して最終出力を得るようにすることもで きる。
次に、 本発明実施例の記録メディアは、 上述したような本発明実 施例の量子化装置が適用される高能率符号化装置により量子化及び 符号化された信号が記録されるものであり、 記録メディアとしては 例えば光ディスク, 光磁気ディスク, 磁気ディスク等のディスク状 の記録媒体に上記符号化信号が記録されたものや、 磁気テープ等の 3. 6
テープ状記録媒体に上記符号化信号が記録されたもの、 或いは、 符 号化信号が記憶された半導体メモリ、 いわゆる I C力一ドなどを挙 げることができる。
なお、 本発明実施例の記録メディァにおけるデータの並べ方につ いては、 図 2 1に示すようになる。 すなわち、 1つのシンクプロッ クは、 シンク情報と、 サブ情報 (スケールファクタ, ワー ドレング ス) と、 基礎ビッ ト配分と、 付加ビッ ト配分とからなるものとする この場合、 時間領域サンプル若しくは周波数領域サンプルを量子 化した後、 1 サンプルづっ単独で、 前段の量子化誤差を更に量子化 するような少なく とも 1個の量子化機能により、 少なく とも 2個の 語に分解し、 1つのシンクブロックの中に各量子化出力毎に分離し て記録若しく は伝送し、 その後復号再生することは、 ビッ トレ一 ト を下げて再生する場合に除去すべきビッ ト列部分を一括して除去で きるという点で有効である。
また、 別の方法として、 時間領域サンプル若しく は周波数領域サ ンプルを量子化した後、 1サンプルづっ単独で、 前段の量子化誤差 を更に量子化するような少なく とも 1個の量子化機能により、 少な く とも 2個の語に分解し、 1つのシンクブロックの中に各量子化出 力を周波数又は時間順に交互に記録若しく は伝送し、 時間領域サン プル若しく は周波数領域サンプルから復号再生することは、 ビッ ト レートを下げて再生する場合に周波数帯域を制限する形で除去すベ きビッ ト列部分を一括して除去できるという点で有効である。 以上のようなビッ ト配列は、 特に光磁気ディスクゃ光ディスクを 用いた例えばいわゆるミニディスク (Min i D i sc)や、 磁気テープメ ディア、 通信メディアなどに応用できる。 以上の説明からも明らかなように、 本発明においては以下の効果 を得ることができる。 すなわち、
( 1 ) ェンコ一ド時に使用されたビッ トレー トよりも低いビッ トレ ―トを用いてデコー ドする時、 例えばェンコ一ド側でェンコ一ド処 理後のビッ 卜の一部を別のデータ転送用に流用するとき、 音質劣化 を最小に止める。
( 2 ) 既に低いビッ トレー 卜で再生する再生機が使われている時に は、 より高いビッ トレー トを用いた音質の良いシステムを導入する に当たっては既に用いられていた低いビッ トレー 卜で再生する再生 機とバックヮードの互換性を有するシステムを提供できる。
( 3 ) 高価な記憶デバイス例えば I Cカードを用いた記憶媒体に記 録を行ないたいときに、 記録時間を初期の設定から延長したいとき に記録済み若しく は記録中のェンコ一ド情報のビッ トレートを適宜 減らして記録時間を延ばし且つこのときの音質劣化を最小化できる。
( 4 ) 高音質のデコーダを、 安価な通常良く使われるよりビッ トレ 一トの低いビッ ト配分を行うデコーダを複数個使用して作成するこ とができ、 このことにより新たなデコーダ用 L S Iの作成が不要と なり安価に目的を達成することが可能となる。

Claims

請 求 の 範 囲
1 . 入力信号の時間領域サンプル若しく は周波数領域サンプルを 量子化する量子化装置において、
上記時間領域サンプル若しくは周波数領域サンプルを量子化した 後、 1サンプルづっ単独で、 前段の量子化における量子化誤差を更 に量子化する少なく とも 1個の量子化手段を有することにより、 時 間領域サンプル若しくは周波数領域サンプルを少なく とも 2個の語 に分解することを特徴とする量子化装置。
2 . 上記量子化手段は四捨五入動作を行うことを特徴とする請求 項 1 に記載の量子化装置。
3 . 少なく とも一つの上記量子化手段の出力ビッ トレー トを一定 時間単位で一定ビッ トレートとすることを特徵とする請求項 1又は 2に記載の量子化装置。
4 . 全ての上記量子化手段の出力ビッ トレートを一定時間単位で —定ビッ トレートとすることを特徵とする請求項 3に記載の量子化 装置。
5 . 時間領域サンプル若しく は周波数領域サンプルを、 複数サン プル毎のプロックでブロックフローティ ング処理し、 上記前段の量 子化の量子化誤差を更に量子化するサンプルデータのためのスケー ルファクタを、 少なく とも上記前段の量子化の量子化出力のための スケールファクタから求めることを特徵とする請求項 1に記載の量 子化装置。
6 . 上記前段の量子化の量子化誤差を更に量子化するサンプルデ —夕のためのスケールファクタを、 少なく とも上記前段の量子化の 一 3. 9 —
量子化出力のためのスケールファクタ及びヮードレングスから求め ることを特徵とする請求項 5に記載の量子化装置。
7 . 時間と周波数について細分化した小ブロック中のサンプルデ ―夕に対しては、 当該小プロック内で同一のプロックフローティ ン グ及び語長をもつ量子化を行うことを特徵とする請求項 5に記載の 量子化装置。
8 . 時間領域サンプル若しく は周波数領域サンプルを量子化した 信号を復号化する復号化装置であって、
上記時間領域サンプル若しく は周波数領域サンプルにっき、 同一 時間領域若しくは同一周波数領域のサンプルに関する少なく とも 2 つの部分サンプルを合わせて 1つのサンプルとする合成手段を有す ることを特徴とする復号化装置。
9 . 時間領域サンプル若しく は周波数領域サンプルを量子化した 信号を復号化する復号化装置であって、
上記時間領域サンプル若しくは周波数領域サンプルにっき、 同一 時間領域若しくは同一周波数領域のサンプルに関する少なく とも 2 つの部分サンプルをそれぞれ別個に全帯域幅領域の時間領域サンプ ルとした後合成して 1つのサンプルとする合成手段を有することを 特徵とする復号化装置。
1 0 . 時間領域サンプル若しくは周波数領域サンプルを量子化し た信号を復号化する復号化装置であって、
上記時間領域サンプル若しくは周波数領域サンプルにっき、 同一 時間領域若しく は同一周波数領域のサンプルに関する少なく とも 2 つの部分サンプルをそれぞれ別個に部分帯域幅領域の時間領域サン プルとした後、 それぞれの部分帯域で合わせて 1つのサンプルとし、 - 4. 0
さらに全帯域幅領域の時間領域サンプルへ合成する合成手段を有す ることを特徴とする復号化装置。
1 1 . 上記量子化の際には、 時間領域サンプル若しく は周波数領 域サンプルを量子化した後、 1サンプルづっ単独で、 前段の量子化 における量子化誤差を更に量子化する少なく とも 1個の量子化手段 により、 時間領域サンプル若しくは周波数領域サンプルが少なく と も 2個の語に分解され、 少なく とも 1つの上記量子化手段の出力ビ ッ トレー 卜が一定時間単位で一定ビッ トレ一 卜となされていること を特徴とする請求項 8、 9、 又は 1 0に記載の復号化装置。
1 2 . 上記量子化の際には、 時間領域サンプル若しくは周波数領 域サンプルを量子化した後、 1 サンプルづっ単独で、 前段の量子化 における量子化誤差を更に量子化する少なく とも 1個の量子化手段 により、 時間領域サンプル若しく は周波数領域サンプルが少なく と も 2個の語に分解され、 全ての上記量子化手段の出力ビッ トレート がー定時間単位で一定ビッ トレートとなされていることを特徵とす る請求項 1 1 に記載の複号化装置。
1 3 . 上記量子化の際には、 時間領域サンプル若しくは周波数領 域サンプルを複数サンプル毎のプロッ クでブロックフローティ ング 処理し、 前段の量子化の量子化誤差を更に量子化したサンプルデー 夕のためのスケールファクタが、 少なく とも上記前段の量子化の量 子化出力のためのスケールファクタから求められていることを特徴 とする請求項 1 2に記載の復号化装置。
1 4 . 時間領域サンプル若しくは周波数領域サンプルを量子化し た後、 1サンプルづっ単独で、 前段の量子化における量子化誤差を 更に少なく とも 1回量子化することにより、 時間領域サンプル若し 一 4. 1 一
く は周波数領域サンプルを少なく とも 2個の量子化値に分解し、 上記少なく とも 2個の量子化値を記録してなることを特徵とする 記録メティア。
1 5 . 入力信号の時間領域若しくは周波数領域の所定サンプルを 量子化する量子化方法において、
上記所定サンプルを量子化して第 1 の量子化値を生成し、 上記所定サンプルと上記第 1の量子化値との量子化誤差を演算し、 上記量子化誤差を 1サンプルづっ単独で量子化して第 2の量子化 値を生成することを特徵とする量子化方法。
1 6 . 上記第 1の量子化値及び上記第 2の量子化値の少なく とも —方を四捨五入動作による量子化により生成することを特徴とする 請求項 1 5に記載の量子化方法。
1 7 . 上記第 1の量子化値及び上記第 2の量子化値の少なく とも —方を一定ビッ トレー卜で出力することを特徴とする請求項 1 5に 記載の量子化方法。
1 8 . 上記第 1の量子化値及び上記第 2の量子化値の総和が一定 ビッ トレー トとなるように出力することを特徴とする請求項 1 5に 記載の量子化方法。
1 9 . 上記所定サンプルを複数のサンプルからなるブロック毎に 第 1のスケールファクタを用いてプロックフローティ ング処理し、 上記量子化誤差を上記第 1のスケールファクタに基づいて求めら れた第 2のスケールファクタで正規化することを特徵とする請求項 1 5に記載の量子化方法。
2 0 . 上記第 2のスケールファクタを上記第 1 のスケールファ ク タ及び上記第 1の量子化値を生成する際のヮ一ドレングスに基づい - 4. 2 -
て求めることを特徴とする請求項 1 5に記載の量子化方法。
2 1 . 時間と周波数について細分化した小ブロック中のサンプル データに対しては、 当該小プロック内で同一のスケールファクタ及 びヮードレングスで正規化及び量子化を行うことを特徴とする請求 項 1 5に記載の量子化方法。
2 2 . 入力信号の時間領域サンプル若しくは周波数領域サンプル へのビッ ト配分を行う高能率符号化装置において、
上記時間領域サンプル若しくは周波数領域サンプルを量子化した 後、 1サンプルづっ単独で、 前段の量子化の量子化誤差を更に量子 化する少なく とも 1個の量子化手段を有することにより、 時間領域 サンプル若しく は周波数領域サンプルを少なく とも 2個の語に分解 することを特徴とする高能率符号化装置。
2 3 . 上記量子化手段は四捨五入動作を行うことを特徴とする請 求項 2 2に記載の高能率符号化装置。
2 4 . 少なく とも 1つの上記量子化手段の出力ビッ トレー 卜を一 定時間単位で一定ビッ トレートとすることを特徴とする請求項 2 2 又は 2 3に記載の高能率符号化装置。
2 5 . 全ての上記量子化手段の出力ビッ トレートを一定時間単位 で一定ビッ トレ一トとすることを特徵とする請求項 2 4に記載の高 能率符号化装置。
2 6 . 時間領域サンプル若しくは周波数領域サンプルを、 複数サ プル毎のプロックでブロックフローティ ング処理し、 上記前段の量 子化の量子化誤差を更に量子化するサンプルデータのためのスケ一 ルファクタを、 少なく とも前段の量子化の量子化出力のためのスケ ールファクタから求めることを特徴とする請求項 2 2に記載の高能
4. 3 一
率符号化装置。
2 7 . 上記前段の量子化の量子化誤差を更に量子化するサンプル 一夕のためのスケールファクタを、 少なく とも上記前段の量子化の 量子化出力のためのスケールファクタ及びワードレングスから求め ることを特徵とする請求項 2 6に記載の高能率符号化装置。
2 8 . 時間と周波数について細分化した小ブロック中のサンプル —夕に対しては、 当該小プロック内で同一のプロックフローティ ン グ若しく は同一のプロックフローティ ング及び語長をもつ量子化を 行うことを特徴とする請求項 2 2に記載の高能率符号化装置。
2 9 . 入力信号の時間領域サンプル若しく は周波数領域サンプル へのビッ ト配分を行って当該入力信号を符号化し、 この符号化した 信号を記録媒体に記録する高能率符号化装置において、
上記時間領域サンプル若しくは周波数領域サンプルを量子化した 後、 1サンプルづっ単独で、 前段の量子化の量子化誤差を更に量子 化する少なく とも 1個の量子化手段を有することにより、 時間領域 サンプル若しくは周波数領域サンプルを少なく とも 2個の語に分解 すると共に、 1つのシンクブロックの中に、 全ての上記量子化手段 の出力サンプルをそれぞれ分離して、 一定時間単位で記録すること を特徴とする高能率符号化装置。
3 0 . 入力信号の時間領域サンプル若しくは周波数領域サンプル へのビッ ト配分を行って当該入力信号を符号化し、 この符号化した 信号を記録媒体に記録する高能率符号化装置において、
上記時間領域サンプル若しくは周波数領域サンプルを量子化した 後、 1サンプルづっ単独で前段の量子化の量子化誤差を更に量子化 する少なく とも 1個の量子化手段を有することにより、 時間領域サ ンプル若しく は周波数領域サンプルを少なく とも 2個の語に分解す ると共に、 1つのシンクブロックの中に、 それぞれの上記量子化手 段の出力サンプルを上記量子化手段毎に時間順若しくは周波数順に 交互に記録することを特徵とする高能率符号化装置。
3 1 . 時間領域サンプル若しく は周波数領域サンプルへのビッ ト 配分が行われて符号化された信号を復号化する高能率符号復号化装 置において、
上記時間領域サンプル若しくは周波数領域サンプルにっき、 同一 時間領域若しくは同一周波数領域のサンプルに関する少なく とも 2 つの部分サンプルを合わせて 1つのサンプルとする合成手段を有す ることを特徴とする高能率符号復号化装置。
3 2 . 時間領域サンプル若しくは周波数領域サンプルへのビッ ト 配分が行われて符号化された信号を復号化する高能率符号復号化装 置において、
• 上記時間領域サンプル若しくは周波数領域サンプルにっき、 同一 時間領域若しく は同一周波数領域のサンプルに関する少なく とも 2 つの部分サンプルをそれぞれ別個に全帯域幅領域の時間領域サンプ ルとした後合成して 1つのサンプルとする合成手段を有することを 特徵とする高能率符号復号化装置。
3 3 . 時間領域サンプル若しく は周波数領域サンプルへのビッ ト 配分が行われて符号化された信号を復号化する高能率符号復号化装 であつ し、
上記時間領域サンプル若しくは周波数領域サンプルにつき、 同一 時間領域若しく は同一周波数領域のサンプルに関する少なく とも 2 つの部分サンプルをそれぞれ別個に部分帯域幅領域の時間領域サン - 4. 5
プルとした後、 それぞれの部分帯域で上記部分サンプルを合わせて 1つのサンプルとし、 さらに全帯域幅領域の時間領域サンプルへ合 成する合成手段を有することを特徴とする高能率符号復号化装置。
3 4 . 少なく とも 1つの上記符号化された信号のビッ トレー トは、 —定時間単位で一定ビッ トレートであることを特徴とする請求項 3 1、 3 2又は 3 3に記載の高能率符号復号化装置。
3 5 . 全ての上記符号化された信号のビッ トレートは、 一定時間 単位で一定ビッ トレー トであることを特徵とする請求項 3 4に記載 の高能率符号復号化装置。
3 6 . 上記符号化された信号は、 時間領域サンプル若しくは周波 数領域サンプルを複数サンプル毎のプロックでブロックフローティ ング処理し、 前段の量子化誤差を更に量子化したサンプルデータの ためのスケールファクタを、 少なく とも上記時間領域サンプル若し くは周波数領域サンプルを量子化した量子化出力のためのスケール ファクタから求めたものであることを特徴とする請求項 3 5に記載 の高能率符号復号化装置。
3 7 . 時間と周波数について細分化された小プロック中の同一の ブロックフローティ ング若しく は同一のプロックフローティ ング及 び語長をもつ量子化を行ったサンプルデータを、 復号化することを 特徴とする請求項 3 1に記載の高能率符号復号化装置。 .
3 8 . 入力信号を符号化する高能率符号化方法において、
総ビッ ト配分を基礎ビッ ト配分と付加ビッ ト配分に分割し、 上記入力信号の時間領域若しく は周波数領域の所定サンプルを上 記基礎ビッ ト配分に基づく ヮードレングスで量子化して第 1の量子 化値を生成し、
4 .6
上記所定サンプルと上記第 1の量子化値との量子化誤差を演算し、 上記量子化誤差を 1サンプルづっ単独で量子化して第 2の量子化 値を上記付加ビッ ト配分として生成することを特徴とする高能率符 号化方法。
3 9 . 上記第 1の量子化値及び上記第 2の量子化値の少なく とも —方を四捨五入動作による量子化により生成することを特徴とする 請求項 3 8に記載の高能率符号化方法。
4 0 . 上記第 1の量子化値及び上記第 2の量子化値の少なく とも —方を一定ビッ トレートで出力することを特徴とする請求項 3 8に 記載の高能率符号化方法。
4 1 . 上記第 1の量子化値及び上記第 2の量子化値の総和が一定 ビッ トレートとなるように出力することを特徴とする請求項 3 8に 記載の高能率符号化方法。
4 2 . 上記所定サンプルを複数のサンプルからなるブロック毎に 第 1のスケールファクタを用いてブロックフローティ ング処理し、 上記量子化誤差を上記第 1のスケールファクタに基づいて求めら れた第 2のスケールファクタで正規化することを特徵とする請求項
3 8に記載の高能率符号化方法。
4 3 . 上記第 2のスケールファクタを上記第 1のスケールファク 夕及び上記第 1の量子化値を生成する際のヮードレングスに基づい て求めることを特徵とする請求項 3 8に記載の高能率符号化方法。
4 4 . 時間と周波数について細分化した小プロック中のサンプル データに対しては、 当該小プロック内で同一のスケールファクタ及 びワー ドレングスで正規化及び量子化を行うことを特徴とする請求 項 3 8に記載の高能率符号化方法。
4 5 . 符号化信号が記録された記録メディァにおいて、
総ビッ ト配分を基礎ビッ ト配分と付加ビッ ト配分に分割し、 上記入力信号の時間領域若しくは周波数領域の所定サンプルを上 記基礎ビッ ト配分に基づく ヮ一ドレングスで量子化して第 1の量子 化値を生成し、
上記所定サンプルと上記第 1の量子化値との量子化誤差を演算し、 上記量子化誤差を 1サンプルづっ単独で量子化して第 2の量子化 値を上記付加ビッ ト配分として生成し、
上記第 1の量子化値及び上記第 2の量子化値を記録してなること を特徴とする記録メディァ。
PCT/JP1994/001888 1993-11-09 1994-11-09 Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d'enregistrement et de codage a haute efficacite WO1995013660A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP95900276A EP0692881B1 (en) 1993-11-09 1994-11-09 Quantization apparatus, quantization method, high efficiency encoder, high efficiency encoding method, decoder, high efficiency encoder and recording media
US08/464,787 US5774844A (en) 1993-11-09 1994-11-09 Methods and apparatus for quantizing, encoding and decoding and recording media therefor

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP27938393A JP3227945B2 (ja) 1993-11-09 1993-11-09 符号化装置
JP5/279383 1993-11-09
JP5/288096 1993-11-17
JP28809693A JP3227948B2 (ja) 1993-11-17 1993-11-17 復号化装置

Publications (1)

Publication Number Publication Date
WO1995013660A1 true WO1995013660A1 (fr) 1995-05-18

Family

ID=26553309

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1994/001888 WO1995013660A1 (fr) 1993-11-09 1994-11-09 Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d'enregistrement et de codage a haute efficacite

Country Status (4)

Country Link
US (1) US5774844A (ja)
EP (1) EP0692881B1 (ja)
CN (1) CN1111959C (ja)
WO (1) WO1995013660A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034956A1 (fr) * 1994-06-13 1995-12-21 Sony Corporation Procede et dispositif de codage de signal, procede et dispositif de decodage de signal, support d'enregistrement et dispositif de transmission de signaux
EP0772186A3 (en) * 1995-10-26 1998-06-24 Sony Corporation Speech encoding method and apparatus

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI970553A (fi) * 1997-02-07 1998-08-08 Nokia Mobile Phones Ltd Audiokoodausmenetelmä ja -laite
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
EP0957580B1 (en) * 1998-05-15 2008-04-02 Thomson Method and apparatus for sampling-rate conversion of audio signals
EP0957579A1 (en) 1998-05-15 1999-11-17 Deutsche Thomson-Brandt Gmbh Method and apparatus for sampling-rate conversion of audio signals
US6141639A (en) * 1998-06-05 2000-10-31 Conexant Systems, Inc. Method and apparatus for coding of signals containing speech and background noise
US6483828B1 (en) * 1999-02-10 2002-11-19 Ericsson, Inc. System and method for coding in a telecommunications environment using orthogonal and near-orthogonal codes
JP2001134295A (ja) * 1999-08-23 2001-05-18 Sony Corp 符号化装置および符号化方法、記録装置および記録方法、送信装置および送信方法、復号化装置および符号化方法、再生装置および再生方法、並びに記録媒体
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
WO2003073741A2 (en) * 2002-02-21 2003-09-04 The Regents Of The University Of California Scalable compression of audio and other signals
RU2005135650A (ru) * 2003-04-17 2006-03-20 Конинклейке Филипс Электроникс Н.В. (Nl) Синтез аудиосигнала
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
EP1494040A1 (de) * 2003-06-30 2005-01-05 Sulzer Markets and Technology AG Verfahren zur Kompensation von Quantisierungsrauschen, sowie die Verwendung des Verfahrens
WO2005027096A1 (en) * 2003-09-15 2005-03-24 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
JP4635709B2 (ja) * 2005-05-10 2011-02-23 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
US7676360B2 (en) * 2005-12-01 2010-03-09 Sasken Communication Technologies Ltd. Method for scale-factor estimation in an audio encoder
CA2697604A1 (en) * 2007-09-28 2009-04-02 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
WO2009096898A1 (en) * 2008-01-31 2009-08-06 Agency For Science, Technology And Research Method and device of bitrate distribution/truncation for scalable audio coding
US8204744B2 (en) * 2008-12-01 2012-06-19 Research In Motion Limited Optimization of MP3 audio encoding by scale factors and global quantization step size
US8311843B2 (en) * 2009-08-24 2012-11-13 Sling Media Pvt. Ltd. Frequency band scale factor determination in audio encoding based upon frequency band signal energy
WO2011048094A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec and celp coding adapted therefore
US9075446B2 (en) 2010-03-15 2015-07-07 Qualcomm Incorporated Method and apparatus for processing and reconstructing data
US9136980B2 (en) * 2010-09-10 2015-09-15 Qualcomm Incorporated Method and apparatus for low complexity compression of signals
WO2013142650A1 (en) 2012-03-23 2013-09-26 Dolby International Ab Enabling sampling rate diversity in a voice communication system
KR101475862B1 (ko) * 2013-09-24 2014-12-23 (주)파워보이스 사운드 코드를 인코딩하는 인코딩 장치 및 방법, 사운드 코드를 디코딩하는 디코딩 장치 및 방법
JP6281336B2 (ja) * 2014-03-12 2018-02-21 沖電気工業株式会社 音声復号化装置及びプログラム
US10146500B2 (en) * 2016-08-31 2018-12-04 Dts, Inc. Transform-based audio codec and method with subband energy smoothing
US11170799B2 (en) * 2019-02-13 2021-11-09 Harman International Industries, Incorporated Nonlinear noise reduction system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61278213A (ja) * 1985-06-03 1986-12-09 Nec Corp デジタルレベル変換回路
JPH01162420A (ja) * 1987-12-19 1989-06-26 Nippon Hoso Kyokai <Nhk> サブレンジ型a/d変換装置
JPH03256411A (ja) * 1990-03-07 1991-11-15 Sony Corp ディジタルデータの高能率符号化方法
JPH03263926A (ja) * 1990-03-14 1991-11-25 Sony Corp ディジタルデータの高能率符号化方法

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
NL8101199A (nl) * 1981-03-12 1982-10-01 Philips Nv Systeem voor het kwantiseren van signalen.
JPS5921039B2 (ja) * 1981-11-04 1984-05-17 日本電信電話株式会社 適応予測符号化方式
US4455649A (en) * 1982-01-15 1984-06-19 International Business Machines Corporation Method and apparatus for efficient statistical multiplexing of voice and data signals
US4535472A (en) * 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
JPS59223032A (ja) * 1983-06-01 1984-12-14 Sony Corp ディジタル信号伝送装置
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
US4748579A (en) * 1985-08-14 1988-05-31 Gte Laboratories Incorporated Method and circuit for performing discrete transforms
JPH0734291B2 (ja) * 1986-07-28 1995-04-12 株式会社日立製作所 デイジタル信号記録再生システム
US4809274A (en) * 1986-09-19 1989-02-28 M/A-Com Government Systems, Inc. Digital audio companding and error conditioning
DE3688980T2 (de) * 1986-10-30 1994-04-21 Ibm Verfahren zur Multigeschwindigkeitskodierung von Signalen und Einrichtung zur Durchführung dieses Verfahrens.
US4862186A (en) * 1986-11-12 1989-08-29 Hughes Aircraft Company Microwave antenna array waveguide assembly
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
DE3883673T2 (de) * 1987-09-25 1994-03-03 Japan Broadcasting Corp Dekodierender Entzerrer.
FR2625060B1 (fr) * 1987-12-16 1990-10-05 Guichard Jacques Procede et dispositifs de codage et de decodage pour la transmission d'images a travers un reseau a debit variable
US4862169A (en) * 1988-03-25 1989-08-29 Motorola, Inc. Oversampled A/D converter using filtered, cascaded noise shaping modulators
FR2641427B1 (fr) * 1988-12-30 1991-02-15 Thomson Hybrides Microondes Circuit soustracteur-amplificateur pour convertisseur analogique numerique a cascade
US5142656A (en) * 1989-01-27 1992-08-25 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US4932062A (en) * 1989-05-15 1990-06-05 Dialogic Corporation Method and apparatus for frequency analysis of telephone signals
US5166686A (en) * 1989-06-30 1992-11-24 Nec Corporation Variable length block coding with changing characteristics of input samples
JP2844695B2 (ja) * 1989-07-19 1999-01-06 ソニー株式会社 信号符号化装置
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
JPH03117919A (ja) * 1989-09-30 1991-05-20 Sony Corp ディジタル信号符号化装置
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
JPH03132228A (ja) * 1989-10-18 1991-06-05 Victor Co Of Japan Ltd 直交変換信号符号化復号化方式
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JP2861238B2 (ja) * 1990-04-20 1999-02-24 ソニー株式会社 ディジタル信号符号化方法
US5153593A (en) * 1990-04-26 1992-10-06 Hughes Aircraft Company Multi-stage sigma-delta analog-to-digital converter
JP2751564B2 (ja) * 1990-05-25 1998-05-18 ソニー株式会社 ディジタル信号符号化装置
JPH0472909A (ja) * 1990-07-13 1992-03-06 Sony Corp オーディオ信号の量子化誤差低減装置
JP3033156B2 (ja) * 1990-08-24 2000-04-17 ソニー株式会社 ディジタル信号符号化装置
US5049992A (en) * 1990-08-27 1991-09-17 Zenith Electronics Corporation HDTV system with receivers operable at different levels of resolution
US5134475A (en) * 1990-12-11 1992-07-28 At&T Bell Laboratories Adaptive leak hdtv encoder
EP0506394A2 (en) * 1991-03-29 1992-09-30 Sony Corporation Coding apparatus for digital signals
EP0531538B1 (en) * 1991-03-29 1998-04-15 Sony Corporation Reduction of the size of side-information for Subband coding
KR100268623B1 (ko) * 1991-06-28 2000-10-16 이데이 노부유끼 압축 데이타 기록 재생 장치 및 신호 처리 방법
ES2164640T3 (es) * 1991-08-02 2002-03-01 Sony Corp Codificador digital con asignacion dinamica de bits de cuantificacion.
JP3178026B2 (ja) * 1991-08-23 2001-06-18 ソニー株式会社 ディジタル信号符号化装置及び復号化装置
DE69227570T2 (de) * 1991-09-30 1999-04-22 Sony Corp Verfahren und Anordnung zur Audiodatenkompression
US5394508A (en) * 1992-01-17 1995-02-28 Massachusetts Institute Of Technology Method and apparatus for encoding decoding and compression of audio-type data
JP3134455B2 (ja) * 1992-01-29 2001-02-13 ソニー株式会社 高能率符号化装置及び方法
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP3508146B2 (ja) * 1992-09-11 2004-03-22 ソニー株式会社 ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置
JP3127600B2 (ja) * 1992-09-11 2001-01-29 ソニー株式会社 ディジタル信号復号化装置及び方法
JP3225644B2 (ja) * 1992-10-31 2001-11-05 ソニー株式会社 ノイズシェイピング回路
JPH06180948A (ja) * 1992-12-11 1994-06-28 Sony Corp ディジタル信号処理装置又は方法、及び記録媒体
CA2140779C (en) * 1993-05-31 2005-09-20 Kyoya Tsutsui Method, apparatus and recording medium for coding of separated tone and noise characteristics spectral components of an acoustic signal
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61278213A (ja) * 1985-06-03 1986-12-09 Nec Corp デジタルレベル変換回路
JPH01162420A (ja) * 1987-12-19 1989-06-26 Nippon Hoso Kyokai <Nhk> サブレンジ型a/d変換装置
JPH03256411A (ja) * 1990-03-07 1991-11-15 Sony Corp ディジタルデータの高能率符号化方法
JPH03263926A (ja) * 1990-03-14 1991-11-25 Sony Corp ディジタルデータの高能率符号化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0692881A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034956A1 (fr) * 1994-06-13 1995-12-21 Sony Corporation Procede et dispositif de codage de signal, procede et dispositif de decodage de signal, support d'enregistrement et dispositif de transmission de signaux
US6061649A (en) * 1994-06-13 2000-05-09 Sony Corporation Signal encoding method and apparatus, signal decoding method and apparatus and signal transmission apparatus
EP0772186A3 (en) * 1995-10-26 1998-06-24 Sony Corporation Speech encoding method and apparatus

Also Published As

Publication number Publication date
EP0692881A4 (en) 1998-09-16
CN1117776A (zh) 1996-02-28
US5774844A (en) 1998-06-30
EP0692881A1 (en) 1996-01-17
CN1111959C (zh) 2003-06-18
EP0692881B1 (en) 2005-06-15

Similar Documents

Publication Publication Date Title
WO1995013660A1 (fr) Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d&#39;enregistrement et de codage a haute efficacite
JP3278900B2 (ja) データ符号化装置及び方法
US5737718A (en) Method, apparatus and recording medium for a coder with a spectral-shape-adaptive subband configuration
JP3336617B2 (ja) 信号符号化又は復号化装置,及び信号符号化又は復号化方法,並びに記録媒体
US6104321A (en) Efficient encoding method, efficient code decoding method, efficient code encoding apparatus, efficient code decoding apparatus, efficient encoding/decoding system, and recording media
JP3153933B2 (ja) データ符号化装置及び方法並びにデータ復号化装置及び方法
US5680130A (en) Information encoding method and apparatus, information decoding method and apparatus, information transmission method, and information recording medium
JPH07160292A (ja) 多層符号化装置
JPH06244738A (ja) ディジタル信号処理装置又は方法、及び記録媒体
JP3318931B2 (ja) 信号符号化装置、信号復号化装置及び信号符号化方法
JPH1065546A (ja) ディジタル信号処理方法、ディジタル信号処理装置、ディジタル信号記録方法、ディジタル信号記録装置、記録媒体、ディジタル信号送信方法及びディジタル信号送信装置
US6647063B1 (en) Information encoding method and apparatus, information decoding method and apparatus and recording medium
JPH0846517A (ja) 高能率符号化及び復号化システム
JPH07168593A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに信号記録媒体
JP3227948B2 (ja) 復号化装置
WO1995016263A1 (fr) Procede, dispositif et support concernant le traitement de l&#39;information
JP3465697B2 (ja) 信号記録媒体
JP3291948B2 (ja) 高能率符号化方法及び装置、並びに伝送媒体
JP3227945B2 (ja) 符号化装置
JPH08123488A (ja) 高能率符号化方法、高能率符号記録方法、高能率符号伝送方法、高能率符号化装置及び高能率符号復号化方法
JP3318824B2 (ja) デジタル信号符号化処理方法、デジタル信号符号化処理装置、デジタル信号記録方法、デジタル信号記録装置、記録媒体、デジタル信号伝送方法及びデジタル信号伝送装置
JPH11330974A (ja) エンコード方法、デコード方法、エンコード装置、デコード装置、ディジタル信号記録方法、ディジタル信号記録装置、記録媒体、ディジタル信号送信方法及びディジタル信号送信装置
JP3465698B2 (ja) 信号復号化方法及び装置
JPH06324093A (ja) オーディオ信号のスペクトル表示装置
JPH07193510A (ja) ディジタル信号処理装置、ディジタル信号処理方法、及び記録媒体

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 94191140.3

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): ES GB IT NL

WWE Wipo information: entry into national phase

Ref document number: 08464787

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1995900276

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1995900276

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1995900276

Country of ref document: EP