EP1230827A2 - Method and device for processing a stereo audio signal - Google Patents

Method and device for processing a stereo audio signal

Info

Publication number
EP1230827A2
EP1230827A2 EP00985148A EP00985148A EP1230827A2 EP 1230827 A2 EP1230827 A2 EP 1230827A2 EP 00985148 A EP00985148 A EP 00985148A EP 00985148 A EP00985148 A EP 00985148A EP 1230827 A2 EP1230827 A2 EP 1230827A2
Authority
EP
European Patent Office
Prior art keywords
channel
signal
modified
audio signal
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP00985148A
Other languages
German (de)
French (fr)
Other versions
EP1230827B1 (en
Inventor
Bodo Teichmann
Oliver Kunz
Jürgen HERRE
Klaus Peichl
Michael Beer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1230827A2 publication Critical patent/EP1230827A2/en
Application granted granted Critical
Publication of EP1230827B1 publication Critical patent/EP1230827B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates generally to the encoding of audio signals, and more particularly to processing of stereo signals.
  • a stereo signal comprises at least two channels, i.e. H. a left channel and a right channel.
  • stereo signals can still have a left and right surround channel.
  • a stereo signal has five different channels, i. H. a front left channel, a front center channel and a front right channel, and a left rear and a rear right channel.
  • M / S method A known method for processing stereo signals in order to achieve more efficient coding is referred to as the center / side method (M / S method).
  • M / S process the first and second channels are combined to create a center channel and a side channel.
  • L channel left channel
  • R channel right channel
  • the center channel is equal to the sum of the left channel L and the right channel R multiplied by a factor of 0.5
  • the side channel is the difference between the left channel L and the right channel R. , multiplied by a factor from Z. B. 0.5 (other factors are also possible). Expressed equally, this means:
  • a listener will perceive the similarity of the left and right channels by perceiving, in the case of identical channels, a speaker or an orchestra exactly in the middle between the two speakers.
  • a listener will perceive dissimilar channels in that he has a pronounced stereo effect, ie that a speaker, an orchestra or individual instruments of an orchestra can be located exactly to the left and / or right.
  • the left channel has a lot of energy and that the right channel has little energy, that is, the case where z. B. only a single instrument is arranged on the far left in the recording room, and is only audible in the left channel, while on the right channel reads If there is noise, the center channel will be approximately the same as the left channel after M / S processing.
  • the side channel will also be approximately the same as the left channel.
  • both the center channel and the side channel have almost the same amount of energy and both have to be encoded with a relatively large number of bits.
  • the amount of bits required for coding did not decrease due to the M / S coding in this signal constellation, but even doubled in the limit case if it is assumed that the left channel L comprises a certain amount of energy, while the right channel R is 0.
  • the effects on the number of bits required to encode a stereo signal thus range in one extreme case from a saving of 50% to the other extreme case, which results in a doubling of the bits required for encoding.
  • M / S processing When using an M / S process, care must therefore be taken to determine whether the piece is suitable for M / S processing or not.
  • a stereo signal e.g. a test section of 20 ms, which is also referred to as a frame
  • M / S processing is omitted for reasons of bit efficiency, and Both the left and the right channel are coded individually.
  • This "normal" case is also called L / R processing.
  • an audio signal for example in the form of PCM samples, as z. B. outputs a CD player, converted into a spectral representation by means of a time-frequency transformation or a filter bank.
  • a block with a certain number of samples also called a "frame” is used to generate a block of complex spectral values that form a short-term spectrum of the frame of audio samples ("samples").
  • Block formation is achieved using transformation windows which are, for example, 1024 samples long.
  • 1024 spectral values are formed from 1024 samples. These spectral values are then quantized by means of a known iteration process, after which the quantized spectral values of an entropy coding z. B. using a plurality of fixed Huffmann code tables, in order to finally obtain a bit stream which on the one hand contains the coded quantized spectral values and on the other hand also has side information relating to the windows, to scale factors which are calculated during quantization, and refer to other information needed to decode the bit stream.
  • Mid / side processing can either be done before transforming to the spectral range, i. H. using the digital time discrete samples.
  • mid / side processing can also be done after the transformation, i.e. H. with the complex spectral values.
  • the latter alternative also has the advantage that center / side processing cannot be used for the entire spectrum, as in the time domain, but also for certain frequency bands when certain spectral values are subjected to center / side processing and others cannot ,
  • Audio coders are usually designed in such a way that they deliver a constant bit rate, ie a certain number of bits per second. Another constraint is that the quantization noise introduced by the quantization is, if possible, chosen such that its energy is below the psychoacoustic masking threshold or Monitoring threshold of the audio signal is.
  • the basic method to adjust the quantization noise in the frequency domain is to "shape" the noise using the scale factors. For this purpose, as is known, the spectrum is divided into several groups of spectral coefficients called scale factor bands, to which a single scale factor is assigned.
  • a scale factor represents a multiplication value that is used to change the amplitude of all spectral coefficients in this scale factor band.
  • This mechanism is used to adjust the spectral quantization noise mapping generated by the quantizer so that in each scale factor band the quantization noise energy is below the psychoacoustic masking threshold in that scale factor band. It can be seen that neither quantization nor entropy coding are processes that favor a constant bit rate. It should be noted that - on the contrary - both methods favor a variable bit rate. For transmission applications, however, it is often required that the encoder have a constant bit rate at the output. In order to provide a constant bit rate, a so-called bit reservoir is usually used.
  • bits are assigned to the bit reservoir in order to be able to give more bits in the case of an audio signal section which requires more bits for coding , which empties the bit reservoir again.
  • one constraint of such an encoder is the constant output bit rate and the other constraint is that the quantization noise is less than or equal to the psychoacoustic masking threshold in order to be masked or masked by the audio signal.
  • the case in which the "inner bit rate" of the encoder is higher than the constant bit rate required on the output side is more critical. This case will occur when the audio signal is difficult to encode, i. H. when the encoder has to spend many bits to encode the audio signal, which can also be descriptively referred to as the "high load” of the encoder.
  • the transformation encoding is characterized by the fact that it can encode tonal pieces relatively efficiently, but that noisy signals which have relatively high energies and which also have a relatively complicated spectrum, such as speech or drum or drum music, are compressed relatively little can be. Also signals that are transient, i. H. which have an irregular time behavior can only be coded with relatively great effort if no coding artifacts are to be generated.
  • An encoder that determines that the output bit rate is not sufficient and that has already “run dry” the bit reservoir now has several options for "violently” reducing its internal bit rate to meet the criterion of the constant output bit rate.
  • One way is to avoid switching to short windows. However, this leads to audible coding artifacts.
  • Another possibility is to deliberately violate the psychoacoustic masking threshold during quantization in order to quantize more coarsely than is actually necessary in order to achieve a lower bit rate. This also leads to audible interference.
  • Another possibility is to reduce the audio bandwidth, i. H. no longer to encode the full audio bandwidth, but to set the overlying spectral values to 0 from a certain cutoff frequency dependent on the output bit rate, in order to reduce the output bit rate.
  • This method does not cause audible quantization disturbances, but leads to a loss of highs in the audio signal. However, this loss is often perceived less strongly than an audible quantization noise.
  • a particular problem with the coding of stereo signals is the effect called "stereo unmasking", which is briefly explained below. If normal L / R coding is used, both the left channel and the right channel are transformed, quantized and encoded for themselves, so that the quantization noise introduced in the left channel and right channel for data reduction is independent of the other channel. That is, the quantization noise in the left channel and the quantization noise in the right channel are not correlated. If the case is considered that the left and right channels are relatively similar, this means that after decoding a listener will perceive this signal so that, for example, a speaker is in the middle.
  • the "stereo unmasking" effect now consists in the fact that due to the fact that the quantization noise in the two channels is not correlated, the quantization noise of the left channel on the left and the quantization noise of the right channel on the right is perceived.
  • M / S coding In addition to its data rate reducing effect on special signals, M / S coding also has the advantage that the quantization noise in both the left and right channels is correlated with the quantization noise of the other channel, so that the quantization noise in the Center takes place and is covered there completely or substantially better by the useful signal than in the uncorrelated case. The situation is different in which the left and right channels are relatively dissimilar. If M / S coding is used here, the useful signal will be either left or right due to the stereo effect, while due to the M / S coding the quantization noise is correlated and lies more in the middle. Stereo unmasking also takes place here, so to speak.
  • Scalable audio coders are arranged such that their bit stream on the output side has at least a first and a second scaling layer.
  • a decoder which is of simple design, will only take the first scaling layer from the scaled bit stream, which for example has an encoded audio signal with reduced bandwidth or is an audio signal encoded with a simple encoding algorithm.
  • Another decoder fully designed, will take both the first scaling layer and the second scaling layer from the bitstream to decode the first scaling layer with a first decoder, and then to decode the second scaling layer either alone or together with the decoded first scaling layer provides a full bandwidth audio signal.
  • Scalable encoders are particularly desirable in the field of stereo signals, since here a first scaling layer Mono signal, ie the middle channel, can be used, while z. B. the side channel can be taken.
  • Mono signal ie the middle channel
  • B. the side channel can be taken.
  • a simple decoder or a decoder, which is designed for fast operation, will only deliver the mono signal, while a better decoder or a decoder, in which the speed of the transmission is not the most decisive criterion, in addition to the mono or
  • the middle layer will also take the side layer to produce a full stereo signal at the decoder output.
  • the first scaling layer can differ from the second scaling layer or from any number of further scaling layers in the audio coding method itself, in the audio bandwidth, in the audio quality, with respect to mono / stereo and or a combination of the quality criteria mentioned or other conceivable criteria.
  • the aim is for the second scaling layer to have the smallest possible number of bits, or for a decoder which decodes the second scaling layer to also use the first scaling layer as extensively as possible. If a scalable encoder for stereo signals is considered, which as the first scaling layer the center signal, i. H.
  • M / S processing provides the mono signal, and which supplies the side channel as a second layer, it can be seen that the more often the M / S coding is used, the better its overall efficiency. However, this requirement conflicts with bit efficiency for certain stereo signals, namely for stereo signals that have a high stereo channel separation. On the other hand, M / S processing provides a certain "natural" scalability and leads to a correlation of the quantization noise in the left channel and in the right channel.
  • M / S coding applies all the more the more an audio signal to be coded suddenly changes its properties with regard to M / S coding. If an audio signal to be encoded suddenly no longer has the property that the left channel is similar to the right one, the M / S coding gain is eliminated. One consequence will therefore usually be an increase in the quantization disturbance possibly beyond the psychoacoustic hearing threshold and / or a reduction in the audio bandwidth depending on the specific implementation of the encoder.
  • the object of the present invention is to provide an apparatus and a method for processing a stereo audio signal which leads to less audible interference.
  • This object is achieved by a device for processing a stereo audio signal according to claim 1 and by a method for processing a stereo audio signal according to claim 18.
  • the present invention is based on the finding that it is often cheaper for stereo audio signals to dispense with high stereo channel separation in order to achieve a higher audio bandwidth and / or less audible interference in comparison with the case in which the stereo channel separation is maintained, while the audio bandwidth is reduced, or noise introduced by quantization becomes audible.
  • Audible quantization disturbances are generally a foreign body in an audio signal, while a listener of a stereo signal processed according to the invention does not necessarily know how the stereo channel separation of the Output signal was and thus a lower stereo channel separation will not be perceived as coding artifact.
  • a reduction in the stereo channel separation is thus used in order to generally reduce the bit rate of the encoder on the output side or to reduce it to a predetermined value.
  • the characteristic which is similar to energy, can be the energy itself, but also e.g. B. is the sum of squared samples in a certain time period, the sum of squared spectral values in a certain frequency range, the sum of sample amounts in a certain time period or the sum of squared spectral values in a certain frequency range or a combination between two or more of the above characteristics.
  • B. is the sum of squared samples in a certain time period, the sum of squared spectral values in a certain frequency range, the sum of sample amounts in a certain time period or the sum of squared spectral values in a certain frequency range or a combination between two or more of the above characteristics.
  • Modifying the stereo audio signal i.e. H. reducing the channel separation is carried out provided that the volume of the signal does not fluctuate. A reduced channel separation itself will not lead to annoying artifacts in the decoded signal, but a fluctuation in the volume will. Therefore, the first and second channels, e.g. B. the left channel and the right channel, modified so that the volume, d. H. the sum signal, compared to the unmodified first and second channels, remains essentially the same, at least in terms of energy and preferably even in terms of signal, while the difference signal is damped.
  • the first and second channels e.g. B. the left channel and the right channel
  • the preprocessing of the stereo signal according to the invention will always start when it is determined that the amount of bits required to encode the stereo audio signal becomes too high.
  • the measure of the amount of bits needed to encode the stereo audio signal can be derived from the stereo audio signal by analyzing it in various ways.
  • the center and side channels of the stereo audio signal can be viewed to determine how many bits are needed based on an energy ratio or a difference in the logarithms of the energies thereof. Without having to determine the exact number of bits, it can be concluded that in the case of a small energy ratio between the center and side channels, ie in the case of channels of approximately the same size, a large number of bits will be necessary. The lower the energy ratio between the center and the side channel, the more attenuation of the side channel will be necessary to achieve a certain output bit rate. A little energy The relationship between the center and side channels is when the original audio signal has a high stereo channel separation, for example when the left channel has a lot of energy while the right channel has essentially noise.
  • PE perceptual entropy
  • the side channel is damped according to the invention to reduce the number of bits required.
  • This alternative aspect of the present invention is therefore not concerned with the individual appearance of the center and side channels, but with the stereo audio signal itself, which is not related to its M / S-Co- ability, but its general audio coding ability, ie the difficulty in coding the same in order to achieve a certain target bit rate.
  • a generalization of the second aspect is to use some other size as a measure of the amount of bits that indicates the "load" of the encoder.
  • a size can also be, for example, a signal which, on the basis of transient properties of the audio signal, indicates that an audio encoder must use short windows for windows, since it is a fact that short windows require a higher bit rate, not least because of the increased number of page information.
  • the full range of control quantities of an audio encoder can be used to find a measure of how much the side channel must be attenuated in order to reduce the output bit rate of the encoder.
  • Preferred embodiments of the present invention perform an increasing or decreasing attenuation of the side channel in order to prevent a listener from perceiving the decreasing stereo channel separation immediately, but rather that the reduction in the stereo channel separation gradually occurs or the enlargement of the stereo channel separation gradually and increases to disguise the manipulation of the stereo audio signal as well as possible.
  • the sum signal of the modified left and right channels need not necessarily be identical to the sum signal of the unmodified left and right channels, but that it is sufficient that only the energies of the two sum signals are substantially the same or are in a predetermined relationship to one another.
  • a listener does not know what the volume of the unmodified stereo audio signal was and will therefore not perceive it as a disturbance if the volume has been changed in the direction of higher volume or lower volume by the preprocessing.
  • this ratio be 1.
  • FIG. 1 shows a basic block diagram of the device according to the invention for processing a stereo audio signal
  • FIG. 3 shows a block diagram of a device according to the invention as a preprocessing stage for a scalable encoder with mono / stereo scalability.
  • FIG. 1 shows a block diagram of the device according to the invention for processing a stereo audio signal, which is fed into the device at an input 10 and has a first channel L and a second channel R.
  • the stereo audio signal in the form of the first channel L and the second channel R is fed on the one hand into a device 12 for analyzing the stereo audio signal, and on the other hand is also fed into a device 14 for modifying the first and second channels in order to produce a modified first at an output 16 To obtain channel L 'and a modified second channel R'.
  • the modified first channel L 'and the modified second channel R' at the output 16 will differ from the unmodified first channel L and from the unmodified second channel R at the input 10 in that the modified stereo audio signal present at the output 16 is less Channel separation as will have the unmodified stereo audio signal at input 10.
  • the means 12 for analyzing the stereo audio signal determines a measure of an amount of bits which is required by an encoder (not shown in FIG. 1) in order to encode the stereo audio signal using an encoding algorithm specified by the encoder.
  • the measure for the bit quantity is supplied by the device 12 for analysis via a signal path 18 to the device 14 for modification. If the measure of the bit quantity supplied via the signal path 18 exceeds a predetermined measure, the means 14 for modifying becomes effective in order to modify the first channel L and the second channel R.
  • the modification of the first and second channels is carried out in such a way that the energy of the sum of the modified stereo audio signal at the output 16 is in a predetermined ratio and preferably substantially equal to the energy of the unmodified stereo audio signal at the input 10, but the difference signal, that apart from the factor of e.g. B. 0.5 corresponds to the side channel, is attenuated in the modified stereo audio signal at the output 16 compared to the unmodified stereo audio signal at the input 10.
  • the first possibility is represented by a left arrow 15a, which in a sense represents a forward coupling, ie the device for analyzing the stereo audio signal is fed with the unmodified signal L, R.
  • the other possibility is to feed the device 12 for analysis with the modified signal L ', R'.
  • the attenuation of the side signal is slow, it is irrelevant whether the attenuation depends on the current unmodified signal or on one of the last processing blocks of the modified signal is controlled to a certain extent in terms of feedback. It is therefore irrelevant whether the stereo audio signal itself is analyzed directly or indirectly using a previously modified signal.
  • the means 12 for analyzing form both the center and the side channel of the stereo audio signal and then consider the ratio of the energies of the center and the side channel.
  • the energy ratio between the center and the side channel is preferably averaged over a certain time, which can be, for example, in the order of 10 audio frames, which corresponds to a value of 200 ms if an MPEG-2-AAC is used as the audio encoder.
  • Encoder is used, which can have a frame length of about 20 ms.
  • the MPEG-2 AAC encoder reference is made to the ISO / IEC 13818-7 standard, in which the individual function blocks of an audio encoder and an audio decoder and their interaction are described in detail.
  • the device 12 for analyzing the stereo audio signal thus operates on the basis of a direct examination of the MS coding capability of the stereo audio signal.
  • the inventive device for processing the stereo audio signal will only attenuate the side channel if the signal is no longer as good as MS coding. ability because, for example, both channels are either different in terms of energy and / or signal. According to this aspect, stereo channel separation is therefore reduced whenever maintaining the original stereo channel separation would lead to a too high output bit rate and if the stereo channel separation was high at all.
  • the attenuation of the side channel is used to reduce the output-side encoder bit rate, regardless of whether the stereo audio signal has a certain MS coding capability or not.
  • This second aspect according to the invention assumes that even in the case of a small stereo channel separation, further attenuation of the side channel can still be achieved in order not to exceed a predetermined output bit rate of the audio encoder. For this purpose, the number of bits required to encode the audio signal is estimated regardless of the MS coding capability of the audio signal.
  • the energy ratio or the difference between the logarithms of the audio signal itself and its psychoacoustic masking threshold, which is also referred to as perceptual entropy (PE). is thus provides a measure of how many bits are required to encode the audio signal. If the PE is high, many bits are required because the masking ability of the audio signal is relatively poor and must therefore be finely quantized. On the other hand, if the PE is small, relatively few bits are required, since the audio signal is masked relatively well, and therefore only a relatively rough quantization is required.
  • the measure for the amount of bits is determined as follows.
  • the PE values for the individual scale factor bands are integrated over the frequency, i. H. summed up. This is done for both the left and right channels.
  • the PE sum for the left channel is then summed up to the PE sum for the right channel.
  • This sum PE value from the left and right channel represents the bit requirement for a frame.
  • This sum channel PE value is then preferably over a certain number of frames, such as. B. 10, averaged to obtain an average PE value for the stereo audio signal. If this averaged PE value is greater than or equal to a typically empirically determined predetermined value, the means for multiplying is activated to dampen the side channel.
  • any other controlled variable can therefore be used as a measure of the amount of bits that an encoder will need, which is a measure of the "load" of the encoder, such as e.g. B. a control signal of the encoder, which signals the use of short windows when windows. Windows with short windows per se lead to a higher number of bits, since shorter windows cannot be coded as bit-saving as longer windows.
  • the damping amount of the side channel there are several options which differ here in terms of their effort.
  • the easiest way is in agreeing a predetermined damping value as the target value, which can be determined empirically, for example.
  • Another possibility, however, is to adaptively determine the damping value, ie to dampen the side channel by a predetermined increment amount, and then to see again whether the number of bits has already decreased sufficiently or not.
  • a new iteration loop with a further increment damping amount can then be entered in order to again determine whether the number of bits is already sufficiently small. This process can be repeated until the number of bits required by the encoder lies in a target corridor.
  • adaptive damping adjustment delivers the best and most accurate results.
  • the means 14 for modifying can be understood to have a first input 20a for the first channel L and a second input 20b for the second channel R.
  • the device 14 comprises a first multiplier 22a for multiplying the first channel L by a certain factor x, a second multiplier 22b for multiplying the first channel L by a factor y, a third multiplier for multiplying the second channel R by the factor x and finally a fourth multiplier 22d for multiplying the second channel R by the factor y.
  • the means 14 for modifying comprises a first summer 24a for summing the output signal of the first multiplier 22a with the output signal of the fourth multiplier 22d, and a second summer 24b for summing the output signal of the second multiplier 22b with the output signal of the third multiplier 22c.
  • the modified first channel L ' is applied to the first summer 24a
  • the modified second channel R' is applied to the output 26b of the second summer 24b.
  • Equation (6) and equation (9) result in equation (10) for x and equation (11) for y.
  • the attenuation "att" (in dB) is determined depending on one of the control variables described. Equations (9) and (10) thus result in the factors x and y for the damping matrix represented by FIG. 2, which is reflected in equations in Equations (1) and (2).
  • a completely adaptive adaptation of the attenuation att does not have to be carried out, but a certain attenuation value att, which has been determined empirically, can be used if the measure for the amount of bits exceeds a predetermined limit value.
  • the attenuation is not increased suddenly, since a reduction in the channel separation that takes place suddenly could possibly lead to an audible disturbance or to the listener being acknowledged, for example if a speaker was initially placed on the left and is suddenly noticed in the middle. Therefore, in the event that it is determined that the side channel is to be damped, a gradual attenuation of the side channel, for example using a predetermined increment value, is undertaken such that, vividly speaking, the news anchor slowly "wanders" from the left side to the center.
  • the attenuation is not abruptly canceled, but slowly returned to 0, such that, in order to remain in the example, the speaker slowly moves away from the Center to the side "wanders". This gradual damping or gradual cancellation of the damping should take place as slowly as possible so that the damping of the side channel is practically not noticed.
  • the attenuation must be reduced so quickly that, due to the high bit rate at the output, the encoder does not begin to violate the psychoacoustic masking threshold or to remove audio bandwidth.
  • this bit reservoir is therefore used in encoders which have a bit reservoir mechanism in order to slowly increase the attenuation until the target value is reached at which the attenuation is so high that the predetermined bit rate at the output of the encoder can be maintained. If the damping is then released again, the bit reservoir can be emptied again.
  • a boundary condition for determining x and y was such that the sum signal, which corresponds to the center channel up to a factor of 0.5, was not changed.
  • signals are conceivable in which the left and right channels are similar but have a phase shift in the range of 180 degrees to one another. It should be noted that such signals are not particularly common since they cannot be presented well with mono playback devices. Nevertheless, such signals are conceivable. In this case the center channel M would be small and the side channel would be large. If S were to be attenuated so much that S becomes smaller than M, the overall volume would also be greatly affected. In contrast to however, a reduction in stereo channel separation is intolerable for a listener if the volume fluctuates greatly, regardless of the audio signal itself. A listener will find such a disturbance annoying.
  • phase shift of L and R is close to 180 degrees. If this is determined, the sign of R can simply be reversed. The originally desired spatial stereo effect is then lost, but the effect of the reduced volume is avoided, which will disturb a listener less.
  • the M-channel could also be amplified to a certain value in the device for modifying or in a downstream encoder stage such that the energy of the modified M-channel is in a predetermined ratio to the energy of the M-channel of the unmodified stereo audio signal.
  • a value of 1 is preferred for the energy ratio, although a certain amplification or attenuation can also be carried out by the modifier device, but the ratio to the unmodified stereo audio signal should always be essentially maintained so that a listener does not experience any significant volume fluctuations due to the preprocessing will perceive.
  • small volume fluctuations are not as problematic and sometimes even imperceptible. Large volume fluctuations will be annoying for a test listener.
  • time-discrete sample values are present at input 10 of the device according to the invention for processing a stereo audio signal, or whether spectral values are present. All operations for analyzing the stereo audio signal can be carried out both with discrete-time samples and with spectral values. In addition, all operational tion in the device for modifying both discrete-time samples and spectral values.
  • the device according to the invention for processing a stereo audio signal could thus also be arranged after the time-frequency transformation stage of a time / frequency transformation-based encoder, such as, for. B. an MPEG audio encoder.
  • the stereo preprocessing can be carried out in a frequency-selective manner, that is to say, for example, that a different attenuation of the signal S can be carried out depending on the frequency.
  • This is particularly useful since the ability to locate the human ear is not equally sensitive to all frequencies. If the processing according to the invention is thus carried out spectrally, the spectral values of the side channel can be attenuated the more the less the human ear hears directionally in this frequency range, while spectral values that are in the frequency ranges in which the human hearing provides good directional tracking.
  • M / S mask where M / S coding is to be carried out and where L / R coding is better.
  • processing according to the invention would only be applied to the frequency ranges in which MS coding is present, i. H. in which the MS mask is set.
  • the MS mask could also be set in more bands, i. H. MS coding can be carried out, the side channel being attenuated in these additional MS bands compared to the known method in order to comply with bit rate requirements.
  • FIG. 3 a device for processing a stereo audio signal is shown which, in addition to the radio signals shown in FIG. tion blocks also includes an MS encoder 30 and a scalable encoder 32 which outputs a scaled bit stream BS on the output side.
  • the MS encoder 30 comprises a subtractor 30c and a further multiplier 30d in order to generate the modified side channel S ′, which is attenuated with respect to a side signal which is formed from the unmodified stereo audio signal at the input 10.
  • the center channel M 'and the side channel S' are both fed into the scalable encoder 32, which preferably has a mono-stereo scalability.
  • the first scaling layer will represent the mono signal M 'and the second scaling layer will comprise the modified side channel S'.
  • Other scaling options such as B. that the modified or unmodified mono channel M 'is additionally band-limited, and that the upper mono band is also included in the second scaling layer in addition to the modified side channel.
  • the scalability effect in the mono-stereo encoder 32 is particularly favorable if an LR coding is used instead of an MS coding.
  • the stereo signal processing according to the invention by the devices 12 and 14 is therefore particularly advantageous particularly in connection with the scalable encoder 32.
  • MS coding can also be used if it is actually no longer preferable to LR coding. This is achieved in that the side channel at the input of the scalable encoder 32 is damped compared to the unmodified case.
  • FIG. 3 is a dashed signal path 36 from scalable encoder 32 for device 12 for analysis.
  • This dashed signal path 36 is intended to symbolize that certain measures to derive a measure of the amount of bits that the scalable encoder will need to encode the stereo audio signal at the input 10 do not have to be calculated directly in the device 12, but from the device scalable encoder can be output into the device 12, such as.
  • the means for modifying 14 in order to determine the measure 18 for the bit quantity would initially not carry out any modification.
  • the device shown in FIG. 3 would then be, so to speak, in a "pre-run mode" where no bit stream is written, but where only the required degree of attenuation for the side channel is determined.
  • the means 14 for modifying will work with correspondingly defined factors x, y.
  • the stage of the scalable encoder 32 which is the time frequency -Transformation performs, upstream of the input 10.
  • the devices 12, 14 and 30 would then be embedded in the scalable encoder 32.
  • the signal paths 36a, 36b illustrate that the modified channels can also be routed to the scalable encoder without M / S coding, so that the latter can then determine whether M / S or L / R coding is cheaper.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

In a device for processing a stereo audio signal having a first channel and a second channel the stereo signal is at first analyzed to obtain a measure for a quantity of bits required by a coder to code the stereo audio signal using a coding algorithm. The first channel and the second channel are then modified when the measure for the quantity of bits is larger than a predetermined value, the modification being performed in such a way that the energy of a sum signal of the first and the second modified channel is in a predetermined relation to the energy of a sum signal of the first and the second channel and that a difference signal of the first and the second modified channel is attenuated in contrast to the difference signal of the first and the second channel. Especially for audio coders requiring a constant output bit rate the side channel is attenuated in the case of stereo audio signals, the coding of which cannot meet the output bit rate of the coder, by which a stereo channel separation is abandoned for the benefit of an increased audio bandwidth or a reduction of quantizing disturbances, respectively.

Description

Verfahren und Vorrichtung zum Verarbeiten eines Method and device for processing a
StereoaudiosignalsStereo audio signal
Beschreibungdescription
Die vorliegende Erfindung bezieht sich allgemein auf die Codierung von Audiosignalen und insbesondere auf eine Verarbeitung von Stereosignalen.The present invention relates generally to the encoding of audio signals, and more particularly to processing of stereo signals.
Ein Stereosignal umfaßt zumindest zwei Kanäle, d. h. einen linken Kanal und einen rechten Kanal . Darüber hinaus können Stereosignale noch einen linken und rechten Surround-Kanal haben. Außerdem besteht die Möglichkeit, daß ein Stereosignal fünf verschiedene Kanäle hat, d. h. einen vorderen linken Kanal, einen vorderen Mitte-Kanal und einen vorderen rechten Kanal sowie einen linken hinteren und einen hinteren rechten Kanal .A stereo signal comprises at least two channels, i.e. H. a left channel and a right channel. In addition, stereo signals can still have a left and right surround channel. There is also the possibility that a stereo signal has five different channels, i. H. a front left channel, a front center channel and a front right channel, and a left rear and a rear right channel.
Für eine datenreduzierende Codierung von Stereosignalen besteht die Möglichkeit, daß Ähnlichkeiten von zumindest zwei Kanälen ausgenutzt werden, um die Menge an Bits zu reduzieren, die benötigt wird, um ein Stereosignal mit mindestens zwei Kanälen zu codieren.For data-reducing coding of stereo signals, there is the possibility that similarities of at least two channels can be exploited in order to reduce the amount of bits that are required to code a stereo signal with at least two channels.
Ein bekanntes Verfahren zum Verarbeiten von Stereosignalen, um eine effizientere Codierung zu erreichen, wird als Mitte/Seite-Verfahren (M/S-Verfahren) bezeichnet. Beim M/S-Ver- fahren werden der erste und der zweite Kanal miteinander kombiniert, um einen Mitte-Kanal und einen Seite-Kanal zu erzeugen. Aus Übersichtlichkeitsgründen wird im nachfolgenden nicht mehr von einem ersten und einem zweiten Kanal, sondern von einem linken Kanal (L-Kanal) und von einem rechten Kanal (R-Kanal) gesprochen. Es ist bekannt, daß der Mitte-Kanal gleich der Summe aus linkem Kanal L und rechtem Kanal R, multipliziert mit einem Faktor von 0,5, ist, während der Seite-Kanal die Differenz zwischen dem linken Kanal L und dem rechten Kanal R ist, multipliziert mit einem Faktor von z. B. 0,5 (andere Faktoren sind ebenfalls möglich). Gleichungsmäßig ausgedrückt bedeutet dies :A known method for processing stereo signals in order to achieve more efficient coding is referred to as the center / side method (M / S method). In the M / S process, the first and second channels are combined to create a center channel and a side channel. For reasons of clarity, the following will no longer speak of a first and a second channel, but of a left channel (L channel) and a right channel (R channel). It is known that the center channel is equal to the sum of the left channel L and the right channel R multiplied by a factor of 0.5, while the side channel is the difference between the left channel L and the right channel R. , multiplied by a factor from Z. B. 0.5 (other factors are also possible). Expressed equally, this means:
M = 0,5 • (L + R) S = 0,5 • ( - R)M = 0.5 • (L + R) S = 0.5 • (- R)
Wenn der linke Kanal L und der rechte Kanal R relativ ähnlich zueinander sind, so bringt eine M/S-Verarbeitung eine deutliche Einsparung der zum Codieren benötigten Bitmenge, da der Seite-Kanal relativ weniger Energie als R oder L haben wird. Im Grenzfall, bei dem der linke Kanal L und der rechte Kanal R identisch sind, wird der Mitte-Kanal gleich dem linken Kanal L oder gleich dem rechten Kanal R sein, während der Seite-Kanal 0 ist. Es ist zu sehen, daß somit aufgrund der Tatsache, daß der Seite-Kanal 0 ist, eine theoretisch maximale Bitrateneinsparung beim Codieren von 50% erreicht wird, da nur der Mitte-Kanal codiert werden muß, während für den Seite-Kanal keinerlei Bits aufgewendet werden müssen.If the left channel L and the right channel R are relatively similar to one another, M / S processing brings a significant saving in the amount of bits required for coding, since the side channel will have relatively less energy than R or L. In the borderline case, where the left channel L and the right channel R are identical, the center channel will be the same as the left channel L or the right channel R, while the side channel is 0. It can be seen that, due to the fact that the side channel is 0, a theoretically maximum bit rate saving of 50% is achieved when coding, since only the middle channel has to be coded, while no bits are used for the side channel Need to become.
Es besteht somit die allgemeine Regel, daß je ähnlicher sich der rechte und der linke Kanal sind, desto kleiner, d. h. energieärmer, wird der Seite-Kanal sein, und umso weniger Bits werden zur Codierung des Seite-Kanals benötigt.There is thus a general rule that the more similar the right and left channels are, the smaller, i. H. the side channel will be less energy intensive, and the fewer bits will be needed to encode the side channel.
Ein Hörer wird die Ähnlichkeit von linkem und rechtem Kanal dadurch wahrnehmen, daß, im Falle von identischen Kanälen, ein Sprecher oder ein Orchester genau in der Mitte zwischen den beiden Lautsprechern wahrgenommen wird. Andererseits wird ein Hörer unähnliche Kanäle dadurch wahrnehmen, daß er einen ausgeprägten Stereo-Effekt hat, d. h. daß ein Sprecher, ein Orchester bzw. einzelne Instrumente eines Orchesters genau links und/oder genau rechts lokalisiert werden können. Wird der Fall betrachtet, daß der linke Kanal viel Energie hat, und daß der rechte Kanal nur wenig Energie hat, d. h. der Fall, bei dem z. B. nur ein einziges Instrument ganz links im Aufzeichnungsraum angeordnet ist, und nur im linken Kanal hörbar ist, während auf dem rechten Kanal le- diglich Rauschen ist, so wird der Mitte-Kanal nach einer M/S-Verarbeitung etwa gleich dem linken Kanal sein. Darü- berhinaus wird auch der Seite-Kanal etwa gleich dem linken Kanal sein. In diesem Fall haben somit sowohl der Mitte- Kanal als auch der Seite-Kanal nahezu gleich viel Energie und müssen beide mit einer relativ großen Anzahl von Bits codiert werden. Im Vergleich zum ursprünglichen Fall hat sich bei dieser Signalkonstellation die zur Codierung erforderliche Bitmenge aufgrund der M/S-Codierung nicht verkleinert, sondern im Grenzfall sogar verdoppelt, wenn davon ausgegangen wird, daß der linke Kanal L eine bestimmte Energiemenge umfaßt, während der rechte Kanal R 0 ist. Hier wäre es wesentlich günstiger gewesen, keine M/S-Verarbeitung durchzuführen, sondern lediglich eine L/R-Verarbeitung. Die Auswirkungen auf die Anzahl von Bits, die benötigt werden, um ein Stereosignal zu codieren, reichen somit in einem Extremfall von einer Einsparung von 50% bis zum anderen Extremfall, der eine Verdoppelung der zum Codieren benötigten Bits zur Folge hat. Es muß daher beim Einsatz eines M/S-Verfahrens genau darauf geachtet werden, ob das Stück für eine M/S-Verarbeitung geeignet ist oder nicht. In dem Fall, in dem ein Stereosignal (z. B. ein Testausschnitt von 20 ms, der auch als Frame bezeichnet wird) nicht für eine M/S-Verarbeitung geeignet ist, wird aus Biteffizienzgründen auf die M/S-Verarbeitung verzichtet, und es werden sowohl der linke als auch der rechte Kanal für sich gesehen codiert. Dieser "normale" Fall wird auch als L/R-Verarbeitung bezeichnet.A listener will perceive the similarity of the left and right channels by perceiving, in the case of identical channels, a speaker or an orchestra exactly in the middle between the two speakers. On the other hand, a listener will perceive dissimilar channels in that he has a pronounced stereo effect, ie that a speaker, an orchestra or individual instruments of an orchestra can be located exactly to the left and / or right. Consider the case that the left channel has a lot of energy and that the right channel has little energy, that is, the case where z. B. only a single instrument is arranged on the far left in the recording room, and is only audible in the left channel, while on the right channel reads If there is noise, the center channel will be approximately the same as the left channel after M / S processing. In addition, the side channel will also be approximately the same as the left channel. In this case, both the center channel and the side channel have almost the same amount of energy and both have to be encoded with a relatively large number of bits. Compared to the original case, the amount of bits required for coding did not decrease due to the M / S coding in this signal constellation, but even doubled in the limit case if it is assumed that the left channel L comprises a certain amount of energy, while the right channel R is 0. Here it would have been much cheaper not to perform M / S processing, but only L / R processing. The effects on the number of bits required to encode a stereo signal thus range in one extreme case from a saving of 50% to the other extreme case, which results in a doubling of the bits required for encoding. When using an M / S process, care must therefore be taken to determine whether the piece is suitable for M / S processing or not. In the case in which a stereo signal (e.g. a test section of 20 ms, which is also referred to as a frame) is not suitable for M / S processing, M / S processing is omitted for reasons of bit efficiency, and Both the left and the right channel are coded individually. This "normal" case is also called L / R processing.
Übliche Audiocodierverfahren, wie sie beispielsweise verwendet werden, um Audiosignale zu codieren, die gemäß einem der MPEG-Standards decodiert werden, gliedern sich generell in mehrere Schritte. Zunächst wird ein Audiosignal, das beispielsweise in Form von PCM-Abtastwerten vorliegt, wie sie z. B. ein CD-Player ausgibt, mittels einer Zeit-Frequenz- Transformation oder einer Filterbahk in eine spektrale Darstellung überführt. Typischerweise wird ein Block mit einer bestimmten Anzahl von Abtastwerten, der auch als "Frame" bezeichnet wird, verwendet, um einen Block von komplexen Spektralwerten zu erzeugen, die ein KurzzeitSpektrum des Frames von Audioabtastwerten ("Samples") bilden. Die Blockbildung wird unter Verwendung von Transformationsfenstern erreicht, welche beispielsweise 1024 Abtastwerte lang sind. Wenn beispielsweise überlappende Fenster zur Transformation verwendet werden, deren Überlappungsgrad 50% beträgt, werden aus 1024 Abtastwerten 1024 Spektralwerte gebildet. Diese Spektralwerte werden anschließend mittels eines bekannten Iterationsprozesses quantisiert, wonach die quantisierten Spektralwerte einer Entropie-Codierung z. B. unter Verwendung einer Mehrzahl von festgelegten Huffmann-Codetabellen unterzogen werden, um schließlich einen Bitstrom zu erhalten, der einerseits die codierten quantisierten Spektralwerte enthält und der andererseits auch Seiteninformationen aufweist, die sich auf die Fenster, auf Skalenfaktoren, die beim Quantisieren berechnet werden sowie auf weitere Informationen beziehen, die zum Decodieren des Bitstroms benötigt werden.Common audio coding methods, such as those used to code audio signals that are decoded according to one of the MPEG standards, are generally divided into several steps. First, an audio signal, for example in the form of PCM samples, as z. B. outputs a CD player, converted into a spectral representation by means of a time-frequency transformation or a filter bank. Typically, a block with a certain number of samples, also called a "frame" is used to generate a block of complex spectral values that form a short-term spectrum of the frame of audio samples ("samples"). Block formation is achieved using transformation windows which are, for example, 1024 samples long. If, for example, overlapping windows are used for the transformation, the degree of overlap of which is 50%, 1024 spectral values are formed from 1024 samples. These spectral values are then quantized by means of a known iteration process, after which the quantized spectral values of an entropy coding z. B. using a plurality of fixed Huffmann code tables, in order to finally obtain a bit stream which on the one hand contains the coded quantized spectral values and on the other hand also has side information relating to the windows, to scale factors which are calculated during quantization, and refer to other information needed to decode the bit stream.
Eine Mitte/Seite-Verarbeitung kann entweder vor der Transformation in den Spektralbereich durchgeführt werden, d. h. unter Verwendung der digitalen zeitdiskreten Abtastwerte. Alternativ kann eine Mitte/Seite-Verarbeitung jedoch auch nach der Transformation, d. h. mit den komplexen Spektral- werten durchgeführt werden. Die letztere Alternative bietet darüberhinaus den Vorteil, daß eine Mitte/Seite-Verarbeitung nicht, wie im Zeitbereich, für das gesamte Spektrum eingesetzt werden kann, sondern auch für bestimmte Frequenzbänder, wenn bestimmte Spektralwerte einer Mitte/Seite-Verarbeitung unterzogen werden, und andere nicht.Mid / side processing can either be done before transforming to the spectral range, i. H. using the digital time discrete samples. Alternatively, mid / side processing can also be done after the transformation, i.e. H. with the complex spectral values. The latter alternative also has the advantage that center / side processing cannot be used for the entire spectrum, as in the time domain, but also for certain frequency bands when certain spectral values are subjected to center / side processing and others cannot ,
Üblicherweise sind Audiocodierer derart ausgelegt, daß sie eine konstante Bitrate, d. h. eine bestimmte Anzahl von Bits pro Sekunde, liefern. Eine andere Randbedingung besteht darin, daß das durch das Quantisieren eingeführte Quantisierungsrauschen wenn möglich derart gewählt wird, daß seine Energie unter der psychoakustischen Maskierungsschwelle oder Mithörschwelle des Audiosignals ist. Das grundsätzliche Verfahren, um das Quantisierungsrauschen im Frequenzbereich einzustellen, besteht in der "Formung" des Rauschens unter Verwendung der Skalenfaktoren. Zu diesem Zweck wird, wie es bekannt ist, das Spektrum in mehrere Gruppen von Spektralkoeffizienten aufgeteilt, die Skalenfaktorbänder genannte werden, denen ein einziger Skalenfaktor zugeordnet ist. Ein Skalenfaktor stellt einen Multiplikationswert dar, der verwendet wird, um die Amplitude aller Spektralkoeffizienten in diesem Skalenfaktorband zu verändern. Dieser Mechanismus wird verwendet, um die Zuordnung des Quantisierungsrauschens im Spektralbereich, das durch den Quantisierer erzeugt wird, so einzustellen, daß in jedem Skalenfaktorband die Energie des Quantisierungsrauschens unter der psychoakustischen Maskierungsschwelle in diesem Skalenfaktorband ist. Es ist ersichtlich, daß weder das Quantisieren noch das Entropie- Codieren Vorgänge sind, die eine konstante Bitrate begünstigen. Es sei angemerkt, daß - ganz im Gegenteil - beide Verfahren eine variable Bitrate begünstigen. Für Übertragungsanwendungen ist es jedoch oftmals gefordert, daß der Codierer eine konstante Bitrate am Ausgang hat . Um eine konstante Bitrate zu liefern, wird üblicherweise ein sogenanntes Bitreservoir eingesetzt. Wenn das Audiosignal derart beschaffen ist, daß kurzzeitig weniger Bits als durch die äußere Bitrate am Ausgangs des Codierers vorgegeben benötigt werden, so werden Bits dem Bitreservoir zugeordnet, um im Falle eines Audiosignalabschnitts, der mehr Bits zur Codierung benötigt, auch mehr Bits geben zu können, wodurch das Bitreservoir wieder geleert wird.Audio coders are usually designed in such a way that they deliver a constant bit rate, ie a certain number of bits per second. Another constraint is that the quantization noise introduced by the quantization is, if possible, chosen such that its energy is below the psychoacoustic masking threshold or Monitoring threshold of the audio signal is. The basic method to adjust the quantization noise in the frequency domain is to "shape" the noise using the scale factors. For this purpose, as is known, the spectrum is divided into several groups of spectral coefficients called scale factor bands, to which a single scale factor is assigned. A scale factor represents a multiplication value that is used to change the amplitude of all spectral coefficients in this scale factor band. This mechanism is used to adjust the spectral quantization noise mapping generated by the quantizer so that in each scale factor band the quantization noise energy is below the psychoacoustic masking threshold in that scale factor band. It can be seen that neither quantization nor entropy coding are processes that favor a constant bit rate. It should be noted that - on the contrary - both methods favor a variable bit rate. For transmission applications, however, it is often required that the encoder have a constant bit rate at the output. In order to provide a constant bit rate, a so-called bit reservoir is usually used. If the audio signal is such that briefly fewer bits are required than specified by the external bit rate at the output of the encoder, bits are assigned to the bit reservoir in order to be able to give more bits in the case of an audio signal section which requires more bits for coding , which empties the bit reservoir again.
Es sei darauf hingewiesen, daß eine Randbedingung eines solchen Codierers wie erwähnt die konstante Ausgangsbitrate ist, und daß die andere Randbedingung darin besteht, daß das Quantisierungsrauschen kleiner oder gleich der psychoakustischen Maskierungsschwelle ist, damit es durch das Audiosignal maskiert oder verdeckt wird.It should be noted that, as mentioned, one constraint of such an encoder is the constant output bit rate and the other constraint is that the quantization noise is less than or equal to the psychoacoustic masking threshold in order to be masked or masked by the audio signal.
Im nachfolgenden wird auf Möglichkeiten eingegangen, was zu unternehmen ist, wenn die "innere Bitrate" des Codierers von der äußeren konstanten Ausgangsbitrate abweicht. Ist die innere Bitrate derart niedrig, daß beispielsweise das Bitreservoir auf seinen maximalen Wert aufgefüllt ist, so existiert selbstverständlich kein Problem, da der Quantisierer dann derart gesteuert werden kann, daß er nun noch feiner als nötig quantisiert, wodurch mehr Bits zum Quantisieren benötigt werden. Dies wird so lange durchgeführt, bis die "äußere" konstante Bitrate erreicht ist.In the following, possibilities are discussed, what about action is taken if the "inner bit rate" of the encoder deviates from the outer constant output bit rate. If the internal bit rate is so low that, for example, the bit reservoir is filled to its maximum value, there is of course no problem, since the quantizer can then be controlled in such a way that it now quantizes even more finely than necessary, which means that more bits are required for quantization. This is carried out until the "outer" constant bit rate is reached.
Kritischer ist jedoch der Fall, bei dem die "innere Bitrate" des Codierers höher ist als die ausgangsseitig geforderte konstante Bitrate. Dieser Fall wird auftreten, wenn das Audiosignal schwer zu codieren ist, d. h. wenn der Codierer viele Bits aufwenden muß, um das Audiosignal zu codieren, was auch anschaulich als "hohe Last" des Codierers bezeichnet werden kann. Für die Transformationscodierung besteht der Merksatz, daß sie tonale Stücke relativ effizient codiert werden kann, daß jedoch rauschhafte Signale, die relativ hohe Energien haben, und die darüberhinaus ein relativ kompliziertes Spektrum haben, wie beispielsweise Sprache oder Schlagzeug- bzw. Trommelmusik, relativ wenig komprimiert werden können. Auch Signale, die transient sind, d. h. die ein unregelmäßiges Zeitverhalten haben, können nur relativ aufwendig codiert werden, wenn keine Codierungsartefakte erzeugt werden sollen. Im Fall von transienten Signalen wird bereits bei der Fensterung von langen Fenstern auf kürzere Fenster umgeschaltet, um eine bessere zeitliche Auflösung zu erreichen, bzw. um zu erreichen, daß sich das Quantisierungsrauschen nur über eine kleinere Anzahl von Audioabtast- werten "verschmiert" . Im Falle von kurzen Fenstern fallen wesentlich mehr Seiteninformationen an.However, the case in which the "inner bit rate" of the encoder is higher than the constant bit rate required on the output side is more critical. This case will occur when the audio signal is difficult to encode, i. H. when the encoder has to spend many bits to encode the audio signal, which can also be descriptively referred to as the "high load" of the encoder. The transformation encoding is characterized by the fact that it can encode tonal pieces relatively efficiently, but that noisy signals which have relatively high energies and which also have a relatively complicated spectrum, such as speech or drum or drum music, are compressed relatively little can be. Also signals that are transient, i. H. which have an irregular time behavior can only be coded with relatively great effort if no coding artifacts are to be generated. In the case of transient signals, a switch is made from long windows to shorter windows during the windowing in order to achieve a better temporal resolution or to ensure that the quantization noise is “smeared” only over a smaller number of audio samples. In the case of short windows, significantly more page information is generated.
Ein Codierer, der feststellt, daß die Ausgangsbitrate nicht reicht, und der auch schon das Bitreservoir "leergefahren" hat, hat nun mehrere Möglichkeiten, um seine innere Bitrate "gewaltsam" zu reduzieren, um das Kriterium der konstanten Ausgangsbitrate zu erfüllen. Eine Möglichkeit besteht darin, auf die Umschaltung zu kurzen Fenstern zu verzichten. Dies führt jedoch zu hörbaren Codierartefakten.An encoder that determines that the output bit rate is not sufficient and that has already "run dry" the bit reservoir now has several options for "violently" reducing its internal bit rate to meet the criterion of the constant output bit rate. One way is to avoid switching to short windows. However, this leads to audible coding artifacts.
Eine weitere Möglichkeit besteht darin, die psychoakustische Maskierungsschwelle bei der Quantisierung bewußt zu verletzen, um gröber als eigentlich erforderlich zu quantisieren, um eine niedrigere Bitrate zu erreichen. Auch dies führt zu hörbaren Störungen.Another possibility is to deliberately violate the psychoacoustic masking threshold during quantization in order to quantize more coarsely than is actually necessary in order to achieve a lower bit rate. This also leads to audible interference.
Eine weitere Möglichkeit besteht darin, die Audiobandbreite zu verringern, d. h. nicht mehr die volle Audiobandbreite zu codieren sondern ab einer bestimmten von der Ausgangsbitrate abhängigen Grenzfrequenz die darüberliegenden Spektralwerte zu 0 zu setzen, um somit die Ausgangsbitrate zu reduzieren. Dieses Verfahren führt nicht zu hörbaren QuantisierungsStörungen, führt jedoch zu einem Verlust an Höhen im Audiosignal. Oftmals wird dieser Verlust jedoch weniger stark wahrgenommen als ein hörbares Quantisierungsrauschen.Another possibility is to reduce the audio bandwidth, i. H. no longer to encode the full audio bandwidth, but to set the overlying spectral values to 0 from a certain cutoff frequency dependent on the output bit rate, in order to reduce the output bit rate. This method does not cause audible quantization disturbances, but leads to a loss of highs in the audio signal. However, this loss is often perceived less strongly than an audible quantization noise.
Ein besonderes Problem bei der Codierung von Stereosignalen besteht in dem als "Stereo Unmasking" bezeichneten Effekt, der nachfolgend kurz dargelegt wird. Wird eine normale L/R- Codierung eingesetzt, so wird sowohl der linke Kanal als auch der rechte Kanal für sich transformiert, quantisiert und codiert, so daß das im linken Kanal und rechten Kanal zur Datenreduzierung eingeführte Quantisierungsrauschen unabhängig vom jeweils anderen Kanal sind. Das heißt, daß das Quantisierungsrauschen im linken Kanal und das Quantisierungsrauschen im rechten Kanal nicht korreliert sind. Wird der Fall betrachtet, daß sich linker und rechter Kanal relativ ähnlich sind, so bedeutet dies, daß ein Hörer nach einer Decodierung dieses Signal so wahrnehmen wird, daß beispielsweise ein Sprecher in der Mitte ist. Der "Stereo- Unmasking" -Effekt besteht nun darin, daß aufgrund der Tatsache, daß das Quantisierungsrauschen in den beiden Kanälen nicht korreliert ist, das Quantisierungsrauschen des linken Kanals links und das Quantisierungsrauschen des rechten Kanals rechts wahrgenommen wird. Eine hohe Verdeckung des Rau- schens findet aber lediglich in der Mitte statt, wo auch das Nutzsignal ist, jedoch nicht links und rechts.A particular problem with the coding of stereo signals is the effect called "stereo unmasking", which is briefly explained below. If normal L / R coding is used, both the left channel and the right channel are transformed, quantized and encoded for themselves, so that the quantization noise introduced in the left channel and right channel for data reduction is independent of the other channel. That is, the quantization noise in the left channel and the quantization noise in the right channel are not correlated. If the case is considered that the left and right channels are relatively similar, this means that after decoding a listener will perceive this signal so that, for example, a speaker is in the middle. The "stereo unmasking" effect now consists in the fact that due to the fact that the quantization noise in the two channels is not correlated, the quantization noise of the left channel on the left and the quantization noise of the right channel on the right is perceived. A high concealment of the rough However, schens only takes place in the middle, where the useful signal is, but not left and right.
Die M/S-Codierung hat daher neben ihrer Datenraten-reduzierenden Wirkung bei speziellen Signalen auch den Vorteil, daß das Quantisierungsrauschen sowohl im linken Kanal als auch im rechten Kanal mit dem Quantisierungsrauschen des jeweils anderen Kanals korreliert wird, so daß auch das Quantisierungsrauschen in der Mitte stattfindet und dort von dem Nutzsignal im wesentlichen vollständig bzw. wesentlich besser als im unkorrelierten Fall verdeckt wird. Anders ist der Fall, bei dem der linke und der rechte Kanal relativ unähnlich sind. Wenn hier M/S-Codierung eingesetzt wird, so wird aufgrund des Stereoeffekts das Nutzsignal entweder links oder rechts sein, während aufgrund der M/S-Codierung das Quantisierungsrauschen korreliert ist und eher in der Mitte liegt. Auch hier findet sozusagen ein Stereo-Unmasking statt.In addition to its data rate reducing effect on special signals, M / S coding also has the advantage that the quantization noise in both the left and right channels is correlated with the quantization noise of the other channel, so that the quantization noise in the Center takes place and is covered there completely or substantially better by the useful signal than in the uncorrelated case. The situation is different in which the left and right channels are relatively dissimilar. If M / S coding is used here, the useful signal will be either left or right due to the stereo effect, while due to the M / S coding the quantization noise is correlated and lies more in the middle. Stereo unmasking also takes place here, so to speak.
In jüngster Zeit werden immer mehr skalierbare Audiocodierer untersucht. Skalierbare Audiocodierer sind derart angeordnet, daß ihr ausgangsseitiger Bitstrom zumindest eine erste und eine zweite Skalierungsschicht aufweist. Ein Decodierer, der einfach ausgelegt ist, wird aus dem skalierten Bitstrom lediglich die erste Skalierungsschicht entnehmen, die beispielsweise ein codiertes Audiosignal mit reduzierter Bandbreite aufweist bzw. ein mit einem einfachen Codieralgorithmus codiertes Audiosignal ist. Ein anderer Decodierer, der voll ausgelegt ist, wird sowohl die erste Skalierungsschicht als auch die zweite Skalierungsschicht aus dem Bitstrom nehmen, um die erste Skalierungsschicht mit einem ersten Decodierer zu decodieren, und um dann die zweite Skalierungs- schicht ebenfalls zu decodieren, die alleine oder zusammen mit der decodierten ersten Skalierungsschicht ein Audiosignal mit voller Bandbreite liefert.Recently, more and more scalable audio encoders have been investigated. Scalable audio coders are arranged such that their bit stream on the output side has at least a first and a second scaling layer. A decoder, which is of simple design, will only take the first scaling layer from the scaled bit stream, which for example has an encoded audio signal with reduced bandwidth or is an audio signal encoded with a simple encoding algorithm. Another decoder, fully designed, will take both the first scaling layer and the second scaling layer from the bitstream to decode the first scaling layer with a first decoder, and then to decode the second scaling layer either alone or together with the decoded first scaling layer provides a full bandwidth audio signal.
Skalierbare Codierer sind besonders im Bereich der Stereosignale erwünscht, da hier als erste Skalierungsschicht ein Mono-Signal, d. h. der Mitte-Kanal, verwendet werden kann, während als zweite Skalierungsschicht z. B. der Seite-Kanal genommen werden kann. Ein einfacher Decodierer bzw. ein Decodierer, der auf schnellen Betrieb ausgelegt ist, wird lediglich das Mono-Signal liefern, während ein besserer Decodierer bzw. ein Decodierer, bei dem die Schnelligkeit der Übertragung nicht das entscheidenste Kriterium ist, neben der Mono- bzw. Mitte-Schicht auch die Seite-Schicht nehmen wird, um ein volles Stereosignal am Ausgang des Decodierers zu erzeugen.Scalable encoders are particularly desirable in the field of stereo signals, since here a first scaling layer Mono signal, ie the middle channel, can be used, while z. B. the side channel can be taken. A simple decoder or a decoder, which is designed for fast operation, will only deliver the mono signal, while a better decoder or a decoder, in which the speed of the transmission is not the most decisive criterion, in addition to the mono or The middle layer will also take the side layer to produce a full stereo signal at the decoder output.
Für den Aufbau der Skalierungsschichten existieren verschiedene Möglichkeiten. Die erste Skalierungsschicht kann sich von der zweiten Skalierungsschicht bzw. von einer beliebigen Anzahl weiterer Skalierungsschichten im Audiocodierverfahren selbst, in der Audiobandbreite, in der Audioqualität, bezüglich Mono/Stereo und oder einer Kombination der genannten Qualitätskriterien bzw. weiterer denkbarer Kriterien unterscheiden. Für eine hohe Codiereffizienz wird es angestrebt, daß die zweite Skalierungsschicht eine möglichst kleine Anzahl an Bits aufweist, bzw. daß ein Decodierer, der die zweite Skalierungsschicht decodiert, möglichst umfassend auch die erste Skalierungsschicht verwendet. Wenn ein skalierbarer Codierer für Stereosignale betrachtet wird, der als erste Skalierungsschicht das Mitte-Signal, d. h. das Mono-Signal liefert, und der als zweite Schicht den Seite- Kanal liefert, so ist zu sehen, daß seine Gesamteffizienz umso besser ist, je öfter die M/S-Codierung eingesetzt wird. Diese Forderung steht jedoch bei bestimmten Stereosignalen im Widerspruch zur Biteffizienz, nämlich bei Stereosignalen, die eine hohe Stereokanaltrennung haben. Andererseits liefert die M/S-Verarbeitung eine gewisse "natürliche" Skalierbarkeit und führt zu einer Korrelation des Quantisierungs- rauschen im linken Kanal und im rechten Kanal.There are various options for the construction of the scaling layers. The first scaling layer can differ from the second scaling layer or from any number of further scaling layers in the audio coding method itself, in the audio bandwidth, in the audio quality, with respect to mono / stereo and or a combination of the quality criteria mentioned or other conceivable criteria. For high coding efficiency, the aim is for the second scaling layer to have the smallest possible number of bits, or for a decoder which decodes the second scaling layer to also use the first scaling layer as extensively as possible. If a scalable encoder for stereo signals is considered, which as the first scaling layer the center signal, i. H. provides the mono signal, and which supplies the side channel as a second layer, it can be seen that the more often the M / S coding is used, the better its overall efficiency. However, this requirement conflicts with bit efficiency for certain stereo signals, namely for stereo signals that have a high stereo channel separation. On the other hand, M / S processing provides a certain "natural" scalability and leads to a correlation of the quantization noise in the left channel and in the right channel.
Die genannten Probleme bezüglich der M/S-Codierung gelten umso mehr, je mehr ein zu codierendes Audiosignal seine Eigenschaften bezüglich der M/S-Codierung plötzlich ändert. Hat ein zu codierendes Audiosignal auf einmal nicht mehr die Eigenschaft, daß der linke Kanal ähnlich dem rechten ist, fällt der M/S-Codierungsgewinn weg. Eine Folge wird daher in der Regel eine Zunahme der QuantisierungsStörung womöglich über die psychoakustische Hörschwelle hinaus und/oder eine Reduktion der Audiobandbreite je nach konkreter Implementierung des Codierers sein.The problems mentioned with regard to M / S coding apply all the more the more an audio signal to be coded suddenly changes its properties with regard to M / S coding. If an audio signal to be encoded suddenly no longer has the property that the left channel is similar to the right one, the M / S coding gain is eliminated. One consequence will therefore usually be an increase in the quantization disturbance possibly beyond the psychoacoustic hearing threshold and / or a reduction in the audio bandwidth depending on the specific implementation of the encoder.
Dieses Problem macht sich besonders stark, aber nicht nur, bei der skalierbaren Audiocodierung bemerkbar, und insbesondere dort, wo die sogenannte Mono-Stereo-Skalierbarkeit benutzt wird, wie es oben ausgeführt worden ist.This problem is particularly noticeable, but not only, in scalable audio coding, and particularly where the so-called mono-stereo scalability is used, as was explained above.
Die Aufgabe der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein Verfahren zum Verarbeiten eines Stereo- audiosignals zu schaffen, das zu weniger hörbaren Störungen führt.The object of the present invention is to provide an apparatus and a method for processing a stereo audio signal which leads to less audible interference.
Diese Aufgabe wird durch eine Vorrichtung zum Verarbeiten eines Stereoaudiosignals nach Patentanspruch 1 sowie durch ein Verfahren zum Verarbeiten eines Stereoaudiosignals nach Patentanspruch 18 gelöst.This object is achieved by a device for processing a stereo audio signal according to claim 1 and by a method for processing a stereo audio signal according to claim 18.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß es bei Stereoaudiosignalen oftmals günstiger ist, auf eine hohe Stereokanaltrennung zu verzichten, um eine höhere Audiobandbreite und/oder geringere hörbare Störung im Vergleich zu dem Fall zu erreichen, bei dem die Stereokanal- trennung beibehalten wird, während die Audiobandbreite reduziert wird, oder durch das Quantisieren eingeführte Störungen hörbar werden.The present invention is based on the finding that it is often cheaper for stereo audio signals to dispense with high stereo channel separation in order to achieve a higher audio bandwidth and / or less audible interference in comparison with the case in which the stereo channel separation is maintained, while the audio bandwidth is reduced, or noise introduced by quantization becomes audible.
Erfahrungsgemäß wird ein Hörer hörbare QuantisierungsStörungen eher als unangenehm empfinden, als eine geringere Stereokanaltrennung. Hörbare Quantisierungsstörungen sind generell ein Fremdkörper in einem Audiosignal, während ein Hörer eines erfindungsgemäß verarbeiteten Stereosignals nicht unbedingt weiß, wie die Stereokanaltrennung des Ausgangssignals war und somit eine geringere Stereokanaltrennung nicht als Codierartefakt empfinden wird.Experience has shown that a listener will find audible quantization disturbances to be more uncomfortable than less stereo channel separation. Audible quantization disturbances are generally a foreign body in an audio signal, while a listener of a stereo signal processed according to the invention does not necessarily know how the stereo channel separation of the Output signal was and thus a lower stereo channel separation will not be perceived as coding artifact.
Eine Verringerung der Stereokanaltrennung wird somit eingesetzt, um die ausgangsseitige Bitrate des Codierers generell zu verringern, oder auf einen vorbestimmten Wert zu reduzieren.A reduction in the stereo channel separation is thus used in order to generally reduce the bit rate of the encoder on the output side or to reduce it to a predetermined value.
Eine erfindungsgemäße Vorrichtung zum Verarbeiten eines Stereosignals, das einen ersten Kanal und einen zweiten Kanal aufweist, umfaßt eine Einrichtung zum Analysieren des Stereoaudiosignals, um ein Maß für eine Menge an Bits zu erhalten, die von einem Codierer benötigt wird, um das Stereoaudiosignal unter Verwendung eines Codieralgorithmus zu codieren, und eine Einrichtung zum Modifizieren des ersten und des zweiten Kanals, um einen modifizierten ersten und einen modifizierten zweiten Kanal zu erhalten, wobei die Einrichtung zum Modifizieren auf die Einrichtung zum Analysieren anspricht, um wirksam zu sein, wenn das Maß für die Menge an Bits ein vorbestimmtes Maß überschreitet, und wobei die Einrichtung zum Modifzieren derart ausgestaltet ist, daß ein Summensignal aus dem ersten und zweiten modifizierten Kanal zumindest gemäß einer Charakteristik des Signals, die sich ähnlich zu der Energie des Signals ändert, im wesentlichen gleich der Charakteristik eines Summensignals aus dem ersten und zweiten Kanal ist, und daß ein Differenzsignal aus dem ersten und dem zweiten modifizierten Kanal gegenüber dem Differenzsignal aus dem ersten und zweiten Kanal gedämpft ist.An apparatus according to the invention for processing a stereo signal having a first channel and a second channel comprises means for analyzing the stereo audio signal in order to obtain a measure of the amount of bits required by an encoder to use the stereo audio signal Encoding algorithm and means for modifying the first and second channels to obtain modified first and modified second channels, the means for modifying being responsive to the means for analyzing to be effective if the measure of the Amount of bits exceeds a predetermined amount, and wherein the means for modifying is configured such that a sum signal from the first and second modified channels is substantially equal to the characteristic at least according to a characteristic of the signal that changes similar to the energy of the signal a sum signal s is from the first and second channels, and that a difference signal from the first and second modified channels is attenuated compared to the difference signal from the first and second channels.
Es sei darauf hingewiesen, daß die Charakteristik, die ähnlich zur Energie verläuft, die Energie selbst sein kann, aber auch z. B. die Summe von quadrierten Abtastwerten in einer bestimmten Zeitdauer, die Summe von quadrierten Spektralwerten in einem bestimmten Frequenzbereich, die Summe von Abtastwertbeträgen in einer bestimmten Zeitdauer oder die Summe von quadrierten Spektralwerten in einem bestimmten Frequenzbereich ist oder aber auch eine Kombination zwischen zwei oder mehreren der genannten Charakteristika. Aus Ein- fachheitsgründen wird im nachfolgenden jedoch beispielhaft von der Energie als Charakteristik, die ähnlich zur Energie verläuft, gesprochen.It should be noted that the characteristic, which is similar to energy, can be the energy itself, but also e.g. B. is the sum of squared samples in a certain time period, the sum of squared spectral values in a certain frequency range, the sum of sample amounts in a certain time period or the sum of squared spectral values in a certain frequency range or a combination between two or more of the above characteristics. For the sake of simplicity, however, the following is an example of energy as a characteristic that is similar to energy.
Das Modifizieren des Stereoaudiosignals, d. h. das Reduzieren der Kanaltrennung, wird unter der Voraussetzung durchgeführt, daß die Lautstärke des Signals nicht schwankt. Eine reduzierte Kanaltrennung selbst wird nicht zu störenden Artefakten im decodierten Signal führen, eine Schwankung der Lautstärke jedoch schon. Daher werden der erste und der zweite Kanal, z. B. der linke Kanal und der rechte Kanal, derart modifiziert, daß die Lautstärke, d. h. das Summensignal, gegenüber dem unmodifizierten ersten und zweiten Kanal zumindest energiemäßig und bevorzugterweise sogar signal- mäßig im wesentlichen gleich bleibt, während das Differenz- signal gedämpft ist.Modifying the stereo audio signal, i.e. H. reducing the channel separation is carried out provided that the volume of the signal does not fluctuate. A reduced channel separation itself will not lead to annoying artifacts in the decoded signal, but a fluctuation in the volume will. Therefore, the first and second channels, e.g. B. the left channel and the right channel, modified so that the volume, d. H. the sum signal, compared to the unmodified first and second channels, remains essentially the same, at least in terms of energy and preferably even in terms of signal, while the difference signal is damped.
Die erfindungsgemäße Vorverarbeitung des Stereosignals wird immer dann einsetzen, wenn festgestellt wird, daß die Menge an Bits, die benötigt wird, um das Stereoaudiosignal zu codieren, zu hoch wird. Das Maß für die Menge an Bits, die zum Codieren des Stereoaudiosignals benötigt werden, kann aus dem Stereoaudiosignal durch Analyse desselben auf verschiedene Arten und Weisen abgeleitet werden.The preprocessing of the stereo signal according to the invention will always start when it is determined that the amount of bits required to encode the stereo audio signal becomes too high. The measure of the amount of bits needed to encode the stereo audio signal can be derived from the stereo audio signal by analyzing it in various ways.
Zunächst kann der Mitte- und der Seite-Kanal des Stereoaudiosignals betrachtet werden, um aufgrund eines Energieverhältnisses bzw. einer Differenz der Logarithmen der Energien derselben festzustellen, wieviel Bits benötigt werden. Ohne die genaue Anzahl von Bits feststellen zu müssen, ist die Schlußfolgerung zulässig, daß im Falle eines kleinen Energieverhältnisses zwischen Mitte- und Seite-Kanal, d. h. im Falle von etwa gleich großen Kanälen, eine hohe Anzahl von Bits nötig sein wird. Je geringer somit das Energieverhältnis zwischen dem Mitte- und dem Seite-Kanal ist, umso mehr Dämpfung des Seite-Kanals wird notwendig sein, um eine bestimmte Ausgangsbitrate zu erreichen. Ein kleines Energie- Verhältnis zwischen dem Mitte- und dem Seite-Kanal liegt vor, wenn das ursprüngliche Audiosignal eine hohe Stereokanaltrennung hat, beispielsweise wenn der linke Kanal viel Energie hat, während der rechte Kanal im wesentlichen Rauschen hat. Ein kleines Energieverhältnis liegt jedoch auch vor, wenn im linken Kanal die Sprache eines Sprechers ist, und wenn im rechten Kanal die Sprache eines anderen Sprechers ist, was dazu führt, daß der linke Kanal und der rechte Kanal unter Umständen gleich viel Energie haben, daß jedoch beide Kanäle uhkorreliert sind. Auch in diesem Fall liegt eine hohe Stereosignaltrennung vor, und der Mitte-Kanal und der Seite-Kanal werden eine relativ geringe Differenz der Logarithmen der Energie haben.First, the center and side channels of the stereo audio signal can be viewed to determine how many bits are needed based on an energy ratio or a difference in the logarithms of the energies thereof. Without having to determine the exact number of bits, it can be concluded that in the case of a small energy ratio between the center and side channels, ie in the case of channels of approximately the same size, a large number of bits will be necessary. The lower the energy ratio between the center and the side channel, the more attenuation of the side channel will be necessary to achieve a certain output bit rate. A little energy The relationship between the center and side channels is when the original audio signal has a high stereo channel separation, for example when the left channel has a lot of energy while the right channel has essentially noise. However, there is also a small energy ratio if the language of one speaker is in the left channel and if the language of another speaker is in the right channel, which means that the left channel and the right channel may have the same amount of energy that however, both channels are uh-correlated. In this case too, there is a high stereo signal separation, and the center channel and the side channel will have a relatively small difference in the logarithms of the energy.
Eine weitere Möglichkeit zur Bestimmung des Maßes für eine Menge an Bits besteht jedoch unabhängig von der Beschaffenheit des Mitte-Kanals und des Seite-Kanals darin, den Codierer an sich zu betrachten. Ein Maß für die von einem Codierer benötigte Anzahl an Bits ist die sogenannte Percep- tual Entropy (PE) , die gleich dem Energieverhältnis zwischen dem Nutzaudiosignal und der für das Nutzaudiosignal berechneten psychoakustischen Mithörschwelle ist. Ist die PE groß, kann gefolgert werden, daß das Audiosignal eine relativ geringe Verdeckungsfähigkeit hat. Ist die PE dagegen klein, d. h. liegt die Energie des Nutzsignals nur knapp über der psychoakustischen Mithörschwelle, so muß das Nutzsignal nur relativ grob quantisiert werden, und das Quantisierungsrauschen ist immer noch unter der psychoakustischen Mithörschwelle "versteckt". Wird festgestellt, daß die Summe aus der, vorzugsweise über einer gewissen Zeit gemittelten, PE des linken Kanals und der, ebenfalls vorzugsweise über einer gewissen Zeit gemittelten, PE für den rechten Kanal über einem vorbestimmten Wert liegt, so wird erfindungsgemäß der Seite-Kanal gedämpft, um die erforderliche Anzahl von Bits zu reduzieren. Dieser alternative Aspekt der vorliegenden Erfindung befaßt sich somit nicht mit dem individuellen Aussehen des Mitte- und des Seite-Kanals, sondern mit dem Stereoaudiosignal selbst, das nicht bezüglich seiner M/S-Co- dierfähigkeit beurteilt wird, sondern seiner generellen Audiocodierfähigkeit, d. h. der Schwierigkeit, dasselbe zu codieren, um eine bestimmte Zielbitrate zu erreichen.However, another way of determining the measure for a set of bits, regardless of the nature of the center channel and the side channel, is to look at the encoder itself. A measure of the number of bits required by an encoder is the so-called perceptual entropy (PE), which is equal to the energy ratio between the useful audio signal and the psychoacoustic monitoring threshold calculated for the useful audio signal. If the PE is large, it can be concluded that the audio signal has a relatively low masking ability. However, if the PE is small, ie if the energy of the useful signal is only slightly above the psychoacoustic listening threshold, the useful signal only has to be quantized relatively roughly, and the quantization noise is still "hidden" below the psychoacoustic listening threshold. If it is found that the sum of the PE of the left channel, preferably averaged over a certain time, and the PE, also preferably averaged over a certain time, for the right channel is above a predetermined value, the side channel is damped according to the invention to reduce the number of bits required. This alternative aspect of the present invention is therefore not concerned with the individual appearance of the center and side channels, but with the stereo audio signal itself, which is not related to its M / S-Co- ability, but its general audio coding ability, ie the difficulty in coding the same in order to achieve a certain target bit rate.
Eine Verallgemeinerung des zweiten Aspekts besteht darin, irgendeine andere Größe als Maß für die Menge an Bits zu verwenden, welche auf die "Last" des Codierers hinweist. Eine solche Größe kann beispielsweise auch ein Signal sein, das aufgrund transienter Eigenschaften des Audiosignals anzeigt, daß ein Audiocodierer kurze Fenster zum Fenstern verwenden muß, da es Tatsache ist, daß kurze Fenster nicht zuletzt aufgrund der gestiegenen Anzahl von Seiteninformationen ein höhere Bitrate erforderlich machen. Zwecks der vorliegenden Erfindung kann somit die gesamte Palette von Steuergrößen eines Audiocodierers verwendet werden, um ein Maß dafür zu finden, daß bzw. wie stark der Seite-Kanal gedämpft werden muß, um die Ausgangsbitrate des Codierers zu verringern.A generalization of the second aspect is to use some other size as a measure of the amount of bits that indicates the "load" of the encoder. Such a size can also be, for example, a signal which, on the basis of transient properties of the audio signal, indicates that an audio encoder must use short windows for windows, since it is a fact that short windows require a higher bit rate, not least because of the increased number of page information. Thus, for the purposes of the present invention, the full range of control quantities of an audio encoder can be used to find a measure of how much the side channel must be attenuated in order to reduce the output bit rate of the encoder.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung führen eine zeitlich zunehmende bzw. zeitlich abnehmende Dämpfung des Seite-Kanals durch, um zu verhindern, daß ein Hörer die abnehmende Stereokanaltrennung unmittelbar wahrnimmt, sondern daß die Verringerung der Stereokanaltrennung nach und nach eintritt bzw. die Vergrößerung der Stereokanaltrennung nach und nach zunimmt, um die codiererseitige Manipulation des Stereoaudiosignals möglichst gut zu verschleiern.Preferred embodiments of the present invention perform an increasing or decreasing attenuation of the side channel in order to prevent a listener from perceiving the decreasing stereo channel separation immediately, but rather that the reduction in the stereo channel separation gradually occurs or the enlargement of the stereo channel separation gradually and increases to disguise the manipulation of the stereo audio signal as well as possible.
Es sei darauf hingewiesen, daß zum Beibehalten einer nicht- schwankenden Lautstärke aufgrund des Modifizierens das Summensignal des modifizierten linken und rechten Kanals nicht unbedingt zu dem Summensignal des nicht-modifizierten linken und rechten Kanals identisch sein muß, sondern daß es genügt, daß lediglich die Energien der beiden Summensignale im wesentlichen gleich sind bzw. in einem vorbestimmten Verhältnis zueinander liegen. Ein Zuhörer weiß nicht, wie groß die Lautstärke des unmodifizierten Stereoaudiosignals war und wird es daher nicht als Störung empfinden, wenn durch die Vorverarbeitung eine LautStärkenveränderung in Richtung höherer Lautstärke bzw. geringerer Lautstärke eingeführt worden ist. Aufgrund der Einfachheit der Implementation wird es jedoch bevorzugt, daß dieses Verhältnis gleich 1 ist.It should be noted that in order to maintain a non-fluctuating volume due to the modification, the sum signal of the modified left and right channels need not necessarily be identical to the sum signal of the unmodified left and right channels, but that it is sufficient that only the energies of the two sum signals are substantially the same or are in a predetermined relationship to one another. A listener does not know what the volume of the unmodified stereo audio signal was and will therefore not perceive it as a disturbance if the volume has been changed in the direction of higher volume or lower volume by the preprocessing. However, because of the simplicity of implementation, it is preferred that this ratio be 1.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:Preferred embodiments of the present invention are explained in detail below with reference to the accompanying drawings. Show it:
Fig. 1 ein Prinzipblockschaltbild der erfindungsgemäßen Vorrichtung zum Verarbeiten eines Stereoaudiosignals;1 shows a basic block diagram of the device according to the invention for processing a stereo audio signal;
Fig. 2 eine detailliertere Darstellung einer bevorzugten Ausgestaltung der Einrichtung zum Modifizieren; und2 shows a more detailed illustration of a preferred embodiment of the device for modifying; and
Fig. 3 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung als Vorverarbeitungsstufe für einen skalierbaren Codierer mit Mono/Stereo-Skalierbarkeit.3 shows a block diagram of a device according to the invention as a preprocessing stage for a scalable encoder with mono / stereo scalability.
Fig. 1 zeigt ein Blockschaltbild der erfindungsgemäßen Vorrichtung zum Verarbeiten eines Stereoaudiosignals, das an einem Eingang 10 in die Vorrichtung eingespeist wird und einen ersten Kanal L und einen zweiten Kanal R aufweist. Das Stereoaudiosignal in Form des ersten Kanals L und des zweiten Kanals R wird einerseits in eine Einrichtung 12 zum Analysieren des Stereoaudiosignals eingespeist, und wird andererseits auch in eine Einrichtung 14 zum Modifizieren des ersten und zweiten Kanals eingespeist, um an einem Ausgang 16 einen modifizierten ersten Kanal L' und einen modifizierten zweiten Kanal R' zu erhalten. Generell werden sich der modifizierte erste Kanal L' und der modifizierte zweite Kanal R' am Ausgang 16 vom nicht-modifizierten ersten Kanal L und vom nicht-modifizierten zweiten Kanal R am Eingang 10 darin unterscheiden, daß das am Ausgang 16 anliegende modifizierte Stereoaudiosignal eine geringere Kanaltrennung als das nicht-modifizierte Stereoaudiosignal am Eingang 10 haben wird.1 shows a block diagram of the device according to the invention for processing a stereo audio signal, which is fed into the device at an input 10 and has a first channel L and a second channel R. The stereo audio signal in the form of the first channel L and the second channel R is fed on the one hand into a device 12 for analyzing the stereo audio signal, and on the other hand is also fed into a device 14 for modifying the first and second channels in order to produce a modified first at an output 16 To obtain channel L 'and a modified second channel R'. In general, the modified first channel L 'and the modified second channel R' at the output 16 will differ from the unmodified first channel L and from the unmodified second channel R at the input 10 in that the modified stereo audio signal present at the output 16 is less Channel separation as will have the unmodified stereo audio signal at input 10.
Die Einrichtung 12 zum Analysieren des Stereoaudiosignals ermittelt ein Maß für eine Menge an Bits, die von einem in Fig. 1 nicht gezeigten Codierer benötigt wird, um das Stereoaudiosignal unter Verwendung eines durch den Codierer vorgegebenen Codieralgorithmus zu codieren. Das Maß für die Bitmenge wird von der Einrichtung 12 zum Analysieren über einen Signalpfad 18 der Einrichtung 14 zum Modifizieren zugeführt. Übersteigt das über den Signalpfad 18 zugeführte Maß für die Bitmenge ein vorbestimmtes Maß, so wird die Einrichtung 14 zum Modifizieren wirksam, um den ersten Kanal L und den zweiten Kanal R zu modifizieren. Erfindungsgemäß wird die Modifikation des ersten und zweiten Kanals derart durchgeführt, daß die Energie der Summe des modifizierten Stereoaudiosignals am Ausgang 16 in einem vorbestimmten Verhältnis und vorzugsweise im wesentlichen gleich der Energie des nicht-modifizierten Stereoaudiosignals am Eingang 10 ist, während jedoch das Differenzsignal, das abgesehen von dem Faktor von z. B. 0,5 dem Seite-Kanal entspricht, im modifizierten Stereoaudiosignal am Ausgang 16 gegenüber dem nicht-modifizierten Stereoaudiosignal am Eingang 10 gedämpft ist .The means 12 for analyzing the stereo audio signal determines a measure of an amount of bits which is required by an encoder (not shown in FIG. 1) in order to encode the stereo audio signal using an encoding algorithm specified by the encoder. The measure for the bit quantity is supplied by the device 12 for analysis via a signal path 18 to the device 14 for modification. If the measure of the bit quantity supplied via the signal path 18 exceeds a predetermined measure, the means 14 for modifying becomes effective in order to modify the first channel L and the second channel R. According to the invention, the modification of the first and second channels is carried out in such a way that the energy of the sum of the modified stereo audio signal at the output 16 is in a predetermined ratio and preferably substantially equal to the energy of the unmodified stereo audio signal at the input 10, but the difference signal, that apart from the factor of e.g. B. 0.5 corresponds to the side channel, is attenuated in the modified stereo audio signal at the output 16 compared to the unmodified stereo audio signal at the input 10.
In Fig. 1 sind zwei Möglichkeiten der Speisung der Einrichtung 12 zum Analysieren dargestellt, die einzeln oder in Kombination verwendet werden können. Die erste Möglichkeit ist durch einen linken Pfeil 15a dargestellt, der gewissermaßen eine Vorwärtskopplung darstellt, d. h. die Einrichtung zum Analysieren des Stereoaudiosignals wird mit dem nicht modifizierten Signal L, R gespeist. Die andere Möglichkeit besteht darin, die Einrichtung 12 zum Analysieren mit dem modifizierten Signal L' , R' zu speisen. Insbesondere in Fällen, in denen die Dämpfung des Seite-Signals zeitlich langsam abläuft, ist es unerheblich, ob die Dämpfung abhängig von dem aktuellen nicht modifizierten Signal oder von einem der letzten Verarbeitungsblocks des modifizierten Signals gewissermaßen rückkopplungsmäßig gesteuert wird. Damit ist es unerheblich, ob das Stereoaudiosignal selbst direkt analysiert wird, oder aber indirekt anhand eines vorausgehenden modifizierten Signals.1 shows two possibilities for feeding the device 12 for analysis, which can be used individually or in combination. The first possibility is represented by a left arrow 15a, which in a sense represents a forward coupling, ie the device for analyzing the stereo audio signal is fed with the unmodified signal L, R. The other possibility is to feed the device 12 for analysis with the modified signal L ', R'. Especially in cases where the attenuation of the side signal is slow, it is irrelevant whether the attenuation depends on the current unmodified signal or on one of the last processing blocks of the modified signal is controlled to a certain extent in terms of feedback. It is therefore irrelevant whether the stereo audio signal itself is analyzed directly or indirectly using a previously modified signal.
Im nachfolgenden wird auf verschiedene Ausgestaltungen der Einrichtung 12 zum Analysieren des nicht-modifizierten Stereoaudiosignals am Eingang 10 eingegangen. Eine Möglichkeit besteht darin, daß die Einrichtung 12 zum Analysieren sowohl den Mitte- als auch den Seite-Kanal des Stereoaudiosignals bildet und dann das Verhältnis der Energien des Mitte- und des Seite-Kanal betrachtet. Das Energieverhältnis zwischen dem Mitte- und dem Seite-Kanal wird vorzugsweise über eine bestimmte Zeit gemittelt, die beispielsweise in der Größenordnung von 10 Audio-Frames liegen kann, was einem Wert von 200 ms entspricht, wenn als Audiocodierer ein MPEG-2-AAC- Codierer eingesetzt wird, der eine Frame-Länge von etwa 20 ms haben kann. Bezüglich des MPEG-2 -AAC-Codierers wird auf den Standard ISO/IEC 13818-7 verwiesen, in dem die einzelnen Funktionsblöcke eines Audiocodierers und eines Audio-Deco- dierers sowie ihr Zusammenwirken detailliert beschrieben sind.Various configurations of the device 12 for analyzing the unmodified stereo audio signal at the input 10 are discussed below. One possibility is that the means 12 for analyzing form both the center and the side channel of the stereo audio signal and then consider the ratio of the energies of the center and the side channel. The energy ratio between the center and the side channel is preferably averaged over a certain time, which can be, for example, in the order of 10 audio frames, which corresponds to a value of 200 ms if an MPEG-2-AAC is used as the audio encoder. Encoder is used, which can have a frame length of about 20 ms. With regard to the MPEG-2 AAC encoder, reference is made to the ISO / IEC 13818-7 standard, in which the individual function blocks of an audio encoder and an audio decoder and their interaction are described in detail.
Wird festgestellt, daß das Energieverhältnis bzw. die Differenz der Logarithmen kleiner als ein bestimmter abhängig vom Anwendungsfall empirisch zu bestimmender Wert ist, der beispielsweise zu 6 dB gewählt werden kann, wird die Einrichtung 14 zum Modifizieren aktiviert, um eine Dämpfung des Seite-Kanals zu erreichen, wie es bezugnehmend auf Fig. 2 noch detaillierter ausgeführt werden wird. Gemäß dem im vorstehenden dargelegten ersten Aspekt der vorliegenden Erfindung arbeitet die Einrichtung 12 zum Analysieren des Stereoaudiosignals somit aufgrund einer direkten Untersuchung der MS-Codierfähigkeit des Stereoaudiosignals. Bei einer Implementation dieses ersten Aspekts der vorliegenden Erfindung wird die erfindungsgemäße Vorrichtung zum Verarbeiten des Stereoaudiosignals lediglich dann den Seite-Kanal dämpfen, wenn das Signal eine nicht mehr so gute MS-Codier- fähigkeit aufweist, weil beispielsweise beide Kanäle entweder energiemäßig und/oder signalmäßig unähnlich zueinander sind. Gemäß diesem Aspekt wird somit eine Stereokanaltrennung immer dann reduziert, wenn das Beibehalten der ursprünglichen Stereokanaltrennung zu einer zu hohen Ausgangs- bitrate führen würde, und wenn die Stereokanaltrennung überhaupt hoch war .If it is found that the energy ratio or the difference in the logarithms is smaller than a certain value to be determined empirically depending on the application, which can be chosen, for example, to 6 dB, the means 14 for modifying is activated in order to attenuate the side channel achieve, as will be explained in more detail with reference to FIG. 2. According to the first aspect of the present invention set out above, the device 12 for analyzing the stereo audio signal thus operates on the basis of a direct examination of the MS coding capability of the stereo audio signal. In an implementation of this first aspect of the present invention, the inventive device for processing the stereo audio signal will only attenuate the side channel if the signal is no longer as good as MS coding. ability because, for example, both channels are either different in terms of energy and / or signal. According to this aspect, stereo channel separation is therefore reduced whenever maintaining the original stereo channel separation would lead to a too high output bit rate and if the stereo channel separation was high at all.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird die Dämpfung des Seite-Kanals zur Reduktion der ausgangs - seitigen Codiererbitrate eingesetzt, unabhängig davon, ob das Stereoaudiosignal eine bestimmte MS-Codierfähigkeit hat oder nicht. Dieser zweite erfindungsgemäße Aspekt geht davon aus, daß selbst im Falle einer geringen Stereokanaltrennung immer noch eine weitere Dämpfung des Seite-Kanals erreicht werden kann, um eine vorbestimmte Ausgangsbitrate des Audio- codierers nicht zu überschreiten. Hierzu wird unabhängig von der MS-Codierfähigkeit des Audiosignals die Anzahl an Bits abgeschätzt, die benötigt wird, um das Audiosignal zu codieren.According to a further aspect of the present invention, the attenuation of the side channel is used to reduce the output-side encoder bit rate, regardless of whether the stereo audio signal has a certain MS coding capability or not. This second aspect according to the invention assumes that even in the case of a small stereo channel separation, further attenuation of the side channel can still be achieved in order not to exceed a predetermined output bit rate of the audio encoder. For this purpose, the number of bits required to encode the audio signal is estimated regardless of the MS coding capability of the audio signal.
Wie es in der Technik bekannt ist, verwenden moderne Audiocodierer, und beispielsweise auch ein MPEG-2-AAC-Audioco- dierer, ein psychoakustisches Modell, das dazu dient, von einem zu codierenden Audiosignal die frequenzabhängige psy- choakustische Maskierungsschwelle zu berechnen. Grob gesagt liefert das psychoakustische Modell als psychoakustische Maskierungsschwelle für jedes Skalenfaktorband einen Energiewert. Liegt das durch den Quantisierer eingeführte Quantisierungsrauschen unter dem Energiewert oder ist das durch die Quantisierungsstörungen eingeführte Rauschen gleich dem Energiewert, so wird entsprechend der Psychoakustiktheorie das eingeführte Quantisierungsrauschen im wesentlichen unhörbar sein.As is known in the art, modern audio encoders, and for example also an MPEG-2-AAC audio encoder, use a psychoacoustic model which is used to calculate the frequency-dependent psychoacoustic masking threshold from an audio signal to be encoded. Roughly speaking, the psychoacoustic model provides an energy value for each scale factor band as a psychoacoustic masking threshold. If the quantization noise introduced by the quantizer is below the energy value or if the noise introduced by the quantization disturbances is equal to the energy value, then the introduced quantization noise will be essentially inaudible according to the psychoacoustic theory.
Das Energieverhältnis bzw. die Differenz der Logarithmen des Audiosignals an sich und seiner psychoakustischen Maskierungsschwelle, die auch als Perceptual Entropy (PE) bezeich- net wird, liefert somit ein Maß dafür, wieviel Bits zum Codieren des Audiosignals benötigt werden. Ist die PE hoch, so werden viele Bits benötigt, da die Maskierungsfähigkeit des Audiosignals relativ gering ist und somit fein quantisiert werden muß. Ist die PE dagegen klein, so werden relativ wenig Bits benötigt, da das Audiosignal relativ gut maskiert, und somit nur eine relativ grobe Quantisierung erforderlich ist.The energy ratio or the difference between the logarithms of the audio signal itself and its psychoacoustic masking threshold, which is also referred to as perceptual entropy (PE). is thus provides a measure of how many bits are required to encode the audio signal. If the PE is high, many bits are required because the masking ability of the audio signal is relatively poor and must therefore be finely quantized. On the other hand, if the PE is small, relatively few bits are required, since the audio signal is masked relatively well, and therefore only a relatively rough quantization is required.
Gemäß einem bevorzugten Ausführungsbeispiel wird beim zweiten Aspekt der vorliegenden Erfindung das Maß für die Menge an Bits folgendermaßen bestimmt. Die PE-Werte für die einzelnen Skalenfaktorbänder werden über der Frequenz integriert, d. h. aufsummiert. Dies wird sowohl für den linken als auch für rechten Kanal durchgeführt. Anschließend wird die PE-Summe für den linken Kanal zu der PE-Summe für den rechten Kanal summiert. Dieser Summen-PE-Wert aus linkem und rechtem Kanal stellt den Bitbedarf für einen Frame dar. Dieser Summen-Kanal-PE-Wert wird dann noch vorzugsweise über eine bestimmte Anzahl von Frames, wie z. B. 10, gemittelt, um einen gemittelten PE-Wert für das Stereoaudiosignal zu erhalten. Wenn dieser gemittelte PE-Wert größer oder gleich einem typischerweise empirisch zu bestimmenden vorbestimmten Wert ist, wird die Einrichtung zum Multiplizieren aktiviert, um den Seite-Kanal zu dämpfen.According to a preferred embodiment, in the second aspect of the present invention the measure for the amount of bits is determined as follows. The PE values for the individual scale factor bands are integrated over the frequency, i. H. summed up. This is done for both the left and right channels. The PE sum for the left channel is then summed up to the PE sum for the right channel. This sum PE value from the left and right channel represents the bit requirement for a frame. This sum channel PE value is then preferably over a certain number of frames, such as. B. 10, averaged to obtain an average PE value for the stereo audio signal. If this averaged PE value is greater than or equal to a typically empirically determined predetermined value, the means for multiplying is activated to dampen the side channel.
Verallgemeinert kann somit als Maß für die Menge an Bits, die ein Codierer benötigen wird, irgendeine andere Regelgröße verwendet werden, die ein Maß für die "Last" des Codierers darstellt, wie z. B. ein Steuersignal des Codierers, das den Einsatz von kurzen Fenster beim Fenstern signalisiert. Das Fenstern mit kurzen Fenstern führt per se zu einer höheren Anzahl an Bits, da kürzere Fenster nicht so bitsparend codiert werden können, wie längere Fenster.In general, any other controlled variable can therefore be used as a measure of the amount of bits that an encoder will need, which is a measure of the "load" of the encoder, such as e.g. B. a control signal of the encoder, which signals the use of short windows when windows. Windows with short windows per se lead to a higher number of bits, since shorter windows cannot be coded as bit-saving as longer windows.
Bezüglich des Dämpfungsbetrags des Seite-Kanals existieren mehrere Möglichkeiten, die sich hier bezüglich ihres Aufwands unterscheiden. Die einfachste Art und Weise besteht darin, einen vorgegebenen Dämpfungswert als Zielwert zu vereinbaren, der beispielsweise empirisch festgesetzt sein kann. Eine weitere Möglichkeit besteht jedoch auch darin, den Dämpfungswert adaptiv zu bestimmen, d. h. den Seite-Kanal um einen vorbestimmten Inkrementenbetrag zu dämpfen, und dann wieder zu sehen, ob sich die Anzahl von Bits bereits ausreichend verringert hat oder nicht . Es kann dann in eine neue Iterationsschleife mit einem weiteren Inkrementen-Dämpfungsbetrag eingestiegen werden, um wiederum festzustellen, ob die Anzahl von Bits bereits ausreichend gering ist. Dieses Verfahren kann so oft wiederholt werden, bis die vom Codierer benötigte Anzahl von Bits in einem Zielkorridor liegt. Es ist jedoch ersichtlich, daß der Rechenzeit- und Implementierungsaufwand im Falle der adaptiven Dämpfungsanpassung wesentlich höher als im Falle einer vorgegebenen Dämpfung ist. Andererseits liefert eine adaptive Dämpfungs- anpassung die besten und genauesten Ergebnisse.With regard to the damping amount of the side channel, there are several options which differ here in terms of their effort. The easiest way is in agreeing a predetermined damping value as the target value, which can be determined empirically, for example. Another possibility, however, is to adaptively determine the damping value, ie to dampen the side channel by a predetermined increment amount, and then to see again whether the number of bits has already decreased sufficiently or not. A new iteration loop with a further increment damping amount can then be entered in order to again determine whether the number of bits is already sufficiently small. This process can be repeated until the number of bits required by the encoder lies in a target corridor. However, it can be seen that the computing time and implementation effort in the case of adaptive damping adaptation is considerably higher than in the case of a predetermined damping. On the other hand, adaptive damping adjustment delivers the best and most accurate results.
Im nachfolgenden wird auf Fig. 2 eingegangen, in der eine detaillierte Darstellung der Einrichtung 14 zum Modifizieren gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung dargestellt ist. Die Einrichtung 14 zum Modifizieren kann derart aufgefaßt werden, daß sie einen ersten Eingang 20a für den ersten Kanal L und einen zweiten Eingang 20b für den zweiten Kanal R aufweist. Die Einrichtung 14 umfaßt einen ersten Multiplizierer 22a zum Multiplizieren des ersten Kanals L mit einem bestimmten Faktor x, einen zweiten Multiplizierer 22b zum Multiplizieren des ersten Kanals L mit einem Faktor y, einen dritten Multiplizierer zum Multiplizieren des zweiten Kanals R mit dem Faktor x und schließlich einen vierten Multiplizierer 22d zum Multiplizieren des zweiten Kanals R mit dem Faktor y. Darüberhinaus umfaßt die Einrichtung 14 zum Modifizieren einen ersten Summierer 24a zum Summieren des Ausgangssignals des ersten Multiplizierers 22a mit dem Ausgangssignal des vierten Multiplizierers 22d, und einen zweiten Summierer 24b zum Summieren des Ausgangs- Signals des zweiten Multiplizierers 22b mit dem Ausgangssignal des dritten Multiplizieres 22c. Am Ausgang 26a des er- sten Summierers 24a liegt schließlich der modifizierte erste Kanal L' an, und am Ausgang 26b des zweiten Summierers 24b liegt der modifizierte zweite Kanal R' an.2, in which a detailed illustration of the device 14 for modifying according to a preferred exemplary embodiment of the present invention is shown. The means 14 for modifying can be understood to have a first input 20a for the first channel L and a second input 20b for the second channel R. The device 14 comprises a first multiplier 22a for multiplying the first channel L by a certain factor x, a second multiplier 22b for multiplying the first channel L by a factor y, a third multiplier for multiplying the second channel R by the factor x and finally a fourth multiplier 22d for multiplying the second channel R by the factor y. Furthermore, the means 14 for modifying comprises a first summer 24a for summing the output signal of the first multiplier 22a with the output signal of the fourth multiplier 22d, and a second summer 24b for summing the output signal of the second multiplier 22b with the output signal of the third multiplier 22c. At the exit 26a of the Finally, the modified first channel L 'is applied to the first summer 24a, and the modified second channel R' is applied to the output 26b of the second summer 24b.
Im nachfolgenden wird auf die Bestimmung der beiden Multiplikationsfaktoren x, y eingegangen, um einen gedämpften Seite-Kanal zu erreichen, während der Mitte-Kanal am Ausgang 26a, 26b gleich dem Mitte-Kanal am Eingang 20a, 20b der Einrichtung 14, die in Fig. 2 gezeigt ist, ist. Für die von der Einrichtung 14 zum Modifizieren durchgeführte Signal- Verarbeitung gilt folgende Matrix:In the following, the determination of the two multiplication factors x, y is dealt with in order to achieve a damped side channel, while the center channel at the output 26a, 26b is equal to the center channel at the input 20a, 20b of the device 14, which is shown in FIG 2 is shown. The following matrix applies to the signal processing carried out by the modification device 14:
L' = xL + yR (1)L '= xL + yR (1)
R' = yL + xR (2)R '= yL + xR (2)
Die Aufgabe besteht nun darin, daß x und y bestimmt werden, damit gilt :The task now is to determine x and y, so that:
L' + R' = L + R = M = M' , (3)L '+ R' = L + R = M = M ', (3)
und daß gilt:and that applies:
L'- R' = S' = Dämpfung*S = Dämpfung * (L-R) (4)L'- R '= S' = damping * S = damping * (L-R) (4)
Es ergibt sich:The result is:
M = 0,5 (x+y) (L+R) (5)M = 0.5 (x + y) (L + R) (5)
Da M nicht durch die Verarbeitung modifiziert werden soll, gilt ferner folgende Gleichung:Since M should not be modified by the processing, the following equation also applies:
x + y = 1 (6)x + y = 1 (6)
Für den Seite-Kanal ergibt sich:For the side channel:
S = 0,5 (x - y) (L - R) (7) Aus Gleichung (7) ergibt sich, daß S um den Faktor x-y reduziert wird, oder, logarithmisch ausgedrückt, durch 10 -loglO (x-y) dB = att, gedämpft wird, att steht für die Dämpfung, und es gilt, daß att kleiner als 0 dB ist.S = 0.5 (x - y) (L - R) (7) From equation (7) it follows that S is reduced by the factor xy or, expressed logarithmically, is damped by 10 -log10 (xy) dB = att, att stands for the damping, and it holds that att is less than Is 0 dB.
Für eine Dämpfung in dB-Schritten ergibt sich:For attenuation in dB steps:
att (in dB) = 20*logl0 (x-y) (8)att (in dB) = 20 * logl0 (x-y) (8)
Aus Gleichung (8) ergibt sich dann folgender Ausdruck:The following expression then results from equation (8):
exp(0,05 att) = x - y (9)exp (0.05 att) = x - y (9)
Aus Gleichung (6) und Gleichung (9) ergibt sich für x die Gleichung (10) und für y die Gleichung (11) .Equation (6) and equation (9) result in equation (10) for x and equation (11) for y.
x = 0,5 * (1 + exp(0,05 att)) (10) y = 0,5 * (1 - exp(0,05 att)) (11)x = 0.5 * (1 + exp (0.05 att)) (10) y = 0.5 * (1 - exp (0.05 att)) (11)
Die Dämpfung "att" (in dB) wird in Abhängigkeit von einer der beschriebenen Regelgrößen bestimmt. Damit ergeben sich mit den Gleichungen (9) und (10) die Faktoren x und y für die durch Fig. 2 dargestellte Dämpfungsmatrix, die sich gleichungsmäßig in den Gleichungen (1) und (2) wiederspiegelt . Um Implementierungsaufwand und Rechenaufwand einzusparen, muß keine vollständig adaptive Anpassung der Dämpfung att durchgeführt werden, sondern es kann ein bestimmter Dämpfungswert att, der empirisch festgelegt worden ist, eingesetzt werden, falls das Maß für die Menge an Bits einen vorbestimmten Grenzwert überschreitet .The attenuation "att" (in dB) is determined depending on one of the control variables described. Equations (9) and (10) thus result in the factors x and y for the damping matrix represented by FIG. 2, which is reflected in equations in Equations (1) and (2). In order to save implementation effort and computational effort, a completely adaptive adaptation of the attenuation att does not have to be carried out, but a certain attenuation value att, which has been determined empirically, can be used if the measure for the amount of bits exceeds a predetermined limit value.
Erfindungsgemäß wird die Dämpfung nicht schlagartig erhöht, da eine Verringerung der Kanaltrennung, die schlagartig vonstatten geht, unter Umständen zu einer hörbaren Störung bzw. zu einer Verwunderung beim Hörer führen könnte, beispielsweise wenn ein Sprecher zunächst links plaziert war und auf einmal mittig wahrgenommen wird. Daher wird in dem Fall, in dem festgestellt wird, daß der Seite-Kanal zu dämpfen ist, eine schrittweise Dämpfung des Seite-Kanals beispielsweise unter Verwendung eines vorbestimmten Inkrementwerts , unternommen, derart, daß anschaulich gesprochen der Nachrichtensprecher langsam von der linken Seite in die Mitte "wandert". Wird im entgegengesetzten Fall festgestellt, daß das Maß für die Menge an Bits wieder kleiner als der vorbestimmte Wert ist, wird die Dämpfung nicht schlagartig aufgehoben, sondern wieder langsam auf 0 zurückgeführt, derart, daß um im Beispiel zu bleiben der Sprecher wieder langsam von der Mitte zur Seite "wandert" . Diese schrittweise Dämpfung bzw. schrittweise Aufhebung der Dämpfung sollte möglichst langsam stattfinden, damit die Dämpfung des Seite-Kanals praktisch nicht wahrgenommen wird. Die Verringerung der Dämpfung muß jedoch so schnell stattfinden, daß der Codierer aufgrund der hohen Bitrate am Ausgang nicht damit beginnt, die psychoaku- stische Maskierungsschwelle zu verletzen bzw. Audiobandbreite zu entfernen. Erfindungsgemäß wird daher bei Codierern, die einen Bitreservoir-Mechanismus haben, dieses Bitreservoir ausgenutzt, um die Dämpfung langsam zu erhöhen, bis der Zielwert erreicht ist, bei dem die Dämpfung so hoch ist, daß die vorbestimmte Bitrate am Ausgang des Codierers eingehalten werden kann. Wenn die Dämpfung dann wieder aufgehoben wird, kann das Bitreservoir wieder entleert werden.According to the invention, the attenuation is not increased suddenly, since a reduction in the channel separation that takes place suddenly could possibly lead to an audible disturbance or to the listener being amazed, for example if a speaker was initially placed on the left and is suddenly noticed in the middle. Therefore, in the event that it is determined that the side channel is to be damped, a gradual attenuation of the side channel, for example using a predetermined increment value, is undertaken such that, vividly speaking, the news anchor slowly "wanders" from the left side to the center. If, in the opposite case, it is found that the measure for the amount of bits is again smaller than the predetermined value, the attenuation is not abruptly canceled, but slowly returned to 0, such that, in order to remain in the example, the speaker slowly moves away from the Center to the side "wanders". This gradual damping or gradual cancellation of the damping should take place as slowly as possible so that the damping of the side channel is practically not noticed. However, the attenuation must be reduced so quickly that, due to the high bit rate at the output, the encoder does not begin to violate the psychoacoustic masking threshold or to remove audio bandwidth. According to the invention, this bit reservoir is therefore used in encoders which have a bit reservoir mechanism in order to slowly increase the attenuation until the target value is reached at which the attenuation is so high that the predetermined bit rate at the output of the encoder can be maintained. If the damping is then released again, the bit reservoir can be emptied again.
Bei der in Fig. 2 dargestellten Implementierung war eine Randbedingung zur Bestimmung von x und y derart beschaffen, daß das Summen-Signal, das dem Mitte-Kanal bis auf den Faktor 0,5 entspricht, nicht verändert wurde. Es sind jedoch Signale denkbar, bei denen der linke und der rechte Kanal zwar ähnlich sind, aber eine Phasenverschiebung im Bereich von 180 Grad zueinander aufweisen. Es sei darauf hingewiesen, daß solche Signale nicht besonders häufig anzutreffen sind, da sie mit Mono-Wiedergabegeräten nicht gut präsentiert werden können. Nichtsdestoweniger sind solche Signale aber denkbar. In diesem Fall würde der Mitte-Kanal M klein und der Seite-Kanal groß werden. Würde dann S so stark gedämpft werden, das S kleiner als M wird, würde auch die Gesamtlautstärke stark beeinflußt werden. Im Gegensatz zu einer Verringerung der Stereokanaltrennung ist es jedoch für einen Zuhörer nicht tolerierbar, wenn die Lautstärke stark schwankt, und zwar unabhängig von dem Audiosignal an sich. Eine solche Störung wird ein Hörer als lästig empfinden.In the implementation shown in FIG. 2, a boundary condition for determining x and y was such that the sum signal, which corresponds to the center channel up to a factor of 0.5, was not changed. However, signals are conceivable in which the left and right channels are similar but have a phase shift in the range of 180 degrees to one another. It should be noted that such signals are not particularly common since they cannot be presented well with mono playback devices. Nevertheless, such signals are conceivable. In this case the center channel M would be small and the side channel would be large. If S were to be attenuated so much that S becomes smaller than M, the overall volume would also be greatly affected. In contrast to however, a reduction in stereo channel separation is intolerable for a listener if the volume fluctuates greatly, regardless of the audio signal itself. A listener will find such a disturbance annoying.
Um diesem Problem aus dem Weg zu gehen, wird es bevorzugt, zusätzlich in der Einrichtung 12 zum Analysieren festzustellen, ob die Phasenverschiebung von L und R in der Nähe von 180 Grad liegt. Wird dies festgestellt, so kann einfach das Vorzeichen von R umgekehrt werden. Zwar geht dann der ursprünglich gewollte räumliche Stereoeffekt verloren, aber der Effekt der reduzierten Lautstärke wird vermieden, was einen Zuhörer weniger stören wird.To avoid this problem, it is preferred to additionally determine in the analyzing device 12 whether the phase shift of L and R is close to 180 degrees. If this is determined, the sign of R can simply be reversed. The originally desired spatial stereo effect is then lost, but the effect of the reduced volume is avoided, which will disturb a listener less.
Alternativ zur Vorzeichenumkehr könnte der M-Kanal auch in der Einrichtung zum Modifizieren bzw. in einer nachgeschalteten Codierer-Stufe auf einen bestimmten Wert verstärkt werden, derart, daß die Energie des modifizierten M-Kanals in einem vorbestimmten Verhältnis zur Energie des M-Kanals des unmodifizierten Stereoaudiosignals ist. Für das Energieverhältnis wird ein Wert von 1 bevorzugt, wobei jedoch auch durch die Modifizierereinrichtung eine bestimmte Verstärkung oder Dämpfung ausgeführt werden kann, wobei jedoch immer das Verhältnis zum nicht-modifizierten Stereoaudiosignal im wesentlichen beibehalten werden soll, damit ein Zuhörer keine wesentlichen LautstärkeSchwankungen aufgrund der Vorverarbeitung wahrnehmen wird. Selbstverständlich sind kleine LautstärkeSchwankungen nicht so problematisch und manchmal sogar noch nicht wahrnehmbar. Große LautstärkeSchwankungen wird ein Testhörer jedoch als lästig empfinden.As an alternative to the sign reversal, the M-channel could also be amplified to a certain value in the device for modifying or in a downstream encoder stage such that the energy of the modified M-channel is in a predetermined ratio to the energy of the M-channel of the unmodified stereo audio signal. A value of 1 is preferred for the energy ratio, although a certain amplification or attenuation can also be carried out by the modifier device, but the ratio to the unmodified stereo audio signal should always be essentially maintained so that a listener does not experience any significant volume fluctuations due to the preprocessing will perceive. Of course, small volume fluctuations are not as problematic and sometimes even imperceptible. Large volume fluctuations will be annoying for a test listener.
An dieser Stelle sei darauf hingewiesen, daß es unerheblich ist, ob am Eingang 10 der erfindungsgemäßen Vorrichtung zum Verarbeiten eines Stereoaudiosignals zeitdiskrete Abtastwerte anliegen, oder Spektralwerte anliegen. Sämtliche Operationen zur Analyse des Stereoaudiosignals können sowohl mit zeitdiskreten Abtastwerten als auch mit Spektralwerten durchgeführt werden. Darüberhinaus können sämtliche Opera- tionen in der Einrichtung zum Modifizieren sowohl mit zeitdiskreten Abtastwerten als auch mit Spektralwerten durchgeführt werden. Die erfindungsgemäße Vorrichtung zum Verarbeiten eines Stereoaudiosignals könnte somit auch nach der Zeit-Frequenz-Transformationsstufe eines Zeit/Frequenz- Transformations-basierten Codierers angeordnet sein, wie z. B. einem MPEG-Audio-Codierer. Dieses Konzept ergibt sogar die zusätzliche Möglichkeit, daß die Stereo-Vorverarbeitung frequenzselektiv vorgenommen werden kann, d. h. daß beispielsweise eine unterschiedliche Dämpfung des Signals S in Abhängigkeit der Frequenz durchgeführt werden kann. Dies ist insbesondere sinnvoll, da die Möglichkeit zur Richtungsortung des menschlichen Gehörs nicht für alle Frequenzen gleich empfindlich ist. Wird somit die erfindungsgemäße Verarbeitung spektralwertweise durchgeführt, so können Spektralwerte des Seite-Kanals um so stärker gedämpft werden, je weniger das menschliche Gehör in diesem Frequenzbereich richtungsabhängig hört, während Spektralwerte nicht oder nur ganz wenig angetastet werden, die in Frequenzbereichen liegen, in denen das menschliche Gehör eine gute Richtungsortung liefert.At this point, it should be pointed out that it is immaterial whether time-discrete sample values are present at input 10 of the device according to the invention for processing a stereo audio signal, or whether spectral values are present. All operations for analyzing the stereo audio signal can be carried out both with discrete-time samples and with spectral values. In addition, all operational tion in the device for modifying both discrete-time samples and spectral values. The device according to the invention for processing a stereo audio signal could thus also be arranged after the time-frequency transformation stage of a time / frequency transformation-based encoder, such as, for. B. an MPEG audio encoder. This concept even gives the additional possibility that the stereo preprocessing can be carried out in a frequency-selective manner, that is to say, for example, that a different attenuation of the signal S can be carried out depending on the frequency. This is particularly useful since the ability to locate the human ear is not equally sensitive to all frequencies. If the processing according to the invention is thus carried out spectrally, the spectral values of the side channel can be attenuated the more the less the human ear hears directionally in this frequency range, while spectral values that are in the frequency ranges in which the human hearing provides good directional tracking.
Es sei darauf hingewiesen, daß bei modernen Audiocodierern ohnehin frequenzmäßig unter Verwendung der sogenannten M/S- Maske festgestellt wird, wo eine M/S-Codierung durchgeführt werden soll, und wo eine L/R-Codierung besser ist. In diesem Fall würde die erfindungsgemäße Verarbeitung lediglich auf die Frequenzbereiche angewandt werden, in denen eine MS-Co- dierung vorhanden ist, d. h. in denen die MS-Maske gesetzt ist. Alternativ könnte auch in mehr Bändern die MS-Maske gesetzt werden, d. h. eine MS-Codierung, durchgeführt werden, wobei in diesen im Vergleich zum bekannten Verfahren zusätzlichen MS-Bändern der Seite-Kanal gedämpft ist, um Bitratenanforderungen einzuhalten.It should be noted that in modern audio encoders it is anyway determined in frequency using the so-called M / S mask where M / S coding is to be carried out and where L / R coding is better. In this case, the processing according to the invention would only be applied to the frequency ranges in which MS coding is present, i. H. in which the MS mask is set. Alternatively, the MS mask could also be set in more bands, i. H. MS coding can be carried out, the side channel being attenuated in these additional MS bands compared to the known method in order to comply with bit rate requirements.
Im nachfolgenden wird auf Fig. 3 Bezug genommen, in der eine Vorrichtung zum Verarbeiten eines Stereoaudiosignals dargestellt ist, die zusätzlich zu den in Fig. 1 gezeigten Funk- tionsblöcken ebenfalls einem MS-Codierer 30 sowie einen skalierbaren Codierer 32 umfaßt, der ausgangsseitig einen skalierten Bitstrom BS ausgibt. Der MS-Codierer 30 umfaßt, wie es in der Technik bekannt ist, einen Summierer 30a zum Summieren des modifizierten linken Kanals L' und des modifizierten rechten Kanals R' , um nach einer Multiplikation mit einem Multiplizierer 30b, dem ein Faktor von z. B. 0,5 zugeordnet ist, den multiplizierten Mitte-Kanal zu erzeugen. Darüberhinaus umfaßt der MS-Codierer 30 einen Subtrahierer 30c sowie einen weiteren Multiplizierer 30d, um den modifizierten Seite-Kanal S' zu erzeugen, das gegenüber einem Seite-Signal, das aus dem nicht-modifizierten Stereoaudiosignal am Eingang 10 gebildet ist, gedämpft ist. Der Mitte-Kanal M' und der Seite-Kanal S' werden beide in den skalierbaren Codierer 32 eingespeist, der vorzugsweise eine Mono-Stereo- Skalierbarkeit aufweist. Die erste Skalierungsschicht wird das Mono-Signal M' darstellen, und die zweite Skalierungsschicht wird den modifizierten Seite-Kanal S' umfassen. Weitere Skalierungsmöglichkeiten, wie z. B. daß der modifizierte oder nicht-modifizierte Mono-Kanal M' zusätzlich bandbegrenzt ist, und daß in der zweiten Skalierungsschicht neben dem modifizierten Seite-Kanal auch das obere Mono-Band enthalten ist, sind möglich.In the following, reference is made to FIG. 3, in which a device for processing a stereo audio signal is shown which, in addition to the radio signals shown in FIG. tion blocks also includes an MS encoder 30 and a scalable encoder 32 which outputs a scaled bit stream BS on the output side. The MS encoder 30, as is known in the art, includes a summer 30a for summing the modified left channel L 'and the modified right channel R' to, after multiplication by a multiplier 30b which has a factor of e.g. B. 0.5 is assigned to generate the multiplied center channel. In addition, the MS encoder 30 comprises a subtractor 30c and a further multiplier 30d in order to generate the modified side channel S ′, which is attenuated with respect to a side signal which is formed from the unmodified stereo audio signal at the input 10. The center channel M 'and the side channel S' are both fed into the scalable encoder 32, which preferably has a mono-stereo scalability. The first scaling layer will represent the mono signal M 'and the second scaling layer will comprise the modified side channel S'. Other scaling options, such as B. that the modified or unmodified mono channel M 'is additionally band-limited, and that the upper mono band is also included in the second scaling layer in addition to the modified side channel.
Der Effekt der Skalierbarkeit bei dem Mono-Stereo-Codierer 32 ist besonders günstig, wenn eben keine LR-Codierung sondern eine MS-Codierung eingesetzt wird. Die erfindungsgemäße Stereosignalverarbeitung durch die Einrichtungen 12 und 14 ist daher besonders in Verbindung mit dem skalierbaren Codierer 32 besonders vorteilhaft. Um eine Mono-Stereo-Ska- lierbarkeit zu erhalten, kann nämlich auch eine MS-Codierung eingesetzt werden, wenn sie gegenüber der LR-Codierung eigentlich nicht mehr zu bevorzugen ist. Dies wird eben dadurch erreicht, daß der Seite-Kanal am Eingang des skalierbaren Codierers 32 gegenüber dem unmodifizierten Fall gedämpft ist.The scalability effect in the mono-stereo encoder 32 is particularly favorable if an LR coding is used instead of an MS coding. The stereo signal processing according to the invention by the devices 12 and 14 is therefore particularly advantageous particularly in connection with the scalable encoder 32. In order to obtain mono-stereo scalability, MS coding can also be used if it is actually no longer preferable to LR coding. This is achieved in that the side channel at the input of the scalable encoder 32 is damped compared to the unmodified case.
In Fig. 3 ist ferner ein gestrichelter Signalpfad 36 vom skalierbaren Codierer 32 zur Einrichtung 12 zum Analysieren eingezeichnet. Dieser gestrichelte Signalpfad 36 soll symbolisieren, daß bestimmte Maßnahmen, um ein Maß für die Menge an Bits abzuleiten, die der skalierbare Codierer benötigen wird, um das Stereoaudiosignal am Eingang 10 zu codieren, nicht direkt in der Einrichtung 12 berechnet werden müssen, sondern aus dem skalierbaren Codierer in die Einrichtung 12 ausgegeben werden können, wie z. B. die Perceptual Entropy PE, der Hinweis auf die Verwendung kurzer Fenster usw. Das heißt, daß diese Funktionsblöcke nicht sowohl in der Einrichtung 12 zum Analysieren als auch im skalierbaren Codierer 32 vorhanden sein müssen, sondern daß ihre Implementierung lediglich im skalierbaren Codierer 32 genügt.3 is a dashed signal path 36 from scalable encoder 32 for device 12 for analysis. This dashed signal path 36 is intended to symbolize that certain measures to derive a measure of the amount of bits that the scalable encoder will need to encode the stereo audio signal at the input 10 do not have to be calculated directly in the device 12, but from the device scalable encoder can be output into the device 12, such as. B. Perceptual Entropy PE, the reference to the use of short windows, etc. This means that these function blocks do not have to be present both in the device 12 for analysis and in the scalable encoder 32, but that their implementation is only sufficient in the scalable encoder 32 ,
In diesem Fall würde die Einrichtung zum Modifizieren 14, um das Maß 18 für die Bitmenge zu bestimmen, zunächst keine Modifikation durchführen. Die in Fig. 3 gezeichnete Vorrichtung wäre dann gewissermaßen in einem "Vorlaufmodus" , wo kein Bitstrom geschrieben wird, sondern wo lediglich der erforderliche Dämpfungsgrad für den Seite-Kanal bestimmt wird. Im dann anschließenden Codier-Modus, in dem der Bit- strom BS dann durch den skalierbaren Codierer geschrieben wird, wird die Einrichtung 14 zum Modifizieren mit entsprechend festgelegten Faktoren x, y arbeiten.In this case, the means for modifying 14 in order to determine the measure 18 for the bit quantity would initially not carry out any modification. The device shown in FIG. 3 would then be, so to speak, in a "pre-run mode" where no bit stream is written, but where only the required degree of attenuation for the side channel is determined. In the then subsequent coding mode, in which the bit stream BS is then written by the scalable encoder, the means 14 for modifying will work with correspondingly defined factors x, y.
Wird die in Fig. 3 gezeigte Vorrichtung mit Spektralwerten für den ersten Kanal L und den zweiten Kanal R betrieben, und ist der skalierbare Codierer ein Zeit/Frequenz-Transfor- mationscodierer, so würde die Stufe des skalierbaren Codierers 32, die die Zeit-Frequenz-Transformation durchführt, dem Eingang 10 vorgeschaltet sein. Die Einrichtungen 12, 14 und 30 wären dann in den skalierbaren Codierer 32 eingebettet .If the device shown in FIG. 3 is operated with spectral values for the first channel L and the second channel R, and if the scalable encoder is a time / frequency transformation encoder, then the stage of the scalable encoder 32, which is the time frequency -Transformation performs, upstream of the input 10. The devices 12, 14 and 30 would then be embedded in the scalable encoder 32.
Die Signalpfade 36a, 36b verdeutlichen, daß auch die modifizierten Kanäle ohne M/S-Codierung zum skalierbaren Codierer geleitet werden können, damit derselbe dann feststellen kann, ob eine M/S- oder L/R-Codierung günstiger ist. The signal paths 36a, 36b illustrate that the modified channels can also be routed to the scalable encoder without M / S coding, so that the latter can then determine whether M / S or L / R coding is cheaper.

Claims

Patentansprüche claims
1. Vorrichtung zum Verarbeiten eines Stereoaudiosignals, das einen ersten Kanal (L) und einen zweiten Kanal (R) aufweist, mit folgenden Merkmalen:1. Device for processing a stereo audio signal, which has a first channel (L) and a second channel (R), with the following features:
einer Einrichtung (12) zum Analysieren des Stereoaudiosignals oder eines von dem Stereoaudiosignals abgeleiteten Signals, um ein Maß für eine Menge an Bits zu erhalten, die von einem Codierer (32) benötigt wird, um das Stereoaudiosignal unter Verwendung eines Codieralgorithmus zu codieren; undmeans (12) for analyzing the stereo audio signal or a signal derived from the stereo audio signal to obtain a measure of an amount of bits required by an encoder (32) to encode the stereo audio signal using an encoding algorithm; and
einer Einrichtung (14) zum Modifizieren des ersten und zweiten Kanals (L, R) , um einen modifizierten ersten und einen modifizierten zweiten Kanal (L' , R' ) zu erhalten,means (14) for modifying the first and second channels (L, R) to obtain a modified first and a modified second channel (L ', R'),
wobei die Einrichtung (14) zum Modifizieren auf die Einrichtung (12) zum Analysieren anspricht, um wirksam zu werden, wenn das Maß (18) für die Menge an Bits ein vorbestimmtes Maß überschreitet, undsaid means (14) for modifying being responsive to said means (12) for analyzing to take effect when the measure (18) of the amount of bits exceeds a predetermined measure, and
wobei die Einrichtung (12) zum Modifizieren derart ausgestaltet ist, daß eine Charakteristik eines Summensignals aus dem ersten und dem zweiten modifizierten Kanal (L' , R' ) , die ähnlich der Energie des Summensignals verläuft, in einem vorbestimmten Verhältnis zu der Charakteristik eines Summensignals aus dem ersten und dem zweiten Kanal (L, R) ist, und daß ein Differenzsignal aus dem ersten und dem zweiten modifizierten Kanal (L' , R' ) gegenüber einem Differenzsignal aus dem ersten und dem zweiten Kanal (L, R) gedämpft ist.the means (12) for modifying being designed such that a characteristic of a sum signal from the first and second modified channels (L ', R'), which is similar to the energy of the sum signal, is in a predetermined ratio to the characteristic of a sum signal is from the first and the second channel (L, R), and that a difference signal from the first and the second modified channel (L ', R') is damped compared to a difference signal from the first and the second channel (L, R) ,
2. Vorrichtung nach Anspruch 1, bei der die Einrichtung2. Apparatus according to claim 1, wherein the device
(14) zum Analysieren folgende Merkmale aufweist:(14) has the following features for analysis:
eine Einrichtung zum Bestimmen der Charakteristik der Summe des ersten und zweiten Kanals über einer vorbestimmten Zeitdauer;a device for determining the characteristic of the Sum of the first and second channels over a predetermined period of time;
eine Einrichtung zum Bestimmen der Charakteristik der Differenz aus dem ersten und zweiten Kanal über einer vorbestimmten Zeitdauer; undmeans for determining the characteristic of the difference from the first and second channels over a predetermined period of time; and
einer Einrichtung zum Bilden des Verhältnisses der Charakteristik der Summe des ersten und zweiten Kanals und der Charakteristik der Differenz des ersten und zweiten Kanals, wobei das Verhältnis der Charakteristika das Maß (18) für die Menge an Bits ist.means for forming the ratio of the characteristic of the sum of the first and second channels and the characteristic of the difference of the first and second channels, the ratio of the characteristics being the measure (18) for the amount of bits.
i . Vorrichtung nach Anspruch 1, bei der die Einrichtung (12) zum Analysieren folgende Merkmale aufweist:i. Device according to Claim 1, in which the device (12) for analyzing has the following features:
eine erste Einrichtung zum Bestimmen eines ersten Cha- rakteristikverhältnisses zwischen dem ersten Kanal und der psychoakustischen Maskierungsschwelle des ersten Kanals über einer vorbestimmten Zeit;first means for determining a first characteristic ratio between the first channel and the psychoacoustic masking threshold of the first channel over a predetermined time;
eine zweite Einrichtung zum Bestimmen eines zweiten Charakteristikverhältnisses zwischen dem zweiten Kanal und der psychoakustischen Maskierungsschwelle des zweiten Kanals über einer vorbestimmten Zeit; undsecond means for determining a second characteristic ratio between the second channel and the psychoacoustic masking threshold of the second channel over a predetermined time; and
eine Einrichtung zum Summieren des ersten und zweiten Charakteristikverhältnisses, wobei die Summe des ersten und des zweiten Charakteristikverhältnisses auf das Maß (18) für die Menge an Bits hinweist.means for summing the first and second characteristic ratios, the sum of the first and second characteristic ratios indicating the measure (18) for the amount of bits.
I . Vorrichtung nach Anspruch 1, bei der der Codierer (32) angeordnet ist, um ansprechend auf die zeitliche Struktur des Stereoaudiosignals lange oder kurze Fenster für eine Überführung eines zeitlichen Stereoaudiosignals in ein spektrales Stereoaudiosignal zu verwenden, und bei der die Einrichtung (12) zum Analysieren angeordnet ist, um zu erfassen, ob kurze oder lange Fenster im Codierer (32) eingesetzt werden, wobei das Maß für die Menge an Bits ist, daß kurze Fenster eingesetzt werden.I. Apparatus according to claim 1, in which the encoder (32) is arranged to use long or short windows for converting a temporal stereo audio signal into a spectral stereo audio signal in response to the temporal structure of the stereo audio signal, and in which the means (12) for analyzing is arranged to detect whether short or long windows in the Encoder (32) are used, the measure of the amount of bits is that short windows are used.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (14) zum Modifizieren angeordnet ist, um derart wirksam zu werden, daß das Differenzsignal aus dem ersten und zweiten Kanal ausgehend von keiner Dämpfung bis zu einer bestimmten Dämpfung allmählich gedämpft wird, und um derart wirksam zu sein, daß die Dämpfung von der bestimmten Dämpfung zu keiner Dämpfung allmählich reduziert wird.Apparatus according to any one of the preceding claims, in which the means (14) are arranged to be operative so that the difference signal from the first and second channels is gradually attenuated from no attenuation to a certain attenuation, and so on to be effective that the attenuation is gradually reduced from the particular attenuation to no attenuation.
Vorrichtung nach Anspruch 5, bei der die Geschwindigkeit des Dämpfens so langsam als möglich gewählt wird, jedoch noch so schnell, daß ein Bitreservoirmechanismus des Codierers (32) ausgenutzt wird, damit der Codierer (32) weder die Audiobandbreite verringert noch eine psychoakustische Maskierungsschwelle bei einer Quantisierung verletzt.Apparatus according to claim 5, wherein the speed of attenuation is selected as slow as possible, but still so fast that a bit reserve mechanism of the encoder (32) is used so that the encoder (32) neither reduces the audio bandwidth nor a psychoacoustic masking threshold at one Quantization violated.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (14) zum Modifizieren angeordnet ist, um abhängig von dem ermittelten Maß das Differenzsignal adaptiv zu dämpfen.Device according to one of the preceding claims, in which the device (14) is arranged for modification in order to adaptively attenuate the difference signal depending on the determined measure.
Vorrichtung nach Anspruch 2, bei der die Einrichtung (14) zum Modifizieren angeordnet ist, um abhängig von einem Charakteristikverhältnis, das durch die Einrichtung zum Bilden des Charakteristikverhältnisses erzeugt wird, das Differenzsignal zu dämpfen, so daß die Dämpfung des Differenzsignals hoch ist, wenn das Charakteristikverhältnis klein ist, und daß die Dämpfung des Differenzsignals niedrig ist, wenn das Charakteristikverhältnis hoch ist .Apparatus according to claim 2, wherein the means (14) for modifying is arranged to attenuate the difference signal depending on a characteristic ratio generated by the means for forming the characteristic ratio, so that the attenuation of the difference signal is high when that Characteristic ratio is small, and that the attenuation of the difference signal is low when the characteristic ratio is high.
Vorrichtung nach Anspruch 7 oder Anspruch 8 , bei der die Einrichtung (14) zum Modifizieren derart ausgestaltet ist, daß sie das Differenzsignal derart adaptiv dämpft, daß das Charakteristikverhältnis des Differenzsignals zum Summensignal zu einem vorbestimmten Wert im wesentlichen gleich ist.Apparatus according to Claim 7 or Claim 8, in which the means (14) for modifying are designed such that they adaptively adapt the difference signal dampens that the characteristic ratio of the difference signal to the sum signal is substantially equal to a predetermined value.
10. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (14) zum Modifizieren folgende Merkmale aufweist:10. Device according to one of the preceding claims, in which the device (14) for modifying has the following features:
einen ersten Multiplizierer (22a) zum Multiplizieren des ersten Kanals (L) mit einem ersten Faktor (x) ;a first multiplier (22a) for multiplying the first channel (L) by a first factor (x);
einen zweiten Multiplizierer (22b) zum Multiplizieren des ersten Kanals (L) mit einem zweiten Faktor (y) ;a second multiplier (22b) for multiplying the first channel (L) by a second factor (y);
einen dritten Multiplizierer (22c) zum Multiplizieren des zweiten Kanals mit dem ersten Faktor (x) ;a third multiplier (22c) for multiplying the second channel by the first factor (x);
einen vierten Multiplizierer (22d) zum Multiplizieren des zweiten Kanals (R' ) mit dem zweiten Faktor (y) ;a fourth multiplier (22d) for multiplying the second channel (R ') by the second factor (y);
einen ersten Summierer (24a) zum Summieren des Aus- gangssignals des ersten Multiplizierers (22a) und des AusgangsSignals des vierten Multiplizierers (22d) , um den modifizierten ersten Kanal (L' ) zu erzeugen; unda first summer (24a) for summing the output of the first multiplier (22a) and the output of the fourth multiplier (22d) to produce the modified first channel (L '); and
einem zweiten Summierer (24b) zum Summieren des Aus- gangssignals des dritten Multiplizierers (22c) und des Ausgangssignals des zweiten Multiplizierers (22b) , um den modifizierten zweiten Kanal (R' ) zu erzeugen;a second summer (24b) for summing the output of the third multiplier (22c) and the output of the second multiplier (22b) to produce the modified second channel (R ');
wobei der erste und der zweite Faktor (x, y) derart gewählt sind, daß das Summensignal des ersten und zweiten Kanals und das Summensignal des modifizierten ersten und zweiten Kanals im wesentlichen gleich sind, und das Differenzsignal um einen bestimmten Faktor gedämpft ist .the first and second factors (x, y) being chosen such that the sum signal of the first and second channels and the sum signal of the modified first and second channels are substantially the same, and the difference signal is attenuated by a certain factor.
11. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (12) zum Analysieren ferner folgendes Merkmal aufweist :11. Device according to one of the preceding claims, in which the device (12) for analyzing further has the following feature:
eine Einrichtung zum Bestimmen, ob ein Phasenwinkel zwischen dem ersten und zweiten Kanal (L, R) einen Wert in der Nähe von 180° aufweist; undmeans for determining whether a phase angle between the first and second channels (L, R) has a value in the vicinity of 180 °; and
wobei die Vorrichtung zum Modifizieren (18) ferner folgendes Merkmal aufweist:the modification (18) device further comprising:
eine Einrichtung zum Umkehren des Vorzeichens eines Kanals (L, R) , falls der Phasenwinkel in der Nähe von 180° ist.means for reversing the sign of a channel (L, R) if the phase angle is near 180 °.
12. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der erste und der zweite Kanal (L, R) des Stereosignals durch Spektralwerte gegeben sind, die aus einem zeitlichen Stereosignal durch Überführung in den Spektralbereich erzeugt worden sind, wobei die Einrichtung zum Modifizieren (14) angeordnet ist, um eine frequenzselektive Dämpfung des Differenzsignals durchzuführen.12. Device according to one of the preceding claims, in which the first and the second channel (L, R) of the stereo signal are given by spectral values which have been generated from a temporal stereo signal by conversion into the spectral range, the device for modifying (14 ) is arranged to perform a frequency-selective attenuation of the difference signal.
13. Vorrichtung nach Anspruch 12, bei der die Einrichtung zum Modifizieren angeordnet ist, um in einen Frequenzbereich, in dem die Richtungsordnung des menschlichen Gehörs verringert ist, stärker zu dämpfen als in einem Frequenzbereich, in dem die Richtungsortung des menschlichen Gehörs nicht verringert ist.13. The apparatus of claim 12, wherein the means for modifying is arranged to attenuate more in a frequency range in which the directional order of the human ear is reduced than in a frequency range in which the directional location of the human ear is not reduced.
14. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgende Merkmale aufweist:14. Device according to one of the preceding claims, further comprising the following features:
eine Mitte/Seite-Einrichtung (30) zum Erzeugen eines Mitte-Kanals (M' ) , der gleich der Hälfte der Summe des modifizierten linken (L' ) und modifizierten rechten Kanals (R' ) ist, eine Seite-Einrichtung (30) zum Erzeugen eines Seite- Kanals, der gleich der Hälfte der Differenz des modifizierten ersten Kanals (L' ) und des modifizierten zweiten Kanals (R' ) ist; undcenter / side means (30) for creating a center channel (M ') equal to half the sum of the modified left (L') and modified right channel (R '), side means (30) for generating a side channel equal to half the difference of the modified first channel (L ') and the modified second channel (R'); and
einen skalierbaren Codierer (32) , der angeordnet ist, um den Mitte-Kanal (M' ) zu codieren und in einen Bitstrom (BS) als erste Skalierungsschicht zu schreiben, und der ferner angeordnet ist, um den Seite-Kanal (S') zu codieren und in den Bitstrom (BS) als zweite Skalierungsschicht zu schreiben.a scalable encoder (32) arranged to encode and write to the center channel (M ') and write to a bit stream (BS) as the first scaling layer, and further arranged to encode the side channel (S') to encode and write to the bitstream (BS) as a second scaling layer.
15. Vorrichtung nach Anspruch 14 , bei der der skalierbare Codierer (32) angeordnet ist, um für den Fall, daß das Maß für die Menge von Bits einen vorbestimmten Wert überschreitet, eine Bitreservoireinrichtung zu verwenden, damit nicht die Audiobandbreite verringert wird und/oder die psychoakustische Maskierungsschwelle verletzt wird.15. The apparatus of claim 14, wherein the scalable encoder (32) is arranged to use a bit reservoir device in the event that the measure of the amount of bits exceeds a predetermined value, so that the audio bandwidth is not reduced and / or the psychoacoustic masking threshold is violated.
16. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Charakteristik, die ähnlich zur Energie verläuft, die Energie selbst, die Summe von quadrierten Abtastwerten in einer bestimmten Zeitdauer, die Summe von quadrierten Spektralwerten in einem bestimmten Frequenzbereich, die Summe von Abtastwertbeträgen in einer bestimmten Zeitdauer und/oder die Summe von quadrierten Spektralwerten in einem bestimmten Frequenzbereich ist.16. The method according to any one of the preceding claims, wherein the characteristic which is similar to energy, the energy itself, the sum of squared samples in a certain period of time, the sum of squared spectral values in a certain frequency range, the sum of sample amounts in one certain period of time and / or the sum of squared spectral values in a certain frequency range.
17. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Stereoaudiosignal blockweise verarbeitete wird, und bei dem das beim Analysieren verwendete von dem Stereoaudiosignal abgeleitete Signal das modifizierte Signal eines vorausgehenden Verarbeitungsblocks ist.17. The method according to any one of the preceding claims, in which the stereo audio signal is processed in blocks, and in which the signal used in the analysis derived from the stereo audio signal is the modified signal of a preceding processing block.
18. Verfahren zum Verarbeiten eines Stereoaudiosignals, das einen ersten Kanal (L) und einen zweiten Kanal (R) aufweist, mit folgenden Schritten: Analysieren (12) des Stereoaudiosignals oder eines von dem Stereoaudiosignal abgeleiteten Signals, um ein Maß für eine Menge an Bits zu erhalten, die von einem Codieralgorithmus benötigt wird, um das Stereoaudiosignal zu codieren; und18. A method of processing a stereo audio signal having a first channel (L) and a second channel (R), comprising the following steps: Analyzing (12) the stereo audio signal or a signal derived from the stereo audio signal to obtain a measure of an amount of bits required by an encoding algorithm to encode the stereo audio signal; and
Modifizieren (14) des ersten und zweiten Kanals (L, R) , um einen modifizierten ersten und einen modifizierten zweiten Kanal (L' , R' ) zu erhalten, falls im Schritt des Analysieren ein Maß (18) für die Menge an Bits bestimmt wird, das ein vorbestimmtes Maß überschreitet, wobei das Modifizieren derart ausgeführt ist, daß eine Charakteristik eines Summensignals aus dem ersten und dem zweiten modifizierten Kanal (L' , R' ) , die ähnlich der Energie des Summensignals verläuft, in einem vorbestimmten Verhältnis zu einer Charakteristik eines Summensignals aus dem ersten und dem zweiten Kanal (L, R) ist, und daß ein Differenzsignal aus dem ersten und dem zweiten modifizierten Kanal (L' , R' ) gegenüber einem Differenzsignal aus dem ersten und dem zweiten Kanal (L, R) gedämpft ist. Modifying (14) the first and second channels (L, R) to obtain a modified first and a modified second channel (L ', R') if a measure (18) determines the amount of bits in the analyzing step which exceeds a predetermined amount, the modification being carried out in such a way that a characteristic of a sum signal from the first and second modified channels (L ', R'), which is similar to the energy of the sum signal, in a predetermined ratio to one Characteristic of a sum signal from the first and the second channel (L, R), and that a difference signal from the first and the second modified channel (L ', R') compared to a difference signal from the first and the second channel (L, R ) is damped.
EP00985148A 1999-12-08 2000-12-07 Method and device for processing a stereo audio signal Expired - Lifetime EP1230827B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19959156A DE19959156C2 (en) 1999-12-08 1999-12-08 Method and device for processing a stereo audio signal to be encoded
DE19959156 1999-12-08
PCT/EP2000/012352 WO2001043503A2 (en) 1999-12-08 2000-12-07 Method and device for processing a stereo audio signal

Publications (2)

Publication Number Publication Date
EP1230827A2 true EP1230827A2 (en) 2002-08-14
EP1230827B1 EP1230827B1 (en) 2003-10-01

Family

ID=7931846

Family Applications (1)

Application Number Title Priority Date Filing Date
EP00985148A Expired - Lifetime EP1230827B1 (en) 1999-12-08 2000-12-07 Method and device for processing a stereo audio signal

Country Status (6)

Country Link
US (1) US7260225B2 (en)
EP (1) EP1230827B1 (en)
JP (2) JP4000261B2 (en)
AT (1) ATE251376T1 (en)
DE (2) DE19959156C2 (en)
WO (1) WO2001043503A2 (en)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19959156C2 (en) * 1999-12-08 2002-01-31 Fraunhofer Ges Forschung Method and device for processing a stereo audio signal to be encoded
SE519985C2 (en) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Coding and decoding of signals from multiple channels
DE10102159C2 (en) * 2001-01-18 2002-12-12 Fraunhofer Ges Forschung Method and device for generating or decoding a scalable data stream taking into account a bit savings bank, encoder and scalable encoder
US6832078B2 (en) * 2002-02-26 2004-12-14 Broadcom Corporation Scaling adjustment using pilot signal
US6859238B2 (en) * 2002-02-26 2005-02-22 Broadcom Corporation Scaling adjustment to enhance stereo separation
US7079657B2 (en) * 2002-02-26 2006-07-18 Broadcom Corporation System and method of performing digital multi-channel audio signal decoding
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
EP1492084B1 (en) * 2003-06-25 2006-05-17 Psytechnics Ltd Binaural quality assessment apparatus and method
US7620545B2 (en) * 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
US20080255832A1 (en) * 2004-09-28 2008-10-16 Matsushita Electric Industrial Co., Ltd. Scalable Encoding Apparatus and Scalable Encoding Method
JPWO2006059567A1 (en) 2004-11-30 2008-06-05 松下電器産業株式会社 Stereo encoding apparatus, stereo decoding apparatus, and methods thereof
BRPI0519454A2 (en) * 2004-12-28 2009-01-27 Matsushita Electric Ind Co Ltd rescalable coding apparatus and rescalable coding method
KR100682915B1 (en) * 2005-01-13 2007-02-15 삼성전자주식회사 Method and apparatus for encoding and decoding multi-channel signals
BRPI0607303A2 (en) * 2005-01-26 2009-08-25 Matsushita Electric Ind Co Ltd voice coding device and voice coding method
CN101151659B (en) * 2005-03-30 2014-02-05 皇家飞利浦电子股份有限公司 Multi-channel audio coder, device, method and decoder, device and method
KR100851972B1 (en) * 2005-10-12 2008-08-12 삼성전자주식회사 Method and apparatus for encoding/decoding of audio data and extension data
US7734053B2 (en) 2005-12-06 2010-06-08 Fujitsu Limited Encoding apparatus, encoding method, and computer product
JP2007183528A (en) * 2005-12-06 2007-07-19 Fujitsu Ltd Encoding apparatus, encoding method, and encoding program
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
US8010370B2 (en) * 2006-07-28 2011-08-30 Apple Inc. Bitrate control for perceptual coding
JP4698688B2 (en) 2007-02-27 2011-06-08 シャープ株式会社 Transmission / reception method, transmission / reception apparatus, and program
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
CA3097372C (en) * 2010-04-09 2021-11-30 Dolby International Ab Mdct-based complex prediction stereo coding
FR2966634A1 (en) * 2010-10-22 2012-04-27 France Telecom ENHANCED STEREO PARAMETRIC ENCODING / DECODING FOR PHASE OPPOSITION CHANNELS
EP3405950B1 (en) * 2016-01-22 2022-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Stereo audio coding with ild-based normalisation prior to mid/side decision
CN111370032B (en) * 2020-02-20 2023-02-14 厦门快商通科技股份有限公司 Voice separation method, system, mobile terminal and storage medium

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2511026A1 (en) * 1975-03-13 1976-09-16 Siemens Ag CIRCUIT ARRANGEMENT FOR CONTINUOUS BASE WIDTH ADJUSTMENT IN A STEREODECODER
GB2244629B (en) * 1990-05-30 1994-03-16 Sony Corp Three channel audio transmission and/or reproduction systems
KR100263599B1 (en) * 1991-09-02 2000-08-01 요트.게.아. 롤페즈 Encoding system
DE4229654A1 (en) * 1991-09-25 1993-04-22 Thomson Brandt Gmbh Audio and video signal transmission with error correction - protects data groups with bit quantity fluctuating between frames by sorting data bits w.r.t. their importance and distributing bit groups homogeneously within frame
US5228093A (en) * 1991-10-24 1993-07-13 Agnello Anthony M Method for mixing source audio signals and an audio signal mixing system
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US5278909A (en) * 1992-06-08 1994-01-11 International Business Machines Corporation System and method for stereo digital audio compression with co-channel steering
EP0688113A2 (en) * 1994-06-13 1995-12-20 Sony Corporation Method and apparatus for encoding and decoding digital audio signals and apparatus for recording digital audio
JPH08123488A (en) * 1994-10-24 1996-05-17 Sony Corp High-efficiency encoding method, high-efficiency code recording method, high-efficiency code transmitting method, high-efficiency encoding device, and high-efficiency code decoding method
JPH08289900A (en) 1995-04-20 1996-11-05 Jiyunko Tairiyou Far infrared radiating body warmer
GB9509831D0 (en) * 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US5825830A (en) * 1995-08-17 1998-10-20 Kopf; David A. Method and apparatus for the compression of audio, video or other data
US5870480A (en) * 1996-07-19 1999-02-09 Lexicon Multichannel active matrix encoder and decoder with maximum lateral separation
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US6356211B1 (en) * 1997-05-13 2002-03-12 Sony Corporation Encoding method and apparatus and recording medium
JPH1132399A (en) * 1997-05-13 1999-02-02 Sony Corp Coding method and system and recording medium
WO1999043110A1 (en) * 1998-02-21 1999-08-26 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd A fast frequency transformation techique for transform audio coders
DE19959156C2 (en) * 1999-12-08 2002-01-31 Fraunhofer Ges Forschung Method and device for processing a stereo audio signal to be encoded

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0143503A2 *

Also Published As

Publication number Publication date
JP2007316658A (en) 2007-12-06
US20030091194A1 (en) 2003-05-15
WO2001043503A2 (en) 2001-06-14
JP4579273B2 (en) 2010-11-10
JP4000261B2 (en) 2007-10-31
DE19959156C2 (en) 2002-01-31
EP1230827B1 (en) 2003-10-01
ATE251376T1 (en) 2003-10-15
DE50003945D1 (en) 2003-11-06
JP2003516555A (en) 2003-05-13
US7260225B2 (en) 2007-08-21
DE19959156A1 (en) 2001-06-28
WO2001043503A3 (en) 2002-05-10

Similar Documents

Publication Publication Date Title
EP1230827B1 (en) Method and device for processing a stereo audio signal
EP1145227B1 (en) Method and device for error concealment in an encoded audio-signal and method and device for decoding an encoded audio signal
DE602004010188T2 (en) SYNTHESIS OF A MONO AUDIO SIGNAL FROM A MULTI CHANNEL AUDIO SIGNAL
EP1025646B1 (en) Methods and devices for encoding audio signals and methods and devices for decoding a bit stream
DE69333394T2 (en) Highly effective coding method and device
EP2022043B1 (en) Information signal coding
EP0954909B1 (en) Method for coding an audio signal
EP0846405B1 (en) Process for reducing redundancy during the coding of multichannel signals and device for decoding redundancy-reduced multichannel signals
DE60214027T2 (en) CODING DEVICE AND DECODING DEVICE
DE69123500T2 (en) 32 Kb / s low-delay code-excited predictive coding for broadband voice signal
DE102004009954B4 (en) Apparatus and method for processing a multi-channel signal
EP1953739B1 (en) Method and device for reducing noise in a decoded signal
EP1697931B1 (en) Device and method for determining an estimated value
DE69932861T2 (en) METHOD FOR CODING AN AUDIO SIGNAL WITH A QUALITY VALUE FOR BIT ASSIGNMENT
DE69807806T2 (en) METHOD AND DEVICE FOR CODING AN AUDIO SIGNAL BY MEANS OF "FORWARD" AND "REVERSE" LPC ANALYSIS
WO1998048531A1 (en) Method for masking defects in a stream of audio data
DE60124079T2 (en) language processing
EP1023777B1 (en) Method and device for limiting a stream of audio data with a scaleable bit rate
DE69823458T2 (en) Multiband speech decoder
EP0905918A2 (en) Method and apparatus for encoding audio signals
DE10065363B4 (en) Apparatus and method for decoding a coded data signal
DE3733786C2 (en)
DE102005032079A1 (en) Noise suppression process for decoded signal comprise first and second decoded signal portion and involves determining a first energy envelope generating curve, forming an identification number, deriving amplification factor

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20020522

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

RIN1 Information on inventor provided before grant (corrected)

Inventor name: HERRE, JUERGEN

Inventor name: PEICHL, KLAUS

Inventor name: TEICHMANN, BODO

Inventor name: KUNZ, OLIVER

Inventor name: BEER, MICHAEL

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT CH DE FR GB LI

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: GERMAN

REF Corresponds to:

Ref document number: 50003945

Country of ref document: DE

Date of ref document: 20031106

Kind code of ref document: P

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DERANGEWAND

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)
REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20040702

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 16

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 17

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20191217

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20191218

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 20191220

Year of fee payment: 20

Ref country code: AT

Payment date: 20191213

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20191220

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 50003945

Country of ref document: DE

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20201206

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK07

Ref document number: 251376

Country of ref document: AT

Kind code of ref document: T

Effective date: 20201207

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20201206