EP1016319B1 - Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals - Google Patents

Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals Download PDF

Info

Publication number
EP1016319B1
EP1016319B1 EP98932156A EP98932156A EP1016319B1 EP 1016319 B1 EP1016319 B1 EP 1016319B1 EP 98932156 A EP98932156 A EP 98932156A EP 98932156 A EP98932156 A EP 98932156A EP 1016319 B1 EP1016319 B1 EP 1016319B1
Authority
EP
European Patent Office
Prior art keywords
signal
coded
transformed
stereo
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP98932156A
Other languages
English (en)
French (fr)
Other versions
EP1016319A1 (de
Inventor
Bernhard Grill
Bodo Teichmann
Karlheinz Brandenburg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1016319A1 publication Critical patent/EP1016319A1/de
Application granted granted Critical
Publication of EP1016319B1 publication Critical patent/EP1016319B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Definitions

  • the present invention relates to scalable audio encoders and particularly on methods and devices for coding a discrete-time stereo signal.
  • Scalable audio encoders are encoders that have a modular structure are. So there is an endeavor to already exist Speech encoder to use the signals, e.g. B. with 8 kHz are sampled, process and data rates of, for example Output 4.8 to 8 kilobits per second.
  • This known encoders such as. B. those known to experts Encoders G. 729, G.723, FS1016, CELP or parametric Models of the MPEG-4 audio VM are mainly used for Encode speech signals and are generally for Coding of higher quality music signals not suitable, as they are usually used for 8 kHz sampled signals are designed, which is why they are only one audio bandwidth of a maximum of 4 kHz. However, they show in generally fast operation and low Computing effort.
  • a speech encoder with a Audio encoder which signals with a higher sampling rate, such as B. 48 kHz, can encode.
  • a speech encoder mentioned above it is also possible to use the speech encoder mentioned above to replace another encoder, for example by a music / audio encoder according to the standards MPEG1, MPEG2 or MPEG4.
  • Such a chain connection of a speech encoder a higher quality audio encoder is commonly used the method of differential coding in the time domain.
  • On Input signal for example, a sampling rate of 48 kHz, is based on a downsampling filter downsampled the sampling frequency suitable for the speech encoder. Now the down sampled signal coded.
  • the encoded signal can be sent directly to a bit stream formatter be fed to be transmitted. However, it only contains signals with a bandwidth of e.g. B. maximum 4 kHz.
  • the encoded signal is also restored decoded and up-sampled using an upsampling filter. However, the signal now received has due to of the downsampling filter only with useful information a bandwidth of 4 kHz, for example.
  • the spectral content of the sampled up coded / decoded signal in the lower band up to 4 kHz not exactly the first 4 kHz band of the one sampled at 48 kHz Corresponds to input signal since encoder in general Introduce coding errors.
  • a scalable encoder has a well known speech coder as well an audio encoder that receives signals with higher sampling rates can process.
  • This difference can then be determined using a known Audio encoders can be quantized and encoded as it is for Is known to experts.
  • the difference signal that is in the audio encoder the signals can code with higher sampling rates, is fed in lower frequency range apart from coding errors of the Speech encoder is much smaller than the original.
  • the difference signal corresponds to essentially the true input signal, which with z. B. 48 kHz was scanned.
  • the level of the speech coder is usually an encoder with a low sampling frequency used because generally a very low bit rate of coded signal is sought.
  • the maximum possible audio bandwidth is 4 kHz and is limited in practice to about 3.5 kHz. Should now in the further stage, d. H. in the stage with the audio encoder, bandwidth improvement must be achieved another stage with a higher sampling frequency.
  • For Adjustment of the sampling frequencies are decimation and Interpolation filter used for downsampling or upsampling.
  • the object of the present invention is a Method and device for coding a time-discrete To create stereo signal which use of joint stereo techniques.
  • This task is accomplished by a method of encoding a discrete-time stereo signal according to claim 1 and by a device for coding a discrete-time stereo signal solved according to claim 14.
  • the present invention is based on the finding that that a combination of joint stereo techniques with the Principle of scalability can be achieved when out the left and right channels of a stereo signal first a mono signal is formed, which is preferably by summation can happen.
  • the mono signal is generated by means of a first Encoder coded, whereupon the resulting Signal is fed to a bitstream multiplexer.
  • the encoded Mono signal is also decoded again to an encoded / decoded Obtain mono signal that differs from the original Mono signal differs in that it has coding errors having introduced by the first encoder have been.
  • the coded / decoded can also Mono signal itself or the difference of the original Mono signal from the coded / decoded mono signal as Stereo information used to be used along with the Difference from left and right channel, which also as S signal is called, directly a middle / side coding to surrender.
  • the stereo information can now by means of a second encoder, which is identical to the first encoder or can also be constructed differently from the first encoder, coded and also fed to a bitstream multiplexer, which is a bit stream of the encoded mono signal and the encoded stereo information as well as from later Decoding necessary page information generated.
  • Forming and encoding the mono signal can take place in the time domain if as the first encoder or Core encoder z.
  • a frequency domain encoder can be used which can be done using the psychoacoustic model can encode as distortion-free as possible.
  • an encoder is used, which is a lower one Sampling rate has as the time-discrete stereo signal to be encoded, so it has to be from the summation of left and right Channel formed mono signal first to the lower sampling frequency be implemented, which is also known as downsampling becomes.
  • the converted to the lower sampling frequency Mono signal is now encoded and decoded again, whereby the encoded / decoded mono signal is also the lower Sampling frequency.
  • the coded / decoded mono signal back to the sampling frequency of the time-discrete stereo signal which is also implemented as Upsampling is called.
  • Fig. 1 shows a basic block diagram of a scalable Stereo encoder 100 according to a first embodiment of the present invention.
  • the scalable stereo encoder receives a discrete-time stereo signal that a first or left channel L and a second or right channel R includes.
  • the stereo signal is preferred by summation by sample by means of a summator 102 a sum signal is formed, which is then by means of multiplier 104 multiplied by a factor of 0.5 is to a mono signal in this embodiment generate that to the middle signal known from the M / S coding is identical.
  • the mono signal at the output of the multiplier 104 is fed into a downsampling filter 106, around the sampling rate to a preferably implement lower sampling rate, which encodes the Mono signal by means of a time domain encoder, which Part of the core codec 108 is to enable.
  • the encoded Mono signal is sent together with corresponding page information written in a bitstream multiplexer 110 which generates a bit stream at its output 112, which encodes a Representation of the discrete-time stereo signal is.
  • the encoded mono signal is within the core codec 108 decoded again by means of an upsampling filter 114 to be converted back to the first sampling rate so the encoded / decoded mono signal with the left and the right channel for later formation of stereo information can be related.
  • the discrete-time stereo signal could, for example, by means of a first sampling rate, e.g. B. 48 kHz has been sampled his.
  • the downsampling filter 106 could use this signal the first sampling rate to a second sampling rate of e.g. B. 8 implement kHz. Preferably form the first and the second Sampling rate an integer ratio.
  • the downsampling filter 106 can be implemented as a decimation filter, for example his.
  • the core codec 108 could, for example a speech coder such as e.g. B. G.729, G.723, FS1016, MPEG-4 CELP, MPEG-4 PAR, or a similar encoder.
  • Such encoders operate at data rates of 4.8 kilobits per Second (FS1016) up to data rates of 8 kilobits per second (G.729).
  • FS1016 4.8 kilobits per Second
  • G.729 8 kilobits per second
  • the coded mono signal has a maximum of one Bandwidth of 4 kHz, since the downsampling filter 106 does Mono signal z. B. by decimation to a sampling frequency of 8 kHz. Within the range of 0 - 4 kHz are now the encoded / decoded mono signal and the original one Mono signal at the input of the downsampling filter 106 apart from those introduced by the core codec 108 Coding errors equal.
  • the coding error introduced by the core codec 108 is not are always small mistakes, but that they are easily can come in orders of magnitude of the useful signal, if for example a strongly transient signal in the first encoder is encoded. For this reason, as will be discussed later is checked whether differential coding at all makes sense.
  • the output signal of the upsampling filter 114 now becomes the same like the left and right channels using MDCT filter banks 116 implemented in the frequency domain.
  • the output signals of MDCT filter banks 116 as shown in FIG. 1 is shown, a first frequency-selective switching device (FSS) 118a or a second frequency selective Switching device 118b directly or via a first one Totalizer 120a or a second totalizer 120b indirectly fed.
  • FSS frequency-selective switching device
  • the output signal of the MDCT filter bank for the left channel of the first frequency-selective switching device (FSS) 118a which is also the sum of the transformed left channel and the one with negative Signed transformed coded / decoded Mono signal received.
  • the second frequency-selective switching device 118b receives the next to the transformed R channel Sum of the transformed R channel and the one with negative Signed coded / decoded mono signal.
  • the output signal of the first frequency-selective switching device 118a is both a third summer 122a and also a fourth summer 122b with a positive sign fed while the output signal of the second frequency selective Switching device 118b the third summer 122a with a positive sign and the fourth summer 122b with negative sign is supplied.
  • the third Summer 122a is now either the sum of the transformed left and right channels or the difference from the Sum of the uncoded left and right channels and the encoded / decoded sum of the left and right channels in front.
  • This signal which is now in contrast to the encoded Mono signal of the core codec has 108 stereo information, is, for example, by means of an M encoder 124 Consideration of the psychoacoustic model coded and fed to the bitstream multiplexer 110.
  • this signal also in technology as a side signal is referred to, which is fed into an S-encoder 126 with the S encoder 126 as well as the M encoder 124 code taking into account the psychoacoustic model can.
  • the output signal of the S encoder 126 also becomes fed and included in the bitstream multiplexer also stereo information regarding the time discrete Stereo signal at the input of the scalable stereo encoder 100 according to the first embodiment of the present Invention. It is obvious to experts that a complete bitstream page information needed.
  • Side information is especially information of the frequency-selective switching devices 118a and 118b regarding the fact in which frequency band difference signals or transformed L or R signals to the third summer 122a or to the fourth summer 122b have been issued.
  • the output signal of the core codec 108 points, as it already does was mentioned, e.g. B. a sampling frequency of 8 kHz.
  • This signal i.e. H. the mono signal, with a lower sampling rate than the original discrete-time stereo signal but now related to the left or right channel brought to form stereo information.
  • the signal must therefore be included lower sampling rate in a signal with the same sampling rate how the sampling rate of the discrete-time stereo signal is implemented become.
  • the number of zero values is calculated from the ratio of the first and the second Sampling frequency.
  • the ratio of the first (high) to the second (low) sampling frequency is called the upsampling factor designated.
  • the Inserting zeros with very little computation is possible to generate an aliasing disorder that is such affects that the low frequency or zero spectrum of the encoded / decoded mono signal at the output of the core codec 108 is repeated, in total as many times as many Zeros have been inserted.
  • the aliasing signal is now in the frequency range using the MDCT filter bank 116 transformed.
  • the coded / decoded converted up to the first sampling frequency Mono signal is only in the lower frequency band a correct representation of the original mono signal on Output of the multiplier 104, which is why at the output of the MDCT filter bank 116 only a maximum of one / upsampling factor of the entire spectral lines is used.
  • the insert the zeros in the encoded / decoded mono signal on Output of core codec 108 causes the spectral representation of the encoded / decoded mono signal now the same time and frequency resolution as the transformed one has left and right channels.
  • any encoder can be used may happen that the encoder by certain the M-encoder 124 or by the S-encoder 126 difficult coding signal components produced.
  • the core codec 108 should preferably phase information of the coded by him Preserve signals, which in the professional world as “waveform coding” or “waveform encoding”.
  • the decision which is the frequency selective switching module 118a or 118b is carried out, preferably frequency-dependent.
  • “Differential coding” means that only the difference the transformed left or right channel and the transformed encoded / decoded mono signal becomes. If this differential coding is not cheap is because the energy content of the difference signal is greater than the energy content of the transformed left or right Signal is apart from a difference coding and switched to simulcast mode.
  • Forming stereo information based on the encoded / decoded Mono signal and the first and second Channel therefore includes a determination of where it's cheaper the transformed left or right channel or one Difference between the same and the encoded / decoded mono signal to process.
  • a frequency-selective comparison of respective energies carried out If the energy in a certain frequency band the difference signal is the energy of the other Signal multiplied by a predetermined factor k exceeds, it is determined that the output of the frequency-selective switching device 118a the original transformed left signal is. Otherwise it is determined that the difference spectral values are output.
  • the Factor k can range, for example, from about 0.1 to 10.
  • simulcast coding is already used used when the difference signal is lower Has energy than the other signal.
  • differential coding is still used, even if the energy content of the difference signal already larger than that of the original left or right channel is.
  • stereo information can also form stereo information be carried out such that, for. B. a ratio or another link of the encoded / decoded mono signal and the transformed left and right channels is implemented.
  • FIG 2A shows a scalable stereo encoder 200 according to FIG a second embodiment of the present invention.
  • the same elements have the same reference numerals and if they behave the same way, not again described.
  • the scalable stereo encoder 200 differs different from the scalable stereo encoder 100 according to the first embodiment of the present invention in essential in the fact that either a middle / side coding or L / R coding can be performed.
  • the scalable stereo encoder 200 includes further summing devices 202a, 202b in order to derive from the transformed left and right channel a center signal M or to generate a side signal S. That transformed encoded / decoded mono signal is referred to here as M '.
  • the signal M and the signal M ' is also additional frequency-selective switching device 204 fed in, which generates a signal M ′′, the frequency-selective Switching device 204 also a summer 206 is connected upstream, as is the case with all other frequency-selective Switching devices is the case.
  • the scalable Stereo encoder 200 also includes a block joint stereo decision 208, which 4 input signals L ', M ", S and R 'receives.
  • the block joint stereo decision 208 decides in a known way, whether from a stereo encoder 210 an L / R, an M / S or an intensity coding is to be carried out.
  • the index T is intended to indicate that this is a middle signal in the time domain.
  • the core encoder 108 now operates as was shown in connection with FIG. 1.
  • an MDCT is also carried out on the L and R signals.
  • the frequency-selective switching device now serves as it has already been mentioned for calculating M ''. Damn either equal to M - M 'or M itself, as already shown has been.
  • the frequency selective switching device 118 computes the signal L ', which is either equal to 0.5 (L - M') or equal to 0.5 ⁇ L.
  • the switching devices 118a, 118b and 204 operate frequency selective.
  • a decision is now made in the usual way whether a coding of the signals L 'and R' or M "or S has to take place. This function is known in the art and is therefore not explained in more detail.
  • FIG. 2B shows a scalable stereo encoder which differs in some points from the scalable stereo encoder 200 according to the second exemplary embodiment of the invention.
  • the same comprises the two multipliers 214a and 214b, which are arranged after the frequency-selective switching device 204 and after the frequency-selective switching device 118b.
  • 2B also includes a somewhat more detailed illustration of the frequency selective switching devices.
  • the switch state of the frequency selective switch 118a which is referred to as S 1LR
  • S ' 1LR will always be complementary to the switch state of the frequency selective switch 118b, which is referred to as S ' 1LR .
  • S 2 assumes a different state, ie state b, as shown in the drawing, it is sufficient to transmit the state S 1M of the frequency-selective switching device 204, which indicates whether differential or simulcast coding of the signal M is carried out. If the switch S 2 is in a position c, side information is transmitted that there is an intensity stereo coding, in which case the position of the switch S 1M is also transmitted, while here the positions of S 1LR and S ' 1LR are irrelevant.
  • FIG. 3 includes another embodiment 300 of a scalable stereo encoder according to the present invention.
  • the embodiment shown in Fig. 3 differs differs from the embodiment shown in FIG. 2 essentially in that the mono signal in two Levels is encoded.
  • the first stage is through the core codec 108 formed during the second stage by one Encoder / decoder 302 is formed, which in the preferred embodiment works in the frequency domain and implemented as a psychoacoustic frequency domain encoder can be. It receives the input signal M " Output signal of the frequency-selective switching device 204, it is also checked here whether differential coding or simulcast coding makes sense or not.
  • the output signal of encoder / decoder 302 becomes a summer 304 supplied, the output signal M '' 'the difference of the Signal M and the output signal of the encoder / decoder 302 corresponds.
  • This signal M '' ' is just like that Signals L ', S and R' of a joint stereo decision (not shown) and then a stereo encoder (also not shown) supplied.
  • the core codec 108 also includes that encoder / decoder 302 an output to the bit stream multiplexer, to transmit encoded data to the same.
  • the Outputs of the frequency-selective switching devices to the Bitstream multiplexers are intended to illustrate that page information of frequency-selective switching devices regarding the use of differential and simulcast coding in a frequency band also the bit stream multiplexer need to be fed to a trouble-free To enable decoding.
  • the bit stream includes in 3 additionally shows scalable stereo encoder 300 to the first layer or the first layer that is created by the encoded mono signal of the core codec 108 is formed, a second layer by the coded signal M '' at the bitstream multiplexer output of encoder / decoder 302 is formed, the encoder 300 shown in FIG. 3 an encoding of the mono signal at full sampling rate can enable.
  • a scalable audio encoder 400 represents a mono signal formation only in the frequency domain performs.
  • the signals L and R by means of MDCT filter banks 116 transformed into the frequency domain, after which an M / S matrix by means of summers 202a and 202b and the subsequent multiplier by a factor of 0.5 is carried out.
  • the multiplier is thus at the output on the one hand a center signal M and on the other hand a side signal S on.
  • the middle signal used as a mono signal can be is by means of a first encoder / decoder 402 encoded and decoded again, the encoded mono signal M is written in the bitstream, as it already is has been mentioned several times.
  • a summing device 404 Downstream of encoder / decoder 402 is a summing device 404 which the Difference between the encoded / decoded mono signal and forms the original mono signal M, this difference is designated as M '.
  • the signals L ', M', S and R ' can again use a joint stereo decision facility are supplied, which, however, not shown in Fig. 4 is.
  • the encoder 400 presented in FIG. 4 thus operates completely in the frequency domain, the encoder / decoder 402 preferably as a frequency domain encoder full sampling rate is executed.
  • the stereo encoder (not shown) after the IS decision level (also in FIG. 4 (not shown) is preferably also used as a frequency domain encoder executed at full sampling rate.
  • the in Fig. 4 scalable stereo encoder thus represents a Generalization of the term "scalability" because the Bitstream here no layers or "layers" with different Audio bandwidths but (like the other exemplary embodiments) comprises a monolayer and a stereo layer, which encodes separately from one another by an encoder can be.
  • An older monodecoder that doesn't is equipped for stereo operation for example the bit stream of the encoders according to the invention decode to generate at least one mono audio signal.
  • the scalable stereo encoders according to the invention are thus backwards compatible with existing monodecoders.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

Die vorliegende Erfindung bezieht sich auf skalierbare Audiocodierer und insbesondere auf Verfahren und Vorrichtungen zum Codieren eines zeitdiskreten Stereosignals.
Skalierbare Audiocodierer sind Codierer, die modular aufgebaut sind. So besteht die Bestrebung, bereits bestehende Sprachcodierer zu verwenden, die Signale, die z. B. mit 8 kHz abgetastet sind, verarbeiten und Datenraten von beispielsweise 4,8 bis 8 Kilobit pro Sekunde ausgeben. Diese bekannten Codierer, wie z. B. die für Fachleute bekannten Codierer G. 729, G.723, FS1016, CELP oder parametrische Modelle des MPEG-4-Audio-VM, dienen hauptsächlich zum Codieren von Sprachsignalen und sind im allgemeinen zum Codieren von höherqualitativen Musiksignalen nicht geeignet, da sie üblicherweise für mit 8 kHz abgetastete Signale entworfen sind, weshalb sie lediglich eine Audiobandbreite von maximal 4 kHz codieren können. Sie zeigen jedoch im allgemeinen einen schnellen Betrieb und einen geringen Rechenaufwand.
Zur Audiocodierung von Musiksignalen, um beispielsweise HIFI-Qualität oder CD-Qualität zu erreichen, wird daher bei einem skalierbaren Codierer ein Sprachcodierer mit einem Audiocodierer kombiniert, der Signale mit höherer Abtastrate, wie z. B. 48 kHz, codieren kann. Selbstverständlich ist es auch möglich, den oben genannten Sprachcodierer durch einen anderen Codierer zu ersetzen, beispielsweise durch einen Musik/Audiocodierer nach den Standards MPEG1, MPEG2 oder MPEG4.
Eine derartige Kettenschaltung eines Sprachcodierers mit einem höherwertigen Audiocodierer verwendet üblicherweise das Verfahren der Differenzcodierung im Zeitbereich. Ein Eingangssignal, das beispielsweise eine Abtastrate von 48 kHz aufweist, wird mittels eines Downsampling-Filters auf die für den Sprachcodierer geeignete Abtastfrequenz herunter-abgetastet. Nun wird das herunter-abgetastete Signal codiert. Das codierte Signal kann direkt einer Bitstromformatiereinrichtung zugeführt werden, um übertragen zu werden. Es enthält jedoch lediglich Signale mit einer Bandbreite von z. B. maximal 4 kHz. Das codierte Signal wird ferner wieder decodiert und mittels eines Upsampling-Filters herauf-abgetastet. Das nun erhaltene Signal besitzt jedoch aufgrund des Downsampling-Filters lediglich Nutzinformationen mit einer Bandbreite von beispielsweise 4 kHz. Ferner ist festzustellen, daß der Spektralgehalt des herauf-abgetasteten codierten/decodierten Signals im unteren Band bis 4 kHz nicht exakt dem ersten 4-kHz-Band des mit 48 kHz abgetasteten Eingangssignals entspricht, da Codierer im allgemeinen Codierfehler einführen.
Wie bereits erwähnt wurde, weist ein skalierbarer Codierer sowohl einen allgemein bekannten Sprachcodierer als auch einen Audiocodierer auf, der Signale mit höheren Abtastraten verarbeiten kann. Um Signalanteile des Eingangssignals übertragen zu können, deren Frequenzen über 4 kHz sind, wird eine Differenz des Eingangssignals mit 8 kHz und des codierten/decodierten, herauf-abgetasteten Ausgangssignals des Sprachcodierers für jeden einzelnen zeitdiskreten Abtastwert gebildet. Diese Differenz kann dann mittels eines bekannten Audiocodierers quantisiert und codiert werden, wie es für Fachleute bekannt ist. An dieser Stelle sei angemerkt, daß das Differenzsignal, das in den Audiocodierer, der Signale mit höheren Abtastraten codieren kann, eingespeist wird, im unteren Frequenzbereich abgesehen von Codierfehlern des Sprachcodierers sehr viel kleiner als das Original ist. In dem Spektralbereich, der oberhalb der Bandbreite des herauf-abgetasteten codierten/decodierten Ausgangssignals des Sprachcodierers liegt, entspricht das Differenzsignal im wesentlichen dem wahren Eingangssignal, das mit z. B. 48 kHz abgetastet wurde.
In der ersten Stufe, d. h. der Stufe des Sprachcodierers, wird also zumeist ein Codierer mit niedriger Abtastfrequenz eingesetzt, da im allgemeinen eine sehr niedrige Bitrate des codierten Signals angestrebt wird. Derzeit arbeiten mehrere Codierer, auch die genannten Codierer, mit Bitraten von wenigen Kilobit (zwei bis 8 Kilobit oder auch darüber). Dieselben ermöglichen ferner eine maximale Abtastfrequenz von 8 kHz, da ohnehin nicht mehr Audiobandbreite bei dieser geringen Bitrate möglich ist, und die Codierung bei niedriger Abtastfrequenz bezüglich des Rechenaufwands günstiger ist. Die maximal mögliche Audiobandbreite beträgt 4 kHz und ist in der Praxis auf etwa 3,5 kHz beschränkt. Soll jetzt in der weiteren Stufe, d. h. in der Stufe mit dem Audiocodierer, eine Bandbreitenverbesserung erzielt werden, muß diese weitere Stufe mit einer höheren Abtastfrequenz arbeiten. Zur Anpassung der Abtastfrequenzen werden Dezimations- und Interpolationsfilter zum Down- bzw. Upsampling eingesetzt.
Bis dato sind jedoch lediglich skalierbare Codierer für Monosignale bekannt oder implementiert. Wünschenswert wäre jedoch ein Konzept für skalierbare Audiocodierer, welche Joint-Stereo-Fähigkeiten besitzen. Unter "Joint-Stereo" sind Stereo-Codiertechniken, wie z. B. die Mitte-Seite-Codierung (M/S-Codierung) oder die Intensity-Stereo-Codierung (IS-Codierung) zu verstehen. Wenn einfach für den linken (L) und den rechten (R) Kanal eines Stereosignals jeweils ein getrennter skalierbarer Mono-Audiocodierer eingesetzt wird, kann zwar ein Stereo-Signal codiert werden, die Codierung nimmt dabei jedoch keinerlei Rücksicht auf Joint-Stereo-Techniken, welche bei der bitsparenden Codierung von Stereosignalen weitreichende Einsparungsmöglichkeiten eröffnen können.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zum Codieren eines zeitdiskreten Stereosignals zu schaffen, welche die Verwendung von Joint-Stereo-Techniken ermöglichen.
Diese Aufgabe wird durch ein Verfahren zum Codieren eines zeitdiskreten Stereosignals gemäß Anspruch 1 sowie durch eine Vorrichtung zum Codieren eines zeitdiskreten Stereosignals gemäß Anspruch 14 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß eine Kombination von Joint-Stereo-Techniken mit dem Prinzip der Skalierbarkeit erreicht werden kann, wenn aus dem linken und rechten Kanal eines Stereosignals zunächst ein Monosignal gebildet wird, was vorzugsweise durch Summation geschehen kann. Das Monosignal wird mittels eines ersten Codierers codiert, woraufhin das daraus entstehende Signal einem Bitstrommultiplexer zugeführt wird. Das codierte Monosignal wird ferner wieder decodiert, um ein codiertes/decodiertes Monosignal zu erhalten, das sich vom ursprünglichen Monosignal darin unterscheidet, daß es Codierfehler aufweist, die durch den ersten Codierer eingeführt worden sind. Aus diesem codierten/decodierten Monosignal und dem linken und rechten Kanal des zeitdiskreten Stereosignals können nun Stereoinformationen erzeugt werden, welche beispielsweise Mitte/Seite- (M/S-) Informationen oder Intensity-Stereo- (IS-) Informationen oder auch unter bestimmten Umständen der ursprüngliche linke Kanal oder der ursprüngliche rechte Kanal sein können. Wie es im nachfolgenden offensichtlich wird, kann auch das codierte/decodierte Monosignal selbst bzw. die Differenz des ursprünglichen Monosignals vom codierten/decodierten Monosignal als Stereoinformationen verwendet werden, um zusammen mit der Differenz aus linkem und rechtem Kanal, welche auch als S-Signal bezeichnet wird, direkt eine Mitte/Seite-Codierung zu ergeben. Die Stereoinfonnationen können nun mittels eines zweiten Codierers, der identisch zum ersten Codierer oder auch abweichend vom ersten Codierer aufgebaut sein kann, codiert und ebenfalls einem Bitstrommultiplexer zugeführt, welcher einen Bitstrom aus dem codierten Monosignal und den codierten Stereoinformationen sowie aus zur späteren Decodierung notwendigen Seiteninformationen erzeugt.
Das Bilden des Monosignals und das Codieren desselben kann im Zeitbereich stattfinden, wenn als erster Codierer oder Core-Codierer z. B. ein Sprachcodierer verwendet wird. Vorzugsweise findet das Bilden und Codieren von Stereoinformationen im Frequenzbereich statt, da dann auf leistungsfähige Codierer zurückgegriffen werden kann, welche nach dem psychoakustischen Modell arbeiten.
Es ist jedoch auch möglich, daß vor einer Weiterverarbeitung der linke und der rechte Kanal in den Frequenzbereich transformiert werden, was dazu führt, daß auch für die Codierung des Monosignals ein Frequenzbereichscodierer verwendet werden kann, welcher unter Verwendung des psychoakustischen Modells möglichst verzerrungsfrei codieren kann.
Wird für den ersten Codierer, d. h. für den Codierer des Monosignals, ein Codierer eingesetzt, welcher eine geringere Abtastrate aufweist als das zu codierende zeitdiskrete Stereosignal, so muß das aus der Summation von linkem und rechtem Kanal gebildete Monosignal zuerst auf die niedrigere Abtastfrequenz umgesetzt werden, was auch als Downsampling bezeichnet wird. Das auf die niedrigere Abtastfrequenz umgesetzte Monosignal wird nun codiert und wieder decodiert, wobei das codierte/decodierte Monosignal ebenfalls die niedrigere Abtastfrequenz aufweist. Um mit dem höher abgetasteten linken und rechten Kanal in Beziehung gebracht werden zu können, um Stereoinformationen zu bilden, muß das codierte/ decodierte Monosignal wieder auf die Abtastfrequenz des zeitdiskreten Stereosignals umgesetzt werden, was auch als Upsampling bezeichnet wird. Wird dieses durch Upsampling gewonnene codierte/decodierte Monosignal einer Frequenzbereichstransformation unterzogen, welche vorzugsweise als MDCT (MDCT = modifizierte diskrete Cosinustransformation) implementiert sein kann, so hat das resultierende transformierte codierte/decodierte Monosignal dieselbe Zeit- und Frequenzauflösung wie das ursprüngliche zeitdiskrete Stereo-signal, d. h. der linke (L) Kanal und der rechte (R) Kanal.
Wird dagegen der erste Codierer mit der gleichen Abtastrate betrieben, die das zeitdiskrete Stereosignal hat, so kann selbstverständlich auf das Downsampling und Upsampling verzichtet werden.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detaillierter erläutert. Es zeigen:
Fig. 1
einen skalierbaren Stereocodierer mit Monosignalbildung und -codierung im Zeitbereich und Mitte/Seite-Codierung im Frequenzbereich gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 2A
einen skalierbaren Stereocodierer mit Monosignal-bildung und -codierung im Zeitbereich und einer L/R- oder M/S-Codierung im Frequenzbereich gemäß einem zweiten Ausführungsbeispiel;
Fig. 2B
eine detailliertere Darstellung des skalierbaren Stereocodierers von Fig. 2A;
Fig. 3
eine erweiterte Darstellung des skalierbaren Stereocodierers, der in Fig. 2A gezeigt ist, gemäß einem dritten Ausführungsbeispiel der vorliegenden Erfindung; und
Fig. 4
einen skalierbaren Stereocodierer mit Monosignalbildung im Zeitbereich und wahlweiser L/R- oder M/S-Codierung im Frequenzbereich.
Fig. 1 zeigt ein Prinzipblockschaltbild eines skalierbaren Stereocodierers 100 gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung. Der skalierbare Stereocodierer empfängt ein zeitdiskretes Stereosignal, das einen ersten oder linken Kanal L sowie einen zweiten oder rechten Kanal R umfaßt. Zunächst wird aus dem Stereosignal vorzugsweise durch abtastwertweise Summation mittels eines Summierers 102 ein Summensignal gebildet, welches anschließend mittels eines Multiplizierers 104 mit dem Faktor 0,5 multipliziert wird, um bei diesem Ausführungsbeispiel ein Monosignal zu erzeugen, das zu dem von der M/S-Codierung bekannten Mitte-Signal identisch ist. Das Monosignal am Ausgang des Multiplizierers 104 wird in ein Downsampling-Filter 106 eingespeist, um die Abtastrate desselben auf eine vorzugsweise niedrigere Abtastrate umzusetzen, welche eine Codierung des Monosignals mittels eines Zeitbereichscodierers, welcher Teil des Core-Codecs 108 ist, zu ermöglichen. Das codierte Monosignal wird zusammen mit entsprechenden Seiteninformationen in einen Bitstrommultiplexer 110 geschrieben, welcher an seinem Ausgang 112 einen Bitstrom erzeugt, der eine codierte Darstellung des zeitdiskreten Stereosignals ist.
Innerhalb des Core-Codecs 108 wird das codierte Monosignal wieder decodiert, um mittels eines Upsampling-Filters 114 wieder auf die erste Abtastrate umgesetzt zu werden, damit das codierte/decodierte Monosignal mit dem linken und dem rechten Kanal für eine spätere Bildung von Stereoinformationen in Beziehung gesetzt werden kann.
Das zeitdiskrete Stereosignal könnte beispielsweise mittels einer ersten Abtastrate, z. B. 48 kHz, abgetastet worden sein. Das Downsampling-Filter 106 könnte dieses Signal mit der ersten Abtastrate auf eine zweite Abtastrate von z. B. 8 kHz umsetzen. Vorzugsweise bilden die erste und die zweite Abtastrate ein ganzzahliges Verhältnis. Das Downsampling-Filter 106 kann beispielsweise als Dezimationsfilter implementiert sein. Der Core-Codec 108 könnte beispielsweise einen Sprachcodierer, wie z. B. G.729, G.723, FS1016, MPEG-4 CELP, MPEG-4 PAR, oder einen ähnlichen Codierer umfassen. Solche Codierer arbeiten bei Datenraten von 4,8 Kilobit pro Sekunde (FS1016) bis zu Datenraten von 8 Kilobit pro Sekunde (G.729). Für Fachleute ist es jedoch offensichtlich, daß beliebige andere Codierer mit anderen Datenraten bzw. anderen Abtastfrequenzen als Core-Codec 108 verwendet werden können.
Wird als Core-Codec ein Codierer verwendet, welcher bei 8 kHz arbeitet, so weist das codierte Monosignal maximal eine Bandbreite von 4 kHz auf, da das Downsampling-Filter 106 das Monosignal z. B. mittels Dezimation auf eine Abtastfrequenz von 8 kHz umgesetzt hat. Innerhalb der Bandbreite von 0 - 4 kHz sind nun das codierte/decodierte Monosignal und das ursprüngliche Monosignal am Eingang des Downsampling-Filters 106 abgesehen von durch den Core-Codec 108 eingeführten Codierungsfehlern gleich. Es sei jedoch angemerkt, daß die durch den Core-Codec 108 eingeführten Codierungsfehler nicht immer kleine Fehler sind, sondern daß dieselben ohne weiteres in Größenordnungen des Nutzsignals kommen können, wenn beispielsweise ein stark transientes Signal im ersten Codierer codiert wird. Aus diesem Grund wird, wie später noch erörtert wird, überprüft, ob eine Differenzcodierung überhaupt sinnvoll ist.
Das Ausgangssignal des Upsampling-Filters 114 wird nun ebenso wie der linke und der rechte Kanal mittels MDCT-Filterbänken 116 in den Frequenzbereich umgesetzt. Die Ausgangssignale der MDCT-Filterbänke 116 werden, wie es in Fig. 1 dargestellt ist, einer ersten frequenzselektiven Schalteinrichtung (FSS) 118a bzw. einer zweiten frequenzselektiven Schalteinrichtung 118b direkt bzw. über einen ersten Summierer 120a oder einen zweiten Summierer 120b indirekt zugeführt.
Insbesondere wird das Ausgangssignal der MDCT-Filterbank für den linken Kanal der ersten frequenzselektiven Schalteinrichtung (FSS) 118a zugeführt, welche ebenso die Summe aus dem transformierten linken Kanal und dem mit negativem Vorzeichen versehenen transformierten codierten/decodierten Monosignal empfängt. Die zweite frequenzselektive Schalteinrichtung 118b empfängt neben dem transformierten R-Kanal die Summe des transformierten R-Kanals und des mit negativem Vorzeichen versehenen codierten/decodierten Monosignals.
Die frequenzselektiven Schalteinrichtungen 118a, 118b prüfen, ob es günstiger ist, das transformierte ursprüngliche linke bzw. rechte Signal oder die Differenz des linken bzw. rechten Signals und des codierten/decodierten Monosignals weiter zu verarbeiten. Die Funktion der frequenzselektiven Schalteinrichtung wird später näher dargestellt.
Das Ausgangssignal der ersten frequenzselektiven Schalteinrichtung 118a wird sowohl einem dritten Summierer 122a als auch einem vierten Summierer 122b mit positivem Vorzeichen zugeführt, während das Ausgangssignal der zweiten frequenzselektiven Schalteinrichtung 118b dem dritten Summierer 122a mit positivem Vorzeichen und dem vierten Summierer 122b mit negativem Vorzeichen zugeführt wird. Am Ausgang des dritten Summierers 122a liegt nun entweder die Summe des transformierten linken und rechten Kanals oder die Differenz aus der Summe des uncodierten linken und rechten Kanals und der codierten/decodierten Summe des linken und rechten Kanals vor. Dieses Signal, das nun im Gegensatz zu dem codierten Monosignal des Core-Codecs 108 Stereoinformationen aufweist, wird mittels eines M-Codierers 124 beispielsweise unter Berücksichtigung des psychoakustischen Modells codiert und dem Bitstrommultiplexer 110 zugeführt.
Am Ausgang des vierten Summierers 122b liegt hingegen die Differenz des transformierten linken und rechten Kanals vor, wobei dieses Signal in der Technik auch als Seite-Signal bezeichnet wird, das in einen S-Codierer 126 eingespeist wird, wobei der S-Codierer 126 ebenso wie der M-Codierer 124 unter Berücksichtigung des psychoakustischen Modells codieren kann. Das Ausgangssignal des S-Codierers 126 wird ebenfalls in den Bitstrommultiplexer eingespeist und umfaßt ebenfalls Stereoinformationen bezüglich des zeitdiskreten Stereosignals am Eingang des skalierbaren Stereocodierers 100 gemäß dem ersten Ausführungsbeispiel der vorliegenden Erfindung. Für Fachleute ist es offensichtlich, daß ein kompletter Bitstrom Seiteninformationen benötigt. Erfindungsrelevante Seiteninformationen sind insbesondere Informationen der frequenzselektiven Schalteinrichtungen 118a und 118b bezüglich der Tatsache, in welchem Frequenzband Differenzsignale oder transformierte L- oder R-Signale an den dritten Summierer 122a bzw. an den vierten Summierer 122b ausgegeben wurden.
Im nachfolgenden werden die Funktionen einzelner Elemente, soweit sie noch nicht dargelegt wurden, näher erläutert.
Das Ausgangssignal des Core-Codecs 108 weist, wie es bereits erwähnt wurde, z. B. eine Abtastfrequenz von 8 kHz auf. Dieses Signal, d. h. das Monosignal, mit niedrigerer Abtastrate als das ursprüngliche zeitdiskrete Stereosignal soll nun jedoch mit dem linken bzw. rechten Kanal in Beziehung gebracht werden, um Stereoinformationen zu bilden. Um vergleichbare Signale zu erhalten, muß daher das Signal mit niedrigerer Abtastrate in ein Signal mit gleicher Abtastrate wie die Abtastrate des zeitdiskreten Stereosignals umgesetzt werden.
Dies kann dadurch geschehen, daß zwischen die einzelnen zeitdiskreten Abtastwerte des codierten/decodierten Monosignals am Ausgang des Core-Codecs 108 eine bestimmte Anzahl von Nullwerten eingefügt wird. Die Anzahl der Nullwerte errechnet sich aus dem Verhältnis der ersten und der zweiten Abtastfrequenz. Das Verhältnis der ersten (hohen) zur zweiten (niedrigen) Abtastfrequenz wird als Upsampling-Faktor bezeichnet. Wie es bekannt ist, wird jedoch durch das Einfügen von Nullen, das mit sehr geringem Rechenaufwand möglich ist, eine Aliasing-Störung erzeugt, die sich derart auswirkt, daß das niederfrequente oder Nullspektrum des codierten/decodierten Monosignals am Ausgang des Core-Codecs 108 wiederholt wird, und zwar insgesamt so oft, wie viele Nullen eingefügt wurden. Das Aliasing-behaftete Signal wird nun mittels der MDCT-Filterbank 116 in den Frequenzbereich transformiert. Durch Einfügen von z. B. 5 Nullen zwischen jedem Abtastwert entsteht ein Signal, von dem von vorneherein bekannt ist, daß lediglich jeder 6. Abtastwert dieses Signals von Null verschieden ist. Diese Tatsache kann beim Transformieren dieses Signals in den Frequenzbereich mittels einer Filterbank oder einer modifizierten diskreten Cosinustransformation oder mittels einer beliebigen Frequenztransformation ausgenützt werden, da beispielsweise auf bestimmte Summationen, die bei einer einfachen FFT auftreten, verzichtet werden kann. Die von vorneherein bekannte Struktur des zu transformierenden Signals kann somit auf vorteilhafte Weise zur Rechenzeiteinsparung bei einer Transformation desselben in den Frequenzbereich verwendet werden.
Das auf die erste Abtastfrequenz herauf umgesetzte codierte/decodierte Monosignal ist nur im unteren Frequenzband eine korrekte Darstellung des ursprünglichen Monosignals am Ausgang des Multiplizierers 104, weshalb am Ausgang der MDCT-Filterbank 116 nur maximal das Eins/Upsampling-Faktorfache der gesamten Spektrallinien verwendet wird. Das Einfügen der Nullen in das codierte/decodierte Monosignal am Ausgang des Core-Codecs 108 bewirkt jedoch, daß die Spektraldarstellung des codierten/decodierten Monosignals nun dieselbe Zeit- und Frequenzauflösung wie der transformierte linke und rechte Kanal besitzt.
Nicht immer ist es günstig, eine Differenz-Verarbeitung nach den frequenzselektiven Schalteinrichtungen 118a und 118b zu verwenden. Die frequenzselektiven Schalteinrichtungen führen daher eine sog. Simulcast-Differenz-Umschaltung durch. Es ist beispielsweise dann ungünstig, ein Differenzsignal weiter zu verarbeiten, wenn das Differenzsignal eine höhere Energie als das entsprechende andere Signal am Eingang der frequenzselektiven Schalteinrichtung 118a aufweist. Da als Core-Codec 108 ein beliebiger Codierer verwendet werden kann, kann es vorkommen, daß der Codierer bestimmte durch den M-Codierer 124 bzw. durch den S-Codieren 126 schwer zu codierende Signalanteile produziert. Der Core-Codec 108 soll vorzugsweise Phaseninformationen des von ihm codierten Signals bewahren, was in der Fachwelt als "Waveform-Coding" oder "Signalform-Codieren" bezeichnet wird. Die Entscheidung, die das frequenzselektive Schaltmodul 118a oder 118b durchführt, wird vorzugsweise frequenzabhängig getroffen.
"Differenzcodierung" bedeutet, daß lediglich die Differenz des transformierten linken bzw. rechten Kanals und des transformierten codierten/decodierten Monosignals codiert wird. Falls diese Differenzcodierung jedoch nicht günstig ist, da der Energieinhalt des Differenzsignals größer als der Energieinhalt des transformierten linken oder rechten Signals ist, wird von einer Differenzcodierung abgesehen und auf Simulcast-Betrieb umgeschaltet.
Da die Differenzbildung im Frequenzbereich, d. h. selektiv spektralwertweise, stattfindet, ist es ohne weiteres möglich, eine frequenzselektive Simulcast- oder Differenzcodierung durchzuführen. Die Differenzbildung im Spektrum erlaubt somit eine einfache frequenzselektive Wahl der Frequenzbereiche, welche differenzcodiert werden sollen. Prinzipiell könnte eine Umschaltung von einer Differenz- zu einer Simulcast-Codierung für jeden Spektralwert einzeln auftreten. Dies würde jedoch eine zu große Menge an Seiteninformationen erfordern. Daher wird es bevorzugt, beispielsweise ein frequenzgruppenweises Vergleichen der Energien der Differenzspektralwerte und des transformierten linken bzw. rechten Kanals durchzuführen. Alternativ dazu können bestimmte Frequenzbänder von vorneherein festgelegt werden, z. B. 8 Bänder zu jeweils 500 kHz im Beispiel. Ein Kompromiß bei der Festlegung der Frequenzbänder besteht darin, die Menge der zu übertragenden Seiteninformationen, d. h. ob in einem Frequenzband die Differenzcodierung aktiv ist oder nicht, gegenüber dem Nutzen abzuwägen, der aus einer möglichst häufigen Differenzcodierung erwächst.
Das Bilden von Stereoinformationen aufgrund des codierten/decodierten Monosignals und des ersten und des zweiten Kanals umfaßt daher eine Bestimmung, wo es günstiger ist, den transformierten linken bzw. rechten Kanal oder eine Differenz desselben und des codierten/decodierten Monosignals zu verarbeiten. In jedem gewählten Frequenzband wird nun ein frequenzselektives Vergleichen jeweiliger Energien durchgeführt. Falls die Energie in einem bestimmten Frequenzband des Differenzsignals die Energie des anderen Signals multipliziert mit einem vorbestimmten Faktor k überschreitet, wird bestimmt, daß das Ausgangssignal der frequenzselektiven Schalteinrichtung 118a das ursprüngliche transformierte linke Signal ist. Anderenfalls wird bestimmt, daß die Differenz-Spektralwerte ausgegeben werden. Der Faktor k kann beispielsweise von etwa 0,1 bis 10 reichen. Bei Werten von k kleiner 1 wird bereits eine Simulcast-Codierung eingesetzt, wenn das Differenzsignal eine geringere Energie als das andere Signal aufweist. Bei Werten von k größer 1 wird dagegen weiter eine Differenzcodierung verwendet, selbst wenn der Energieinhalt des Differenzsignals bereits größer als der des ursprünglichen linken bzw. rechten Kanals ist. Alternativ zu der beschriebenen Differenzbildung kann eine Bildung von Stereoinformationen auch derart durchgeführt werden, daß z. B. ein Verhältnis oder eine sonstige Verknüpfung des codierten/decodierten Monosignals und des transformierten linken bzw. rechten Kanals implementiert wird.
Fig. 2A zeigt einen skalierbaren Stereocodierer 200 gemäß einem zweiten Ausführungsbeispiel der vorliegenden Erfindung. Gleiche Elemente tragen die gleichen Bezugszeichen und werden, wenn sie sich gleich verhalten, nicht noch einmal beschrieben. Der skalierbare Stereocodierer 200 unterscheidet sich vom skalierbaren Stereocodierer 100 gemäß dem ersten Ausführungsbeispiel der vorliegenden Erfindung im wesentlichen darin, daß wahlweise eine Mitte/Seite-Codierung oder eine L/R-Codierung durchführt werden kann.
Zu diesem Zwecke umfaßt der skalierbare Stereocodierer 200 weitere Summationseinrichtungen 202a, 202b, um aus dem transformierten linken und rechten Kanal ein Mitte-Signal M bzw. ein Seite-Signal S zu erzeugen. Das transformierte codierte/decodierte Monosignal ist hier als M' bezeichnet. Das Signal M und das Signal M' wird in eine ebenfalls zusätzliche frequenzselektive Schalteinrichtung 204 eingespeist, welche ein Signal M'' erzeugt, wobei der frequenzselektiven Schalteinrichtung 204 ebenfalls ein Summierer 206 vorgeschaltet ist, wie es auch bei allen anderen frequenzselektiven Schalteinrichtungen der Fall ist. Der skalierbare Stereocodierer 200 umfaßt ferner einen Block Joint-Stereo-Entscheidung 208, welcher 4 Eingangssignale L', M", S und R' empfängt. Der Block Joint-Stereo-Entscheidung 208 entscheidet auf bekannte Art und Weise, ob von einem Stereocodierer 210 eine L/R-, eine M/S- oder eine Intensity-Codierung durchzuführen ist.
Die Funktion des skalierbaren Stereocodierers 200 sei nachfolgend dargestellt. Zunächst wird aus dem zeitdiskreten Stereosignal ein Monosignal gebildet, wobei diese Bildung im Zeitbereich stattfindet und gleichungsmäßig folgendermaßen lautet: MT = (L + R) · 0,5
Der Index T soll anzeigen, daß es sich hier um ein Mitte-Signal im Zeitbereich handelt. Der Core-Codierer 108 arbeitet nun, wie es in Verbindung mit Fig. 1 dargestellt wurde. Außerdem wird ebenfalls wie in Fig. 1 eine MDCT auf die Signale L und R ausgeführt. Mittels der Summierer 202a und 202b sowie der nachgeschalteten Multiplizierer wird nun das M/S-Signal im Frequenzbereich berechnet, was in Gleichungen ausgedrückt folgendermaßen lautet: M = (L + R) · 0,5 und S = (L - R) · 0,5
Die freguenzselektive Schalteinrichtung dient nun, wie es bereits erwähnt wurde, zur Berechnung von M''. M'' ist entweder gleich M - M' oder M selbst, wie es bereits dargestellt wurde. Die frequenzselektive schalteinrichtung 118 berechnet das Signal L', das entweder gleich 0,5 (L - M') oder gleich 0,5 · L ist. Entsprechendes gilt für das Signal R', das entweder gleich R · 0,5 oder gleich (R - M') · 0,5 ist. Die Schalteinrichtungen 118a, 118b und 204 arbeiten frequenzselektiv. In dem Block Joint-Stereo-Entscheidung 208 findet nun auf übliche Weise eine Entscheidung statt, ob eine Codierung der Signale L' und R' oder M" oder S stattzufinden hat. Diese Funktion ist in der Technik bekannt und wird daher nicht näher dargelegt.
Fig. 2B zeigt einen skalierbaren Stereocodierer, der sich von dem skalierbaren Stereocodierer 200 gemäß dem zweiten Ausführungsbeispiel der Erfindung in einigen Punkten unterscheidet. Derselbe umfaßt als einzige Multiplizierer die beiden Multiplizierer 214a und 214b, welche nach der frequenzselektiven Schalteinrichtung 204 bzw. nach der frequenzselektiven Schalteinrichtung 118b angeordnet sind. Fig. 2B umfaßt ferner eine etwas detailliertere Darstellung der frequenzselektiven Schalteinrichtungen. Der Schalterzustand der frequenzselektiven Schalteinrichtung 118a, der als S1LR bezeichnet wird, wird zu dem Schalterzustand der frequenzselektiven Schalteinrichtung 118b, der als S'1LR bezeichnet ist, immer komplementär sein. Dasselbe gilt für zwei zusätzliche Schalter S2 und S2', welche in dem Block Joint-Stereo-Entscheidung 208 vorhanden sein können, um interne Signale L'' und R'' zu bilden.
Das Verlegen der Multiplikationen hinter die frequenzselektiven Schalteinrichtungen führt zu einer einfacheren und übersichtlichen Darstellung des Stereocodierers. Die Multiplikationen an sich werden somit nicht mehr unbedingt nötwendig, sondern dieselben könnten auch im Decodierer ausgeführt werden. Zur Verringerung der zu übertragenden Seiteninformationen ist es ferner möglich, statt der Übertragung aller Schalterzustände lediglich einige Schalterzustände zu übertragen. Wenn der Schalter S2 den Zustand a anzeigt, daß eine L/R-Codierung angewendet wird, ist es ausreichend, lediglich den Zustand der Schalter S1, S'1 zu übertragen, wobei die Übertragung des Zustands des Schalters S'1 unterbleiben kann, da dieser zu dem Zustand des Schalter S1 komplementär sein wird. Wenn S2 einen anderen Zustand, d. h. den Zustand b, einnimmt, wie es in der Zeichnung dargestellt ist, so genügt es, den Zustand S1M der frequenzselektiven Schalteinrichtung 204 zu übertragen, welche anzeigt, ob eine Differenz- oder Simulcast-Codierung des Signals M durchgeführt wird. Steht der Schalter S2 in einer Position c, so wird als Seiteninformationen übertragen, daß eine Intensity-Stereo-Codierung vorliegt, wobei in diesem Fall ebenfalls die Position des Schalters S1M übertragen wird, während hier die Positionen von S1LR und S'1LR ohne Belang sind.
Fig. 3 umfaßt ein weiteres Ausführungsbeispiel 300 eines skalierbaren Stereocodierers gemäß der vorliegenden Erfindung. Das in Fig. 3 gezeigte Ausführungsbeispiel unterscheidet sich von dem in Fig. 2 gezeigten Ausführungsbeispiel im wesentlichen darin, daß das Monosignal in zwei Stufen codiert wird. Die erste Stufe wird durch den Core-Codec 108 gebildet, während die zweite Stufe durch einen Codierer/Decodierer 302 gebildet wird, welcher bei dem bevorzugten Ausführungsbeispiel im Frequenzbereich arbeitet und als psychoakustischer Frequenzbereichscodierer ausgeführt sein kann. Derselbe erhält als Eingangssignal M" das Ausgangssignal der frequenzselektiven Schalteinrichtung 204, wobei auch hier geprüft wird, ob eine Differenz- oder Simulcast-Codierung sinnvoll ist oder nicht. Das Ausgangssignal des Codierers/Decodierers 302 wird einem Summierer 304 zugeführt, dessen Ausgangssignal M''' der Differenz des Signals M und des Ausgangssignals des Codierers/Decodierers 302 entspricht. Dieses Signal M''' wird ebenso wie die Signale L', S und R' einer Joint-Stereo-Entscheidung (nicht gezeigt) und dann einem Stereocodierer (ebenfalls nicht gezeigt) zugeführt. Der Core-Codec 108 umfaßt ebenso wie der codierer/Decodierer 302 einen Ausgang zu dem Bitstrommultiplexer, um codierte Daten zu demselben zu übertragen. Die Ausgänge der frequenzselektiven Schalteinrichtungen zu dem Bitstrommultiplexer sollen veranschaulichen, daß Seiteninformationen der frequenzselektiven Schalteinrichtungen bezüglich der Verwendung von Differenz- und Simulcast-Codierung in einem Frequenzband ebenfalls dem Bitstrommultiplexer zugeführt werden müssen, um ein störungsfreies Decodieren zu ermöglichen. Der Bitstrom umfaßt bei dem in Fig. 3 gezeigten skalierbaren Stereocodierer 300 zusätzlich zu der ersten Schicht oder dem ersten Layer, der durch das codierte Monosignal des Core-Codecs 108 gebildet wird, eine zweite Schicht, die durch das codierte Signal M'' am Bitstrommultiplexer-Ausgang des Codierer/Decodierers 302 gebildet wird, wobei der in Fig. 3 gezeigte Codierer 300 eine Codierung des Monosignals mit voller Abtastrate ermöglichen kann.
Im Gegensatz zu den bisher dargestellten Ausführungsbeispielen stellt Fig. 4 einen skalierbaren Audiocodierer 400 dar, der eine Monosignal-Bildung nur im Frequenzbereich durchführt. Dazu werden die Signale L und R mittels MDCT-Filterbänken 116 in den Frequenzbereich transformiert, wonach eine M/S-Matrix mittels der Summierer 202a und 202b und der nachfolgenden Multiplizierer mit dem Faktor 0,5 durchgeführt wird. Am Ausgang der Multiplizierer liegt somit einerseits ein Mitte-Signal M und andererseits ein Seite-Signal S an. Das Mitte-Signal, das als Monosignal verwendet werden kann, wird mittels eines ersten Codierers/Decodierers 402 codiert und wieder decodiert, wobei das codierte Monosignal M in den Bitstrom geschrieben wird, wie es bereits mehrfach erwähnt wurde. Dem Codierer/Decodierer 402 nachgeschaltet ist eine Summationseinrichtung 404, welche die Differenz zwischen dem codierten/decodierten Monosignal und dem ursprünglichen Monosignal M bildet, wobei diese Differenz als M' bezeichnet ist. Die Signale L', M', S und R' können wieder einer Joint-Stereo-Entscheidungseinrichtung zugeführt werden, welche allerdings in Fig. 4 nicht dargestellt ist.
Der in Fig. 4 vorgestellte Codierer 400 arbeitet somit vollständig im Frequenzbereich, wobei der Codierer/Decodierer 402 vorzugsweise als Frequenzbereichscodierer mit voller Abtastrate ausgeführt ist. Der Stereocodierer (nicht gezeigt) nach der IS-Entscheidungsstufe (ebenfalls in Fig. 4 nicht gezeigt) ist vorzugsweise ebenfalls als Frequenzbereichscodierer mit voller Abtastrate ausgeführt. Der in Fig. 4 dargestellt skalierbare Stereocodierer stellt somit eine Verallgemeinerung des Begriffs "Skalierbarkeit " dar, da der Bitstrom hier keine Schichten oder "Layers" mit unterschiedlichen Audiobandbreiten sondern (ebenso wie die anderen Ausführungsbeispiele) einen Monolayer und einen Stereolayer umfaßt, welche durch einen Codierer getrennt voneinander codiert werden können. Ein älterer Monodecodierer, der nicht für einen Stereobetrieb ausgestattet ist, kann somit beispielsweise den Bitstrom der erfindungsgemäßen Codierer decodieren, um zumindest ein Monoaudiosignal zu erzeugen. Die erfindungsgemäßen skalierbaren Stereocodierer sind somit zu bestehenden Monodecodierern rückwärtskompatibel.

Claims (14)

  1. Verfahren zum Codieren eines zeitdiskreten Stereosignals, wobei das Stereosignal einen ersten und einen zweiten Kanal (L, R) aufweist, mit folgenden Schritten:
    (a) Bilden eines Monosignals (M) aus dem Stereosignal;
    (b) Codieren des Monosignals und Übertragen des codierten Monosignals in einen Bitstrom;
    (c) Decodieren des codierten Monosignals;
    (d) Bilden von Stereoinformationen aufgrund des codierten/decodierten Monosignals (M') und des ersten und zweiten Kanals (L, R); und
    (e) Codieren der Stereoinformationen und Übertragen derselben in den Bitstrom.
  2. Verfahren nach Anspruch 1, bei dem das zeitdiskrete Stereosignal eine erste Abtastrate aufweist, wobei der Schritt (a) folgende Teilschritte aufweist:
    (a21) abtastwertweises Summieren des linken und des rechten Kanals (L, R) um ein Summensignal zu erhalten; und
    (a22) Umsetzen des Summensignals auf eine zweite Abtastrate, die kleiner als die erste Abtastrate ist, um das Monosignal zu erhalten; und
    bei dem der Schritt (c) folgende Teilschritte aufweist:
    (c21) Decodieren des codierten Monosignals, das die zweite Abtastrate aufweist; und
    (c22) Umsetzen des codierten/decodierten Monosignals auf die erste Abtastrate.
  3. Verfahren nach einem der vorhergehenden Ansprüche, das ferner folgenden Schritt aufweist:
    Transformieren des linken und des rechten Kanals und des codierten/decodierten Monosignals in den Frequenzbereich, wobei die transformierten Signale alle eine im wesentlichen gleiche Zeit- und Frequenzauflösung aufweisen.
  4. Verfahren nach Anspruch 3, bei dem der Schritt (d) folgende Teilschritte aufweist:
    (d41) frequenzselektives Vergleichen des transformierten linken Kanals mit der Differenz aus dem transformierten linken Kanal und dem transformierten codierten/decodierten Monosignal und Auswählen des Signals, das die kleinere gehörmäßige Entropie oder die kleinere Energie hat oder mit einer geringeren Bitzahl codierbar ist;
    (d42) frequenzselektives Vergleichen des transformierten rechten Kanals mit der Differenz aus dem transformierten rechten Kanal und dem transformierten codierten/decodierten Monosignal und Auswählen des Signals, das die kleinere gehörmäßige Entropie oder die kleinere Energie hat oder mit einer geringeren Bitzahl codierbar ist;
    (d43) Summieren der in den Schritten (d41) und (d42) ausgewählten Signale, um als erste Stereoinformationen ein Mitte-Signal (M) zu erhalten; und
    (d44) Subtrahieren des in dem Schritt (d42) ausgewählten Signals von dem in dem Schritt (d41) ausgewählten Signal, um als zweite Stereoinformationen ein Seite-Signal (S) zu erhalten.
  5. Verfahren nach einem der Ansprüche 1 - 3, bei dem der Schritt (d) folgende Teilschritte aufweist:
    (d51) Summieren des transformierten linken Kanals (L) und des transformierten rechten Kanals (R), um ein Mitte-Signal (M) zu erhalten; und
    (d52) Subtrahieren des transformierten rechten Kanals (R) von dem transformierten linken Kanal (L), um ein Seite-Signal (S) zu erhalten.
  6. Verfahren nach Anspruch 5, bei dem der Schritt (d) ferner folgende Teilschritte aufweist:
    (d61) frequenzselektives Vergleichen des transformierten codierten/decodierten Monosignals (M') mit der Differenz aus dem Mitte-Signal (M) und dem codierten/decodierten Monosignal (M') und Auswählen des Signals mit der kleineren Energie;
    (d62) frequenzselektives Vergleichen des linken Kanals mit der Differenz aus dem linken Kanal (L) und dem transformierten codierten/decodierten Monosignal (M'); und
    (d63) frequenzselektives Vergleichen des rechten Kanals mit der Differenz aus dem rechten Kanal (R) und dem transformierten codierten/decodierten Monosignal (M').
  7. Verfahren nach Anspruch 6, bei dem der Schritt (d) ferner folgenden Teilschritt aufweist:
    (d71) Entscheiden, ob als erste und zweite Stereoinformationen die Ergebnisse der Schritte (d61) und (d52) bzw. die Ergebnisse der Schritte (d62) und (d63) verwendet werden.
  8. Verfahren nach Anspruch 7, bei dem der Schritt (d) vor dem Schritt (d71) ferner folgenden Teilschritt aufweist:
    (d81) Halbieren der Ergebnisse der Schritte (d61) und (d52).
  9. Verfahren nach Anspruch 7 oder 8, bei dem der Schritt (d) ferner folgenden Teilschritt aufweist:
    (d91) falls in den Schritten (d71) die Ergebnisse der Schritte (d62) und (d63) als erste und zweite Stereoinformationen verwendet werden, Übertragen von Seiteninformationen, die entweder auf das Ergebnis des Schritts (d62) oder des Schritts (d63) hinweisen, sonst, Übertragen von Seiteninformationen, die auf das Ergebnis des Schritts (d61) hinweisen.
  10. Verfahren nach einem der Ansprüche 1 - 5, bei dem der Schritt (d) ferner folgende Teilschritte aufweist:
    (d101) frequenzselektives Vergleichen des Mitte-Signals (M) mit der Differenz aus dem Mitte-Signal (M) und dem transformierten codierten/decodierten Monosignal (M') und Auswählen des Signals mit der kleineren Energie als weiteres Monosignal;
    bei dem der Schritt (b) ferner folgenden Schritt aufweist:
    (b101) Codieren des weiteren Monosignals (M") und Übertragen des codierten weiteren Monosignals in den Bitstrom; und
    (b102) Decodieren des codierten weiteren Monosignals.
  11. Verfahren nach Anspruch 10, bei dem der Schritt (d) folgende Teilschritte aufweist:
    (d111) Subtrahieren des codierten/decodierten weiteren Monosignals (M") von dem Mitte-Signal (M);
    (d112) frequenzselektives Vergleichen des transformierten linken Kanals (L) mit der Differenz des linken Kanals und dem Ergebnis des Schritts (d111) und Auswählen des Signals mit der kleineren Energie;
    (d113) frequenzselektives Vergleichen des transformierten linken Kanals (L) mit der Differenz des rechten Kanals und dem Ergebnis des Schritts (d111) und Auswählen des Signals mit der kleineren Energie; und
    (d114) Entscheiden, ob als erste und zweite Stereoinformationen die Ergebnisse der Schritte (d111) (M''') und (d52) (S) bzw. die Ergebnisse der Schritte (d112) (L') und (d113) (R') verwendet werden.
  12. Verfahren nach Anspruch 1, bei dem vor dem Schritt (a) der linke und der rechte Kanal in den Frequenzbereich transformiert werden, wobei der Schritt (a) folgenden Teilschritt aufweist:
    (a121) spektralwertweises Summieren des transformierten linken und rechten Kanals, um das Monosignal (M) zu erhalten.
  13. Verfahren nach Anspruch 12, bei dem der Schritt (d) folgende Teilschritte aufweist:
    (d131) Subtrahieren des codierten/decodierten Monosignals von dem Monosignal (M);
    (d132) Subtrahieren des transformierten rechten Kanals (R) von dem transformierten linken Kanal (L), um ein transformiertes Seite-Signal (S) zu erhalten;
    (d133) spektralwertweises Vergleichen des transformierten linken Signals (L) mit der Differenz aus dem transformierten linken Signal (L) und dem Ergebnis des Schrittes (d131) und Auswählen des Signals mit kleinerer Energie;
    (d134) spektralwertweises Vergleichen des transformierten rechten Signals (R) mit der Differenz aus dem transformierten rechten Signal und dem Ergebnis des Schritts (d131) und Auswählen des Signals mit kleinerer Energie; und
    (d135) Entscheiden, ob als erste und zweite Stereoinformationen die Ergebnisse der Schritte (d133) (L') und (d134) (R') oder die Ergebnisse der Schritte (d131) (M') und (d132) (S) verwendet werden.
  14. Vorrichtung (100; 200; 300; 400) zum Codieren eines zeitdiskreten Stereosignals, wobei das Stereosignal einen ersten und einen zweiten Kanal (R, L) aufweist, mit folgenden Merkmalen:
    (a) einer Einrichtung (102,104; 202a) zum Bilden eines Monosignals aus dem Stereosignal;
    (b) einer Einrichtung (108; 402) zum Codieren des Monosignals und zum Übertragen des codierten Monosignals in einen Bitstrom;
    (c) einer Einrichtung (108; 402) zum Decodieren des codierten Monosignals;
    (d) einer Einrichtung (116, 118a, 118b, 120a, 120b, 122a, 122b; 202a, 202b, 204, 208; 214a, 214b; 302, 304; 402, 404) zum Bilden von Stereoinformationen aufgrund des codierten/decodierten Monosignals und des ersten und des zweiten Kanals; und
    (e) einer Einrichtung (124, 126; 210) zum Codieren der Stereoinformationen und zum Übertragen derselben in den Bitstrom.
EP98932156A 1997-09-26 1998-06-15 Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals Expired - Lifetime EP1016319B1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19742655A DE19742655C2 (de) 1997-09-26 1997-09-26 Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
DE19742655 1997-09-26
PCT/EP1998/003605 WO1999017587A1 (de) 1997-09-26 1998-06-15 Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals

Publications (2)

Publication Number Publication Date
EP1016319A1 EP1016319A1 (de) 2000-07-05
EP1016319B1 true EP1016319B1 (de) 2001-08-29

Family

ID=7843796

Family Applications (1)

Application Number Title Priority Date Filing Date
EP98932156A Expired - Lifetime EP1016319B1 (de) 1997-09-26 1998-06-15 Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals

Country Status (7)

Country Link
US (1) US6629078B1 (de)
EP (1) EP1016319B1 (de)
AT (1) ATE205041T1 (de)
DE (2) DE19742655C2 (de)
DK (1) DK1016319T3 (de)
ES (1) ES2161059T3 (de)
WO (1) WO1999017587A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101091206B (zh) * 2004-12-28 2011-06-01 松下电器产业株式会社 语音编码装置和语音编码方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1233556A1 (de) * 2001-02-16 2002-08-21 Sony International (Europe) GmbH Empfänger für den Empfang von Rundfunksignalen mit Verwendung von zwei Empfängern, für den Empfang eines Rundfunksignals das auf zwei unterschiedlichen Rundfunkfrequenzen oder mit zwei unterschiedlichen Übertragungssystemen übertragen wird
US7644001B2 (en) * 2002-11-28 2010-01-05 Koninklijke Philips Electronics N.V. Differentially coding an audio signal
CN1765153A (zh) * 2003-03-24 2006-04-26 皇家飞利浦电子股份有限公司 表示多信道信号的主和副信号的编码
JP4555299B2 (ja) * 2004-09-28 2010-09-29 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
BRPI0516739A (pt) * 2004-09-30 2008-09-23 Matsushita Electric Ind Co Ltd dispositivo de codificação escalável, dispositivo de decodificação escalável, e método dos mesmos
JP5046652B2 (ja) * 2004-12-27 2012-10-10 パナソニック株式会社 音声符号化装置および音声符号化方法
WO2006070760A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
EP1876586B1 (de) * 2005-04-28 2010-01-06 Panasonic Corporation Audiocodierungseinrichtung und audiocodierungsverfahren
EP1876585B1 (de) * 2005-04-28 2010-06-16 Panasonic Corporation Audiocodierungseinrichtung und audiocodierungsverfahren
US20090276210A1 (en) * 2006-03-31 2009-11-05 Panasonic Corporation Stereo audio encoding apparatus, stereo audio decoding apparatus, and method thereof
US8150702B2 (en) * 2006-08-04 2012-04-03 Panasonic Corporation Stereo audio encoding device, stereo audio decoding device, and method thereof
US9009032B2 (en) * 2006-11-09 2015-04-14 Broadcom Corporation Method and system for performing sample rate conversion
EP2201566B1 (de) * 2007-09-19 2015-11-11 Telefonaktiebolaget LM Ericsson (publ) Gemeisame mehrkanal-audio kodierung/dekodierung
WO2009057329A1 (ja) * 2007-11-01 2009-05-07 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
US9330671B2 (en) * 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding
BR122019023877B1 (pt) * 2009-03-17 2021-08-17 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
EP2625688B1 (de) * 2010-10-06 2014-12-03 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur verarbeitung eines audiosignals und zur bereitstellung einer höheren zeitlichen auflösung für einen kombinierten einheitlichen sprach- und audio-codec (usac)
EP2544466A1 (de) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Zerlegung einer Stereoaufzeichnung mittels Frequenzdomänenverarbeitung unter Verwendung eines spektralen Subtrahieres
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
EP4297026A3 (de) * 2013-09-12 2024-03-06 Dolby International AB Verfahren zur decodierung und decodierer.

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
GB9206860D0 (en) * 1992-03-27 1992-05-13 British Telecomm Two-layer video coder
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
DE4217276C1 (de) * 1992-05-25 1993-04-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev, 8000 Muenchen, De
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
DE4345171C2 (de) * 1993-09-15 1996-02-01 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
KR960012475B1 (ko) * 1994-01-18 1996-09-20 대우전자 주식회사 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
DE19549621B4 (de) * 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101091206B (zh) * 2004-12-28 2011-06-01 松下电器产业株式会社 语音编码装置和语音编码方法

Also Published As

Publication number Publication date
DE59801343D1 (de) 2001-10-04
ES2161059T3 (es) 2001-11-16
ATE205041T1 (de) 2001-09-15
WO1999017587A1 (de) 1999-04-08
US6629078B1 (en) 2003-09-30
DE19742655A1 (de) 1999-04-22
EP1016319A1 (de) 2000-07-05
DE19742655C2 (de) 1999-08-05
DK1016319T3 (da) 2001-10-08

Similar Documents

Publication Publication Date Title
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE602004004818T2 (de) Audiosignalcodierung oder -decodierung
EP0910928B1 (de) Codieren und decodieren von audiosignalen unter verwendung von intensity-stereo und prädiktion
EP1025646B1 (de) Verfahren und vorrichtung zum codieren von audiosignalen sowie verfahren und vorrichtungen zum decodieren eines bitstroms
EP0750811B1 (de) Verfahren zum codieren mehrerer audiosignale
DE60317722T2 (de) Verfahren zur Reduzierung von Aliasing-Störungen, die durch die Anpassung der spektralen Hüllkurve in Realwertfilterbanken verursacht werden
EP0910927B1 (de) Verfahren zum codieren und decodieren von stereoaudiospektralwerten
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
DE602005002833T2 (de) Kompensation von multikanal-audio energieverlusten
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
EP1502255B1 (de) Vorrichtung und verfahren zum skalierbaren codieren und vorrichtung und verfahren zum skalierbaren decodieren eines audiosignales
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE10200653B4 (de) Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE602004005846T2 (de) Audiosignalgenerierung
DE19549621B4 (de) Vorrichtung zum Codieren von Audiosignalen
EP2062254B1 (de) Steganographie in digitalen signal-codierern
DE19811039A1 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE19706516C1 (de) Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen
WO2003088212A1 (de) Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten
DE60310449T2 (de) Audiosignalkodierung
DE102006051673A1 (de) Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE19829284C2 (de) Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 19991116

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

17Q First examination report despatched

Effective date: 20010202

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

ITF It: translation for a ep patent filed

Owner name: JACOBACCI & PERANI S.P.A.

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

REF Corresponds to:

Ref document number: 205041

Country of ref document: AT

Date of ref document: 20010915

Kind code of ref document: T

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20010829

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: GERMAN

REF Corresponds to:

Ref document number: 59801343

Country of ref document: DE

Date of ref document: 20011004

REG Reference to a national code

Ref country code: DK

Ref legal event code: T3

ET Fr: translation filed
REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2161059

Country of ref document: ES

Kind code of ref document: T3

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20011129

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20011130

REG Reference to a national code

Ref country code: CH

Ref legal event code: NV

Representative=s name: PA ALDO ROEMPLER

REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20020615

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20020630

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: CH

Ref legal event code: PFA

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWA

Free format text: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWANDTEN FORSCHUNG E.V.#LEONRODSTRASSE 54#80636 MUENCHEN (DE) -TRANSFER TO- FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWANDTEN FORSCHUNG E.V.#HANSASTRASSE 27 C#80686 MUENCHEN (DE)

REG Reference to a national code

Ref country code: CH

Ref legal event code: PCAR

Free format text: ALDO ROEMPLER PATENTANWALT;BRENDENWEG 11 POSTFACH 154;9424 RHEINECK (CH)

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 19

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20170621

Year of fee payment: 20

Ref country code: IE

Payment date: 20170622

Year of fee payment: 20

Ref country code: DK

Payment date: 20170626

Year of fee payment: 20

Ref country code: DE

Payment date: 20170621

Year of fee payment: 20

Ref country code: CH

Payment date: 20170626

Year of fee payment: 20

Ref country code: GB

Payment date: 20170626

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20170622

Year of fee payment: 20

Ref country code: SE

Payment date: 20170626

Year of fee payment: 20

Ref country code: NL

Payment date: 20170621

Year of fee payment: 20

Ref country code: FI

Payment date: 20170620

Year of fee payment: 20

Ref country code: LU

Payment date: 20170622

Year of fee payment: 20

Ref country code: BE

Payment date: 20170621

Year of fee payment: 20

Ref country code: AT

Payment date: 20170620

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20170703

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 59801343

Country of ref document: DE

REG Reference to a national code

Ref country code: DK

Ref legal event code: EUP

Effective date: 20180615

REG Reference to a national code

Ref country code: NL

Ref legal event code: MK

Effective date: 20180614

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20180614

REG Reference to a national code

Ref country code: IE

Ref legal event code: MK9A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20180614

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK07

Ref document number: 205041

Country of ref document: AT

Kind code of ref document: T

Effective date: 20180615

REG Reference to a national code

Ref country code: BE

Ref legal event code: MK

Effective date: 20180615

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20180615

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20201110

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20180616