EP1864279B1 - Device and method for producing a data flow and for producing a multi-channel representation - Google Patents

Device and method for producing a data flow and for producing a multi-channel representation Download PDF

Info

Publication number
EP1864279B1
EP1864279B1 EP06707562A EP06707562A EP1864279B1 EP 1864279 B1 EP1864279 B1 EP 1864279B1 EP 06707562 A EP06707562 A EP 06707562A EP 06707562 A EP06707562 A EP 06707562A EP 1864279 B1 EP1864279 B1 EP 1864279B1
Authority
EP
European Patent Office
Prior art keywords
channel
fingerprint
data stream
information
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP06707562A
Other languages
German (de)
French (fr)
Other versions
EP1864279A1 (en
Inventor
Wolfgang Fiesel
Matthias Neusinger
Harald Popp
Stephan Geyersberger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1864279A1 publication Critical patent/EP1864279A1/en
Application granted granted Critical
Publication of EP1864279B1 publication Critical patent/EP1864279B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to audio signal processing, and more particularly to multi-channel processing techniques based on generating a multi-channel reconstruction of an original multi-channel signal based on at least one down-channel and multi-channel additional information.
  • Binaural Cue Coding (BCC) and Spatial Audio Coding, as disclosed in US Pat J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilbert, A. Hoelzer, K. Linzmeier, C. Sprenger, P. Kroon: "Spatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi -Channel Audio ", 117th. AES Convention, San Francisco 2004 , Preprint 6186, is described.
  • Fig. 3 shows a joint stereo device 60.
  • This device may be a device that, for example, the intensity stereo (IS) Technology or the binaural cue coding technique (BCC) implemented.
  • Such a device typically receives as input at least two channels CH1, CH2, .... CHn, and outputs a single carrier channel as well as multi-channel parametric information.
  • the parametric data is defined so that an approximation of an original channel (CH1, CH2, ..., CHn) can be calculated in a decoder.
  • the carrier channel will include subband samples, spectral coefficients, time domain samples, etc. that provide a relatively fine representation of the underlying signal, while the parametric data does not include such samples or spectral coefficients, but control parameters for controlling a particular reconstruction algorithm, such as multiplying by weights, by time shifting, by frequency shifting, etc.
  • the parametric multi-channel information therefore comprises a relatively rough representation of the signal or the associated channel.
  • the amount of data needed by a carrier channel is about 60 to 70 kbps, while the amount of data required by one channel parametric page information is in the range of 1.5 to 2.5 kbps.
  • the above figures apply to compressed data.
  • a non-compressed CD channel requires data rates on the order of about ten times.
  • An example of parametric data is the known scale factors, intensity stereo information, or BCC parameters, as set forth below.
  • the reconstructed signals differ in their amplitude, but they are identical in terms of their phase information.
  • the energy-time envelopes of both original audio channels are maintained by the selective scaling operation, which typically operates in a frequency-selective manner. This corresponds to the human perception of sound at high frequencies, where the dominant spatial information is determined by the energy envelopes.
  • the transmitted signal i. H. the carrier channel is generated from the sum signal of the left channel and the right channel instead of the rotation of both components.
  • this processing i. H. generating intensity-stereo parameters to perform the scaling operations in a frequency-selective manner, i. H. independent for each scale factor band, d. H. for each encoder frequency partition.
  • both channels are combined to form a combined or "carrier" channel and, in addition to the combined channel, the intensity stereo information.
  • the intensity stereo information depends on the energy of the first channel, the energy of the second channel or the energy of the combined channel.
  • the BCC technique is described in the AES convention paper 5574 " Binaural Cue Coding applied to stereo and multichannel audio compression ", T. Faller, F. Baumgarte, May 2002 , Kunststoff.
  • BCC coding a number of audio input channels are converted to a spectral representation using a DFT-based transform with overlapping windows. The resulting spectrum is divided into non-overlapping sections, each of which has an index. Each partition has a bandwidth proportional to the equivalent rectangular bandwidth (ERB).
  • the Inter Channel Level Differences (ICLD) and the Inter Channel Time Differences (ICTD) are determined for each partition and for each frame k.
  • the ICLD and ICTD are quantized and encoded to eventually arrive as page information in a BCC bitstream.
  • the inter-channel level differences and the inter-channel time differences are given for each channel relative to a reference channel. Then, the parameters are calculated according to predetermined formulas that depend on the particular partitions of the signal to be processed.
  • the decoder On the decoder side, the decoder typically receives a mono signal and the BCC bit stream.
  • the mono signal is transformed into the frequency domain and input to a spatial synthesis block which also receives decoded ICLD and ICTD values.
  • the BCC parameters ICLD and ICTD are used to perform a weighting operation of the mono signal to synthesize the multi-channel signals representing, after a frequency / time conversion, a reconstruction of the original multi-channel audio signal.
  • the joint stereo module 60 operates to output the channel-side information such that the parametric channel data is quantized and coded ICLD or ICTD parameters using one of the original channels as the reference channel for encoding the channel side information.
  • the carrier signal is formed from the sum of the participating source channels.
  • the above techniques provide only a monodic representation for a decoder that can only process the carrier channel, but is unable to process the parametric data to produce one or more approximations of more than one input channel.
  • Fig. 5 shows such a BCC scheme for encoding / transmission of multi-channel audio signals.
  • the multi-channel audio input signal at an input 110 of a BCC encoder 112 is down-mixed in a so-called downmix block 114.
  • the original multi-channel signal at the input 110 is a 5-channel surround signal having a front left channel, a front right channel, a left surround channel, a right surround channel and a center channel.
  • the downmix block 114 generates a sum signal by simply adding these five channels into a mono signal.
  • This single channel is output on a sum signal line 115.
  • Side information obtained from the BCC analysis block 116 is output on a page information line 117.
  • inter-channel level differences ICLD
  • inter-channel time differences ICTD
  • the BCC analysis block 116 is also capable of calculating inter-channel correlation (ICC) values.
  • the sum signal and the page information are transmitted in a quantized and encoded format to a BCC decoder 120.
  • the BCC decoder decomposes the transmitted sum signal into a number of subbands and performs scaling, delays and other processing to provide the subbands of the multichannel audio channels to be output. This processing is performed so that the ICLD, ICTD and ICC parameters (cues) of a reconstructed multichannel signal at output 121 match the corresponding cues for the original multichannel signal at input 110 in BCC encoder 112.
  • the BCC decoder 120 includes a BCC synthesis block 122 and a page information revision block 123.
  • the sum signal on line 115 is fed to a time / frequency conversion unit or filter bank FB 125.
  • FB 125 At the output of the block 125 there exists a number N of subband signals or, in an extreme case, a block of spectral coefficients, when the audio filter bank 125 performs a 1: 1 transform, ie a transform producing N spectral coefficients from N time domain samples.
  • the BCC synthesis block 122 further includes a delay stage 126, a level modification stage 127, a correlation processing stage 128 and an inverse filter bank stage IFB 129.
  • stage 129 the reconstructed multichannel audio signal with, for example, five channels in the case of a 5-channel surround system may be output to a set of loudspeakers 124 as described in US Pat Fig. 5 or Fig. 4 are shown.
  • the input signal sn is converted into the frequency domain or the filter bank region by means of the element 125.
  • the signal output by element 125 is copied so as to obtain multiple versions of the same signal, as represented by copy node 130.
  • the number of versions of the original signal is equal to the number of output channels in the output signal.
  • each version of the original signal at node 130 undergoes a certain delay d 1 , d 2 , ..., d i , ... d N.
  • the delay parameters are determined by the page information processing block 123 in FIG Fig. 5 and from the inter-channel time differences as determined by the BCC analysis block 116 of FIG Fig. 5 have been calculated derived.
  • the ICC parameters calculated by BCC analysis block 116 are used to control the functionality of block 128 so that certain correlations between the delayed and level manipulated signals are obtained at the outputs of block 128. It should be noted here that the order of stages 126, 127, 128 is different from the one in FIG Fig. 6 may differ.
  • the BCC analysis is carried out in frames, ie temporally variable, and further that a frequency-wise BCC analysis is obtained, as determined by the filter bank division Fig. 6 is apparent.
  • the audio filter bank 125 decomposes the input signal into, for example, 32 bandpass signals
  • the BCC analysis block obtains a set of BCC parameters for each of the 32 bands.
  • the BCC synthesis block 122 performs Fig. 5 who is detailed in Fig. 6 is a reconstruction, which is based on the exemplified 32 bands.
  • Fig. 4 presented a scenario that is used to determine individual BCC parameters. Normally the ICLD, ICTD and ICC parameters can be defined between channel pairs. However, it is preferred to determine the ICLD and ICTD parameters between a reference channel and each other channel. This is in Fig. 4A shown.
  • ICC parameters can be defined in several ways. Generally speaking, one can determine ICC parameters in the encoder between all possible channel pairs, as shown in FIG Fig. 4B is shown. However, it has been proposed to calculate only ICC parameters between the strongest two channels at a time, as in Fig. 4C where an example is shown in which one ICC parameter between channels 1 and 2 is calculated one at a time, and at another time an ICC parameter between channels 1 and 5 is calculated.
  • the decoder then synthesizes the inter-channel correlation between the strongest channels in the decoder and uses certain heuristic rules to compute and synthesize the inter-channel coherence for the remaining channel pairs.
  • the multiplication parameters a 1 , aN are derived from the ICLD parameters such that the total energy of all reconstructed output channels is the same (or proportional to the energy of the transmitted sum signal).
  • Fig. 5 Generally, in such particular multi-channel parametric coding schemes, generation of at least one base channel as well as side information takes place Fig. 5 is apparent.
  • block-based schemes are used in which, as is also the case Fig. 5 it can be seen that the original multichannel signal at the input 110 is subjected to block processing by a block stage 111, such that from one block of, for example, 1152 samples, the downmix signal or the at least one base channel is formed for this block while at the same time the corresponding multichannel parameters are generated for this block by the BCC analysis.
  • the sum signal is typically encoded again with a block-based encoder, such as an MP3 encoder or an AAC encoder, to obtain further data rate reduction.
  • the parameter data is coded, for example by differential coding, scaling / quantization and entropy coding.
  • a common data stream is written in which a block of the at least one base channel follows an earlier block of the at least one base channel, and in which the encoded multi-channel additional information is also keyed in, for example by a bit stream multiplexer.
  • the data stream of basic channel data and multi-channel additional information always comprises one block of basic channel data and comprises, in association with this block, a block of multi-channel additional data which is then z.
  • B. form a common transmission frame. This transmission frame is then sent over a transmission link to a decoder.
  • the decoder again includes a data stream demultiplexer on the input side to split a frame of the data stream into a block of basic channel data and a block of associated multichannel overhead information. Then the block of basic data z. B. decoded by an MP3 decoder or an AAC decoder. This block of decoded basic data is then supplied to the BCC decoder 120 along with the block of optionally also decoded multichannel additional information.
  • the time allocation of the additional information to the basic channel data is automatically determined and by a decoder, which works in frame, easily restore.
  • the decoder will to a certain extent automatically find the additional information associated with a block of basic channel data, so that high-quality multi-channel reconstruction is possible. So there will be no problem that the multi-channel additional information have a time offset to the basic channel data.
  • a situation may arise, for example, in a sequential transmission system, such as broadcasting or the Internet.
  • the audio program to be transmitted is divided into audio base data (mono or stereo demix audio signal) and extension data (multichannel additional information) which are broadcast singly or in combination.
  • coder / decoder with non-constant output data rate in order to achieve a particularly good bit efficiency.
  • this processing also depends on the actually used hardware components for decoding, such as must be present in a PC or digital receiver, for example.
  • systemic or algorithmic-inherent blurring since, in particular, in the case of bit savings bank technology, on average, a constant output data rate is generated, however, locally, bits that are not needed for a particularly well-to-be-coded block are saved in order for another block, which is particularly difficult to code because the audio signal z. B. is particularly transient to be removed from the Bitsparkasse again.
  • the separation of the common data stream described above into two individual data streams has particular advantages. So is a classic receiver, so z. For example, a pure mono or stereo receiver at any time, regardless of the content and version of the multi-channel additional information, is able to receive and reproduce the audio base data. The separation into separate data streams thus ensures the backward compatibility of the entire concept.
  • a newer generation receiver can evaluate this multi-channel additional data and combine it with the audio base data in such a way that the user can be provided with the complete extension, here the multi-channel sound.
  • a particularly interesting application scenario of separate transmission of audio base data and extension data is in digital broadcasting.
  • the previously broadcast stereo audio signal can be extended by a small additional transmission effort to a multi-channel format, such as 5.1.
  • the program provider generates on the transmitter side from multi-channel sound sources, such as those found on DVD-Audio / Video, the multi-channel additional information.
  • this multichannel additional information is transmitted in parallel with the as yet radiated audio stereo signal, which is now not simply a stereo signal, but comprises two base channels derived by some downmix from the multichannel signal.
  • the stereo signal of the two base channels sounds like a normal stereo signal because multichannel analysis ultimately takes similar steps as those made by a sound engineer who mixed a stereo signal out of multiple tracks.
  • a major advantage of the separation is the compatibility with the existing digital broadcasting systems.
  • a classic receiver that can not evaluate this additional information will continue to receive and reproduce the bilingual signal without any qualitative restrictions.
  • a receiver of a newer design can, in addition to the previously received stereo sound signal, evaluate and decode this multichannel information and reconstruct the original 5.1 multichannel signal therefrom.
  • multi-channel additional information as a supplement to the previously used stereo signal
  • the receiver sees only one (valid) audio data stream and, if it is a receiver of the newer type, can extract from the data stream the multichannel sound additional information via a corresponding upstream data distributor again synchronously to the associated audio data block, decode and output as a 5.1 multichannel sound.
  • a disadvantage of this approach is the extension of the existing infrastructure or the existing data paths, so that instead of just as before, only the stereo audio signals from the downmix signals and extension combined data signals can transport.
  • leaving the standard transmission format for stereo data ensures synchronicity even in broadcast transmissions through the common data stream.
  • the other alternative is not to couple the multichannel overhead information to the audio coding system used and therefore not key in the actual audio data stream.
  • the transmission takes place via a separate, but not necessarily synchronized parallel digital additional channel.
  • This situation can occur when the downmix data is passed in unreduced form, for example as AES / EBU data format PCM data, through a common audio distribution infrastructure existing in studios. These infrastructures are designed to digitally distribute audio signals between diverse sources. For this purpose, normally known as "crossbars" functional units are used. Alternatively or additionally, audio signals are also processed in PCM format for purposes of equalization and dynamic compression. All of these steps lead to incalculable delays on a path from the sender to the receiver.
  • the separate transmission of base channel data and multi-channel additional information is particularly interesting, since existing stereo infrastructures do not need to be changed, so the described here with respect to the first possibility disadvantages of non-standard conformity here do not occur.
  • a broadcasting system only needs to broadcast one additional channel, but not change the infrastructure for the existing stereo channel.
  • the overhead is therefore effectively driven solely on the receiver side, but so that there is backwards compatibility, so that a user who has a new receiver gets better sound quality than a user who has an old receiver.
  • the magnitude of the time shift can no longer be determined from the received audio signal and the additional information.
  • a timely correct reconstruction and assignment of the multi-channel signal in the receiver is no longer guaranteed.
  • Another example of such a delay problem is when an already-running two-channel transmission system is to be extended to multi-channel transmission, for example in a receiver of a digital radio.
  • the decoding of the downmix signal by means of a receiver already existing in the two-channel audio decoder whose delay time is not known and thus can not be compensated.
  • the downmix audio signal may even reach the multi-channel reconstruction audio decoder via a transmission chain containing analog parts, ie one point is digital-to-analog conversion, and another analog-to-digital conversion occurs after further storage / transmission. Something like this always takes place in a radio transmission. Again, no clues are initially available as to how a proper delay equalization of the downmix signal relative to the multichannel overhead data can be performed. Even if the sampling frequency for the A / D conversion and the sampling frequency for the D / A conversion differ slightly, there is a slow time drift of the necessary compensation delay corresponding to the ratio of the two sampling rates to one another.
  • time synchronization method To synchronize the additional data to the basic data, various techniques known by the term "time synchronization method" can be used. These are based on pasting timestamps into both data streams in such a way that a correct assignment of the data belonging to each other can be achieved on the basis of these timestamps in the receiver. However, time stamping also alters the normal stereo infrastructure.
  • the WO 2005/011281 A1 discloses a method and apparatus for generating and capturing fingerprints for synchronizing audio and video signals.
  • a first fingerprint and a second fingerprint are generated, which are usable for the synchronization of at least two signals.
  • a segment of a first signal for example an audio signal
  • a segment of a second signal for example a video signal
  • the generated fingerprint pairs are stored in a database and transmitted to a synchronization device.
  • fingerprints of the audio signal and fingerprints of the video signal are generated and compared with the fingerprints in the database. If a match has been found, the fingerprints also designate the synchronization timing used to synchronize the two signals.
  • the object of the present invention is to provide a concept for generating a data stream or for generating a multi-channel representation, by means of which a synchronization of basic channel data and multi-channel additional information can be achieved.
  • a device for generating a data stream according to claim 1 a device for generating a multi-channel representation according to claim 17, a method for generating a data stream according to claim 26, a method for generating a multi-channel representation according to claim 27, a computer Program product according to claim 28 or a data stream representation according to claim 29 solved.
  • the present invention is based on the finding that a separate transmission and time-synchronous merging of a basic channel data stream and a multi-channel additional information data stream is made possible by the fact that the "multichannel data stream is modified on the" sender side "in such a way that fingerprint information representing a time profile of the at least reproduce a base channel, are introduced into the data stream with the multi-channel additional information such that from the data stream, a relationship between the multi-channel additional information and the fingerprint information is derivable. So include certain multi-channel additional information to certain basic channel data. Exactly this assignment must also be secured when transferring separate data streams.
  • the affiliation of multichannel additional information to basic channel data is signaled on the sender side by the fact that fingerprint information is determined from the base channel data with which the multichannel additional information which belongs to precisely this basic channel data is as it were marked.
  • This labeling of the relationship between the multichannel overhead information and the fingerprint information is achieved in block-wise data processing by associating a block fingerprint of precisely that block of base channel data with a block of multichannel overhead information corresponding to a block of basic channel data to which the considered block of multichannel overhead information belongs.
  • a fingerprint of exactly the basic channel data block, with which together the multichannel additional information must be processed during the reconstruction is assigned to the multichannel additional information.
  • the block fingerprint of the block of base channel data in the block structure of the multichannel overhead data stream may be keyed in such that each block of multichannel overhead information contains the block fingerprint of the associated base data.
  • the block fingerprint may be written immediately following a previously used block of multichannel overhead information, or may be written before the previously existing block, or may be written at any known location within that block, such that in multichannel reconstruction the block Fingerprint is readable for synchronization purposes.
  • the data stream therefore contains normal multichannel additional data as well as the block fingerprints interspersed accordingly.
  • the data stream could also be written so that z.
  • all block fingerprints provided with additional information such as a block counter, are at the beginning of the data stream generated in accordance with the invention so that a first portion of the data stream contains only block fingerprints and a second portion of the data stream contains the block fingerprint information belonging block-wise written multi-channel additional data contains.
  • additional information such as a block counter
  • a large number of block fingerprints could simply be read in first to obtain the reference fingerprint information.
  • the test fingerprints are added until there is a minimum number of test fingerprints used for a correlation.
  • the set of reference fingerprints could e.g. B. are already subjected to differential coding when the correlation in the multi-channel reconstruction is performed using differences, while in the data stream no difference block fingerprints but absolute block fingerprints are included.
  • the data stream is processed on the receiver side with the basic channel data, that is to say initially decoded, for example, and then supplied to a multichannel reconstructor.
  • this multi-channel reconstructor is designed such that it, if it does not get additional information, simply makes a through connection to output the preferably two base channels as a stereo signal.
  • Parallel to this is the extraction the reference fingerprint information and the calculation of the test fingerprint information from the decoded base channel data, to then perform a correlation calculation to calculate the offset of the base channel data to the multi-channel overhead data.
  • this offset is also the correct offset. This will be the case if the offset obtained by the second correlation calculation does not deviate more than a predetermined threshold from the offset obtained by the first correlation calculation.
  • the rendering may be performed so that the entire synchronization calculation is performed without stereo data being output in parallel, and then from the first one Block of basic channel data to synchronized multichannel overhead information. The listener will then have a synchronized 5.1 experience right from the first block.
  • the time for synchronization is normally about 5 seconds since about 200 reference fingerprints are needed as reference fingerprint information for optimal offset calculation. If this delay of about 5 seconds is irrelevant, as is the case for unidirectional transmissions, for example, you can start with a 5.1 playback - but only after the time required for the offset calculation. For interactive applications, such as when it comes to dialogs or something similar, this delay will be annoying, so that at some point, when the synchronization is finished, it will change from stereo to multi-channel playback. Thus, it has been found that it is better to provide only stereo playback than multichannel playback with non-synchronized multi-channel additional information.
  • the temporal allocation problem between basic channel data and multi-channel additional data is solved both by measures on the transmitter side and by measures on the receiver side.
  • time-varying and suitable fingerprint information is calculated from the corresponding mono or stereo downmix audio signal.
  • this fingerprint information is regularly keyed as a synchronization aid in the sent multi-channel additional data stream. This is preferably done as a data field in the middle of the block-organized z. Spatial audio coding page information, or such that the fingerprint signal is sent as first or last information of the data block such that it can be easily added or removed.
  • temporally variable and suitable fingerprint information is calculated from the corresponding stereo audio signal, ie the basic channel data. wherein according to the invention a number of two base channels is preferred. Furthermore, the fingerprints are extracted from the multi-channel additional information. Thereafter, the time offset between the multichannel overhead information and the received audio signal is calculated via correlation methods, such as a calculation of cross-correlation between the test fingerprint information and the reference fingerprint information. Alternatively, trial-and-error methods may also be performed in which various fingerprint information calculated from the base channel data based on various block rasters is compared to the reference fingerprint information to best match the test block raster, its associated test fingerprint information match the reference fingerprint information to determine the temporal offset.
  • the audio signals of the base channels are synchronized with the multichannel overhead information for subsequent multichannel reconstruction by a downstream delay balancing stage.
  • a downstream delay balancing stage Depending on the implementation, only an initial delay can be compensated.
  • the offset computation is performed in parallel to the reproduction in order to be able to readjust the offset as needed and according to the result of the correlation calculation in the event of a drifting apart of the base channel data and the multi-channel additional information despite a compensated initial delay.
  • the delay equalization stage can thus also be actively regulated.
  • the present invention is advantageous in that there is no need to make any changes to the base channel data or to the basic channel data processing path.
  • the basic channel data stream fed to a receiver is no different from a common base channel data stream. Changes are made only on the part of the multi-channel data stream. This is modified to include the fingerprint information be keyed.
  • changing the multichannel additional data stream does not lead to an unwanted departure from an already standardized, implemented and established solution, as would be the case if the base channel data stream were modified would.
  • the scenario according to the invention provides a particular flexibility for the propagation of multichannel additional information.
  • the multichannel additional information is parameter information that is very compact in terms of the required data rate or storage capacity
  • a digital receiver with such data can also be supplied completely separate from the stereo signal.
  • a user could obtain multi-channel additional information from a separate provider for stereo recordings that already exist on his solid-state player or on his CDs, and store it on his playback device. This storage is not a problem because the memory requirements, especially for multi-channel parametric additional information is not particularly large.
  • the multi-channel overhead data memory can retrieve the corresponding multi-channel overhead data stream and synchronized with the stereo signal based on the fingerprint information in the multi-channel overhead data stream to provide a multi-channel reconstruction to reach.
  • the solution according to the invention thus allows completely independent of the way the stereo signal, that is, regardless of whether it comes from a digital radio receiver, whether it comes from a CD, whether it comes from a DVD or whether it is z.
  • B. has arrived via the Internet, multi-channel additional data that can come from a very different source to synchronize with the stereo signal, the stereo signal then acts as a base channel data, then the basis of the multi-channel reconstruction is performed.
  • Fig. 1 shows a device for generating a data stream for a multi-channel reconstruction of an original multi-channel signal, wherein the multi-channel signal has at least two channels, according to a preferred embodiment of the present invention.
  • the device comprises a fingerprint generator 2, to which at least one base channel derived from the original multi-channel signal can be supplied via an input line 3.
  • the number of base channels is greater than or equal to 1 and less than a number of channels of the original multi-channel signal. If the original multi-channel signal is just a stereo signal with only two channels, then there is only a single base channel derived from the two stereo channels. However, if the original multi-channel signal is a signal having three or more channels, the number of base channels may be equal to two.
  • LFE Low Frequency Enhancement
  • the five channels are a left surround channel Ls, a left channel L, a center channel C, a right channel R, and a right right surround channel Rs.
  • the two base channels are then the left base channel and the right base channel ,
  • the one or more base channels are also referred to as downmix channels or downmix channels.
  • the fingerprint generator 2 is designed to generate fingerprint information from the at least one base channel, the fingerprint information representing a time profile of the at least one base channel.
  • the fingerprint information is calculated more or less costly.
  • very elaborately calculated fingerprints which are known under the keyword "Audio-ID”
  • any other size could be used that somehow represents the timing of the one or more base channels.
  • the fingerprint information is composed of a series of block fingerprints, where a block fingerprint is a measure of the energy of the one or more base channels in the block.
  • a block fingerprint is a measure of the energy of the one or more base channels in the block.
  • the fingerprint generator 2 supplies, on the output side, the fingerprint information which is supplied to a data stream generator 4.
  • the data stream generator 4 is designed to generate a data stream from the fingerprint information and the typically time-varying multi-channel additional information, wherein the multi-channel additional information together with the at least one base channel enable the multi-channel reconstruction of the original multi-channel signal.
  • the data stream generator is designed to generate the data stream at an output 5 such that a connection between the multichannel additional information and the fingerprint information can be derived from the data stream.
  • the data stream of multichannel additional information is thus marked with the fingerprint information derived from the at least one base channel, such that the togetherness is provided via the fingerprint information, which is assigned to the multichannel additional information by the data stream generator 4 of certain multi-channel additional information to the basic channel data can be determined.
  • Fig. 2 shows an inventive device for generating a multi-channel representation of an original multi-channel signal from at least one base channel and a data stream, the fingerprint information representing a time course of the at least one base channel, and multi-channel additional information that together with the at least one base channel enable the multi-channel reconstruction of the original multi-channel signal, wherein from the data stream, a relationship between the multi-channel additional information and the fingerprint information is derivable.
  • the at least one base channel is fed via an input 10 to a receiver or decoder-side fingerprint generator 11.
  • the fingerprint generator 11 provides output test fingerprint information via an output 12 to a synchronizer 13.
  • the test fingerprint information is derived from the at least one base channel by exactly the same algorithm as described in block 2 of FIG Fig. 1 is performed. However, depending on the implementation, the algorithms do not necessarily have to be identical.
  • the fingerprint generator 2 may generate a block fingerprint in absolute encoding while the fingerprint generator 11 on the decoder side performs a differential fingerprint determination such that the test block fingerprint associated with a block is the difference between two absolute fingerprints .
  • a fingerprint extractor 14 will extract the fingerprint information from the data stream and at the same time form differences so that the synchronization 13 is provided as reference fingerprint information via an output 15 Data that is comparable to the test fingerprint information.
  • the algorithms for calculating the test fingerprint information on the decoder side and the algorithms for calculating the fingerprint information on the encoder side which in Fig. 2 may also be referred to as reference fingerprint information, at least so similar that the synchronizer 13 using this two information the multichannel overhead data in the data stream obtained via an input 16 can be synchronized with the data via the at least one base channel.
  • a synchronized multi-channel display is obtained, which comprises the basic channel data and synchronously thereto the multi-channel additional data.
  • the synchronizer 13 determines a time offset between the basic channel data and the multi-channel additional data and then delays the multi-channel additional data by this offset. It has been found that the multichannel overhead data usually arrives earlier, that is, too early, which can be attributed to the much smaller amount of data that typically corresponds to the multichannel overhead data compared to the amount of data for the base channel data. Thus, if the multichannel additional data is delayed, the data is fed via the at least one base channel from the input 10 via a base channel data line 17 to the synchronizer 13 and actually only "looped through” by this and output again at an output 18.
  • the multi-channel overhead data obtained via the input 16 is fed to the synchronizer via a multi-channel overhead data line 19, delayed there by a predetermined offset, and fed to an output 20 of the synchronizer together with the base channel data to a multi-channel reconstructor 21 then the actual audio rendering executes to the output side z.
  • the five audio channels and a low-frequency channel in Fig. 2 not shown).
  • the data on lines 18 and 20 thus form the synchronized multi-channel representation, with the data stream on line 20 corresponding to the data stream at input 16, apart from any multichannel overhead data coding, except for the fact that the fingerprint information is from the Data stream removed be, which can happen depending on the implementation in the synchronizer 13, or even before.
  • the fingerprint removal can be done already in the fingerprint extractor 14, so that then there is no line 19, but a line 19 ', which goes from the fingerprint extractor 9 directly into the synchronizer 13.
  • the synchronizer 13 is thus supplied in parallel by the fingerprint extractor with both the multi-channel additional data and with the reference fingerprint information.
  • the synchronizer is thus configured to synchronize the multichannel overhead information and the at least one base channel using the test fingerprint information and the reference fingerprint information, and using the derived from the data stream context of the multichannel information with the fingerprint information contained in the data stream.
  • the timing relationship between the multichannel overhead information and the fingerprint information is preferably determined simply by whether the fingerprint information precedes a set of multichannel overhead information, a set of multichannel overhead information, or within a set of Multi-channel additional information is available. Depending on whether the fingerprints are in front of, behind, or in the midst of a set of multichannel additional information, it is determined on the encoder side that this multichannel information belongs to that fingerprint information.
  • block processing is used.
  • the keying of the fingerprints is made so that a block of multi-channel additional data always follows a block fingerprint, so that a block of multi-channel additional information alternates with a block fingerprint and vice versa.
  • a data stream format could be used in which the entire fingerprint information in one separate part at the beginning of the data stream, whereupon the whole data stream follows. So here block fingerprints and blocks of multi-channel additional information would not alternate.
  • Alternative ways of assigning fingerprints to multi-channel additional information are known to those skilled in the art. According to the invention, a connection between the plurality of additional information and the fingerprint information must be derivable from the data stream only on the decoder side so that the fingerprint information can be used to synchronize the multichannel additional information with the basic channel data.
  • Fig. 7a shows an original multi-channel signal, for example a 5.1-signal consisting of a sequence of blocks B1 to B8, wherein in a block at the in Fig. 7a shown example multi-channel information MKi are included.
  • a block such as block B1
  • Such a block size is used, for example, in the BCC encoder 112 of FIG Fig. 5 in which the block formation, that is to say the windowing to a certain extent in order to obtain a sequence of blocks from a continuous signal, is effected by the element 111 in FIG Fig. 5 , which is called "block", is reached.
  • the at least one base channel is applied.
  • the basic channel data can again be represented as a sequence of blocks B1 to B8, blocks B1 to B8 of FIG Fig. 7b with the blocks B1 to B8 in Fig. 7a correspond.
  • a block now no longer contains - if in a time-domain representation remains the original 5.1 signal, but only a mono signal or a stereo signal with two stereo baseband channels.
  • the block B1 therefore again comprises the 1152 time samples of both the first stereo master channel and the second stereo master channel, these 1152 samples of both the left stereo baseband and the right stereo baseband having been respectively calculated by sample addition / subtraction and optionally weighting, ie by the operation performed in downmix block 114 of FIG Fig. 5 for example, is performed.
  • the multichannel information stream again comprises blocks B1 through B8, with each block in Fig. 7c the corresponding block of the original multi-channel signal in Fig. 7a or of the one or more base channels of Fig. 7b equivalent.
  • the base channel data in the block B1 of the basic channel data stream indicated by BK1 must match the multi-channel information P1 of the block B1 in FIG Fig. 7c be combined.
  • This combination is used in the Fig. 6 embodiment shown by the BCC synthesis block, which, in order to obtain a block-by-block processing of the basic channel data, again has a blocking stage at its input.
  • P3 thus designates, as it does in Fig. 7c is executed, the multi-channel information which, together with the block of values BK3 of the base channels, reconstructs a reconstruction of the block of values MK3 of the original multi-channel signal.
  • each block Bi of the data stream of Fig. 7c provided with a block fingerprint.
  • This block fingerprint is now derived exactly from the block B3 of the block of values BK3.
  • the block fingerprint F3 could also be subjected to differential coding so that the block fingerprint F3 equals the difference is the block fingerprint of block BK3 of the base channels and the block fingerprint of the block of values BK2 of the base channels.
  • a block of energy or differential energy is used as the block fingerprint.
  • the data stream with the one or more base channels in Fig. 7b separated from the data stream with the multichannel information and fingerprint information from Fig. 7c to a multichannel reconstructor. If nothing else were done, the case could arise that at the multichannel reconstructor, for example at the BCC synthesis block 122 of FIG Fig. 5 block BK5 is about to be processed. Furthermore, due to some temporal blurring of the multichannel information, block B7 may be present instead of block B5. Without further action, therefore, a reconstruction of the block of basic channel data BK5 would be made with the multi-channel information P7, which would lead to artifacts. According to the invention, as will be explained below, an offset of two blocks is now calculated, such that the data stream in Fig. 7c is delayed by two blocks, such that a multi-channel representation from the data stream of Fig. 7b and the data stream of Fig. 7c is present, but now have been synchronized to each other.
  • the offset determination according to the invention is not limited to the calculation of an offset as an integer multiple of a block, but can, given sufficiently accurate correlation calculation and using a sufficiently large number of block fingerprints (which of course at the expense of the time period for calculating the correlation) can also achieve an offset accuracy that is equal to a fraction of a block and can reach up to one sample.
  • a high accuracy is not necessarily required, but that a synchronization accuracy of +/- half a block (at a block length of 1152 samples) already leads to a multi-channel reconstruction that judges a listener as artifact-free.
  • Fig. 7d shows a preferred embodiment for a block Bi, for example, for the block B3 of the data stream in Fig. 7c .
  • the block is initiated with a sync word, which may be one byte long, for example.
  • a sync word which may be one byte long, for example.
  • length information since it is preferred to scale the multichannel information P3, as known in the art, according to its calculation, quantize, and entropy-encode, so that the length of the multi-channel information, which may be parameter information, for example, but also one Waveform signal z. B. of the page channel is not known from the outset and therefore must be signaled in the data stream.
  • the block fingerprint according to the invention is then inserted.
  • Fig. 7d executed, can be introduced as an energy measure an absolute measure of energy, or even a differential energy measure. Then the block B3 of the data stream would be added as a block fingerprint the difference between the energy measure for the base channel data BK3 and the energy measure for the base channel data BK2.
  • Fig. 8 shows a more detailed representation of the synchronizer, the fingerprint generator 11 and the fingerprint extractor 9 of Fig. 2 in cooperation with the multi-channel reconstructor 21.
  • the base channel data is fed to a base channel data buffer 25 and buffered.
  • the additional information or the data stream with the additional information and the fingerprint information is supplied to an additional information buffer 26.
  • Both buffers are generally constructed in the form of a FIFO buffer, but the buffer 26 has further capacities in that the fingerprint information is extractable from the reference fingerprint extractor 9 and further removed from the data stream, so that on a buffer output line 27 only Multi-channel additional information, but can be output without keyed fingerprints.
  • the removal of the fingerprints in the data stream may also be performed by a time shifter 28 or some other element such that the multi-channel reconstructor 21 is not disturbed by fingerprint bytes in the multi-channel reconstruction.
  • the fingerprint information calculated by the fingerprint generator 11, as well as the fingerprint information obtained by the fingerprint extractor 9 can be directly input to a correlator 29 within the synchronizer 13 of FIG Fig. 2 be fed.
  • the correlator then calculates the offset value and provides it to the time shifter 28 via an offset line 30.
  • the synchronizer 13 is further configured to be fed to the time shifter 28 when a valid offset value is generated In order to enable the enable switch 31 to close a switch 32 such that the stream of multi-channel overhead data from the buffer 26 is fed to the multichannel reconstructor 21 via the time shifter 28 and the switch 32.
  • the multichannel reconstructor 21 only a time delay (delay) of the multichannel overhead information is made.
  • delay time delay
  • multichannel reconstruction is already performed in parallel to the calculation of the correct offset value.
  • this multichannel reconstruction is merely a "trivial" multichannel reconstruction because the preferably two stereo-base channels are simply output from the multi-channel reconstructor 21. If the switch 32 is therefore open, only one stereo output follows. However, if the switch 32 is closed, the multichannel reconstructor 21 also receives the multichannel additional information in addition to the stereo base channels and can perform a multichannel output synchronized, however. A listener only notices this by switching from stereo quality to multi-channel quality.
  • the output of multichannel reconstructor 21 may be held back until there is a valid offset. Then already the very first block (BK1 of Fig. 7b ) with the now correctly delayed multi-channel additional data P1 ( Fig. 7c ) are supplied to the multi-channel reconstructor 21, so that the output is started only when multi-channel data is present. An output of the multichannel reconstructor 21 with the switch open will not exist in this embodiment.
  • Fig. 9 the functionality of the correlator 29 of Fig. 8 shown.
  • a sequence of test fingerprint information is provided, as in the top field of FIG Fig. 9 you can see.
  • this block being designated 1, 2, 3, 4, i, a block fingerprint is present.
  • the reference fingerprint determiner 9 also generates a sequence of discrete reference fingerprints that it extracts from the data stream.
  • differential encoded fingerprint information is included in the data stream, and if the correlator is to operate on the basis of absolute fingerprints, a differential decoder 35 in FIG Fig. 8 activated.
  • absolute fingerprints be used in the data stream .
  • Energy measurements are included, since this information about the total energy per block for level correction purposes of the multi-channel reconstructor 21 can also be advantageously exploited.
  • the correlator 29 is now the in the two upper fields of Fig. 9 shown curves or sequences of discrete values and provide a correlation result in the lower field of Fig. 9 is shown.
  • the result is a correlation result whose offset component provides exactly the offset between the two fingerprint information curves. Since the offset is also positive, the multichannel additional information must be be postponed in a positive time direction, so be delayed. It should be noted that, of course, the basic channel data could be shifted in the negative time direction, or that both the multi-channel additional information can be shifted in the positive direction, and the base channel overhead data can be shifted a part of the offset in the negative time direction, so long the multichannel reconstructor contains a synchronized multi-channel representation at its two inputs.
  • the basic channel data is buffered to calculate one fingerprint at a time, after which the block from which a test block fingerprint has just been calculated is fed to the multichannel reconstructor for multichannel reconstruction. Thereafter, the next block of the base channel data is again fed to the buffer 25 so that a block test fingerprint can be calculated from this block again.
  • fewer than 200 blocks or more than 200 blocks may be used. According to the invention, it has been found that a number between 100 and 300 blocks, and preferably 200 blocks, provides results that provide a reasonable compromise between computation time, correlation computation, and offset accuracy.
  • a block 37 is entered in which the correlation between the 200 calculated test block fingerprints and the 200 calculated reference block fingerprints is performed by the correlator 29.
  • the offset result obtained there is saved now.
  • a block 38 corresponding to the block 36 a number of the next z. B. calculates 200 blocks of the base channel data. Accordingly, 200 blocks are again extracted from the data stream with the multi-channel additional information.
  • a correlation is again performed, and the offset result obtained there is stored.
  • a deviation between the offset result due to the second 200 blocks and the offset result due to the first 200 blocks is detected.
  • a predetermined value for the deviation threshold is, for example, a value of one or two blocks. This is because when an offset from one calculation to the next calculation does not change more than one or two blocks, no error has been made in the correlation calculation.
  • the z. B. 200 is used. So z. B. made a calculation with 200 blocks and obtained a result. Then one block is continued and one block is taken out of the number of blocks used for the correlation calculation and the new block is used for this purpose. The result obtained is then stored as well as the last result obtained in a histogram. This procedure is used for a number of correlation calculations, such as 100 or 200, so that the histogram gradually fills. The peak of the histogram is then used as a calculated offset to provide the initial offset or to obtain a dynamic offset offset.
  • the offset calculation taking place in parallel to the output will run in a block 42, and adaptive dynamic offset tracking will be achieved as needed, when drifting of the data stream with the multichannel information and the data stream with the base channel data has been detected updated offset value via line 30 to time shifter 28 of FIG Fig. 8 is supplied.
  • adaptive tracking it should be noted that, depending on the implementation, a smoothing of the offset change can also be carried out, so that if a deviation of, for example, two blocks has been determined, first the offset is incremented by 1 and then incremented again as required so that the jumps do not get too big.
  • Fig. 11 to a preferred embodiment of the fingerprint generator 2 encoder side, as in Fig. 1 has been shown, and the fingerprint generator 11 of Fig. 2 , as used on the decoder side, is shown.
  • the multichannel audio signal for obtaining the multichannel overhead data is divided into fixed size blocks.
  • a fingerprint is calculated for each block at the same time to obtain the multichannel additional data, which is suitable for characterizing the temporal structure of the signal as clearly as possible.
  • An embodiment of this is to use the energy content of the current downmix audio signal of the audio block, for example in logarithm form, ie in a decibel-related representation.
  • the fingerprint is a measure of the temporal envelope of the audio signal.
  • this synchronization information can also be compared to the energy value of the previous block, followed by suitable entropy coding, for example Huffman coding, adaptive scaling and quantization be expressed.
  • suitable entropy coding for example Huffman coding, adaptive scaling and quantization be expressed.
  • an energy calculation of Downmixaudiosignals in the current block optionally performed for a stereo signal.
  • This z For example, 1152 audio samples are squared and summed from both the left and right downmix channels. S left (i) represents a time sample at time i of the left base channel, while S right (i) represents a time sample of the right base channel at time i. With a monophonic downmix signal the summation is omitted. Furthermore, it is preferred to remove the non-meaningful DC components of the Dowrimix audio signal before the calculation.
  • a minimum limitation of the energy is carried out for the purpose of subsequent logarithmic display.
  • a minimum energy offset it is preferred to use a minimum energy offset to give a meaningful logarithmic calculation in the case of zero energy.
  • This energy metric in dB covers a range of 0 to 90 (dB) with an audio signal resolution of 16 bits.
  • this step is z. B. completed in the encoder.
  • the fingerprint consists of difference coded values.
  • this step can also be implemented purely on the decoder side become.
  • the transmitted fingerprint thus consists of non-differentially encoded values. The difference is only made here in the decoder. The latter possibility has the advantage that the fingerprint contains information about the absolute energy of the downmix signal. However, typically a slightly higher fingerprint word length is needed.
  • a quantization of the fingerprint made. To prepare this fingerprint for keying in the multichannel overhead information, it is quantized to 8 bits. This reduced fingerprint resolution has proven to be a good compromise in terms of bit demand and reliability of delay detection in practice. Number overflows greater than 255 are limited to a maximum value of 255 with a saturation characteristic.
  • an optimal Entropiecodtechnik the fingerprint can still be made.
  • the bit requirement of the quantized fingerprint can be further reduced.
  • a suitable entropy method is, for example, Huffman coding or arithmetic coding. Statistically different frequencies of fingerprint values may be due to different Code lengths are expressed and thus on average reduce the bit requirements of the fingerprint representation.
  • the calculation of the multi-channel additional data is performed using the multi-channel audio data.
  • multichannel additional information calculated is then expanded by the newly added synchronization information by suitable embedding in the bit stream.
  • the receiver is now able to detect a time offset of downmix signal and additional data and to realize a time-correct adaptation, ie a delay compensation between stereo audio signals and multi-channel additional information in the order of +/- 1 ⁇ 2 audio block.
  • a time-correct adaptation ie a delay compensation between stereo audio signals and multi-channel additional information in the order of +/- 1 ⁇ 2 audio block.
  • the inventive method for generating or decoding can be implemented in hardware or in software.
  • the implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmable computer system such that the method is performed.
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method when the computer program product runs on a computer.
  • the invention can thus be realized as a computer program with a program code for carrying out the method when the computer program runs on a computer.

Abstract

For time synchronization of a data stream with multi-channel additional data and a data stream with data on at least one base channel, a fingerprint information calculation is performed on the encoder side for the at least one base channel to insert the fingerprint information into a data stream in time connection to the multi-channel additional data. On the decoder side, fingerprint information are calculated from the at least one base channel and used together with the fingerprint information extracted from the data stream to calculate and compensate a time offset between the data stream with the multi-channel additional information and the data stream with the at least one base channel, for example by means of a correlation, to obtain a synchronized multi-channel representation.

Description

Die vorliegende Erfindung bezieht sich auf die Audiosignalverarbeitung und insbesondere auf Multikanal-Verarbeitungstechniken, die darauf basieren, dass auf der Basis wenigstens eines Basiskanals bzw. Downmix-Kanals und Mehrkanal-Zusatzinformationen eine Multikanal-Rekonstruktion eines ursprünglichen Multikanalsignals erzeugt wird.The present invention relates to audio signal processing, and more particularly to multi-channel processing techniques based on generating a multi-channel reconstruction of an original multi-channel signal based on at least one down-channel and multi-channel additional information.

Derzeit in der Entwicklung befindliche Technologien ermöglichen eine immer effizientere Übertragung von Audiosignalen durch Datenreduktion, aber auch eine Steigerung des Hörgenusses durch Erweiterungen, wie beispielsweise durch den Einsatz der Mehrkanaltechnik. Beispiele für eine solche Erweiterung der üblichen Übertragungstechniken sind in jüngster Zeit unter dem Namen Binaural Cue Coding (BCC) sowie "Spatial Audio Coding" bekannt geworden, wie es in J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilbert, A. Hoelzer, K. Linzmeier, C. Sprenger, P. Kroon: "Spatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi-Channel Audio", 117th. AES Convention, San Francisco 2004 , Preprint 6186, beschrieben ist.Currently under development technologies enable more efficient transmission of audio signals through data reduction, but also an increase in listening pleasure through extensions, such as through the use of multi-channel technology. Examples of such an extension of common transmission techniques have recently become known as Binaural Cue Coding (BCC) and Spatial Audio Coding, as disclosed in US Pat J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilbert, A. Hoelzer, K. Linzmeier, C. Sprenger, P. Kroon: "Spatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi -Channel Audio ", 117th. AES Convention, San Francisco 2004 , Preprint 6186, is described.

Nachfolgend wird näher auf verschiedene Techniken zum Reduzieren der Datenmenge, die zur Übertragung eines Multikanal-Audiosignals benötigt wird, eingegangen.In the following, details will be given of various techniques for reducing the amount of data needed to transmit a multi-channel audio signal.

Solche Techniken werden Joint-Stereo-Techniken genannt. Zu diesem Zweck wird auf Fig. 3 verwiesen, die eine Joint-Stereo-Vorrichtung 60 zeigt. Diese Vorrichtung kann eine Vorrichtung sein, die beispielsweise die Intensity-Stereo-(IS-) Technik oder die Binaural Cue Codiertechnik (BCC) implementiert. Ein solches Gerät empfängt üblicherweise als Eingangssignal zumindest zwei Kanäle CH1, CH2, .... CHn, und gibt einen einzigen Trägerkanal sowie parametrische Multikanalinformationen aus. Die parametrischen Daten sind so definiert, dass in einem Decodierer eine Approximation eines Ursprungskanals (CH1, CH2, ..., CHn) berechnet werden kann.Such techniques are called joint stereo techniques. For this purpose is on Fig. 3 which shows a joint stereo device 60. This device may be a device that, for example, the intensity stereo (IS) Technology or the binaural cue coding technique (BCC) implemented. Such a device typically receives as input at least two channels CH1, CH2, .... CHn, and outputs a single carrier channel as well as multi-channel parametric information. The parametric data is defined so that an approximation of an original channel (CH1, CH2, ..., CHn) can be calculated in a decoder.

Normalerweise wird der Trägerkanal Subband-Abtastwerte, Spektralkoeffizienten, Zeitbereichsabtastwerte etc. umfassen, die eine relativ feine Darstellung des zugrundeliegenden Signals liefern, während die parametrischen Daten keine solchen Abtastwerte oder Spektralkoeffizienten umfassen, sondern Steuerparameter zum Steuern eines bestimmten Rekonstruktionsalgorithmus, wie beispielsweise Gewichten durch multiplizierten, durch Zeitverschieben, durch Frequenzverschieben, etc. Die parametrischen Multikanalinformationen umfassen daher eine relativ grobe Darstellung des Signals oder des zugeordneten Kanals. In Zahlen ausgedrückt beträgt die Menge an Daten, die von einem Trägerkanal benötigt wird, eine Menge von etwa 60 bis 70 kBit/s, während die Menge an Daten, die durch parametrische Seiteninformationen für einen Kanal benötigt wird, im Bereich von 1,5 bis 2,5 kBit/s ist. Es sei darauf hingewiesen, dass die vorstehenden Zahlen für komprimierte Daten gelten. Selbstverständlich benötigt ein nicht-komprimierter CD-Kanal Datenraten im Bereich von etwa dem Zehnfachen. Ein Beispiel für parametrische Daten sind die bekannten Skalenfaktoren, Intensity-Stereo-Informationen oder BCC-Parameter, wie es nachfolgend dargelegt wird.Normally, the carrier channel will include subband samples, spectral coefficients, time domain samples, etc. that provide a relatively fine representation of the underlying signal, while the parametric data does not include such samples or spectral coefficients, but control parameters for controlling a particular reconstruction algorithm, such as multiplying by weights, by time shifting, by frequency shifting, etc. The parametric multi-channel information therefore comprises a relatively rough representation of the signal or the associated channel. Expressed in numbers, the amount of data needed by a carrier channel is about 60 to 70 kbps, while the amount of data required by one channel parametric page information is in the range of 1.5 to 2.5 kbps. It should be noted that the above figures apply to compressed data. Of course, a non-compressed CD channel requires data rates on the order of about ten times. An example of parametric data is the known scale factors, intensity stereo information, or BCC parameters, as set forth below.

Die Technik der Intensity-Stereo-Codierung ist in dem AES-Preprint 3799, " Intensity Stereo Coding", J. Herre, K.H. Brandenburg, D. Lederer, Februar 1994 , Amsterdam beschrieben. Allgemein basiert das Konzept von Intensity Stereo auf einer Hauptachsentransformation, die auf Daten beider stereophoner Audiokanäle durchzuführen ist. Wenn die meisten Datenpunkte um die erste Hauptachse herum konzentriert sind, kann ein Codiergewinn erreicht werden, indem beide Signale um einen bestimmten Winkel gedreht werden, bevor die Codierung stattfindet. Dies ist jedoch nicht immer für reale stereophone Reproduktionstechniken gegeben. Daher wird diese Technik dahingehend modifiziert, dass die zweite orthogonale Komponente von der Übertragung in dem Bitstrom ausgeschlossen wird. Somit bestehen die rekonstruierten Signale für den linken und den rechten Kanal aus unterschiedlich gewichteten oder skalierten Versionen desselben übertragenen Signals. Dennoch unterscheiden sich die rekonstruierten Signale in ihrer Amplitude, sie sind jedoch identisch im Hinblick auf ihre Phaseninformationen. Die Energie-Zeit-Hüllkurven beider ursprünglicher Audiokanäle werden jedoch durch die selektive Skalierungsoperation beibehalten, die typischerweise auf frequenzselektive Art und Weise arbeitet. Dies entspricht der menschlichen Wahrnehmung des Schalls bei hohen Frequenzen, wo die dominanten räumlichen Informationen durch die Energiehüllkurven bestimmt werden.The technique of intensity stereo coding is described in the AES Preprint 3799, " Intensity Stereo Coding ", J. Herre, KH Brandenburg, D. Lederer, February 1994 , Amsterdam. In general, the concept of Intensity Stereo is based on a major axis transformation that is to be performed on data from both stereophonic audio channels. If most Data points are concentrated around the first major axis, an encoding gain can be achieved by rotating both signals by a certain angle before encoding takes place. However, this is not always true for real stereophonic reproduction techniques. Therefore, this technique is modified to exclude the second orthogonal component from transmission in the bitstream. Thus, the reconstructed signals for the left and right channels consist of differently weighted or scaled versions of the same transmitted signal. Nevertheless, the reconstructed signals differ in their amplitude, but they are identical in terms of their phase information. However, the energy-time envelopes of both original audio channels are maintained by the selective scaling operation, which typically operates in a frequency-selective manner. This corresponds to the human perception of sound at high frequencies, where the dominant spatial information is determined by the energy envelopes.

Zusätzlich wird bei praktischen Implementierungen das übertragene Signal, d. h. der Trägerkanal aus dem Summensignal des linken Kanals und des rechten Kanals anstatt der Rotation beider Komponenten erzeugt. Ferner wird diese Verarbeitung, d. h. das Erzeugen von Intensity-Stereo-Parametern zum Durchführen der Skalierungsoperationen frequenzselektiv durchgeführt, d. h. unabhängig für jedes Skalenfaktorband, d. h. für jede Codiererfrequenzpartition. Vorzugsweise werden beide Kanäle kombiniert, um einen kombinierten oder "Träger"-Kanal und zusätzlich zu dem kombinierten Kanal die Intensity-Stereo-Informationen zu bilden. Die Intensity-Stereo-Informationen hängen von der Energie des ersten Kanals, der Energie des zweiten Kanals oder der Energie des kombinierten Kanals ab.In addition, in practical implementations, the transmitted signal, i. H. the carrier channel is generated from the sum signal of the left channel and the right channel instead of the rotation of both components. Furthermore, this processing, i. H. generating intensity-stereo parameters to perform the scaling operations in a frequency-selective manner, i. H. independent for each scale factor band, d. H. for each encoder frequency partition. Preferably, both channels are combined to form a combined or "carrier" channel and, in addition to the combined channel, the intensity stereo information. The intensity stereo information depends on the energy of the first channel, the energy of the second channel or the energy of the combined channel.

Die BCC-Technik ist in dem AES-Convention-Paper 5574 " Binaural Cue Coding applied to stereo and multichannel audio compression", T. Faller, F. Baumgarte, Mai 2002 , München, beschrieben. Bei der BCC-Codierung wird eine Anzahl von Audioeingangskanälen in eine Spektraldarstellung umgewandelt, und zwar unter Verwendung einer DFT-basierten Transformation mit überlappenden Fenstern. Das resultierende Spektrum wird in nicht-überlappende Abschnitte eingeteilt, von denen jeder einen Index hat. Jede Partition hat eine Bandbreite proportional zu der äquivalenten Rechteckbandbreite (ERB). Die Inter-Kanal-Pegelunterschiede (ICLD; ICLD = Inter Channel Level Differences) und die Interkanal-Zeitunterschiede (ICTD; ICTD = Inter Channel Time Differences) werden für jede Partition und für jeden Frame k ermittelt. Die ICLD und ICTD werden quantisiert und codiert, um schließlich als Seiteninformationen in einen BCC-Bitstrom zu kommen. Die Interkanal-Pegelunterschiede und die Interkanal-Zeitunterschiede sind für jeden Kanal relativ zu einem Referenzkanal gegeben. Dann werden die Parameter gemäß vorbestimmter Formeln berechnet, die von den bestimmten Partitionen des zu verarbeitenden Signals abhängen.The BCC technique is described in the AES convention paper 5574 " Binaural Cue Coding applied to stereo and multichannel audio compression ", T. Faller, F. Baumgarte, May 2002 , Munich. In BCC coding, a number of audio input channels are converted to a spectral representation using a DFT-based transform with overlapping windows. The resulting spectrum is divided into non-overlapping sections, each of which has an index. Each partition has a bandwidth proportional to the equivalent rectangular bandwidth (ERB). The Inter Channel Level Differences (ICLD) and the Inter Channel Time Differences (ICTD) are determined for each partition and for each frame k. The ICLD and ICTD are quantized and encoded to eventually arrive as page information in a BCC bitstream. The inter-channel level differences and the inter-channel time differences are given for each channel relative to a reference channel. Then, the parameters are calculated according to predetermined formulas that depend on the particular partitions of the signal to be processed.

Auf Decodiererseite empfängt der Decodierer typischerweise ein Monosignal und den BCC-Bitstrom. Das Monosignal wird in den Frequenzbereich transformiert und in einen Raumsyntheseblock (Spatial-Syntheseblock) eingegeben, der auch decodierte ICLD- und ICTD-Werte empfängt. In dem Spatial-Syntheseblock werden die BCC-Parameter (ICLD und ICTD) verwendet, um eine Gewichtungsoperation des Monosignals durchzuführen, um die Multikanalsignale zu synthetisieren, die, nach einer Frequenz-/Zeit-Umwandlung eine Rekonstruktion des ursprünglichen Multikanal-Audiosignals darstellen.On the decoder side, the decoder typically receives a mono signal and the BCC bit stream. The mono signal is transformed into the frequency domain and input to a spatial synthesis block which also receives decoded ICLD and ICTD values. In the spatial synthesis block, the BCC parameters (ICLD and ICTD) are used to perform a weighting operation of the mono signal to synthesize the multi-channel signals representing, after a frequency / time conversion, a reconstruction of the original multi-channel audio signal.

Im Fall von BCC ist das Joint-Stereo-Modul 60 wirksam, um die kanalseitigen Informationen so auszugeben, dass die parametrischen Kanaldaten quantisierte und codierte ICLD- oder ICTD-Parameter sind, wobei einer der ursprünglichen Kanäle als Referenzkanal zum Codieren der Kanalseiteninformationen verwendet wird.In the case of BCC, the joint stereo module 60 operates to output the channel-side information such that the parametric channel data is quantized and coded ICLD or ICTD parameters using one of the original channels as the reference channel for encoding the channel side information.

Normalerweise wird der Trägersignal aus der Summe der teilnehmenden Ursprungskanäle gebildet.Normally, the carrier signal is formed from the sum of the participating source channels.

Natürlich liefern die obigen Techniken nur eine Monodarstellung für einen Decodierer, der nur den Trägerkanal verarbeiten kann, der jedoch nicht in der Lage ist, die parametrischen Daten zur Erzeugung von einer oder mehreren Approximationen von mehr als einem Eingangskanal zu verarbeiten.Of course, the above techniques provide only a monodic representation for a decoder that can only process the carrier channel, but is unable to process the parametric data to produce one or more approximations of more than one input channel.

Die BCC-Technik ist auch in den US-Patentveröffentlichungen US 2003/0219130 A1 , US 2003/0026441 A1 und US 2003/0035553 A1 beschrieben. Zusätzlich wird auf die Fachveröffentlichung " Binaural Cue Coding. Part II: Schemes and Applications", T. Faller und F. Baumgarte, IEEE Trans. On Audio and Speech Proc. Bd. 11, Nr. 6, November 2003 verwiesen.The BCC technique is also disclosed in the US patent publications US 2003/0219130 A1 . US 2003/0026441 A1 and US 2003/0035553 A1 described. In addition, the specialist publication " Binaural cue coding. Part II: Schemes and Applications ", T. Faller and F. Baumgarte, IEEE Trans. On Audio and Speech Proc. Vol. 11, No. 6, November 2003 directed.

Nachfolgend wird ein typisches BCC-Schema zur Multikanalaudiocodierung detaillierter dargestellt, und zwar Bezug nehmend auf die Fig. 4 bis 6.In the following, a typical BCC scheme for multi-channel audio coding will be described in more detail, referring to FIGS 4 to 6 ,

Fig. 5 zeigt ein solches BCC-Schema zur Codierung/Übertragung von Multikanalaudiosignalen. Das Multikanalaudioeingangssignal an einem Eingang 110 eines BCC-Codierers 112 wird in einem sogenannten Downmix-Block 114 heruntergemischt. Bei diesem Beispiel ist das ursprüngliche Multikanalsignal an dem Eingang 110 ein 5-Kanal-Surround-Signal mit einem vorderen linken Kanal, einem vorderen rechten Kanal, einem linken Surround-Kanal, einem rechten Surround-Kanal und einem Mittenkanal. Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung erzeugt der Downmix-Block 114 ein Summensignal durch eine einfache Addition dieser fünf Kanäle in ein Monosignal. Fig. 5 shows such a BCC scheme for encoding / transmission of multi-channel audio signals. The multi-channel audio input signal at an input 110 of a BCC encoder 112 is down-mixed in a so-called downmix block 114. In this example, the original multi-channel signal at the input 110 is a 5-channel surround signal having a front left channel, a front right channel, a left surround channel, a right surround channel and a center channel. In the preferred embodiment of the present invention, the downmix block 114 generates a sum signal by simply adding these five channels into a mono signal.

Andere Downmixing-Schemen sind in der Technik bekannt, so dass unter Verwendung eines Multikanal-Eingangssignals ein Downmix-Kanal mit einem einzigen Kanal erhalten wird.Other downmixing schemes are known in the art such that a single channel downmix channel is obtained using a multi-channel input signal.

Dieser einzige Kanal wird an einer Summensignalleitung 115 ausgegeben. Eine Seiteninformation, die von dem BCC-Analyseblock 116 erhalten wird, wird auf einer Seiteninformationsleitung 117 ausgegeben.This single channel is output on a sum signal line 115. Side information obtained from the BCC analysis block 116 is output on a page information line 117.

Bei dem BCC-Analyseblock werden Interkanal-Pegelunterschiede (ICLD) und Interkanal-Zeitunterschiede (ICTD) berechnet, wie es vorstehend dargestellt worden ist. Neuerdings ist der BCC-Analyseblock 116 auch in der Lage, Interkanal-Korrelationswerte (ICC-Werte) zu berechnen. Das Summensignal und die Seiteninformationen werden in einem quantisierten und codierten Format zu einem BCC-Decodierer 120 übertragen. Der BCC-Decodierer zerlegt das übertragene Summensignal in eine Anzahl von Subbändern und führt Skalierungen, Verzögerungen und andere Verarbeitungsschritte aus, um die Subbänder der auszugebenden Multikanal-Audiokanäle zu liefern. Diese Verarbeitung wird so durchgeführt, dass die ICLD-, ICTD- und ICC-Parameter (Cues) eines rekonstruierten Multikanalsignals am Ausgang 121 mit den entsprechenden Cues für das ursprüngliche Multikanalsignal am Eingang 110 in dem BCC-Codierer 112 übereinstimmen. Zu diesem Zweck umfasst der BCC-Decodierer 120 einen BCC-Syntheseblock 122 und einen Seiteninformationenüberarbeitungsblock 123.In the BCC analysis block, inter-channel level differences (ICLD) and inter-channel time differences (ICTD) are calculated as described above. Recently, the BCC analysis block 116 is also capable of calculating inter-channel correlation (ICC) values. The sum signal and the page information are transmitted in a quantized and encoded format to a BCC decoder 120. The BCC decoder decomposes the transmitted sum signal into a number of subbands and performs scaling, delays and other processing to provide the subbands of the multichannel audio channels to be output. This processing is performed so that the ICLD, ICTD and ICC parameters (cues) of a reconstructed multichannel signal at output 121 match the corresponding cues for the original multichannel signal at input 110 in BCC encoder 112. For this purpose, the BCC decoder 120 includes a BCC synthesis block 122 and a page information revision block 123.

Nachfolgend wird der interne Aufbau des BCC-Syntheseblocks 122 Bezug nehmend auf Fig. 6 dargestellt. Das Summensignal auf der Leitung 115 wird in eine Zeit-/Frequenz-Umwandlungseinheit oder Filterbank FB 125 eingespeist. Am Ausgang des Blocks 125 existiert eine Anzahl N von Subbandsignalen oder, in einem Extremfall, ein Block von Spektralkoeffizienten, wenn die Audio-Filterbank 125 eine 1:1-Transformation durchführt, d. h. eine Transformation, die N Spektralkoeffizienten aus N Zeitbereichsabtastwerten erzeugt.Hereinafter, the internal structure of the BCC synthesis block 122 will be referred to Fig. 6 shown. The sum signal on line 115 is fed to a time / frequency conversion unit or filter bank FB 125. At the output of the block 125 there exists a number N of subband signals or, in an extreme case, a block of spectral coefficients, when the audio filter bank 125 performs a 1: 1 transform, ie a transform producing N spectral coefficients from N time domain samples.

Der BCC-Syntheseblock 122 umfasst ferner eine Verzögerungsstufe 126, eine Pegelmodifikationsstufe 127, eine Korrelationsverarbeitungsstufe 128 und eine Inversfilterbankstufe IFB 129. Am Ausgang der Stufe 129 kann das rekonstruierte Multikanalaudiosignal mit beispielsweise fünf Kanälen im Falle eines 5-Kanal-Surroundsystems zu einem Satz von Lautsprechern 124 ausgegeben werden, wie sie in Fig. 5 oder Fig. 4 dargestellt sind.The BCC synthesis block 122 further includes a delay stage 126, a level modification stage 127, a correlation processing stage 128 and an inverse filter bank stage IFB 129. At the output of stage 129, the reconstructed multichannel audio signal with, for example, five channels in the case of a 5-channel surround system may be output to a set of loudspeakers 124 as described in US Pat Fig. 5 or Fig. 4 are shown.

Das Eingangssignal sn wird in den Frequenzbereich oder den Filterbankbereich mittels des Elements 125 umgewandelt. Das Signal, das vom Element 125 ausgegeben wird, wird derart kopiert, dass mehrere Versionen desselben Signals erhalten werden, wie es durch den Kopierknoten 130 dargestellt ist. Die Anzahl der Versionen des ursprünglichen Signals ist gleich der Anzahl der Ausgangskanäle in dem Ausgangssignal. Dann wird jede Version des ursprünglichen Signals am Knoten 130 einer bestimmten Verzögerung d1, d2, ..., di, ... dN unterzogen. Die Verzögerungsparameter werden durch den Seiteninformationsverarbeitungsblock 123 in Fig. 5 berechnet und von den Interkanal-Zeitunterschieden, wie sie durch den BCC-Analyseblock 116 von Fig. 5 berechnet worden sind, abgeleitet.The input signal sn is converted into the frequency domain or the filter bank region by means of the element 125. The signal output by element 125 is copied so as to obtain multiple versions of the same signal, as represented by copy node 130. The number of versions of the original signal is equal to the number of output channels in the output signal. Then each version of the original signal at node 130 undergoes a certain delay d 1 , d 2 , ..., d i , ... d N. The delay parameters are determined by the page information processing block 123 in FIG Fig. 5 and from the inter-channel time differences as determined by the BCC analysis block 116 of FIG Fig. 5 have been calculated derived.

Dasselbe gilt für die Multiplikationsparameter a1, a2, ..., ai, ..., aN, die ebenfalls durch den Seiteninformationsverarbeitungsblock 123 basierend auf den Interkanal-Pegelunterschieden, wie sie durch den BCC-Analyseblock 116 berechnet worden sind, berechnet werden.The same applies to the multiplication parameters a 1 , a 2 ,..., A i ,..., AN, which are also calculated by the page information processing block 123 based on the inter-channel level differences as calculated by the BCC analysis block 116 become.

Die durch den BCC-Analyseblock 116 berechneten ICC-Parameter werden zum Steuern der Funktionalität des Blocks 128 verwendet, so dass bestimmte Korrelationen zwischen den verzögerten und in ihren Pegeln manipulierten Signalen an den Ausgängen des Blocks 128 erhalten werden. Es sei hier darauf hingewiesen, dass die Reihenfolge der Stufen 126, 127, 128 von der in Fig. 6 gezeigten Reihenfolge abweichen kann.The ICC parameters calculated by BCC analysis block 116 are used to control the functionality of block 128 so that certain correlations between the delayed and level manipulated signals are obtained at the outputs of block 128. It should be noted here that the order of stages 126, 127, 128 is different from the one in FIG Fig. 6 may differ.

Es sei darauf hingewiesen, dass bei einer rahmenweisen Verarbeitung des Audiosignals auch die BCC-Analyse rahmenweise durchgeführt wird, also zeitlich variabel, und dass ferner eine frequenzweise BCC-Analyse erhalten wird, wie es durch die Filterbank-Aufteilung aus Fig. 6 ersichtlich ist. Dies bedeutet, dass die BCC-Parameter für jedes Spektralband erhalten werden. Dies bedeutet ferner, dass in dem Fall, in dem die Audiofilterbank 125 das Eingangssignal in beispielsweise 32 Bandpasssignale zerlegt, der BCC-Analyseblock einen Satz von BCC-Parametern für jedes der 32 Bänder erhält. Natürlich führt der BCC-Syntheseblock 122 von Fig. 5, der detailliert in Fig. 6 dargestellt ist, eine Rekonstruktion durch, die auch auf den beispielhaft genannten 32 Bändern basiert.It should be noted that in a frame-by-frame processing of the audio signal, the BCC analysis is carried out in frames, ie temporally variable, and further that a frequency-wise BCC analysis is obtained, as determined by the filter bank division Fig. 6 is apparent. This means that the BCC parameters are obtained for each spectral band. This also means that in the case where the audio filter bank 125 decomposes the input signal into, for example, 32 bandpass signals, the BCC analysis block obtains a set of BCC parameters for each of the 32 bands. Of course, the BCC synthesis block 122 performs Fig. 5 who is detailed in Fig. 6 is a reconstruction, which is based on the exemplified 32 bands.

Nachfolgend wird Bezug nehmend auf Fig. 4 ein Szenario dargestellt, das dazu verwendet wird, um einzelne BCC-Parameter zu bestimmen. Normalerweise können die ICLD-, ICTD- und ICC-Parameter zwischen Kanalpaaren definiert werden. Es wird jedoch bevorzugt, die ICLD- und ICTD-Parameter zwischen einem Referenzkanal und jedem anderen Kanal zu bestimmen. Dies ist in Fig. 4A dargestellt.Subsequently, reference will be made to Fig. 4 presented a scenario that is used to determine individual BCC parameters. Normally the ICLD, ICTD and ICC parameters can be defined between channel pairs. However, it is preferred to determine the ICLD and ICTD parameters between a reference channel and each other channel. This is in Fig. 4A shown.

ICC-Parameter können auf verschiedene Arten und Weisen definiert werden. Allgemein gesagt kann man ICC-Parameter in dem Codierer zwischen allen möglichen Kanalpaaren bestimmen, wie es in Fig. 4B dargestellt ist. Es wurde jedoch vorgeschlagen, nur ICC-Parameter zwischen den stärksten zwei Kanälen zu einem Zeitpunkt zu berechnen, wie es in Fig. 4C dargestellt ist, wo ein Beispiel gezeigt ist, bei dem zu einem Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 2 berechnet wird, und zu einem anderen Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 5 berechnet wird. Der Decodierer synthetisiert dann die Interkanalkorrelation zwischen den stärksten Kanälen in dem Decoder und verwendet bestimmte heuristische Regeln zum Berechnen und Synthetisieren der Interkanalkohärenz für die restlichen Kanalpaare.ICC parameters can be defined in several ways. Generally speaking, one can determine ICC parameters in the encoder between all possible channel pairs, as shown in FIG Fig. 4B is shown. However, it has been proposed to calculate only ICC parameters between the strongest two channels at a time, as in Fig. 4C where an example is shown in which one ICC parameter between channels 1 and 2 is calculated one at a time, and at another time an ICC parameter between channels 1 and 5 is calculated. The decoder then synthesizes the inter-channel correlation between the strongest channels in the decoder and uses certain heuristic rules to compute and synthesize the inter-channel coherence for the remaining channel pairs.

Bezüglich der Berechnung beispielsweise der Multiplikationsparameter a1, aN basierend auf den übertragenen ICLD-Parametern wird auf das AES-Convention-Paper Nr. 5574 Bezug genommen. Die ICLD-Parameter stellen eine Energieverteilung eines ursprünglichen Mehrkanalsignals dar. Ohne Verlust der Allgemeinheit wird es bevorzugt, wie es in Fig. 4A gezeigt, vier ICLD-Parameter zu nehmen, die die Energiedifferenz zwischen den jeweiligen Kanälen und dem vorderen linken Kanal darstellen. In dem Seiteninformationsverarbeitungsblock 122 werden die Multiplikationsparameter a1, ..., aN von den ICLD-Parametern so abgeleitet, dass die gesamte Energie aller rekonstruierter Ausgangskanäle dieselbe ist (oder proportional zu der Energie des übertragenen Summensignals ist).Concerning the calculation of, for example, the multiplication parameters a 1 , aN based on the transmitted ICLD parameters, reference is made to AES Convention Paper No. 5574. The ICLD parameters represent an energy distribution of an original multichannel signal. Without loss of generality, it is preferred as shown in FIG Fig. 4A shown to take four ICLD parameters representing the energy difference between the respective channels and the front left channel. In the page information processing block 122, the multiplication parameters a 1 , ..., aN are derived from the ICLD parameters such that the total energy of all reconstructed output channels is the same (or proportional to the energy of the transmitted sum signal).

Allgemein findet bei solchen insbesondere parametrischen Multikanalcodierschemen eine Erzeugung wenigstens eines Basiskanals sowie der Seiteninformationen statt, wie es aus Fig. 5 ersichtlich ist. Typischerweise werden Block-basierte Schemen verwendet, bei denen, wie es ebenfalls aus Fig. 5 ersichtlich ist, das ursprüngliche Multikanalsignal am Eingang 110 einer Block-Verarbeitung durch eine Block-Stufe 111 unterzogen wird, derart, dass aus einem Block von beispielsweise 1152 Abtastwerten das Downmix-Signal bzw. Summensignal bzw. der wenigstens eine Basiskanal für diesen Block gebildet wird, während gleichzeitig für diesen Block durch die BCC-Analyse die entsprechenden Multikanal-Parameter erzeugt werden. Nach dem Downmix-Kanal wird das Summensignal typischerweise wieder mit einem Block-basierten Codierer, wie beispielsweise einem MP3-Codierer oder einem AAC-Codierer codiert, um eine weitere Datenratenreduktion zu erhalten. Genauso werden die Parameterdaten codiert, beispielsweise durch Differenzcodierung, Skalierung/Quantisierung und Entropie-Codierung.Generally, in such particular multi-channel parametric coding schemes, generation of at least one base channel as well as side information takes place Fig. 5 is apparent. Typically, block-based schemes are used in which, as is also the case Fig. 5 it can be seen that the original multichannel signal at the input 110 is subjected to block processing by a block stage 111, such that from one block of, for example, 1152 samples, the downmix signal or the at least one base channel is formed for this block while at the same time the corresponding multichannel parameters are generated for this block by the BCC analysis. After the downmix channel, the sum signal is typically encoded again with a block-based encoder, such as an MP3 encoder or an AAC encoder, to obtain further data rate reduction. Likewise, the parameter data is coded, for example by differential coding, scaling / quantization and entropy coding.

Dann, am Ausgang des gesamten Codierers, der also den BCC-Codierer 112 sowie eine nachgeschalteten Basiskanal-Codierer umfasst, wird ein gemeinsamer Datenstrom geschrieben, in dem ein Block des wenigstens einen Basiskanals auf einen früheren Block des wenigstens einen Basiskanals folgt, und in dem die codierten Mehrkanal-Zusatzinformationen ebenfalls beispielsweise durch einen Bitstrommultiplexer eingetastet werden.Then, at the output of the entire encoder, that is the BCC encoder 112 and a downstream base channel encoder a common data stream is written in which a block of the at least one base channel follows an earlier block of the at least one base channel, and in which the encoded multi-channel additional information is also keyed in, for example by a bit stream multiplexer.

Diese Eintastung findet so statt, dass der Datenstrom aus Basiskanaldaten und Mehrkanal-Zusatzinformationen immer einen Block von Basiskanaldaten umfasst und in Zuordnung zu diesem Block einen Block von Mehrkanal-Zusatzdaten umfasst, die dann z. B. einen gemeinsamen Übertragungsframe bilden. Dieser Übertragungsframe wird dann über eine Übertragungsstrecke zu einem Decodierer geschickt.This keying takes place so that the data stream of basic channel data and multi-channel additional information always comprises one block of basic channel data and comprises, in association with this block, a block of multi-channel additional data which is then z. B. form a common transmission frame. This transmission frame is then sent over a transmission link to a decoder.

Der Decodierer umfasst eingangsseitig wieder einen Datenstrom-Demultiplexer, um einen Frame des Datenstroms in einen Block von Basiskanaldaten und einen Block von zugehörigen Mehrkanal-Zusatzinformationen zu splitten. Dann wird der Block von Basisdaten z. B. durch einen MP3-Decodierer oder einen AAC-Decodierer decodiert. Dieser Block von decodierten Basisdaten wird dann zusammen mit dem Block von gegebenenfalls ebenfalls decodierten Mehrkanal-Zusatzinformationen dem BCC-Decodierer 120 zugeführt.The decoder again includes a data stream demultiplexer on the input side to split a frame of the data stream into a block of basic channel data and a block of associated multichannel overhead information. Then the block of basic data z. B. decoded by an MP3 decoder or an AAC decoder. This block of decoded basic data is then supplied to the BCC decoder 120 along with the block of optionally also decoded multichannel additional information.

Damit ist aufgrund der gemeinsamen Übertragung von Basiskanaldaten und Zusatzinformationen die zeitliche Zuordnung der Zusatzinformationen zu den Basiskanaldaten automatisch festgelegt und durch einen Decodierer, der frameweise arbeitet, ohne weiteres wieder herzustellen. Der Decodierer findet also aufgrund der gemeinsamen Übertragung der beiden Datenarten in einem einzigen Datenstrom gewissermaßen automatisch die einem Block von Basiskanaldaten zugehörigen Zusatzinformationen, damit eine Multikanal-Rekonstruktion mit hoher Qualität möglich ist. Es wird also keine Problematik auftreten, dass die Mehrkanal-Zusatzinformationen einen zeitlichen Versatz zu den Basiskanaldaten haben. Würde jedoch ein solcher Versatz vorhanden sein, so würde dies zu einer erheblichen Qualitätseinbuße der Multikanal-Rekonstruktion führen, da dann ein Block von Basiskanaldaten zusammen mit Mehrkanal-Zusatzdaten verarbeitet wird, obgleich diese Mehrkanal-Zusatzdaten gar nicht zu dem Block von Basisdaten gehören, sondern z. B. zu einem früheren oder späteren Block.Thus, due to the common transmission of basic channel data and additional information, the time allocation of the additional information to the basic channel data is automatically determined and by a decoder, which works in frame, easily restore. Thus, due to the joint transmission of the two types of data in a single data stream, the decoder will to a certain extent automatically find the additional information associated with a block of basic channel data, so that high-quality multi-channel reconstruction is possible. So there will be no problem that the multi-channel additional information have a time offset to the basic channel data. However, if such an offset were present, it would result in a significant loss of quality of the multi-channel reconstruction, since then a block of basic channel data is processed together with multi-channel additional data, although these multi-channel additional data does not belong to the block of basic data, but z. To an earlier or later block.

Ein solches Szenario, bei dem die Zuordnung zwischen Mehrkanal-Zusatzdaten und Basiskanaldaten nicht mehr gegeben ist, wird dann auftreten, wenn kein gemeinsamer Datenstrom geschrieben wird, sondern wenn ein eigener Datenstrom mit den Basiskanaldaten existiert und ein anderer davon getrennter Datenstrom mit den Mehrkanal-Zusatzinformationen vorhanden ist. Eine solche Situation kann beispielsweise bei einem sequenziell arbeitenden Übertragungssystem entstehen, wie beispielsweise Rundfunk oder Internet. Hier wird das zu übertragende Audioprogramm in Audiobasisdaten (Mono- oder Stereodownmix-Audiosignal) und Erweiterungsdaten (Mehrkanal-Zusatzinformationen) aufgeteilt, welche einzeln oder kombiniert ausgestrahlt werden. Selbst wenn die beiden Datenströme noch von einem Sender zeitlich synchron ausgesendet werden, können auf dem Übertragungsweg zum Empfänger viele "Überraschungen" lauern, die dazu führen, dass der im Hinblick auf die Anzahl von Bits wesentlich kompaktere Datenstrom mit den Mehrkanal-Zusatzdaten z. B. schneller zu einem Empfänger übertragen wird als der Datenstrom mit den Basiskanaldaten.Such a scenario in which the allocation between multi-channel additional data and basic channel data is no longer given, will occur when no common data stream is written, but when a separate data stream with the basic channel data exists and another separate data stream with the multi-channel additional information is available. Such a situation may arise, for example, in a sequential transmission system, such as broadcasting or the Internet. Here, the audio program to be transmitted is divided into audio base data (mono or stereo demix audio signal) and extension data (multichannel additional information) which are broadcast singly or in combination. Even if the two data streams are still transmitted synchronously in time by a transmitter, many "surprises" can lurk on the transmission path to the receiver, which result in the data stream, which is considerably more compact in terms of the number of bits, with the multichannel additional data z. B. is transmitted to a receiver faster than the data stream with the base channel data.

Ferner wird es bevorzugt, Codierer/Decodierer mit nichtkonstanter Ausgangsdatenrate einzusetzen, um eine besonders gute Biteffizienz zu erreichen. Hier ist nicht vorhersehbar, wie lange die Decodierung eines Blocks von Basiskanaldaten dauert. Ferner hängt diese Verarbeitung auch von den tatsächlich eingesetzten Hardware-Komponenten zum Decodieren ab, wie sie beispielsweise in einem PC oder digitalen Empfänger vorhanden sein müssen. Ferner existieren auch System- bzw. algorithmisch-inhärente Unschärfen, da insbesondere bei der Bitsparkassentechnik zwar im Mittel eine konstante Ausgangsdatenrate erzeugt wird, allerdings, lokal betrachtet, Bits, die für einen besonders gut zu codierenden Block nicht benötigt werden, angespart werden, um für einen anderen Block, der besonders schwer zu codieren ist, weil das Audiosignal z. B. besonders transient ist, aus der Bitsparkasse wieder entnommen zu werden.Furthermore, it is preferred to use coder / decoder with non-constant output data rate in order to achieve a particularly good bit efficiency. Here it is unpredictable how long the decoding of a block of basic channel data takes. Furthermore, this processing also depends on the actually used hardware components for decoding, such as must be present in a PC or digital receiver, for example. Furthermore, there are also systemic or algorithmic-inherent blurring, since, in particular, in the case of bit savings bank technology, on average, a constant output data rate is generated, however, locally, bits that are not needed for a particularly well-to-be-coded block are saved in order for another block, which is particularly difficult to code because the audio signal z. B. is particularly transient to be removed from the Bitsparkasse again.

Andererseits hat die Trennung des oben beschriebenen gemeinsamen Datenstroms in zwei einzelne Datenströme besondere Vorteile. So ist ein klassischer Empfänger, also z. B. ein reiner Mono- oder Stereoempfänger jederzeit unabhängig von Inhalt und Version der Mehrkanal-Zusatzinformationen in der Lage, die Audiobasisdaten zu empfangen und wiederzugeben. Die Auftrennung in separate Datenströme sichert also die Rückwärtskompatibilität des gesamten Konzepts.On the other hand, the separation of the common data stream described above into two individual data streams has particular advantages. So is a classic receiver, so z. For example, a pure mono or stereo receiver at any time, regardless of the content and version of the multi-channel additional information, is able to receive and reproduce the audio base data. The separation into separate data streams thus ensures the backward compatibility of the entire concept.

Dagegen kann ein Empfänger der neueren Generation diese Mehrkanal-Zusatzdaten auswerten und mit dem Audiobasisdaten so kombinieren, dass dem Nutzer die vollständige Erweiterung, hier der Mehrkanalton, zur Verfügung gestellt werden kann.In contrast, a newer generation receiver can evaluate this multi-channel additional data and combine it with the audio base data in such a way that the user can be provided with the complete extension, here the multi-channel sound.

Ein besonders interessantes Anwendungsszenario der getrennten Übertragung von Audiobasisdaten und Erweiterungsdaten liegt beim digitalen Rundfunk. Hier kann mit Hilfe der Mehrkanal-Zusatzinformationen das bisher ausgestrahlte Stereoaudiosignal durch geringen zusätzlichen Übertragungsaufwand auf ein Mehrkanalformat, wie beispielsweise 5.1, erweitert werden. Hier erzeugt der Programmanbieter auf der Senderseite aus Mehrkanaltonquellen, wie sie beispielsweise auf DVD-Audio/Video zu finden sind, die Mehrkanalzusatzinformationen. Anschließend werden diese Mehrkanalzusatzinformationen parallel zum wie bisher ausgestrahlten Audiostereosignal übertragen, welches nun jedoch nicht einfach ein Stereosignal ist, sondern zwei Basiskanäle umfasst, die durch irgendeinen Downmix von dem Multikanalsignal abgeleitet worden sind. Für den Hörer hört sich das Stereosignal der beiden Basiskanäle jedoch wie ein übliches Stereosignal an, da bei der Multikanal-Analyse letztendlich ähnliche Schritte vorgenommen werden, wie sie von einem Tonmeister, der ein Stereosignal aus mehreren Tracks abgemischt hat, vorgenommen worden sind.A particularly interesting application scenario of separate transmission of audio base data and extension data is in digital broadcasting. Here, with the aid of the multi-channel additional information, the previously broadcast stereo audio signal can be extended by a small additional transmission effort to a multi-channel format, such as 5.1. Here, the program provider generates on the transmitter side from multi-channel sound sources, such as those found on DVD-Audio / Video, the multi-channel additional information. Subsequently, this multichannel additional information is transmitted in parallel with the as yet radiated audio stereo signal, which is now not simply a stereo signal, but comprises two base channels derived by some downmix from the multichannel signal. For the listener, however, the stereo signal of the two base channels sounds like a normal stereo signal because multichannel analysis ultimately takes similar steps as those made by a sound engineer who mixed a stereo signal out of multiple tracks.

Ein großer Vorteil der Auftrennung besteht in der Kompatibilität mit den bisher bestehenden digitalen Rundfunkübertragungssystemen. Ein klassischer Empfänger, der diese Zusatzinformationen nicht auswerten kann, wird wie bisher das Zweikanaltonsignal ohne irgendwelchen qualitativen Einschränkungen empfangen und wiedergeben können. Ein Empfänger neuerer Bauart hingegen kann zusätzlich zum bisher empfangenen Stereotonsignal diese Mehrkanalinformation auswerten, decodieren und das ursprüngliche 5.1-Mehrkanalsignal daraus rekonstruieren.A major advantage of the separation is the compatibility with the existing digital broadcasting systems. A classic receiver that can not evaluate this additional information will continue to receive and reproduce the bilingual signal without any qualitative restrictions. By contrast, a receiver of a newer design can, in addition to the previously received stereo sound signal, evaluate and decode this multichannel information and reconstruct the original 5.1 multichannel signal therefrom.

Um die gleichzeitige Übertragung der Mehrkanalzusatzinformation als Ergänzung zum bisher verwendeten Stereosignal zu ermöglichen, kann man, wie es bereits ausgeführt worden ist, für ein digitales Rundfunksystem die Mehrkanalzusatzinformationen mit dem codierten Downmixaudiosignal kombinieren, also dass es einen einzigen Datenstrom gibt, der dann gegebenenfalls skalierbar ist und ebenfalls von einem existierenden Empfänger gelesen werden kann, der jedoch die zusätzlichen Daten bezüglich der Mehrkanal-Zusatzinformationen ignoriert.To enable the simultaneous transmission of multi-channel additional information as a supplement to the previously used stereo signal, one can, as has already been stated, combine the multi-channel additional information with the encoded downmix audio signal for a digital broadcasting system, ie there is a single data stream which is then optionally scalable and can also be read by an existing receiver, but ignoring the additional data regarding the multichannel overhead information.

Der Empfänger sieht also nur einen (gültigen) Audiodatenstrom und kann, wenn er ein Empfänger der neueren Bauart ist, aus dem Datenstrom ferner die Mehrkanaltonzusatzinformationen über einen entsprechend vorgeschalteten Datenverteiler wieder synchron zu dem zugehörigen Audiodatenblock extrahieren, decodieren und als 5.1-Mehrkanalton ausgeben.Thus, the receiver sees only one (valid) audio data stream and, if it is a receiver of the newer type, can extract from the data stream the multichannel sound additional information via a corresponding upstream data distributor again synchronously to the associated audio data block, decode and output as a 5.1 multichannel sound.

Nachteilig an diesem Ansatz ist jedoch die Erweiterung der vorhandenen Infrastruktur bzw. der vorhandenen Datenwege, sodass sie statt wie bisher lediglich die Stereoaudiosignale die aus Downmixsignalen und Erweiterung kombinierten Datensignale transportieren können. Wenn man also das Standardübertragungsformat für Stereodaten verlässt, kann die Synchronität auch bei Rundfunkübertragungen durch den gemeinsamen Datenstrom gewährleistet werden.A disadvantage of this approach, however, is the extension of the existing infrastructure or the existing data paths, so that instead of just as before, only the stereo audio signals from the downmix signals and extension combined data signals can transport. Thus, leaving the standard transmission format for stereo data ensures synchronicity even in broadcast transmissions through the common data stream.

Allerdings ist es für eine Durchsetzung am Markt höchst problematisch, wenn bestehende Rundfunk-Infrastrukturen geändert werden müssen, wenn also die Problematik nicht nur auf Seiten der Decodierer existiert, sondern auch auf Seiten der Rundfunksender und der normierten Übertragungsprotokolle. Dieses Konzept ist also aufgrund der Problematik, ein einmal standardisiertes und implementiertes System wieder zu ändern, sehr nachteilhaft.However, it is highly problematic for market enforcement if existing broadcasting infrastructures need to be changed, that is, if the problem not only exists on the part of the decoder, but also on the part of the broadcasters and the standardized transmission protocols. This concept is therefore very disadvantageous due to the problem of changing a once standardized and implemented system again.

Die andere Alternative besteht darin, die Mehrkanal-Zusatzinformationen nicht an das verwendete Audiocodierungssystem zu koppeln und daher nicht in den eigentlichen Audiodatenstrom einzutasten. In diesem Fall erfolgt die Übertragung über einen gesonderten, aber zeitlich nicht notwendigerweise synchronisierten parallelen digitalen Zusatzkanal. Diese Situation kann dann auftreten, wenn die Downmixdaten in unreduzierter Form, beispielsweise als PCM-Daten per AES/EBU-Datenformat durch eine in Studios vorhandene übliche Audioverteilungsinfrastruktur geleitet werden. Diese Infrastrukturen sind darauf ausgerichtet, Audiosignale zwischen diversen Quellen digital zu verteilen. Hierzu werden normalerweise als "Kreuzschienen" bekannte Funktionseinheiten eingesetzt. Alternativ oder zusätzlich werden Audiosignale auch im PCM-Format zu Zwecken der Klangregelung und Dynamikkompression verarbeitet. Alle diese Schritte führen auf einem Weg vom Sender zum Empfänger zu unkalkulierbaren Verzögerungen.The other alternative is not to couple the multichannel overhead information to the audio coding system used and therefore not key in the actual audio data stream. In this case, the transmission takes place via a separate, but not necessarily synchronized parallel digital additional channel. This situation can occur when the downmix data is passed in unreduced form, for example as AES / EBU data format PCM data, through a common audio distribution infrastructure existing in studios. These infrastructures are designed to digitally distribute audio signals between diverse sources. For this purpose, normally known as "crossbars" functional units are used. Alternatively or additionally, audio signals are also processed in PCM format for purposes of equalization and dynamic compression. All of these steps lead to incalculable delays on a path from the sender to the receiver.

Andererseits ist die getrennte Übertragung von Basiskanaldaten und Mehrkanal-Zusatzinformationen besonders interessant, da bestehende Stereo-Infrastrukturen nicht verändert werden müssen, also die bezüglich der ersten Möglichkeit beschriebenen Nachteile der Nicht-Standardkonformität hier nicht auftreten. Ein Rundfunksystem muss lediglich einen zusätzlichen Kanal senden, jedoch nicht die Infrastruktur für den bereits existierenden Stereokanal verändern. Der Zusatzaufwand wird daher gewissermaßen allein auf Seiten der Empfänger getrieben, jedoch so, dass Rückwärtskompatibilität besteht, dass also ein Benutzer, der einen neuen Empfänger hat, eine bessere Klangqualität bekommt als ein Benutzer, der einen alten Empfänger hat.On the other hand, the separate transmission of base channel data and multi-channel additional information is particularly interesting, since existing stereo infrastructures do not need to be changed, so the described here with respect to the first possibility disadvantages of non-standard conformity here do not occur. A broadcasting system only needs to broadcast one additional channel, but not change the infrastructure for the existing stereo channel. The overhead is therefore effectively driven solely on the receiver side, but so that there is backwards compatibility, so that a user who has a new receiver gets better sound quality than a user who has an old receiver.

Wie es bereits ausgeführt worden ist, kann die Größenordnung der zeitlichen Verschiebung nicht mehr aus dem empfangenen Audiosignal und den Zusatzinformationen ermittelt werden. Damit ist eine zeitlich korrekte Rekonstruktion und Zuordnung des Mehrkanalsignals im Empfänger nicht mehr gewährleistet. Ein weiteres Beispiel für ein solches Verzögerungs-Problem besteht, wenn ein bereits laufendes zweikanaliges Übertragungssystem auf Multikanal-Übertragung erweitert werden soll, beispielsweise in einem Empfänger eines digitalen Radios. Hier ist es oft der Fall, dass die Decodierung des Downmixsignals mittels eines im Empfänger bereits vorhandenen Zwei-Kanal-Audiodecodierers geschieht, dessen Verzögerungszeit nicht bekannt ist und damit auch nicht ausgeglichen werden kann. Im Extremfall kann das Downmix-Audiosignal den Multikanal-Rekonstruktions-Audiodecodierer sogar über eine Übertragungskette erreichen, die analoge Teile enthält, d. h. dass einem Punkt eine Digital/Analog-Umsetzung vorgenommen und nach einer weiteren Speicherung/Übertragung wieder eine Analog/DigitalUmsetzung stattfindet. Etwas derartiges findet immer bei einer Funkübertragung statt. Auch hier sind zunächst keinerlei Anhaltspunkte verfügbar, wie ein passender Verzögerungsausgleich des Downmixsignals relativ zu den Mehrkanalzusatzdaten durchgeführt werden kann. Auch wenn die Abtastfrequenz für die A/D-Wandlung und die Abtastfrequenz für die D/A-Wandlung leicht voneinander abweichen, entsteht eine langsame zeitliche Drift der notwendigen Ausgleichsverzögerung entsprechend dem Verhältnis der beiden Abtastraten zueinander.As already stated, the magnitude of the time shift can no longer be determined from the received audio signal and the additional information. Thus, a timely correct reconstruction and assignment of the multi-channel signal in the receiver is no longer guaranteed. Another example of such a delay problem is when an already-running two-channel transmission system is to be extended to multi-channel transmission, for example in a receiver of a digital radio. Here it is often the case that the decoding of the downmix signal by means of a receiver already existing in the two-channel audio decoder whose delay time is not known and thus can not be compensated. In the extreme case, the downmix audio signal may even reach the multi-channel reconstruction audio decoder via a transmission chain containing analog parts, ie one point is digital-to-analog conversion, and another analog-to-digital conversion occurs after further storage / transmission. Something like this always takes place in a radio transmission. Again, no clues are initially available as to how a proper delay equalization of the downmix signal relative to the multichannel overhead data can be performed. Even if the sampling frequency for the A / D conversion and the sampling frequency for the D / A conversion differ slightly, there is a slow time drift of the necessary compensation delay corresponding to the ratio of the two sampling rates to one another.

Zur Synchronisation der Zusatzdaten zu den Basisdaten können verschiedene Techniken eingesetzt werden, die unter dem Begriff "Zeitsynchronisierungsverfahren" bekannt sind. Diese basieren darauf, Zeitstempel in beide Datenströme einzutasten, derart, dass anhand dieser Zeitstempel im'Empfänger eine korrekte Zuordnung der zueinander gehörigen Daten erreicht werden kann. Das Eintasten von Zeitstempeln führt jedoch ebenfalls bereits zu einer Änderung der normalen Stereo-Infrastruktur.To synchronize the additional data to the basic data, various techniques known by the term "time synchronization method" can be used. These are based on pasting timestamps into both data streams in such a way that a correct assignment of the data belonging to each other can be achieved on the basis of these timestamps in the receiver. However, time stamping also alters the normal stereo infrastructure.

Die WO 2005/011281 A1 offenbart ein Verfahren und eine Vorrichtung zum Erzeugen und Erfassen von Fingerabdrücken zur Synchronisation von Audio- und Video-Signalen. Insbesondere werden ein erster Fingerabdruck und ein zweiter Fingerabdruck erzeugt, die zur Synchronisation von zumindest zwei Signalen verwendbar sind. Hierzu werden ein Segment eines ersten Signals, beispielsweise eines Audio-Signals, und ein Segment eines zweiten Signals, beispielsweise eines VideoSignals an jedem Synchronisationszeitpunkt verwendet. Die erzeugten Fingerabdruck-Paare werden in einer Datenbank gespeichert und zu einem Synchronisationsgerät übermittelt. Während der Synchronisation werden Fingerabdrücke des Audio-Signals und Fingerabdrücke des Videosignals erzeugt und mit den Fingerabdrücken in der Datenbank verglichen. Wenn eine Übereinstimmung herausgefunden worden ist, bezeichnen die Fingerabdrücke auch den Synchronisationszeitpunkt, der verwendet wird, um die zwei Signale zu synchronisieren.The WO 2005/011281 A1 discloses a method and apparatus for generating and capturing fingerprints for synchronizing audio and video signals. In particular, a first fingerprint and a second fingerprint are generated, which are usable for the synchronization of at least two signals. For this purpose, a segment of a first signal, for example an audio signal, and a segment of a second signal, for example a video signal, are used at each synchronization instant. The generated fingerprint pairs are stored in a database and transmitted to a synchronization device. During synchronization, fingerprints of the audio signal and fingerprints of the video signal are generated and compared with the fingerprints in the database. If a match has been found, the fingerprints also designate the synchronization timing used to synchronize the two signals.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen eines Datenstroms bzw. zum Erzeugen einer Multikanal-Darstellung zu schaffen, durch das eine Synchronisierung von Basiskanaldaten und Mehrkanal-Zusatzinformationen erreichbar ist.The object of the present invention is to provide a concept for generating a data stream or for generating a multi-channel representation, by means of which a synchronization of basic channel data and multi-channel additional information can be achieved.

Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Datenstroms gemäß Patentanspruch 1, eine Vorrichtung zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 17, ein Verfahren zum Erzeugen eines Datenstroms gemäß Patentanspruch 26, ein Verfahren zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 27, ein Computer-Programm-Produkt nach patentanspruch 28 oder eine Datenstromdarstellung nach Patentanspruch 29 gelöst.This object is achieved by a device for generating a data stream according to claim 1, a device for generating a multi-channel representation according to claim 17, a method for generating a data stream according to claim 26, a method for generating a multi-channel representation according to claim 27, a computer Program product according to claim 28 or a data stream representation according to claim 29 solved.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass eine getrennte Übertragung und zeitsynchrone Zusammenführung eines Basiskanaldatenstroms und eines Mehrkanal-Zusatzinformationen-Datenstroms dadurch ermöglicht wird, dass auf "Senderseite" der Multikanal-Datenstrom dahingehend modifiziert wird, dass Fingerabdruckinformationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, in den Datenstrom mit den Mehrkanal-Zusatzinformationen derart eingebracht werden, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist. So gehören bestimmte Mehrkanal-Zusatzinformationen zu bestimmten Basiskanaldaten. Genau diese Zuordnung muss auch bei der Übertragung getrennter Datenströme gesichert werden.The present invention is based on the finding that a separate transmission and time-synchronous merging of a basic channel data stream and a multi-channel additional information data stream is made possible by the fact that the "multichannel data stream is modified on the" sender side "in such a way that fingerprint information representing a time profile of the at least reproduce a base channel, are introduced into the data stream with the multi-channel additional information such that from the data stream, a relationship between the multi-channel additional information and the fingerprint information is derivable. So include certain multi-channel additional information to certain basic channel data. Exactly this assignment must also be secured when transferring separate data streams.

Erfindungsgemäß wird auf Senderseite die Zugehörigkeit von Mehrkanal-Zusatzinformationen zu Basiskanaldaten dadurch signalisiert, dass von den Basiskanal-Daten Fingerabdruckinformationen ermittelt werden, mit denen die Mehrkanal-Zusatzinformationen, die zu genau diesen Basiskanaldaten gehören, gewissermaßen markiert werden. Diese Markierung bzw. Signalisierung des Zusammenhangs zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruckinformationen wird bei einer blockweisen Datenverarbeitung dadurch erreicht, dass einem Block von Mehrkanal-Zusatzinformationen, die genau zu einem Block von Basiskanaldaten gehören, ein Block-Fingerabdruck genau dieses Blocks von Basiskanaldaten zugeordnet werden, zu dem der betrachtete Block von Mehrkanal-Zusatzinformationen gehört.According to the invention, the affiliation of multichannel additional information to basic channel data is signaled on the sender side by the fact that fingerprint information is determined from the base channel data with which the multichannel additional information which belongs to precisely this basic channel data is as it were marked. This labeling of the relationship between the multichannel overhead information and the fingerprint information is achieved in block-wise data processing by associating a block fingerprint of precisely that block of base channel data with a block of multichannel overhead information corresponding to a block of basic channel data to which the considered block of multichannel overhead information belongs.

In anderen Worten wird ein Fingerabdruck genau des Basiskanaldatenblocks, mit dem zusammen die Mehrkanal-Zusatzinformationen bei der Rekonstruktion verarbeitet werden müssen, den Mehrkanal-Zusatzinformationen zugeordnet. Bei einer Block-basierten Übertragung kann der Block-Fingerabdruck des Blocks von Basiskanaldaten in der Blockstruktur des Mehrkanal-Zusatzdatenstroms derart eingetastet werden, dass jeder Block von Mehrkanal-Zusatzinformationen den Block-Fingerabdruck der zugehörigen Basisdaten enthält. Der Block-Fingerabdruck kann im unmittelbaren Anschluss an einen bisher verwendeten Block von Mehrkanal-Zusatzinformationen geschrieben werden, oder kann vor den bisher bestehenden Block geschrieben werden, oder kann an irgendeiner bekannten Stelle innerhalb dieses Blocks geschrieben werden, sodass bei der Multikanal-Rekonstruktion der Block-Fingerabdruck zu Synchronisationszwecken auslesbar ist. In dem Datenstrom befinden sich daher normale Mehrkanal-Zusatzdaten, sowie entsprechend eingestreut die Block-Fingerabdrücke.In other words, a fingerprint of exactly the basic channel data block, with which together the multichannel additional information must be processed during the reconstruction, is assigned to the multichannel additional information. In a block-based transfer, the block fingerprint of the block of base channel data in the block structure of the multichannel overhead data stream may be keyed in such that each block of multichannel overhead information contains the block fingerprint of the associated base data. The block fingerprint may be written immediately following a previously used block of multichannel overhead information, or may be written before the previously existing block, or may be written at any known location within that block, such that in multichannel reconstruction the block Fingerprint is readable for synchronization purposes. The data stream therefore contains normal multichannel additional data as well as the block fingerprints interspersed accordingly.

Alternativ könnte der Datenstrom auch so geschrieben werden, dass z. B. alle Block-Fingerabdrücke, versehen mit einer Zusatzinformation, wie beispielsweise einem Block-Counter, am Anfang des erfindungsgemäß erzeugten Datenstroms stehen, sodass ein erster Abschnitt des Datenstroms lediglich Block-Fingerabdrücke enthält und ein zweiter Teil des Datenstroms die zu den Block-Fingerabdruckinformationen gehörigen blockweise geschriebenen Mehrkanal-Zusatzdaten enthält. Diese Alternative hat den Nachteil, dass Referenzinformationen benötigt werden, wobei jedoch die Zugehörigkeit der Block-Fingerabdrücke zu den blockweise geschriebenen Mehrkanal-Zusatzinformationen auch implizit durch die Reihenfolge gegeben sein kann, sodass keine zusätzlichen Informationen nötig sind.Alternatively, the data stream could also be written so that z. For example, all block fingerprints provided with additional information, such as a block counter, are at the beginning of the data stream generated in accordance with the invention so that a first portion of the data stream contains only block fingerprints and a second portion of the data stream contains the block fingerprint information belonging block-wise written multi-channel additional data contains. This alternative has the disadvantage that reference information is required, but the affiliation of the block fingerprints to the block-written multichannel additional information may also be implicitly given by the order, so that no additional information is necessary.

In diesem Fall könnte bei der Multikanal-Rekonstruktion zu Synchronisationszwecken einfach zunächst eine große Anzahl von Block-Fingerabdrücken eingelesen werden, um die Referenz-Fingerabdruckinformationen zu erhalten. Nach und nach kommen dann die Test-Fingerabdrücke hinzu, bis eine für eine Korrelation verwendete minimale Anzahl von Test-Fingerabdrücken vorliegen. Während dieser Zeitdauer könnte der Satz von Referenz-Fingerabdrücken z. B. bereits einer Differenz-Codierung unterworfen werden, wenn die Korrelation bei der Multikanal-Rekonstruktion unter Verwendung von Differenzen durchgeführt wird, während im Datenstrom keine Differenz-Block-Fingerabdrücke sondern Absolut-Block-Fingerabdrücke enthalten sind.In this case, in multichannel reconstruction, for synchronization purposes, a large number of block fingerprints could simply be read in first to obtain the reference fingerprint information. Gradually, the test fingerprints are added until there is a minimum number of test fingerprints used for a correlation. During this period, the set of reference fingerprints could e.g. B. are already subjected to differential coding when the correlation in the multi-channel reconstruction is performed using differences, while in the data stream no difference block fingerprints but absolute block fingerprints are included.

Allgemein gesagt wird auf Empfängerseite der Datenstrom mit den Basiskanaldaten verarbeitet, also zunächst beispielsweise decodiert und dann einem Multikanal-Rekonstruierer zugeführt. Vorzugsweise ist dieser Multikanal-Rekonstruierer so ausgebildet, dass er dann, wenn er keine Zusatzinformationen bekommt, einfach eine Durchschaltung vornimmt, um die vorzugsweise zwei Basiskanäle als Stereosignal auszugeben. Parallel hierzu findet die Extraktion der Referenz-Fingerabdruckinformationen und die Berechnung der Test-Fingerabdruckinformationen aus den decodierten Basiskanaldaten statt, um dann eine Korrelationsberechnung durchzuführen, um den Versatz der Basiskanaldaten zu den Mehrkanal-Zusatzdaten zu errechnen. Je nach Implementierung kann dann durch eine weitere Korrelationsberechnung verifiziert werden, dass dieser Versatz auch der richtige Versatz ist. Dies wird dann der Fall sein, wenn der Versatz, der durch die zweite Korrelationsberechnung erhalten worden ist, nicht mehr als um eine vorbestimmte Schwelle von dem Versatz, der durch die erste Korrelationsberechnung erhalten worden ist, abweicht.Generally speaking, the data stream is processed on the receiver side with the basic channel data, that is to say initially decoded, for example, and then supplied to a multichannel reconstructor. Preferably, this multi-channel reconstructor is designed such that it, if it does not get additional information, simply makes a through connection to output the preferably two base channels as a stereo signal. Parallel to this is the extraction the reference fingerprint information and the calculation of the test fingerprint information from the decoded base channel data, to then perform a correlation calculation to calculate the offset of the base channel data to the multi-channel overhead data. Depending on the implementation, it can then be verified by another correlation calculation that this offset is also the correct offset. This will be the case if the offset obtained by the second correlation calculation does not deviate more than a predetermined threshold from the offset obtained by the first correlation calculation.

War dies der Fall, so kann davon ausgegangen werden, dass der Versatz richtig war. Hierauf wird nach dem Erhalt synchronisierter Mehrkanal-Zusatzinformationen von einer Stereoausgabe auf die Multikanal-Ausgabe umgeschaltet.If this is the case, it can be assumed that the offset was correct. This will switch from a stereo output to the multichannel output after receiving multi-channel synchronized additional information.

Dieses Prozedere wird dann bevorzugt, wenn ein Benutzer von der Zeit, die zur Synchronisierung benötigt wird, nichts merken soll. Basiskanaldaten werden somit in dem Moment, wo sie erhalten werden, verarbeitet, sodass natürlich in dem Zeitraum, in dem die Synchronisierung stattfindet, also die Versatzberechnung stattfindet, lediglich Stereodaten ausgegeben werden können, da noch keine synchronisierten Mehrkanal-Zusatzinformationen gefunden worden sind.This procedure is preferred when a user should not notice the time needed for synchronization. Thus, basic channel data is processed at the moment it is received, so of course, only stereo data can be output in the period in which the synchronization takes place, that is, the offset calculation, since no synchronized multi-channel additional information has yet been found.

Bei einem anderen Ausführungsbeispiel, bei dem es nicht auf die "Anfangsverzögerung" ankommt, die zur Berechnung des Versatzes benötigt wird, kann die Wiedergabe so durchgeführt werden, dass die gesamte Synchronisationsberechnung ausgeführt wird, ohne dass parallel bereits Stereodaten ausgegeben werden, um dann vom ersten Block der Basiskanaldaten an synchronisierte Mehrkanal-Zusatzinformationen zu liefern. Der Hörer wird dann bereits vom ersten Block an ein synchronisiertes 5.1-Erlebnis haben.In another embodiment which does not depend on the "initial delay" needed to compute the offset, the rendering may be performed so that the entire synchronization calculation is performed without stereo data being output in parallel, and then from the first one Block of basic channel data to synchronized multichannel overhead information. The listener will then have a synchronized 5.1 experience right from the first block.

Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung beträgt die Zeit für eine Synchronisation normalerweise etwa 5 Sekunden, da für eine optimale Versatzberechnung etwa 200 Referenz-Fingerabdrücke als Referenz-Fingerabdruckinformätionen benötigt werden. Falls diese Verzögerung von etwa 5 Sekunden keine Rolle spielt, wie es beispielsweise bei unidirektionalen Übertragungen der Fall ist, kann gleich mit einer 5.1-Wiedergabe - allerdings erst nach der zur Versatzberechnung nötigen Zeit - begonnen werden. Für interaktive Anwendungen, beispielsweise wenn es um Dialoge oder etwas ähnliches geht, wird diese Verzögerung störend sein, sodass hier irgendwann, wenn die Synchronisation fertig ist, von der Stereowiedergabe auf die Multikanal-Wiedergabe übergegangen wird. So wurde herausgefunden, dass es besser ist, nur eine Stereo-Wiedergabe zu liefern als eine Multikanal-Wiedergabe mit nicht-synchronisierten Mehrkanal-Zusatzinformationen.In preferred embodiments of the present invention, the time for synchronization is normally about 5 seconds since about 200 reference fingerprints are needed as reference fingerprint information for optimal offset calculation. If this delay of about 5 seconds is irrelevant, as is the case for unidirectional transmissions, for example, you can start with a 5.1 playback - but only after the time required for the offset calculation. For interactive applications, such as when it comes to dialogs or something similar, this delay will be annoying, so that at some point, when the synchronization is finished, it will change from stereo to multi-channel playback. Thus, it has been found that it is better to provide only stereo playback than multichannel playback with non-synchronized multi-channel additional information.

Erfindungsgemäß wird das zeitliche Zuordnungsproblem zwischen Basiskanaldaten und Mehrkanal-Zusatzdaten sowohl durch Maßnahmen auf der Senderseite als auch durch Maßnahmen auf der Empfangsseite gelöst.According to the invention, the temporal allocation problem between basic channel data and multi-channel additional data is solved both by measures on the transmitter side and by measures on the receiver side.

Auf der Senderseite werden zeitlich veränderliche und geeignete Fingerprint-Informationen aus dem korrespondierenden Mono- oder Stereo-Downmixaudiosignal berechnet. Vorzugsweise werden diese Fingerprint-Informationen regelmäßig als Synchronisationshilfe in den versendeten Mehrkanalzusatzdatenstrom eingetastet. Dies erfolgt vorzugsweise als Datenfeld inmitten der blockweise organisierten z. B. Spatial-Audio-Coding-Seiteninformationen, oder so, dass das Fingerprint-Signal als erste oder letzte Information des Datenblocks geschickt wird, derart, dass sie leicht hinzugefügt oder herausgenommen werden kann.On the transmitter side, time-varying and suitable fingerprint information is calculated from the corresponding mono or stereo downmix audio signal. Preferably, this fingerprint information is regularly keyed as a synchronization aid in the sent multi-channel additional data stream. This is preferably done as a data field in the middle of the block-organized z. Spatial audio coding page information, or such that the fingerprint signal is sent as first or last information of the data block such that it can be easily added or removed.

Auf der Empfangsseite werden zeitlich veränderliche und geeignete Fingerprint-Informationen aus dem korrespondierenden Stereoaudiosignal, also den Basiskanaldaten berechnet, wobei erfindungsgemäß eine Anzahl von zwei Basiskanälen bevorzugt wird. Ferner werden die Fingerprints aus den Mehrkanalzusatzinformationen extrahiert. Hierauf wird der zeitliche Versatz zwischen den Mehrkanalzusatzinformationen und dem empfangenen Audiosignal über Korrelationsmethoden, wie beispielsweise einer Berechnung einer Kreuzkorrelation zwischen den Test-Fingerabdruckinformationen und den Referenz-Fingerabdruckinformationen berechnet. Alternativ können auch Trial-And-Error-Verfahren durchgeführt werden, bei denen verschiedene aus den Basiskanal-Daten unter Zugrundelegung verschiedener Blockraster berechnete Fingerabdruckinformationen mit den Referenz-Fingerabdruckinformationen verglichen werden, um anhand des Test-Blockrasters, dessen zugehörige Test-Fingerabdruckinformationen am besten mit den Referenz-Fingerabdruckinformationen übereinstimmen, den zeitlichen Versatz zu bestimmen.On the receiving side, temporally variable and suitable fingerprint information is calculated from the corresponding stereo audio signal, ie the basic channel data. wherein according to the invention a number of two base channels is preferred. Furthermore, the fingerprints are extracted from the multi-channel additional information. Thereafter, the time offset between the multichannel overhead information and the received audio signal is calculated via correlation methods, such as a calculation of cross-correlation between the test fingerprint information and the reference fingerprint information. Alternatively, trial-and-error methods may also be performed in which various fingerprint information calculated from the base channel data based on various block rasters is compared to the reference fingerprint information to best match the test block raster, its associated test fingerprint information match the reference fingerprint information to determine the temporal offset.

Schließlich wird das Audiosignal der Basiskanäle mit den Mehrkanalzusatzinformationen für die anschließende Mehrkanal-Rekonstruktion durch eine nachgeschaltete Verzögerungsausgleichsstufe synchronisiert. Je nach Implementierung kann allein eine Anfangsverzögerung kompensiert werden. Vorzugsweise wird die Versatzberechnung jedoch parallel zur Wiedergabe durchgeführt, um im Falle eines zeitlichen Auseinanderdriftens der Basiskanaldaten und der Mehrkanal-Zusatzinformationen trotz einer kompensierten Anfangsverzögerung den Versatz nach Bedarf und nach Ergebnis der Korrelationsberechnung nachstellen zu können. Die Verzögerungsausgleichsstufe kann somit auch aktiv geregelt werden.Finally, the audio signals of the base channels are synchronized with the multichannel overhead information for subsequent multichannel reconstruction by a downstream delay balancing stage. Depending on the implementation, only an initial delay can be compensated. Preferably, however, the offset computation is performed in parallel to the reproduction in order to be able to readjust the offset as needed and according to the result of the correlation calculation in the event of a drifting apart of the base channel data and the multi-channel additional information despite a compensated initial delay. The delay equalization stage can thus also be actively regulated.

Die vorliegende Erfindung ist dahingehend vorteilhaft, dass keinerlei Änderungen an den Basiskanal-Daten bzw. an dem Verarbeitungsweg für die Basiskanal-Daten vorgenommen werden müssen. Der Basiskanal-Datenstrom, der in einen Empfänger eingespeist wird, unterscheidet sich in nichts von einem üblichen Basiskanal-Datenstrom. Veränderungen werden lediglich auf Seiten des Multikanal-Datenstroms vorgenommen. Dieser wird dahingehend modifiziert, dass die Fingerabdruck-Informationen eingetastet werden. Nachdem für den Multikanal-Datenstrom jedoch derzeit ohnehin keine standardisierten Verfahren vorliegen, führt die Veränderung des Mehrkanal-Zusatzdatenstroms nicht zu einer unerwünschten Abkehr von einer bereits standardisierten, implementierten und etablierten Lösung, wie es dagegen der Fall wäre, wenn der Basiskanal-Datenstrom modifiziert werden würde.The present invention is advantageous in that there is no need to make any changes to the base channel data or to the basic channel data processing path. The basic channel data stream fed to a receiver is no different from a common base channel data stream. Changes are made only on the part of the multi-channel data stream. This is modified to include the fingerprint information be keyed. However, since there are currently no standardized methods for the multichannel data stream, changing the multichannel additional data stream does not lead to an unwanted departure from an already standardized, implemented and established solution, as would be the case if the base channel data stream were modified would.

Das erfindungsgemäße Szenario liefert eine besondere Flexibilität der Verbreitung von Mehrkanal-Zusatzinförmationen. Insbesondere dann, wenn die Mehrkanal-Zusatzinformationen Parameterinformationen sind, die bezüglich der erforderlichen Datenrate bzw. Speicherkapazität sehr kompakt sind, kann ein digitaler Empfänger mit solchen Daten auch völlig getrennt von dem Stereosignal versorgt werden. So könnte sich ein Benutzer für bereits bei ihm bestehende Stereo-Aufnahmen, die er bereits auf seinem Solid-State-Player oder auf seinen CDs hat, Mehrkanal-Zusatzinformationen von einem getrennten Anbieter beschaffen und auf seinem Wiedergabegerät abspeichern. Dieses Abspeichern ist unproblematisch, da der Speicherbedarf insbesondere für parametrische Mehrkanal-Zusatzinformationen nicht besonders groß ist. Legt der Benutzer dann eine CD ein oder wählt er ein Stereo-Stück aus, so kann von dem Mehrkanal-Zusatzdatenspeicher der entsprechende Mehrkanal-Zusatzdatenstrom abgerufen werden und aufgrund der Fingerabdruckinformationen in dem Mehrkanal-Zusatzdatenstrom mit dem Stereosignal synchronisiert werden, um eine Multikanal-Rekonstruktion zu erreichen. Die erfindungsgemäße Lösung erlaubt es somit, völlig unabhängig von der Art und Weise des Stereosignals, also unabhängig davon, ob es von einem digitalen Rundfunkempfänger stammt, ob es von einer CD stammt, ob es von einer DVD stammt oder ob es z. B. über das Internet angekommen ist, Mehrkanal-Zusatzdaten, die von einer ganz anderen Quelle stammen können, mit dem Stereosignal zu synchronisieren, wobei das Stereosignal dann als Basiskanaldaten fungiert, auf deren Basis dann die Multikanal-Rekonstruktion durchgeführt wird.The scenario according to the invention provides a particular flexibility for the propagation of multichannel additional information. In particular, if the multichannel additional information is parameter information that is very compact in terms of the required data rate or storage capacity, a digital receiver with such data can also be supplied completely separate from the stereo signal. For example, a user could obtain multi-channel additional information from a separate provider for stereo recordings that already exist on his solid-state player or on his CDs, and store it on his playback device. This storage is not a problem because the memory requirements, especially for multi-channel parametric additional information is not particularly large. Then, when the user inserts a CD or selects a stereo piece, the multi-channel overhead data memory can retrieve the corresponding multi-channel overhead data stream and synchronized with the stereo signal based on the fingerprint information in the multi-channel overhead data stream to provide a multi-channel reconstruction to reach. The solution according to the invention thus allows completely independent of the way the stereo signal, that is, regardless of whether it comes from a digital radio receiver, whether it comes from a CD, whether it comes from a DVD or whether it is z. B. has arrived via the Internet, multi-channel additional data that can come from a very different source to synchronize with the stereo signal, the stereo signal then acts as a base channel data, then the basis of the multi-channel reconstruction is performed.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

Fig. 1
ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen eines Datenstroms;
Fig. 2
ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen einer Multikanal-Darstellung;
Fig. 3
einen bekannten Joint-Stereo-Codierer zum Erzeugen von Kanaldaten und parametrischen Multikanal-Informationen;
Fig. 4
eine Darstellung eines Schemas zum Bestimmen von ICLD-, ICTD- und ICC-Parametern für eine BCC-Codierung/Decodierung;
Fig. 5
eine Blockdiagrammdarstellung einer BCC-Codierer/Decodierer-Kette;
Fig. 6
ein Blockdiagramm einer Implementierung des BCC-Synthese-Blocks von Fig. 5;
Fig. 7a
eine schematische Darstellung eines ursprünglichen Multikanalsignals als Folge von Blöcken;
Fig. 7b
eine schematische Darstellung von einem oder mehreren Basiskanälen als Folge von Blöcken;
Fig. 7c
eine schematische Darstellung des erfindungsgemäßen Datenstroms mit Multikanalinformationen und zugeordneten Block-Fingerabdrücken;
Fig. 7d
eine beispielhafte Darstellung für einen Block des Datenstroms von Fig. 7c;
Fig. 8
eine detailliertere Darstellung der erfindungsgemäßen Vorrichtung zum Erzeugen einer Multikanal-Darstellung gemäß einem bevorzugten Ausführungsbeispiel;
Fig. 9
eine schematische Darstellung zur Verdeutlichung der Versatzbestimmung durch Korrelation zwischen den Test-Fingerabdruckinformationen und den Referenz-Fingerabdruckinformationen;
Fig. 10
ein Flussdiagramm für eine bevorzugte Ausführung der Versatzbestimmung parallel zur Datenausgabe; und
Fig. 11
eine schematische Darstellung der Berechnung der Fingerabdruckinformationen bzw. codierten Fingerabdruckinformationen auf Encodierer- und Decodierer-Seite.
Preferred embodiments of the present invention will be explained below in detail with reference to the accompanying drawings. Show it:
Fig. 1
a block diagram of a device according to the invention for generating a data stream;
Fig. 2
a block diagram of a device according to the invention for generating a multi-channel display;
Fig. 3
a known joint stereo encoder for generating channel data and multi-channel parametric information;
Fig. 4
a representation of a scheme for determining ICLD, ICTD and ICC parameters for BCC encoding / decoding;
Fig. 5
a block diagram representation of a BCC encoder / decoder chain;
Fig. 6
a block diagram of an implementation of the BCC synthesis block of Fig. 5 ;
Fig. 7a
a schematic representation of an original multi-channel signal as a result of blocks;
Fig. 7b
a schematic representation of one or more base channels as a result of blocks;
Fig. 7c
a schematic representation of the data stream according to the invention with multi-channel information and associated block fingerprints;
Fig. 7d
an exemplary representation for a block of the data stream of Fig. 7c ;
Fig. 8
a more detailed representation of the device according to the invention for generating a multi-channel display according to a preferred embodiment;
Fig. 9
a schematic representation for illustrating the offset determination by correlation between the test fingerprint information and the reference fingerprint information;
Fig. 10
a flow chart for a preferred embodiment of the offset determination in parallel with the data output; and
Fig. 11
a schematic representation of the calculation of the fingerprint information or coded fingerprint information on the encoder and decoder side.

Fig. 1 zeigt eine Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines ursprünglichen Multikanal-Signals, wobei das Multikanal-Signal wenigstens zwei Kanäle hat, gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung. Die Vorrichtung umfasst einen Fingerabdruck-Erzeuger 2, dem wenigstens ein aus dem ursprünglichen Multikanal-Signal abgeleiteter Basis-Kanal über eine Eingangsleitung 3 zuführbar ist. Die Anzahl der Basiskanäle ist größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal-Signals. Ist das ursprüngliche Multikanal-Signal lediglich ein Stereosignal mit nur zwei Kanälen, so ist nur ein einziger Basiskanal vorhanden, der aus den zwei Stereokanälen abgeleitet ist. Ist das ursprüngliche Multikanal-Signal jedoch ein Signal mit drei oder mehr Kanälen, so kann die Anzahl der Basiskanäle auch gleich 2 sein. Diese Ausführungsform wird bevorzugt, da eine Audiowiedergabe dann, ohne Mehrkanal-Zusatzdaten als normale Stereo-Wiedergabe erfolgen kann. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist das ursprüngliche Multikanal-Signal ein Surround-Signal mit fünf Kanälen und einem LFE-Kanal (LFE = Low Frequency Enhancement), wobei dieser Kanal auch als Subwoofer bezeichnet wird. Die fünf Kanäle sind ein Left-Surround-Kanal Ls, ein linker Kanal L, ein MittenKanal C, ein rechter Kanal R und ein hinterer rechter bzw. Right-Surround-Kanal Rs. Die beiden Basiskanäle sind dann der linke Basiskanal und der rechte Basiskanal. In Fachkreisen wird der eine bzw. werden die mehreren Basiskanäle auch als Downmix-Kanal bzw. Downmix-Kanäle bezeichnet. Fig. 1 shows a device for generating a data stream for a multi-channel reconstruction of an original multi-channel signal, wherein the multi-channel signal has at least two channels, according to a preferred embodiment of the present invention. The device comprises a fingerprint generator 2, to which at least one base channel derived from the original multi-channel signal can be supplied via an input line 3. The number of base channels is greater than or equal to 1 and less than a number of channels of the original multi-channel signal. If the original multi-channel signal is just a stereo signal with only two channels, then there is only a single base channel derived from the two stereo channels. However, if the original multi-channel signal is a signal having three or more channels, the number of base channels may be equal to two. This embodiment is preferred because audio playback is then done without any multi-channel overhead as normal stereo playback can. In a preferred embodiment of the present invention, the original multi-channel signal is a surround signal with five channels and one LFE channel (LFE = Low Frequency Enhancement), this channel also being called a subwoofer. The five channels are a left surround channel Ls, a left channel L, a center channel C, a right channel R, and a right right surround channel Rs. The two base channels are then the left base channel and the right base channel , In professional circles, the one or more base channels are also referred to as downmix channels or downmix channels.

Der Fingerabdruck-Erzeuger 2 ist ausgebildet, um aus dem wenigstens einen Basiskanal Fingerabdruck-Informationen zu erzeugen, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben. Je nach Implementierung sind die Fingerabdruck-Informationen mehr oder weniger aufwendig berechnet. So können hier insbesondere auf der Basis von statistischen Methoden sehr aufwendig berechnete Fingerabdrücke, die unter dem Stichwort "Audio-ID" bekannt sind, eingesetzt werden. Alternativ könnte jedoch auch eine beliebige andere Größe verwendet werden, die in irgendeiner Weise den zeitlichen Verlauf des einen oder der mehreren Basiskanäle repräsentiert.The fingerprint generator 2 is designed to generate fingerprint information from the at least one base channel, the fingerprint information representing a time profile of the at least one base channel. Depending on the implementation, the fingerprint information is calculated more or less costly. Thus, in particular on the basis of statistical methods very elaborately calculated fingerprints, which are known under the keyword "Audio-ID", can be used here. Alternatively, however, any other size could be used that somehow represents the timing of the one or more base channels.

Erfindungsgemäß wird eine Block-basierte Verarbeitung bevorzugt. Hier setzen sich die Fingerabdruck-Informationen aus einer Folge von Block-Fingerabdrücken zusammen, wobei ein Block-Fingerabdruck ein Maß für die Energie des einen bzw. der mehreren Basiskanäle in dem Block ist. Alternativ könnte jedoch auch als Block-Fingerabdruck z. B. immer ein bestimmtes Sample des Blocks oder eine Kombination von Abtastwerten des Blocks verwendet werden, da bei einer genügend hohen Anzahl von Block-Fingerabdrücken als Fingerabdruck-Informationen eine - wenn auch grobe - Wiedergabe der zeitlichen Charakteristik des wenigstens einen Basiskanals entsteht. Allgemein gesagt sind die Fingerabdruck-Informationen also von den Abtastwertdaten des wenigstens einen Basiskanals abgeleitet und geben den zeitlichen Verlauf mit mehr oder weniger großem Fehler des wenigstens einen Basiskanals wieder, sodass, wie später noch dargelegt werden wird, auf Decodierer/Empfänger-Seite eine Korrelation mit aus dem Basiskanal berechneten Test-Fingerabdruckinformationen erfolgen kann, um letztendlich den Versatz zwischen dem Datenstrom mit den Mehrkanal-Zusatzinformationen und dem Basiskanal zu bestimmen ist.According to the invention, a block-based processing is preferred. Here, the fingerprint information is composed of a series of block fingerprints, where a block fingerprint is a measure of the energy of the one or more base channels in the block. Alternatively, however, could also be used as a block fingerprint z. B. always a particular sample of the block or a combination of samples of the block are used, since at a sufficiently high number of block fingerprints as fingerprint information a - albeit rough - reproduction of the temporal characteristics of the at least one base channel arises. Generally speaking, the fingerprint information So derived from the sample data of at least one base channel and give the time history with more or less large error of the at least one base channel, so that, as will be explained later, at the decoder / receiver side a correlation with calculated from the base channel test Fingerprint information can be done to ultimately determine the offset between the data stream with the multi-channel additional information and the base channel.

Der Fingerabdruck-Erzeuger 2 liefert ausgangsseitig die Fingerabdruck-Informationen, die einem Datenstrom-Erzeuger 4 zugeführt werden. Der Datenstrom-Erzeuger 4 ist ausgebildet, um einen Datenstrom aus den Fingerabdruck-Informationen und den typischerweise zeitlich variablen Mehrkanal-Zusatzinformationen zu erzeugen, wobei die Mehrkanal-Zusatzinformationen zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen. Der Datenstrom-Erzeuger ist ausgebildet, um den Datenstrom an einem Ausgang 5 so zu erzeugen, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist. Erfindungsgemäß wird der Datenstrom aus Mehrkanal-Zusatzinformationen somit mit den Fingerabdruckinformationen, die von dem wenigstens einen Basiskanal abgeleitet worden sind, markiert, derart, dass über die Fingerabdruckinformationen, deren Zuordnung zu den Mehrkanal-Zusatzinformationen durch den Datenstrom-Erzeuger 4 geliefert wird, die Zusammengehörigkeit von bestimmten Mehrkanal-Zusatzinformationen zu den Basiskanaldaten ermittelbar ist.The fingerprint generator 2 supplies, on the output side, the fingerprint information which is supplied to a data stream generator 4. The data stream generator 4 is designed to generate a data stream from the fingerprint information and the typically time-varying multi-channel additional information, wherein the multi-channel additional information together with the at least one base channel enable the multi-channel reconstruction of the original multi-channel signal. The data stream generator is designed to generate the data stream at an output 5 such that a connection between the multichannel additional information and the fingerprint information can be derived from the data stream. According to the invention, the data stream of multichannel additional information is thus marked with the fingerprint information derived from the at least one base channel, such that the togetherness is provided via the fingerprint information, which is assigned to the multichannel additional information by the data stream generator 4 of certain multi-channel additional information to the basic channel data can be determined.

Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zum Erzeugen einer Multikanal-Darstellung eines ursprünglichen Multikanal-Signals aus wenigstens einem Basiskanal und einem Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist. Der wenigstens eine Basiskanal wird über einen Eingang 10 einem Empfänger- bzw. Decodierer-seitigen Fingerabdruckerzeuger 11 zugeführt. Der Fingerabdruckerzeuger 11 liefert ausgangsseitig Test-Fingerabdruckinformationen über einen Ausgang 12 zu einem Synchronisierer 13. Vorzugsweise werden die Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal durch genau den gleichen Algorithmus abgeleitet, der auch im Block 2 von Fig. 1 ausgeführt wird. Je nach Implementierung müssen die Algorithmen jedoch nicht unbedingt identisch sein. Fig. 2 shows an inventive device for generating a multi-channel representation of an original multi-channel signal from at least one base channel and a data stream, the fingerprint information representing a time course of the at least one base channel, and multi-channel additional information that together with the at least one base channel enable the multi-channel reconstruction of the original multi-channel signal, wherein from the data stream, a relationship between the multi-channel additional information and the fingerprint information is derivable. The at least one base channel is fed via an input 10 to a receiver or decoder-side fingerprint generator 11. The fingerprint generator 11 provides output test fingerprint information via an output 12 to a synchronizer 13. Preferably, the test fingerprint information is derived from the at least one base channel by exactly the same algorithm as described in block 2 of FIG Fig. 1 is performed. However, depending on the implementation, the algorithms do not necessarily have to be identical.

So kann der Fingerabdruck-Erzeuger 2 beispielsweise einen Block-Fingerabdruck in Absolut-Codierung erzeugen, während der Fingerabdruck-Erzeuger 11 auf Decodiererseite eine Differenz-Fingerabdruckbestimmung durchführt, derart, dass der einem Block zugeordnete Test-Blockfingerabdruck die Differenz zwischen zwei Absolut-Fingerabdrücken ist. In diesem Fall, wenn also über den Datenstrom mit den Fingerabdruckinformationen Absolut-Block-Fingerabdrücke kommen, wird ein Fingerabdruck-Extrahierer 14 die Fingerabdruck-Informationen aus dem Datenstrom extrahieren und zugleich Differenzen bilden, damit als Referenz-Fingerabdruckinformationen über einen Ausgang 15 dem Synchronisierer 13 Daten zugeführt werden, die mit den Test-Fingerabdruckinformationen vergleichbar sind.For example, the fingerprint generator 2 may generate a block fingerprint in absolute encoding while the fingerprint generator 11 on the decoder side performs a differential fingerprint determination such that the test block fingerprint associated with a block is the difference between two absolute fingerprints , In this case, ie when absolute block fingerprints occur over the data stream with the fingerprint information, a fingerprint extractor 14 will extract the fingerprint information from the data stream and at the same time form differences so that the synchronization 13 is provided as reference fingerprint information via an output 15 Data that is comparable to the test fingerprint information.

Allgemein gesagt wird es bevorzugt, dass die Algorithmen zur Berechnung der Test-Fingerabdruckinformationen auf Decodiererseite und die Algorithmen zur Berechnung der Fingerabdruckinformationen auf Encodiererseite, die in Fig. 2 auch als Referenz-Fingerabdruckinformationen bezeichnet werden können, zumindest so ähnlich sind, dass der Synchronisierer 13 unter Verwendung dieser beiden Informationen die Mehrkanal-Zusatzdaten im Datenstrom, die über einen Eingang 16 erhalten werden, synchronisiert den Daten über den wenigstens einen Basiskanal zuordnen kann. Als Multikanal-Darstellung am Ausgang des Synchronisierers wird eine synchronisierte Multikanal-Darstellung erhalten, die die Basiskanaldaten und synchron hierzu die Mehrkanal-Zusatzdaten umfasst.Generally speaking, it is preferred that the algorithms for calculating the test fingerprint information on the decoder side and the algorithms for calculating the fingerprint information on the encoder side, which in Fig. 2 may also be referred to as reference fingerprint information, at least so similar that the synchronizer 13 using this two information the multichannel overhead data in the data stream obtained via an input 16 can be synchronized with the data via the at least one base channel. As a multichannel display at the output of the synchronizer, a synchronized multi-channel display is obtained, which comprises the basic channel data and synchronously thereto the multi-channel additional data.

Hierzu wird es bevorzugt, dass der Synchronisierer 13 einen zeitlichen Versatz zwischen den Basiskanaldaten und den Mehrkanal-Zusatzdaten bestimmt und dann die Mehrkanal-Zusatzdaten um diesen Versatz verzögert. Es hat sich herausgestellt, dass die Mehrkanal-Zusatzdaten üblicherweise früher, also zu früh ankommen, was der wesentlich geringeren Datenmenge, die typischerweise den Mehrkanal-Zusatzdaten entspricht, im Vergleich zu der Datenmenge für die Basiskanaldaten zugeschrieben werden kann. Werden also die Mehrkanal-Zusatzdaten verzögert, werden die Daten über den wenigstens einen Basiskanal vom Eingang 10 über eine Basiskanaldatenleitung 17 dem Synchronisierer 13 zugeführt und durch diesen eigentlich nur "durchgeschleift" und an einem Ausgang 18 wieder ausgegeben. Die Mehrkanal-Zusatzdaten, die über den Eingang 16 erhalten werden, werden über eine Mehrkanal-Zusatzdatenleitung 19 in den Synchronisierer eingespeist, dort um einen bestimmten Versatz verzögert und an einem Ausgang 20 des Synchronisierers zusammen mit den Basiskanaldaten einem Multikanal-Rekonstruierer 21 zugeführt, der dann das eigentliche Audio-Rendering ausführt, um ausgangsseitig z. B. die fünf Audiokanäle und einen Tiefton-Kanal (in Fig. 2 nicht gezeigt) zu erzeugen.For this purpose, it is preferred that the synchronizer 13 determines a time offset between the basic channel data and the multi-channel additional data and then delays the multi-channel additional data by this offset. It has been found that the multichannel overhead data usually arrives earlier, that is, too early, which can be attributed to the much smaller amount of data that typically corresponds to the multichannel overhead data compared to the amount of data for the base channel data. Thus, if the multichannel additional data is delayed, the data is fed via the at least one base channel from the input 10 via a base channel data line 17 to the synchronizer 13 and actually only "looped through" by this and output again at an output 18. The multi-channel overhead data obtained via the input 16 is fed to the synchronizer via a multi-channel overhead data line 19, delayed there by a predetermined offset, and fed to an output 20 of the synchronizer together with the base channel data to a multi-channel reconstructor 21 then the actual audio rendering executes to the output side z. For example, the five audio channels and a low-frequency channel (in Fig. 2 not shown).

Die Daten auf den Leitungen 18 und 20 bilden somit die synchronisierte Multikanal-Darstellung, wobei der Datenstrom auf der Leitung 20 dem Datenstrom am Eingang 16 abgesehen von einer eventuell vorhandenen Mehrkanal-Zusatzdatencodierung entspricht, bis auf die Tatsache, dass die Fingerabdruck-Informationen aus dem Datenstrom entfernt werden, was je nach Implementierung im Synchronisierer 13 geschehen kann, oder schon vorher. Alternativ kann die Fingerabdruck-Entfernung auch bereits im Fingerabdruck-Extrahierer 14 erfolgen, sodass dann keine Leitung 19 vorhanden ist, sondern eine Leitung 19', die vom Fingerabdruck-Extrahierer 9 direkt in den Synchronisierer 13 geht. Der Synchronisierer 13 wird in diesem Fall also parallel vom Fingerabdruck-Extrahierer sowohl mit den Mehrkanal-Zusatzdaten als auch mit den Referenz-Fingerabdruckinformationen versorgt.The data on lines 18 and 20 thus form the synchronized multi-channel representation, with the data stream on line 20 corresponding to the data stream at input 16, apart from any multichannel overhead data coding, except for the fact that the fingerprint information is from the Data stream removed be, which can happen depending on the implementation in the synchronizer 13, or even before. Alternatively, the fingerprint removal can be done already in the fingerprint extractor 14, so that then there is no line 19, but a line 19 ', which goes from the fingerprint extractor 9 directly into the synchronizer 13. In this case, the synchronizer 13 is thus supplied in parallel by the fingerprint extractor with both the multi-channel additional data and with the reference fingerprint information.

Der Synchronisierer ist also ausgebildet, um die Mehrkanal-Zusatzinformationen und den wenigstens einen Basiskanal unter Verwendung der Test-Fingerabdruckinformationen und der Referenz-Fingerabdruckinformationen sowie unter Verwendung des aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal-Informationen mit den in dem Datenstrom enthaltenen Fingerabdruckinformationen zu synchronisieren. Der zeitliche Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruckinformationen wird, wie es nachfolgend noch erläutert wird, vorzugsweise einfach dadurch ermittelt, ob die Fingerabdruck-Informationen vor einem Satz von Mehrkanal-Zusatzinformationen, nach einem Satz von Mehrkanal-Zusatzinformationen oder innerhalb eines Satzes von Mehrkanal-Zusatzinformationen stehen. Je nachdem, ob die Fingerabdrücke vor, hinter oder inmitten eines Satzes von Mehrkanal-Zusatzinformationen stehen, wird auf die Codiererseite ermittelt, dass eben diese Mehrkanal-Informationen zu diesen Fingerabdruck-Informationen gehören.The synchronizer is thus configured to synchronize the multichannel overhead information and the at least one base channel using the test fingerprint information and the reference fingerprint information, and using the derived from the data stream context of the multichannel information with the fingerprint information contained in the data stream. The timing relationship between the multichannel overhead information and the fingerprint information, as will be discussed below, is preferably determined simply by whether the fingerprint information precedes a set of multichannel overhead information, a set of multichannel overhead information, or within a set of Multi-channel additional information is available. Depending on whether the fingerprints are in front of, behind, or in the midst of a set of multichannel additional information, it is determined on the encoder side that this multichannel information belongs to that fingerprint information.

Vorzugsweise wird eine Blockverarbeitung verwendet. Ebenfalls vorzugsweise wird die Eintastung der Fingerabdrücke so vorgenommen, dass ein Block von Mehrkanal-Zusatzdaten immer auf einen Block-Fingerabdruck folgt, dass sich also ein Block von Mehrkanal-Zusatzinformationen mit einem Block-Fingerabdruck abwechselt und umgekehrt. Alternativ könnte jedoch auch ein Datenstromformat verwendet werden, bei dem die gesamten Fingerabdruck-Informationen in einen separaten Teil am Anfang des Datenstroms geschrieben werden, woraufhin der ganze Datenstrom folgt. Hier würden sich also Block-Fingerabdrücke und Blöcke von Mehrkanal-Zusatzinformationen nicht abwechseln. Alternative Arten und Weisen der Zuordnung von Fingerabdrücken zu Mehrkanal-Zusatzinformationen sind Fachleuten bekannt. Erfindungsgemäß muss lediglich aus dem Datenstrom ein Zusammenhang zwischen den Mehrzahl-Zusatzinformationen und den Fingerabdruckinformationen auf Decodiererseite ableitbar sein, damit die Fingerabdruckinformationen dazu verwendet werden können, um die Mehrkanal-Zusatzinformationen mit den Basiskanaldaten zu synchronisieren.Preferably, block processing is used. Also preferably, the keying of the fingerprints is made so that a block of multi-channel additional data always follows a block fingerprint, so that a block of multi-channel additional information alternates with a block fingerprint and vice versa. Alternatively, however, a data stream format could be used in which the entire fingerprint information in one separate part at the beginning of the data stream, whereupon the whole data stream follows. So here block fingerprints and blocks of multi-channel additional information would not alternate. Alternative ways of assigning fingerprints to multi-channel additional information are known to those skilled in the art. According to the invention, a connection between the plurality of additional information and the fingerprint information must be derivable from the data stream only on the decoder side so that the fingerprint information can be used to synchronize the multichannel additional information with the basic channel data.

Nachfolgend wird anhand der Fig. 7a bis 7d eine bevorzugte Ausführungsform der blockweisen Verarbeitung dargestellt. Fig. 7a zeigt ein ursprüngliches Multikanalsignal, beispielsweise ein 5.1-Signal, das aus einer Folge von Blöcken B1 bis B8 besteht, wobei in einem Block bei dem in Fig. 7a gezeigten Beispiel Multikanalinformationen MKi enthalten sind. Wenn von einem 5-Kanal-Signal ausgegangen wird, so enthält ein Block, wie beispielsweise der Block B1 jeweils die ersten z. B. 1152 Audioabtastwerte jedes einzelnen Kanals. Eine solche Blockgröße wird beispielsweise in dem BCC-Codierer 112 von Fig. 5 bevorzugt, wobei die Blockbildung, also die gewissermaßen Fensterung, um eine Folge von Blöcken aus einem durchgehenden Signal zu erhalten, durch das Element 111 in Fig. 5, das mit "Block" bezeichnet ist, erreicht wird.The following is based on the Fig. 7a to 7d a preferred embodiment of the block-by-block processing is shown. Fig. 7a shows an original multi-channel signal, for example a 5.1-signal consisting of a sequence of blocks B1 to B8, wherein in a block at the in Fig. 7a shown example multi-channel information MKi are included. If a 5-channel signal is assumed, then a block, such as block B1, contains the first z. B. 1152 audio samples of each channel. Such a block size is used, for example, in the BCC encoder 112 of FIG Fig. 5 in which the block formation, that is to say the windowing to a certain extent in order to obtain a sequence of blocks from a continuous signal, is effected by the element 111 in FIG Fig. 5 , which is called "block", is reached.

Am Ausgang des Downmix-Blocks 114, der in Fig. 5 mit "Summensignal" bezeichnet ist, und der das Bezugszeichen 115 aufweist, liegt der wenigstens eine Basiskanal an. Die Basiskanaldaten können wieder als Folge von Blöcken B1 bis B8 dargestellt werden, wobei die Blöcke B1 bis B8 von Fig. 7b mit den Blöcken B1 bis B8 in Fig. 7a korrespondieren. Ein Block enthält nunmehr jedoch nicht mehr - wenn in einer Zeitbereichs-Darstellung geblieben wird, das ursprüngliche 5.1-Signal, sondern nur noch ein Mono-Signal oder ein Stereo-Signal mit zwei Stereobasiskanälen. Der Block B1 umfasst daher wieder die 1152 zeitlichen Abtastwerte sowohl des ersten Stereobasiskanals als auch des zweiten Stereobasiskanals, wobei diese 1152 Abtastwerte sowohl des linken Stereobasiskanals als auch des rechten Stereobasiskanals jeweils durch Abtastwert-Weise Addition/Subtraktion und gegebenenfalls Gewichtung errechnet worden sind, also durch die Operation, die im Downmix-Block 114 von Fig. 5 beispielsweise durchgeführt wird. Entsprechend umfasst der Datenstrom mit Multikanalinformationen wieder Blöcke B1 bis B8, wobei jeder Block in Fig. 7c dem entsprechenden Block des ursprünglichen Multikanalsignals in Fig. 7a bzw. des einen oder mehreren Basiskanals von Fig. 7b entspricht. Um zur Rekonstruktion beispielsweise des Blocks B1 des ursprünglichen Multikanalsignals MK1 zu kommen, müssen die Basiskanaldaten im Block B1 des Basiskanaldatenstroms, die mit BK1 bezeichnet sind, mit den Multikanalinformationen P1 des Blocks B1 in Fig. 7c kombiniert werden. Diese Kombination wird bei dem in Fig. 6 gezeigten Ausführungsbeispiel durch den BCC-Syntheseblock durchgeführt, der, um eine blockweise Verarbeitung der Basiskanaldaten zu erhalten, wieder eine Blockbildungs-Stufe an seinem Eingang aufweist.At the output of downmix block 114, which is in Fig. 5 designated by "sum signal" and having the reference numeral 115, the at least one base channel is applied. The basic channel data can again be represented as a sequence of blocks B1 to B8, blocks B1 to B8 of FIG Fig. 7b with the blocks B1 to B8 in Fig. 7a correspond. However, a block now no longer contains - if in a time-domain representation remains the original 5.1 signal, but only a mono signal or a stereo signal with two stereo baseband channels. The block B1 therefore again comprises the 1152 time samples of both the first stereo master channel and the second stereo master channel, these 1152 samples of both the left stereo baseband and the right stereo baseband having been respectively calculated by sample addition / subtraction and optionally weighting, ie by the operation performed in downmix block 114 of FIG Fig. 5 for example, is performed. Accordingly, the multichannel information stream again comprises blocks B1 through B8, with each block in Fig. 7c the corresponding block of the original multi-channel signal in Fig. 7a or of the one or more base channels of Fig. 7b equivalent. In order to reconstruct, for example, the block B1 of the original multi-channel signal MK1, the base channel data in the block B1 of the basic channel data stream indicated by BK1 must match the multi-channel information P1 of the block B1 in FIG Fig. 7c be combined. This combination is used in the Fig. 6 embodiment shown by the BCC synthesis block, which, in order to obtain a block-by-block processing of the basic channel data, again has a blocking stage at its input.

P3 bezeichnet also, wie es in Fig. 7c ausgeführt ist, die Multikanalinformationen, die zusammen mit dem Block von Werten BK3 der Basiskanäle eine Rekonstruktion des Blocks von Werten MK3 des ursprünglichen Multikanalsignals rekonstruieren lassen.P3 thus designates, as it does in Fig. 7c is executed, the multi-channel information which, together with the block of values BK3 of the base channels, reconstructs a reconstruction of the block of values MK3 of the original multi-channel signal.

Erfindungsgemäß wird nunmehr jeder Block Bi des Datenstroms von Fig. 7c mit einem Block-Fingerabdruck versehen. Für den Block B3 bedeutet dies, dass vorzugsweise im Anschluss an den Block P3 von Multikanalinformationen der Block-Fingerabdruck F3 geschrieben wird. Dieser Block-Fingerabdruck ist nun genau von dem Block B3 des Blocks von Werten BK3 abgeleitet. Alternativ könnte der Block-Fingerabdruck F3 auch einer Differenzcodierung unterworfen sein, sodass der Block-Fingerabdruck F3 gleich der Differenz des Block-Fingerabdrucks von Block BK3 der Basiskanäle und des Block-Fingerabdrucks des Blocks von Werten BK2 der Basiskanäle ist. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird als Block-Fingerabdruck ein Energiemaß bzw. ein Differenz-Energiemaß verwendet.According to the invention, each block Bi of the data stream of Fig. 7c provided with a block fingerprint. For the block B3, this means that the block fingerprint F3 is preferably written following the block P3 of multi-channel information. This block fingerprint is now derived exactly from the block B3 of the block of values BK3. Alternatively, the block fingerprint F3 could also be subjected to differential coding so that the block fingerprint F3 equals the difference is the block fingerprint of block BK3 of the base channels and the block fingerprint of the block of values BK2 of the base channels. In a preferred embodiment of the present invention, a block of energy or differential energy is used as the block fingerprint.

Bei dem eingangs beschriebenen Szenario wird der Datenstrom mit dem einen oder mehreren Basiskanälen in Fig. 7b getrennt vom Datenstrom mit den Mehrkanalinformationen und den Fingerabdruckinformationen von Fig. 7c zu einem Multikanal-Rekonstruierer übertragen. Würde nichts weiter getan werden, so könnte der Fall auftreten, dass am Multikanal-Rekonstruierer, beispielsweise am BCC-Syntheseblock 122 von Fig. 5 gerade der Block BK5 zur Verarbeitung ansteht. Ferner könnte es sein, dass aufgrund irgendwelcher zeitlicher Unschärfen jedoch von den Multikanalinformationen gerade der Block B7 statt des Blocks B5 ansteht. Ohne weitere Maßnahmen würde daher eine Rekonstruktion des Blocks von Basiskanaldaten BK5 mit den Multikanal-Informationen P7 vorgenommen werden, was zu Artefakten führen würde. Erfindungsgemäß wird nunmehr, wie es nachfolgend noch erläutert wird, ein Versatz von zwei Blöcken berechnet, derart, dass der Datenstrom in Fig. 7c um zwei Blöcke verzögert wird, derart, dass eine Multikanal-Darstellung aus dem Datenstrom von Fig. 7b und dem Datenstrom von Fig. 7c vorliegt, die nun jedoch aufeinander synchronisiert worden sind.In the scenario described above, the data stream with the one or more base channels in Fig. 7b separated from the data stream with the multichannel information and fingerprint information from Fig. 7c to a multichannel reconstructor. If nothing else were done, the case could arise that at the multichannel reconstructor, for example at the BCC synthesis block 122 of FIG Fig. 5 block BK5 is about to be processed. Furthermore, due to some temporal blurring of the multichannel information, block B7 may be present instead of block B5. Without further action, therefore, a reconstruction of the block of basic channel data BK5 would be made with the multi-channel information P7, which would lead to artifacts. According to the invention, as will be explained below, an offset of two blocks is now calculated, such that the data stream in Fig. 7c is delayed by two blocks, such that a multi-channel representation from the data stream of Fig. 7b and the data stream of Fig. 7c is present, but now have been synchronized to each other.

Je nach Ausführungsform und Gestaltung/Genauigkeit der Fingerabdruck-Informationen ist die erfindungsgemäße Versatzbestimmung nicht auf die Berechnung eines Versatzes als ganzzahliges Vielfaches eines Blocks begrenzt, sondern kann durchaus, bei genügend genauer Korrelationsberechnung und bei Verwendung einer genügend großen Anzahl von Block-Fingerabdrücken (was natürlich auf Kosten der Zeitdauer zur Berechnung der Korrelation geht) auch eine Versatzgenauigkeit erreichen, die gleich einem Bruchteil eines Blocks ist und bis zu einem Abtastwert erreichen kann. Es hat sich jedoch herausgestellt, dass eine derart hohe genauigkeit nicht unbedingt benötigt wird, sondern dass eine Synchronisationsgenauigkeit von +/- einem halben Block (bei einer Blocklänge von 1152 Abtastwerten) bereits zu einer Multikanal-Rekonstruktion führt, die ein Zuhörer als Artefakt-frei beurteilt.Depending on the embodiment and design / accuracy of the fingerprint information, the offset determination according to the invention is not limited to the calculation of an offset as an integer multiple of a block, but can, given sufficiently accurate correlation calculation and using a sufficiently large number of block fingerprints (which of course at the expense of the time period for calculating the correlation) can also achieve an offset accuracy that is equal to a fraction of a block and can reach up to one sample. However, it has been found that such a high accuracy is not necessarily required, but that a synchronization accuracy of +/- half a block (at a block length of 1152 samples) already leads to a multi-channel reconstruction that judges a listener as artifact-free.

Fig. 7d zeigt ein bevorzugtes Ausführungsbeispiel für einen Block Bi, beispielsweise für den Block B3 des Datenstroms in Fig. 7c. Der Block wird mit einem Sync-Wort, das beispielsweise ein Byte lang sein kann, eingeleitet. Hierauf kommt eine Längeninformation, da es bevorzugt wird, die Multikanalinformationen P3, wie es in der Technik bekannt ist, nach ihrer Berechnung zu skalieren, quantisieren und Entropie-Codieren, sodass die Länge der Multikanalinformationen, die beispielsweise Parameterinformationen sein können, die jedoch auch ein Waveform-Signal z. B. des Seite-Kanals sein können, von vorneherein nicht bekannt ist und daher im Datenstrom signalisiert werden muss. Am Ende der Multikanalinformationen P3 wird dann der erfindungsgemäße Block-Fingerabdruck eingefügt. Bei dem in Fig. 7d gezeigten Ausführungsbeispiel wurde für den Block-Fingerabdruck ein Byte, also 8 Bits, genommen. Da pro Block nur ein einziges Energiemaß genommen wird, wird bei einem Ausführungsbeispiel, bei dem nur eine Quantisierung, jedoch keine Entropie-Codierung eingesetzt wird, ein Quantisierer bei der Quantisierung mit einer Quantisierer-Ausgabebreite von 8 Bits eingesetzt. Die quantisierten Energiewerte werden daher ohne weitere Verarbeitung in das 8-Bit-Feld "Block-FA" von Fig. 7d eingetragen. Anschließend folgt dann, obgleich in Fig. 7d nicht gezeigt, wieder ein Synchronisationsbyte für den nächsten Block des Datenstroms, dem wieder ein Längenbyte folgt, und dem dann die Multikanalinformationen P4 für BK4 folgen, wobei diesem Block von Multikanalinformationen P4 für den Basiskanaldatenblock BK4 wieder der Block-Fingerabdruck, der auf den Basiskanal-Daten BK4 basiert, folgt. Fig. 7d shows a preferred embodiment for a block Bi, for example, for the block B3 of the data stream in Fig. 7c , The block is initiated with a sync word, which may be one byte long, for example. This is followed by length information, since it is preferred to scale the multichannel information P3, as known in the art, according to its calculation, quantize, and entropy-encode, so that the length of the multi-channel information, which may be parameter information, for example, but also one Waveform signal z. B. of the page channel is not known from the outset and therefore must be signaled in the data stream. At the end of the multi-channel information P3, the block fingerprint according to the invention is then inserted. At the in Fig. 7d In the embodiment shown, one byte, ie 8 bits, was taken for the block fingerprint. Since only a single energy measure is taken per block, in an embodiment in which only one quantization, but no entropy coding is used, a quantizer is used in the quantization with a quantizer output width of 8 bits. The quantized energy values are therefore written into the 8-bit block "FA-FA" without further processing Fig. 7d entered. Then follows, although in Fig. 7d not shown again a sync byte for the next block of the data stream, again followed by a length byte, and then followed by the multichannel information P4 for BK4, this block of multichannel information P4 for the basic channel data block BK4 again returning the block fingerprint to the base channel Data BK4 based follows.

Wie in Fig. 7d ausgeführt, kann als Energiemaß ein absolutes Energiemaß eingeführt werden, oder aber auch ein Differenz-Energiemaß. Dann würde dem Block B3 des Datenstroms als Block-Fingerabdruck die Differenz zwischen dem Energiemaß für die Basiskanaldaten BK3 und dem Energiemaß für die Basiskanaldaten BK2 zugefügt werden.As in Fig. 7d executed, can be introduced as an energy measure an absolute measure of energy, or even a differential energy measure. Then the block B3 of the data stream would be added as a block fingerprint the difference between the energy measure for the base channel data BK3 and the energy measure for the base channel data BK2.

Fig. 8 zeigt eine detailliertere Darstellung des Synchronisierers, des Fingerabdruckerzeugers 11 und des Fingerabdruckextrahierers 9 von Fig. 2 in Kooperation mit dem Multikanalrekonstruierer 21. Die Basiskanaldaten werden in einen Basiskanal-Datenpuffer 25 eingespeist und zwischengepuffert. Entsprechend werden die Zusatzinformationen bzw. der Datenstrom mit dien Zusatzinformationen und den Fingerabdruckinformationen einem Zusatzinformationen-Puffer 26 zugeführt. Beide Puffer sind allgemein gesagt in Form eines FIFO-Puffers aufgebaut, wobei jedoch der Puffer 26 weitere Kapazitäten dahingehend hat, dass die Fingerabdruckinformationen von dem Referenz-Fingerabdruckextrahierer 9 extrahierbar sind und ferner aus dem Datenstrom entfernt werden, sodass auf einer Puffer-Ausgangsleitung 27 lediglich Mehrkanal-Zusatzinformationen, jedoch ohne eingetastete Fingerabdrücke ausgebbar sind. Die Entfernung der Fingerabdrücke in dem Datenstrom kann jedoch auch von einem Zeitverschieber 28 oder irgendeinem anderen Element durchgeführt werden, sodass der Multikanalrekonstruierer 21 nicht durch Fingerabdruck-Bytes bei der Multikanalrekonstruktion gestört wird. Werden Absolut-Fingerabdrücke sowohl auf Referenz-Seite als auch auf Test-Seite verwendet, so können die durch den Fingerabdruck-Erzeuger 11 berechneten Fingerabdruckinformationen genauso wie die durch den Fingerabdruck-Extrahierer 9 ermittelten Fingerabdruckinformationen direkt in einen Korrelator 29 innerhalb des Synchronisierers 13 von Fig. 2 eingespeist werden. Der Korrelator berechnet dann den Versatzwert und liefert denselben über eine Versatz-Leitung 30 zu dem Zeitverschieber 28. Der Synchronisierer 13 ist ferner ausgebildet, um dann, wenn ein gültiger Versatzwert erzeugt und dem Zeitverschieber 28 zugeführt worden sind, einen Freigeber 31 anzusteuern, damit der Freigeber 31 einen Schalter 32 schließt, derart, dass der Strom von Mehrkanal-Zusatzdaten von dem Puffer 26 über den Zeitverschieber 28 und den Schalter 32 in den Multikanal-Rekonstruierer 21 eingespeist wird. Fig. 8 shows a more detailed representation of the synchronizer, the fingerprint generator 11 and the fingerprint extractor 9 of Fig. 2 in cooperation with the multi-channel reconstructor 21. The base channel data is fed to a base channel data buffer 25 and buffered. Accordingly, the additional information or the data stream with the additional information and the fingerprint information is supplied to an additional information buffer 26. Both buffers are generally constructed in the form of a FIFO buffer, but the buffer 26 has further capacities in that the fingerprint information is extractable from the reference fingerprint extractor 9 and further removed from the data stream, so that on a buffer output line 27 only Multi-channel additional information, but can be output without keyed fingerprints. However, the removal of the fingerprints in the data stream may also be performed by a time shifter 28 or some other element such that the multi-channel reconstructor 21 is not disturbed by fingerprint bytes in the multi-channel reconstruction. When absolute fingerprints are used on both the reference and test sides, the fingerprint information calculated by the fingerprint generator 11, as well as the fingerprint information obtained by the fingerprint extractor 9, can be directly input to a correlator 29 within the synchronizer 13 of FIG Fig. 2 be fed. The correlator then calculates the offset value and provides it to the time shifter 28 via an offset line 30. The synchronizer 13 is further configured to be fed to the time shifter 28 when a valid offset value is generated In order to enable the enable switch 31 to close a switch 32 such that the stream of multi-channel overhead data from the buffer 26 is fed to the multichannel reconstructor 21 via the time shifter 28 and the switch 32.

Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird lediglich eine Zeitverschiebung (Delay) der Mehrkanal-Zusatzinformationen vorgenommen. Gleichzeitig wird, damit ein Zuhörer der Ausgabe des Multikanalrekonstruierers 21 die Zeitverzögerung zur Berechnung des richtigen Versatzwerts nicht merkt, parallel zu der Berechnung des richtigen Versatzwertes bereits eine Multikanalrekonstruktion durchgeführt. Diese Multikanalrekonstruktion ist jedoch lediglich eine "triviale" Multikanalrekonstruktion, da die vorzugsweise zwei Stereobasiskanäle von dem Multikanalrekonstruierer 21 einfach ausgegeben werden. Ist der Schalter 32 daher offen, so folgt nur eine Stereoausgabe. Ist der Schalter 32 jedoch geschlossen, so erhält der Multikanalrekonstruierer 21 zusätzlich zu den StereoBasiskanälen auch die Mehrkanal-Zusatzinformationen und kann eine nun jedoch synchronisierte Multikanal-Ausgabe durchführen. Ein Zuhörer merkt dies lediglich dadurch, dass von der Stereoqualität auf die Multikanal-Qualität übergegangen wird.In the preferred embodiment of the present invention, only a time delay (delay) of the multichannel overhead information is made. At the same time, so that a listener of the output of the multichannel reconstructor 21 does not notice the time delay for calculating the correct offset value, multichannel reconstruction is already performed in parallel to the calculation of the correct offset value. However, this multichannel reconstruction is merely a "trivial" multichannel reconstruction because the preferably two stereo-base channels are simply output from the multi-channel reconstructor 21. If the switch 32 is therefore open, only one stereo output follows. However, if the switch 32 is closed, the multichannel reconstructor 21 also receives the multichannel additional information in addition to the stereo base channels and can perform a multichannel output synchronized, however. A listener only notices this by switching from stereo quality to multi-channel quality.

In Anwendungsfällen, bei denen Anfangs-Zeitverzögerungen keine große Rolle spielen, kann jedoch die Ausgabe des Multikanalrekonstruierers 21 so lange zurückgehalten werden, bis ein gültiger Versatz vorliegt. Dann kann bereits der allererste Block (BK1 von Fig. 7b) mit den nunmehr korrekt verzögerten Mehrkanal-Zusatzdaten P1 (Fig. 7c) dem Multikanalrekonstruierer 21 zugeführt werden, sodass erst dann mit der Ausgabe begonnen wird, wenn Multikanal-Daten vorliegen. Eine Ausgabe des Multikanalrekonstruierers 21 bei geöffnetem Schalter wird es in diesem Ausführungsbeispiel nicht geben.However, in applications where initial time delays are not critical, the output of multichannel reconstructor 21 may be held back until there is a valid offset. Then already the very first block (BK1 of Fig. 7b ) with the now correctly delayed multi-channel additional data P1 ( Fig. 7c ) are supplied to the multi-channel reconstructor 21, so that the output is started only when multi-channel data is present. An output of the multichannel reconstructor 21 with the switch open will not exist in this embodiment.

Nachfolgend wird Bezug nehmend auf Fig. 9 die Funktionalität des Korrelators 29 von Fig. 8 dargestellt. Am Ausgang des Test-Fingerabdruck-Berechners 11 wird eine Folge von Test-Fingerabdruckinformationen geliefert, wie sie im obersten Teilbild von Fig. 9 zu sehen ist. So ist für jeden Block der Basiskanäle, wobei dieser Block mit 1, 2, 3, 4, i bezeichnet ist, ein Block-Fingerabdruck vorhanden. Je nach Korrelationsalgorithmus wird zur Korrelation nur die Folge von diskreten Werten benötigt. Andere Korrelationsalgorithmen können jedoch auch als Eingangswert eine zwischen den diskreten Werten interpolierte Kurve erhalten, wie sie in Fig. 9 gezeichnet ist. Entsprechend erzeugt der Referenz-Fingerabdruckermittler 9 ebenfalls eine Folge von diskreten Referenz-Fingerabdrücken, die er aus dem Datenstrom extrahiert. Sind im Datenstrom beispielsweise Differenz-codierte Fingerabdruckinformationen enthalten, und soll der Korrelator auf der Basis von Absolut-Fingerabdrücken arbeiten, so wird ein Differenz-Decodierer 35 in Fig. 8 aktiviert. Es wird jedoch bevorzugt, dass im Datenstrom Absolut-Fingerabdrücken als. Energiemaß enthalten sind, da diese Information über die Gesamtenergie pro Block zu Pegelkorrekturzwecken von dem Multikanalrekonstruierer 21 ebenfalls vorteilhaft ausgenutzt werden kann. Ferner wird es bevorzugt, die Korrelation auf der Basis von Differenz-Fingerabdrücken durchzuführen. In diesem Fall wird der Block 9 vor dem Korrelator eine Differenzverarbeitung durchführen, und wird auch der Block 11 vor dem Korrelator eine Differenzverarbeitung durchführen, wie es bereits ausgeführt worden ist.Subsequently, reference will be made to Fig. 9 the functionality of the correlator 29 of Fig. 8 shown. At the output of the test fingerprint calculator 11, a sequence of test fingerprint information is provided, as in the top field of FIG Fig. 9 you can see. Thus, for each block of the base channels, this block being designated 1, 2, 3, 4, i, a block fingerprint is present. Depending on the correlation algorithm, only the sequence of discrete values is needed for correlation. However, other correlation algorithms may also receive as input a value interpolated between the discrete values, as shown in FIG Fig. 9 is drawn. Similarly, the reference fingerprint determiner 9 also generates a sequence of discrete reference fingerprints that it extracts from the data stream. For example, if differential encoded fingerprint information is included in the data stream, and if the correlator is to operate on the basis of absolute fingerprints, a differential decoder 35 in FIG Fig. 8 activated. However, it is preferred that absolute fingerprints be used in the data stream . Energy measurements are included, since this information about the total energy per block for level correction purposes of the multi-channel reconstructor 21 can also be advantageously exploited. Further, it is preferable to perform the correlation on the basis of differential fingerprints. In this case, the block 9 will perform difference processing before the correlator, and also the block 11 will perform difference processing before the correlator, as already stated.

Der Korrelator 29 wird nunmehr die in den beiden oberen Teilbildern von Fig. 9 dargestellten Kurven bzw. Folgen von diskreten Werten enthalten und ein Korrelationsergebnis liefern, das im unteren Teilbild von Fig. 9 dargestellt ist. Es ergibt sich ein Korrelationsergebnis, dessen Versatz-Komponente genau den Versatz zwischen den beiden Fingerabdruckinformationen-Kurven liefert. Da der Versatz zudem positiv ist, müssen die Mehrkanal-Zusatzinformationen in positiver Zeitrichtung verschoben werden, also verzögert werden. Es sei darauf hingewiesen, dass natürlich auch die Basiskanaldaten in negativer Zeitrichtung verschoben werden könnten, oder dass sowohl die Mehrkanal-Zusatzinformationen einen Teil in positiver Richtung verschoben werden können, und die Basiskanal-Zusatzdaten einen Teil des Versatzes in negativer Zeitrichtung verschoben werden können, so lange der Multikanalrekonstruierer an seinen beiden Eingängen eine synchronisierte Multikanal-Darstellung enthält.The correlator 29 is now the in the two upper fields of Fig. 9 shown curves or sequences of discrete values and provide a correlation result in the lower field of Fig. 9 is shown. The result is a correlation result whose offset component provides exactly the offset between the two fingerprint information curves. Since the offset is also positive, the multichannel additional information must be be postponed in a positive time direction, so be delayed. It should be noted that, of course, the basic channel data could be shifted in the negative time direction, or that both the multi-channel additional information can be shifted in the positive direction, and the base channel overhead data can be shifted a part of the offset in the negative time direction, so long the multichannel reconstructor contains a synchronized multi-channel representation at its two inputs.

Nachfolgend wird auf eine bevorzugte Ausführungsform der Berechnung des Versatzes parallel zur Audioausgabe anhand von Fig. 10 dargestellt. Die Basiskanaldaten werden gepuffert, um jeweils einen Fingerabdruck berechnen zu können, wonach der Block, von dem gerade ein Test-Block-Fingerabdruck berechnet worden ist, dem Multikanalrekonstruierer zur Multikanalrekonstruktion zugeführt wird. Hierauf wird der nächste Block der Basiskanaldaten wiederum in den Puffer 25 eingespeist, damit von diesem Block wieder ein Test-Block-Fingerabdruck berechnet werden kann. Dies wird für z. B. eine Anzahl von 200 Blöcken durchgeführt. Diese 200 Blöcke werden jedoch, damit der Zuhörer keine Verzögerung merkt, von dem Multikanalkonstruierer im Sinne einer "trivialen" Multikanalrekonstruktion als Stereo-Ausgangsdaten einfach ausgegeben.Hereinafter, a preferred embodiment of the calculation of the offset parallel to the audio output by means of Fig. 10 shown. The basic channel data is buffered to calculate one fingerprint at a time, after which the block from which a test block fingerprint has just been calculated is fed to the multichannel reconstructor for multichannel reconstruction. Thereafter, the next block of the base channel data is again fed to the buffer 25 so that a block test fingerprint can be calculated from this block again. This is for z. B. a number of 200 blocks performed. However, these 200 blocks are simply output as stereo output data by the multichannel constructor in the sense of a "trivial" multichannel reconstruction so that the listener will not notice a delay.

Je nach Implementierung können auch weniger als 200 Blöcke oder mehr als 200 Blöcke verwendet werden. Erfindungsgemäß hat sich herausgestellt, dass eine Anzahl zwischen 100 und 300 Blöcken und vorzugsweise 200 Blöcke Ergebnisse liefert, die einen vernünftigen Kompromiss zwischen Berechnungszeit, Korrelations-Rechenaufwand und Versatzgenauigkeit liefern.Depending on the implementation, fewer than 200 blocks or more than 200 blocks may be used. According to the invention, it has been found that a number between 100 and 300 blocks, and preferably 200 blocks, provides results that provide a reasonable compromise between computation time, correlation computation, and offset accuracy.

Ist der Block 36 abgearbeitet, so wird auf einen Block 37 übergegangen, in dem durch den Korrelator 29 die Korrelation zwischen den 200 berechneten Test-Block-Fingerabdrücken und den 200 berechneten Referenz-Block-Fingerabdrücken durchgeführt wird. Das dort erhaltene Versatzergebnis wird nunmehr gespeichert. Dann wird in einem Block 38 entsprechend dem Block 36 eine Anzahl der nächsten z. B. 200 Blöcke der Basiskanaldaten berechnet. Entsprechend werden wieder 200 Blöcke aus dem Datenstrom mit den Mehrkanal-Zusatzinformationen extrahiert. Hierauf wird in einem Block 39 wieder eine Korrelation durchgeführt, und es wird das dort erhaltene Versatzergebnis gespeichert. Dann wird in einem Block 40 eine Abweichung zwischen dem Versatzergebnis aufgrund der zweiten 200 Blöcke und dem Versatzergebnis aufgrund der ersten 200 Blöcke festgestellt. Liegt die Abweichung unterhalb einer vorbestimmten Schwelle, so wird durch einen Block 41 der Versatz über die Versatzleitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt, und es wird der Schalter 32 geschlossen, sodass ab diesem Zeitpunkt auf die Multikanal-Ausgabe übergegangen wird. Ein vorbestimmter Wert für die Abweichungsschwelle ist beispielsweise ein Wert von einem oder zwei Blöcken. Dies basiert darauf, dass dann, wenn sich ein Versatz von einer Berechnung zur nächsten Berechnung nicht mehr als ein oder zwei Blöcke ändert, kein Fehler bei der Korrelationsberechnung durchgeführt worden ist.If the block 36 has been executed, a block 37 is entered in which the correlation between the 200 calculated test block fingerprints and the 200 calculated reference block fingerprints is performed by the correlator 29. The offset result obtained there is saved now. Then, in a block 38 corresponding to the block 36, a number of the next z. B. calculates 200 blocks of the base channel data. Accordingly, 200 blocks are again extracted from the data stream with the multi-channel additional information. Thereafter, in a block 39, a correlation is again performed, and the offset result obtained there is stored. Then, in a block 40, a deviation between the offset result due to the second 200 blocks and the offset result due to the first 200 blocks is detected. If the deviation is below a predetermined threshold, then the offset via the offset line 30 to the time shifter 28 of FIG Fig. 8 supplied, and it is the switch 32 is closed, so that from this point on the multi-channel output is passed. A predetermined value for the deviation threshold is, for example, a value of one or two blocks. This is because when an offset from one calculation to the next calculation does not change more than one or two blocks, no error has been made in the correlation calculation.

Abweichend von diesem Ausführungsbeispiel kann auch gewissermaßen ein gleitendes Fenster mit einer Fensterlänge einer Anzahl von Blöcken, die z. B. 200 ist, verwendet werden. So wird z. B. eine Berechnung mit 200 Blöcken vorgenommen und ein Ergebnis erhalten. Dann wird um einen Block weitergegangen und in die Anzahl der für die Korrelationsberechnung verwendeten Blöcke ein Block herausgenommen und dafür der neue Block verwendet. Das erhaltene Ergebnis wird dann ebenso wie das zuletzt erhaltene Ergebnis in ein Histogramm eingespeichert. Dieses Prozedere wird für eine Anzahl von Korrelationsberechnungen, wie z. B. 100 oder 200, vorgenommen, so dass sich das Histogramm nach und nach füllt. Der Peak des Histogramms wird dann als berechneter Versatz verwendet, um den Anfangsversatz zu liefern oder einen Versatz zum dynamischen Nachstellen zu erhalten.Notwithstanding this embodiment may also be effectively a sliding window with a window length of a number of blocks, the z. B. 200 is used. So z. B. made a calculation with 200 blocks and obtained a result. Then one block is continued and one block is taken out of the number of blocks used for the correlation calculation and the new block is used for this purpose. The result obtained is then stored as well as the last result obtained in a histogram. This procedure is used for a number of correlation calculations, such as 100 or 200, so that the histogram gradually fills. The peak of the histogram is then used as a calculated offset to provide the initial offset or to obtain a dynamic offset offset.

Die parallel zur Ausgabe stattfindende Versatzberechnung wird in einem Block 42 mitlaufen, und es wird je nach Bedarf, wenn ein Aüseinanderdriften des Datenstroms mit den Mehrkanal-Informationen und des Datenstroms mit den Basiskanaldaten festgestellt worden ist, eine adaptive bzw. dynamische Versatznachführung erreicht, indem ein aktualisierter Versatzwert über die Leitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt wird. Im Hinblick auf die adaptive Nachführung sei darauf hingewiesen, dass je nach Implementierung auch eine Glättung der Versatzänderung durchgeführt werden kann, sodass dann, wenn eine Abweichung von beispielsweise zwei Blöcken festgestellt worden ist, zunächst der Versatz um 1 inkrementiert wird und dann bei Bedarf wieder inkrementiert wird, damit die Sprünge nicht zu groß werden.The offset calculation taking place in parallel to the output will run in a block 42, and adaptive dynamic offset tracking will be achieved as needed, when drifting of the data stream with the multichannel information and the data stream with the base channel data has been detected updated offset value via line 30 to time shifter 28 of FIG Fig. 8 is supplied. With regard to the adaptive tracking, it should be noted that, depending on the implementation, a smoothing of the offset change can also be carried out, so that if a deviation of, for example, two blocks has been determined, first the offset is incremented by 1 and then incremented again as required so that the jumps do not get too big.

Nachfolgend wird Bezug nehmend auf Fig. 11 auf eine bevorzugte Ausführungsform des Fingerabdruck-Erzeugers 2 auf Encodiererseite, wie er in Fig. 1 dargestellt worden ist, und des Fingerabdruck-Erzeugers 11 von Fig. 2, wie er auf Decodierer-Seite eingesetzt wird, dargestellt.Subsequently, reference will be made to Fig. 11 to a preferred embodiment of the fingerprint generator 2 encoder side, as in Fig. 1 has been shown, and the fingerprint generator 11 of Fig. 2 , as used on the decoder side, is shown.

Allgemein wird das Mehrkanalaudiosignal für die Gewinnung der Mehrkanalzusatzdaten in Blöcke fester Größe eingeteilt. Pro Block wird nun gleichzeitig zur Gewinnung der Mehrkanalzusatzdaten ein Fingerprint berechnet, der geeignet ist, die zeitliche Struktur des Signals möglichst eindeutig zu charakterisieren. Ein Ausführungsbeispiel hierzu ist es, den Energiegehalt des aktuellen Downmixaudiosignals des Audioblocks zu verwenden, beispielsweise in logarithmierter Form, also in einer Dezibel-verwandten Darstellung. In diesem Fall ist der Fingerprint ein Maß für die zeitliche Hüllkurve des Audiosignals. Um die übertragene Informationsmenge zu reduzieren und die Genauigkeit des Messwertes zu steigern, kann diese Synchronisationsinformation auch als Differenz zum Energiewert des vorangegangenen Blocks mit anschließend geeigneter Entropiecodierung, beispielsweise Huffman-Codierung, adaptiver Skalierung und Quantisierung ausgedrückt werden. Der Fingerprint der zeitlichen Hüllkurve wird dabei wie folgt berechnet:Generally, the multichannel audio signal for obtaining the multichannel overhead data is divided into fixed size blocks. At the same time, a fingerprint is calculated for each block at the same time to obtain the multichannel additional data, which is suitable for characterizing the temporal structure of the signal as clearly as possible. An embodiment of this is to use the energy content of the current downmix audio signal of the audio block, for example in logarithm form, ie in a decibel-related representation. In this case, the fingerprint is a measure of the temporal envelope of the audio signal. In order to reduce the amount of information transmitted and to increase the accuracy of the measured value, this synchronization information can also be compared to the energy value of the previous block, followed by suitable entropy coding, for example Huffman coding, adaptive scaling and quantization be expressed. The fingerprint of the temporal envelope is calculated as follows:

Zunächst wird, wie bei Punkt 1 in Fig. 11 dargestellt ist, eine Energieberechnung des Downmixaudiosignals im aktuellen Block gegebenenfalls für ein Stereosignal durchgeführt. Hierbei werden z. B. 1152 Audioabtastwerte sowohl vom linken als auch vom rechten Downmixkanal jeweils quadriert und aufsummiert. Sleft (i) stellt hierbei einen zeitlichen Abtastwert zum Zeitpunkt i des linken Basiskanals dar, während Sright(i) einen zeitlichen Abtastwert des rechten Basiskanals zum Zeitpunkt i darstellt. Bei einem monophonen Downmixsignal entfällt die Summierung. Ferner wird es bevorzugt, vor der Berechnung die für die vorliegende Erfindung nicht aussagekräftigen Gleichanteile des Dowrimixaudiosignals zu entfernen.First, as in point 1 in Fig. 11 is shown, an energy calculation of Downmixaudiosignals in the current block optionally performed for a stereo signal. This z. For example, 1152 audio samples are squared and summed from both the left and right downmix channels. S left (i) represents a time sample at time i of the left base channel, while S right (i) represents a time sample of the right base channel at time i. With a monophonic downmix signal the summation is omitted. Furthermore, it is preferred to remove the non-meaningful DC components of the Dowrimix audio signal before the calculation.

In einem Schritt 2 wird eine Minimumbegrenzung der Energie zwecks anschließender logarithmischer Darstellung durchgeführt. Für eine Dezibel-verwandte Bewertung der Energie wird es bevorzugt, einen minimalen Energieoffset zu verwenden, damit sich im Falle einer Nullenergie eine sinnvolle logarithmische Berechnung ergibt. Diese Energiemaßzahl in dB überstreicht dabei einen Zahlenbereich von 0 bis 90 (dB) bei einer Audiosignalauflösung von 16 Bit.In a step 2, a minimum limitation of the energy is carried out for the purpose of subsequent logarithmic display. For a decibel-related evaluation of the energy, it is preferred to use a minimum energy offset to give a meaningful logarithmic calculation in the case of zero energy. This energy metric in dB covers a range of 0 to 90 (dB) with an audio signal resolution of 16 bits.

Wie es bei 3 in Fig. 11 gezeigt ist, wird es bevorzugt, für eine exakte Bestimmung des zeitlichen Versatzes zwischen Mehrkanalzusatzinformationen und empfangenem Audiosignal nicht den absoluten Energie-Hüllkurvenwert zu verwenden, sondern vielmehr die Steigung (Steilheit) der Signalhüllkurve. Daher wird für die Korrelationsmessung nur die Steigung der Energie-Hüllkurve herangezogen. Technisch gesehen wird diese Signalableitung durch Differenzbildung des Energiewertes mit dem des vorangegangenen Blocks berechnet. Dieser Schritt wird z. B. im Encoder vollzogen. Dann besteht der Fingerprint aus differenzcodierten Werten. Alternativ kann dieser Schritt auch rein decodiererseitig implemontiert werden. Hier besteht der übertragene Fingerprint also aus nicht-differenzcodierten Werten. Die Differenzbildung wird hier erst im Decodierer vorgenommen. Letztere Möglichkeit hat den Vorteil, dass der Fingerprint Information über die absolute Energie des Downmixsignals enthält. Es wird allerdings typischerweise eine etwas höhere Fingerprintwortlänge benötigt.Like 3 in Fig. 11 For example, it is preferable to use the absolute energy envelope value for an accurate determination of the skew between multichannel overhead information and received audio signal rather than the slope of the signal envelope. Therefore, only the slope of the energy envelope is used for the correlation measurement. Technically, this signal derivative is calculated by subtraction of the energy value with that of the previous block. This step is z. B. completed in the encoder. Then the fingerprint consists of difference coded values. Alternatively, this step can also be implemented purely on the decoder side become. Here, the transmitted fingerprint thus consists of non-differentially encoded values. The difference is only made here in the decoder. The latter possibility has the advantage that the fingerprint contains information about the absolute energy of the downmix signal. However, typically a slightly higher fingerprint word length is needed.

Weiterhin wird es bevorzugt, die Energie (Hüllkurve des Signals) für eine optimale Aussteuerung zu skalieren. Damit bei der anschließenden Quantisierung dieses Fingerprints sowohl der Zahlenbereich maximal ausgenutzt als auch die Auflösung bei geringen Energiewerten verbessert werden kann, ist es sinnvoll, eine zusätzliche Skalierung (= Verstärkung) einzuführen. Diese kann entweder als feste und statische Gewichtungsgröße oder über eine an das Hüllkurvensignal angepasste dynamische Verstärkungsregelung realisiert werden.Furthermore, it is preferred to scale the energy (envelope of the signal) for optimal modulation. In order to make maximum use of the numerical range in the subsequent quantization of this fingerprint as well as to improve the resolution at low energy values, it makes sense to introduce additional scaling (= amplification). This can be realized either as a fixed and static weighting variable or via a dynamic gain control adapted to the envelope signal.

Ferner wird, wie es bei 5 in Fig. 11 gezeigt ist, eine Quantisierung des Fingerprint vorgenommen. Um diesen Fingerprint für die Eintastung in die Mehrkanalzusatzinformationen vorzubereiten, wird dieser auf 8 Bit quantisiert. Diese reduzierte Fingerprintauflösung hat sich in der Praxis als guter Kompromiss hinsichtlich Bitbedarf und Zuverlässigkeit der Verzögerungsdetektion bewährt. Zahlenüberläufe von größer als 255 werden dabei mit einer Sättigungskennlinie auf den Maximalwert von 255 begrenzt.Further, as at 5 in Fig. 11 is shown, a quantization of the fingerprint made. To prepare this fingerprint for keying in the multichannel overhead information, it is quantized to 8 bits. This reduced fingerprint resolution has proven to be a good compromise in terms of bit demand and reliability of delay detection in practice. Number overflows greater than 255 are limited to a maximum value of 255 with a saturation characteristic.

Wie es bei 6 in Fig. 11 gezeigt ist, kann noch eine optimale Entropiecodierung des Fingerprints vorgenommen werden. Durch Auswertung von statistischen Eigenschaften des Fingerprints kann der Bitbedarf des quantisierten Fingerprints noch weiter reduziert werden. Ein geeignetes Entropieverfahren ist beispielsweise die Huffman-Codierung oder die arithmetische Codierung. Statistisch unterschiedliche Häufigkeiten von Fingerprintwerten können durch verschiedene Codelängen ausgedrückt werden und somit im Mittel den Bitbedarf der Fingerprintdarstellung reduzieren.As it is at 6 in Fig. 11 is shown, an optimal Entropiecodierung the fingerprint can still be made. By evaluating statistical properties of the fingerprint, the bit requirement of the quantized fingerprint can be further reduced. A suitable entropy method is, for example, Huffman coding or arithmetic coding. Statistically different frequencies of fingerprint values may be due to different Code lengths are expressed and thus on average reduce the bit requirements of the fingerprint representation.

Pro Audioblock wird die Berechnung der Mehrkanalzusatzdaten unter Zuhilfenahme der Mehrkanalaudiodaten durchgeführt. Hierbei berechnete Mehrkanalzusatzinformationen werden anschließend durch die neu hinzukommende Synchronisationsinformation durch geeignetes Einbetten in den Bitstrom erweitert.For each audio block, the calculation of the multi-channel additional data is performed using the multi-channel audio data. In this case, multichannel additional information calculated is then expanded by the newly added synchronization information by suitable embedding in the bit stream.

Mit Hilfe der erfindungsgemäßen Lösung ist der Empfänger nunmehr in der Lage, einen zeitlichen Versatz von Downmixsignal und Zusatzdaten zu erkennen und eine zeitkorrekte Anpassung, also eine Verzögerungskompensation zwischen Stereoaudiosignalen und Mehrkanalzusatzinformationen in der Größenordnung von +/- ½ Audioblock zu realisieren. Somit kann die Mehrkanalzuordnung im Empfänger fast vollständig, d. h. bis auf eine kaum wahrnehmbaren Zeitunterschied von +/- ½ Audioframes rekonstruiert werden, welcher sich nicht nennenswert auf die Qualität des rekonstruierten Mehrkanalaudiosignals auswirkt.With the aid of the solution according to the invention, the receiver is now able to detect a time offset of downmix signal and additional data and to realize a time-correct adaptation, ie a delay compensation between stereo audio signals and multi-channel additional information in the order of +/- ½ audio block. Thus, the multi-channel assignment in the receiver can be almost completely, i. H. are reconstructed to a barely perceptible time difference of +/- ½ audio frames, which does not significantly affect the quality of the reconstructed multichannel audio signal.

Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen bzw. Decodieren in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.Depending on the circumstances, the inventive method for generating or decoding can be implemented in hardware or in software. The implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmable computer system such that the method is performed. In general, the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method when the computer program product runs on a computer. In other words, the invention can thus be realized as a computer program with a program code for carrying out the method when the computer program runs on a computer.

Claims (33)

  1. Device for generating a data stream for a multichannel reconstruction of an original multi-channel audio signal, wherein the multi-channel audio signal has at least two channels, comprising:
    a fingerprint generator (2) for generating fingerprint information from at least one base channel derived from the original multi-channel audio signal, wherein a number of base channels is equal to or larger than 1 and less than a number of channels of the original multi-channel audio signal, wherein the fingerprint information gives a progress in time of the at least one base channel; and
    a data stream generator (4) for generating a data stream from the fingerprint information and of time-variable multi-channel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multichannel audio signal, wherein the data stream generator (4) is designed to generate the data stream so that a time connection between the multi-channel additional information and the fingerprint information may be derived from the data stream.
  2. Device of claim 1,
    wherein the fingerprint generator (2) is designed to process the at least one base channel blockwise to obtain the fingerprint information,
    wherein the multi-channel additional information is calculated blockwise so that they are to be used together with blocks of the at least one base channel for the multi-channel reconstruction, and
    wherein the data stream generator (4) is designed to write the multi-channel additional information and the fingerprint information blockwise into the data stream.
  3. Device of claim 2, wherein the fingerprint generator (2) is designed to generate, as fingerprint information for a block of the at least one base channel, a block fingerprint giving a progress in time of the base channel in the block,
    wherein a block of the multi-channel additional information is to be used together with the block of the base channel for the multi-channel reconstruction, and
    wherein the data stream generator (4) is designed to write the data stream blockwise so that the block of multi-channel additional information and the block of fingerprint information have a predetermined relationship to each other.
  4. Device of claim 2, wherein the fingerprint generator (2) is designed to calculate a sequence of block fingerprints as fingerprint information for blocks of the at least one base channel that are subsequent in time,
    wherein the multi-channel additional information is given blockwise for blocks of the at least one base channel that are subsequent in time, and
    wherein the data stream generator is designed to write the sequence of block fingerprints in a predetermined relationship to the sequence of blocks of the multichannel additional information.
  5. Device of claim 4, wherein the fingerprint generator (2) is designed to calculate a difference between two fingerprint values of two blocks of the at least one base channel as block fingerprint.
  6. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed to perform a quantization and entropy coding of fingerprint values to obtain the fingerprint information.
  7. Device of claim 6, wherein the fingerprint generator (2) is designed to scale fingerprint values with scaling information and to further write the scaling information into the data stream in association with the fingerprint information.
  8. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed to calculate the fingerprint information blockwise, and
    wherein the data stream generator (4) is designed to write the data stream blockwise so that a block of the data stream comprises a block of multi-channel additional information and a block of fingerprint information associated with the block of multi-channel additional information and a block of the at least one base channel.
  9. Device of one of the preceding claims, wherein there are at least two base channels, and
    wherein the fingerprint generator (2) is designed to add the at least two base channels sample-wise or spectral value-wise or to square them prior to the addition.
  10. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed to use data on an energy envelope of the at least one base channel as fingerprint information.
  11. Device of claim 10, wherein the fingerprint generator (2) is designed to use data on an energy envelope of the at least one base channel as fingerprint information, and
    wherein the fingerprint generator (2) is further designed to use a minimum limitation of the energy and to provide a logarithmic representation of a minimum-limited energy.
  12. Device of claim 11, wherein the at least one base channel may be transmitted in coded form to a multichannel reconstructor,
    wherein the coded form has been generated using a lossy encoder, and
    wherein there is further a base channel decoder to provide a decoded form of the at least one base channel as input signal for the fingerprint generator (2).
  13. Device of one of the preceding claims, wherein the multi-channel additional data are multi-channel parameter data each associated blockwise with corresponding blocks of the at least one base channel.
  14. Device of claim 13, further comprising:
    a multi-channel analyzer (112) for the blockwise generation of both a sequence of blocks of the at least one base channel and a sequence of blocks of the multi-channel additional information,
    wherein the fingerprint generator (2) is designed to calculate a block fingerprint value from each block of values of the at least one base channel.
  15. Device of claim 14, wherein the data stream generator (4) is designed to write the data stream into a separate data channel existing in addition to a standard data channel, via which the at least one base channel may be transmitted to a multi-channel reconstruction means.
  16. Device of claim 15, wherein the standard data channel is a standardized channel for a digital stereo radio signal or a standardized channel for transmission via the internet.
  17. Device for generating a multi-channel representation (18, 20) of an original multi-channel audio signal from at least one base channel and a data stream comprising fingerprint information giving a progress in time of the at least one base channel and multichannel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multi-channel audio signal, wherein a connection between the multi-channel additional information and the fingerprint information may be derived from the data stream, comprising:
    a fingerprint generator (11) for generating test fingerprint information from the at least one base channel;
    a fingerprint extractor (9) for extracting the fingerprint information from the data stream to obtain reference fingerprint information; and
    a synchronizer (13) for synchronizing the multichannel additional information and the at least one base channel in time using the test fingerprint information, the reference fingerprint information and a connection of the multi-channel information and the fingerprint information contained in the data stream, which is derived from the data stream, to obtain a synchronized multi-channel representation.
  18. Device of claim 17, further comprising:
    a multi-channel reconstructor (21) for reconstructing the multi-channel representation using the synchronized multi-channel representation to obtain a reconstruction of the original multi-channel audio signal.
  19. Device of claim 17 or 18,
    wherein the data stream comprises a sequence of blocks of multi-channel additional data in time connection with a sequence of reference fingerprint values as reference fingerprint information,
    wherein the extractor (9) is designed to determine an associated fingerprint value to a block of multichannel additional data based on the time connection;
    wherein the fingerprint generator (11) is designed to determine a sequence of test fingerprint values as test fingerprint information for a sequence of blocks of the at least one base channel;
    wherein the synchronizer (13) is designed to calculate an offset between the blocks of multi-channel additional data and the blocks of the at least one base channel based on an offset (30) between the sequence of test fingerprint values and the sequence of reference fingerprint values, and to compensate the offset by delaying (28) the sequence of blocks of the multi-channel additional information using the calculated offset.
  20. Device of one of claims 17 to 19,
    wherein the fingerprint generator (11) is designed to perform a quantization of fingerprint values to obtain the test fingerprint information.
  21. Device of one of claims 17 to 20,
    wherein the fingerprint generator (11) is designed to scale fingerprint values with scaling information from the data stream.
  22. Device of one of claims 17 to 21,
    wherein there are at least two base channels, and
    wherein the fingerprint generator (11) is designed to add the at least two base channels sample-wise or spectral value-wise or to square them prior to the addition.
  23. Device of one of claims 17 to 22,
    wherein the fingerprint generator (11) is designed to use data on an energy envelope of the at least one base channel as fingerprint information.
  24. Device of one of claims 17 to 23,
    wherein the fingerprint generator (11) is designed to use data on an energy envelope of the at least one base channel as fingerprint information, and
    wherein the fingerprint generator (11) is further designed to use a minimum limitation of the energy and to provide a logarithmic representation of a minimum-limited energy.
  25. Device of one of claims 17 to 24, wherein the data stream is organized blockwise, and a block of multichannel additional information and a block fingerprint are contained in a block of the data stream,
    wherein the fingerprint generator (11) is designed to calculate a difference between two block fingerprints of the at least one base channel as test fingerprint information, and
    wherein the fingerprint extractor (9) is further designed to calculate a difference of two block fingerprints in the data stream and to provide it as reference fingerprint information to the synchronizer (13).
  26. Device of one of claims 17 to 25,
    wherein the synchronizer (13) is designed to calculate an offset between the multi-channel additional data and the at least one base channel in parallel to an audio output and to compensate the offset adaptively.
  27. Device of claim 18, further designed to reproduce the at least one base channel when there are no synchronized multi-channel additional data yet, and to switch (32) from a mono or stereo reproduction of the at least one base channel to a multi-channel reproduction when there are synchronized multi-channel additional data.
  28. Device of one of claims 17 to 27, designed to obtain the data stream and the at least one base channel via bit streams separate from each other, which are received via two logic channels or physical channels different from each other, or are obtained via the same transmission channel which, however, is active at different times.
  29. Method for generating a data stream for a multichannel reconstruction of an original multi-channel audio signal, wherein the multi-channel audio signal has at least two channels, comprising:
    generating (2) fingerprint information from at least one base channel derived from the original multichannel audio signal, wherein a number of base channels is equal to or larger than 1 and less than a number of channels of the original multi-channel audio signal, wherein the fingerprint information gives a progress in time of the at least one base channel; and
    generating (4) a data stream from the fingerprint information and of time-variable multi-channel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multi-channel audio signal, wherein the data stream is generated so that a time connection between the multi-channel additional information and the fingerprint information may be derived from the data stream.
  30. Method for generating a multi-channel representation (18, 20) of an original multi-channel audio signal from at least one base channel and a data stream comprising fingerprint information giving a progress in time of the at least one base channel and multichannel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multi-channel audio signal, wherein a connection between the multi-channel additional information and the fingerprint information may be derived from the data stream, comprising:
    generating (11) test fingerprint information from the at least one base channel;
    extracting (9) the fingerprint information from the data stream to obtain reference fingerprint information; and
    synchronizing (13) the multi-channel additional information and the at least one base channel using the test fingerprint information, the reference fingerprint information and a connection of the multichannel information and the fingerprint information contained in the data stream, which is derived from the data stream, to obtain a synchronized multichannel representation.
  31. Computer program product having a program code for performing the method of claim 29 or claim 30, when the program code runs on a computer.
  32. Data stream comprising fingerprint information giving a progress in time of at least one base channel derived from an original multi-channel audio signal, wherein a number of base channels is equal to or larger than 1 and less than a number of channels of the original multi-channel audio signal, and multichannel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multi-channel audio signal, wherein a connection between the multi-channel additional information and the fingerprint information may be derived from the data stream.
  33. Data stream of claim 32, comprising control signals to generate a synchronized multi-channel representation of the original multi-channel audio signal, when the data stream is fed into the device of claim 17.
EP06707562A 2005-03-30 2006-03-15 Device and method for producing a data flow and for producing a multi-channel representation Active EP1864279B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005014477A DE102005014477A1 (en) 2005-03-30 2005-03-30 Apparatus and method for generating a data stream and generating a multi-channel representation
PCT/EP2006/002369 WO2006102991A1 (en) 2005-03-30 2006-03-15 Device and method for producing a data flow and for producing a multi-channel representation

Publications (2)

Publication Number Publication Date
EP1864279A1 EP1864279A1 (en) 2007-12-12
EP1864279B1 true EP1864279B1 (en) 2009-06-17

Family

ID=36598142

Family Applications (1)

Application Number Title Priority Date Filing Date
EP06707562A Active EP1864279B1 (en) 2005-03-30 2006-03-15 Device and method for producing a data flow and for producing a multi-channel representation

Country Status (12)

Country Link
US (1) US7903751B2 (en)
EP (1) EP1864279B1 (en)
JP (1) JP5273858B2 (en)
CN (1) CN101189661B (en)
AT (1) ATE434253T1 (en)
AU (1) AU2006228821B2 (en)
CA (1) CA2603027C (en)
DE (2) DE102005014477A1 (en)
HK (1) HK1111259A1 (en)
MY (1) MY139836A (en)
TW (1) TWI318845B (en)
WO (1) WO2006102991A1 (en)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1962082A1 (en) 2007-02-21 2008-08-27 Agfa HealthCare N.V. System and method for optical coherence tomography
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
WO2009071115A1 (en) * 2007-12-03 2009-06-11 Nokia Corporation A packet generator
DE102008009025A1 (en) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for calculating a fingerprint of an audio signal, apparatus and method for synchronizing and apparatus and method for characterizing a test audio signal
DE102008009024A1 (en) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synchronizing multichannel extension data with an audio signal and for processing the audio signal
BRPI0905069A2 (en) * 2008-07-29 2015-06-30 Panasonic Corp Audio coding apparatus, audio decoding apparatus, audio coding and decoding apparatus and teleconferencing system
CN102177726B (en) * 2008-08-21 2014-12-03 杜比实验室特许公司 Feature optimization and reliability estimation for audio and video signature generation and detection
BRPI0823209B1 (en) * 2008-10-06 2020-09-15 Telefonaktiebolaget Lm Ericsson (Publ) METHODS FOR ENCODING AUDIO AND INCLUDING CODED AUDIO MENTIONED IN A DIGITAL TRANSPORT CHAIN, AND FOR DECODING A DIGITAL TRANSPORT CHAIN INCLUDING AN ENCODED AUDIO, ENCODING DEVICES, AND DECODING SYSTEMS, AND TRANSPORT SYSTEM.
CN103177725B (en) * 2008-10-06 2017-01-18 爱立信电话股份有限公司 Method and device for transmitting aligned multichannel audio frequency
US20110311063A1 (en) * 2009-03-13 2011-12-22 Fransiscus Marinus Jozephus De Bont Embedding and extracting ancillary data
GB2470201A (en) * 2009-05-12 2010-11-17 Nokia Corp Synchronising audio and image data
US8436939B2 (en) * 2009-10-25 2013-05-07 Tektronix, Inc. AV delay measurement and correction via signature curves
US9426574B2 (en) * 2010-03-19 2016-08-23 Bose Corporation Automatic audio source switching
EP2458890B1 (en) * 2010-11-29 2019-01-23 Nagravision S.A. Method to trace video content processed by a decoder
US9075806B2 (en) * 2011-02-22 2015-07-07 Dolby Laboratories Licensing Corporation Alignment and re-association of metadata for media streams within a computing device
JP5805796B2 (en) 2011-03-18 2015-11-10 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. Audio encoder and decoder with flexible configuration functionality
US8639921B1 (en) 2011-06-30 2014-01-28 Amazon Technologies, Inc. Storage gateway security model
US8832039B1 (en) 2011-06-30 2014-09-09 Amazon Technologies, Inc. Methods and apparatus for data restore and recovery from a remote data store
US8806588B2 (en) 2011-06-30 2014-08-12 Amazon Technologies, Inc. Storage gateway activation process
US8639989B1 (en) 2011-06-30 2014-01-28 Amazon Technologies, Inc. Methods and apparatus for remote gateway monitoring and diagnostics
US10754813B1 (en) 2011-06-30 2020-08-25 Amazon Technologies, Inc. Methods and apparatus for block storage I/O operations in a storage gateway
US8706834B2 (en) 2011-06-30 2014-04-22 Amazon Technologies, Inc. Methods and apparatus for remotely updating executing processes
US9294564B2 (en) 2011-06-30 2016-03-22 Amazon Technologies, Inc. Shadowing storage gateway
US8793343B1 (en) 2011-08-18 2014-07-29 Amazon Technologies, Inc. Redundant storage gateways
US8789208B1 (en) 2011-10-04 2014-07-22 Amazon Technologies, Inc. Methods and apparatus for controlling snapshot exports
US9635132B1 (en) 2011-12-15 2017-04-25 Amazon Technologies, Inc. Service and APIs for remote volume-based block storage
KR20130101629A (en) * 2012-02-16 2013-09-16 삼성전자주식회사 Method and apparatus for outputting content in a portable device supporting secure execution environment
EP2670157B1 (en) * 2012-06-01 2019-10-02 Koninklijke KPN N.V. Fingerprint-based inter-destination media synchronization
CN102820964B (en) * 2012-07-12 2015-03-18 武汉滨湖电子有限责任公司 Method for aligning multichannel data based on system synchronizing and reference channel
EP2693392A1 (en) 2012-08-01 2014-02-05 Thomson Licensing A second screen system and method for rendering second screen information on a second screen
CN102937938B (en) * 2012-11-29 2015-05-13 北京天诚盛业科技有限公司 Fingerprint processing device as well as control method and device thereof
TWI557727B (en) * 2013-04-05 2016-11-11 杜比國際公司 An audio processing system, a multimedia processing system, a method of processing an audio bitstream and a computer program product
JP6349977B2 (en) * 2013-10-21 2018-07-04 ソニー株式会社 Information processing apparatus and method, and program
US20150302086A1 (en) 2014-04-22 2015-10-22 Gracenote, Inc. Audio identification during performance
US20160344902A1 (en) * 2015-05-20 2016-11-24 Gwangju Institute Of Science And Technology Streaming reproduction device, audio reproduction device, and audio reproduction method
US10621765B2 (en) * 2015-07-07 2020-04-14 Idex Asa Image reconstruction
WO2017082050A1 (en) * 2015-11-09 2017-05-18 ソニー株式会社 Decoding device, decoding method, and program
EP3249646B1 (en) * 2016-05-24 2019-04-17 Dolby Laboratories Licensing Corp. Measurement and verification of time alignment of multiple audio channels and associated metadata
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
CN112986963A (en) * 2021-02-08 2021-06-18 武汉徕得智能技术有限公司 Laser pulse ranging echo signal multi-path scaling result selection control method
CN112995708A (en) * 2021-04-21 2021-06-18 湖南快乐阳光互动娱乐传媒有限公司 Multi-video synchronization method and device
CN114003546B (en) * 2022-01-04 2022-04-12 之江实验室 Multi-channel switching value composite coding design method and device

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155598A (en) * 1998-11-19 2000-06-06 Matsushita Electric Ind Co Ltd Coding/decoding method and device for multiple-channel audio signal
MY123651A (en) * 1999-04-07 2006-05-31 Dolby Laboratories Licensing Corp Matrix improvements to lossless encoding and decoding
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
AU2003230993A1 (en) * 2002-04-25 2003-11-10 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
AU2003219438A1 (en) * 2002-05-16 2003-12-02 Koninklijke Philips Electronics N.V. Signal processing method and arrangement
EP1652385B1 (en) * 2003-07-25 2007-09-12 Koninklijke Philips Electronics N.V. Method and device for generating and detecting fingerprints for synchronizing audio and video
ATE527654T1 (en) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp MULTI-CHANNEL AUDIO CODING
DE102004046746B4 (en) * 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for synchronizing additional data and basic data
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition

Also Published As

Publication number Publication date
US20080013614A1 (en) 2008-01-17
TW200644704A (en) 2006-12-16
WO2006102991A1 (en) 2006-10-05
EP1864279A1 (en) 2007-12-12
CA2603027C (en) 2012-09-11
DE502006003997D1 (en) 2009-07-30
TWI318845B (en) 2009-12-21
US7903751B2 (en) 2011-03-08
ATE434253T1 (en) 2009-07-15
HK1111259A1 (en) 2008-08-01
AU2006228821A1 (en) 2006-10-05
CA2603027A1 (en) 2006-10-05
DE102005014477A1 (en) 2006-10-12
JP5273858B2 (en) 2013-08-28
AU2006228821B2 (en) 2009-07-23
JP2008538239A (en) 2008-10-16
CN101189661A (en) 2008-05-28
MY139836A (en) 2009-10-30
CN101189661B (en) 2011-10-26

Similar Documents

Publication Publication Date Title
EP1864279B1 (en) Device and method for producing a data flow and for producing a multi-channel representation
EP2240929B1 (en) Device and method for synchronizing multi-channel expansion data with an audio signal and for processing said audio signal
EP2240928B1 (en) Device and method for calculating a fingerprint of an audio signal, device and method for synchronizing and device and method for characterizing a test audio signal
EP1687809B1 (en) Device and method for reconstruction a multichannel audio signal and for generating a parameter data record therefor
DE602004008613T2 (en) TREUE OPTIMIZED CODING WITH VARIABLE FRAME LENGTH
DE602005006424T2 (en) STEREO COMPATIBLE MULTICHANNEL AUDIO CODING
EP1794564B1 (en) Device and method for synchronising additional data and base data
EP1763870B1 (en) Generation of a multichannel encoded signal and decoding of a multichannel encoded signal
DE602004004168T2 (en) COMPATIBLE MULTICHANNEL CODING / DECODING
EP1854334B1 (en) Device and method for generating an encoded stereo signal of an audio piece or audio data stream
DE602004002390T2 (en) AUDIO CODING
DE602006000239T2 (en) ENERGY DEPENDENT QUANTIZATION FOR EFFICIENT CODING OF SPATIAL AUDIOPARAMETERS
EP0750811B1 (en) Process for coding a plurality of audio signals
DE69731677T2 (en) Improved combination stereo coding with temporal envelope shaping
EP2005421A1 (en) Apparatus and method for production of a surrounding-area signal
DE60024729T2 (en) SYSTEM AND METHOD FOR EFFICIENT TIRE ANTI-DIALING (TDAC)
JP2017532603A (en) Audio signal encoding and decoding
WO1993025015A1 (en) Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
DE102007029381A1 (en) Digital signal e.g. audio signal, processing device, has decision section, which assumes forecast data before deletion as interpolation data, when absolute value is lower than resolution
EP1430750B1 (en) Method and device for selecting a sound algorithm
DE102020210917B4 (en) Improved M/S stereo encoder and decoder
DE602004006401T2 (en) UPDATE A HIDDEN DATA CHANNEL
DE202004003000U1 (en) Process for recording multichannel data onto compact discs uses sector of the disc to store parameter information

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20070913

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1111259

Country of ref document: HK

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REF Corresponds to:

Ref document number: 502006003997

Country of ref document: DE

Date of ref document: 20090730

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1111259

Country of ref document: HK

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090917

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091017

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090928

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091017

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090917

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

26N No opposition filed

Effective date: 20100318

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090918

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091218

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20090617

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 11

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 12

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: MC

Payment date: 20230320

Year of fee payment: 18

Ref country code: LU

Payment date: 20230320

Year of fee payment: 18

Ref country code: IE

Payment date: 20230320

Year of fee payment: 18

Ref country code: FR

Payment date: 20230320

Year of fee payment: 18

Ref country code: AT

Payment date: 20230317

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20230323

Year of fee payment: 18

Ref country code: DE

Payment date: 20230320

Year of fee payment: 18

Ref country code: BE

Payment date: 20230321

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 20230402

Year of fee payment: 18