DE10154932A1

DE10154932A1 - Audio coding method

Info

Publication number: DE10154932A1
Application number: DE10154932A
Authority: DE
Inventors: Donald Schulz
Original assignee: Grundig AG
Current assignee: Grundig Multimedia BV
Priority date: 2001-11-08
Filing date: 2001-11-08
Publication date: 2003-06-12
Anticipated expiration: 2021-11-09
Also published as: EP1318502A2; EP1318502A3; EP1318502B1; DE10154932B4; ES2347221T3; ATE470925T1; DE50214481D1

Abstract

The method involves compressing several audio signals with a conventional compression technique by combining sound sources similar to a sound field and selecting compression factors so that the maximum permitted data rate is not exceeded. Information is added to the combined sound sources regarding the type of source and the object position with respect to the observer <??>AN Independent claim is also included for the following: an arrangement for implementing the inventive method.

Description

Die Erfindung betrifft ein Verfahren zur Audiocodierung gemäss den Merkmalen des Oberbegriffes der Ansprüche 1 und 14. The invention relates to a method for audio coding according to the features the preamble of claims 1 and 14.

Bei der Wiedergabe von Filmton und Musiksignalen wird versucht, die Abbildung des Klanges mit der Position der Entstehung in Einklang zu bringen. Bei reinen Musiksignalen wird schon eine gute Approximation durch Verwendung von Stereolautsprechern erreicht. Will man allerdings bei Musikstücken einen anderen Raumeindruck erzielen, beispielsweise den eines Jazz-Clubs, so reichen diese zwei Lautsprecher kaum aus. Insbesondere bei Filmmaterial sind mehr Kanäle wünschenswert, da auch akustische Effekte, die von hinten kommen, wiedergegeben werden sollen. When playing movie sound and music signals, the To reconcile the image of the sound with the position of origin. With pure music signals, a good approximation is already carried out Achieved use of stereo speakers. If you want to Music pieces achieve a different spatial impression, for example one Jazz clubs, these two speakers are hardly enough. Especially at More channels are desirable because there are also acoustic effects come from behind, should be played.

Eines der bekanntesten Verfahren hierfür ist das sogenannte "Dolby Pro Logic" Verfahren, welches bei Filmmaterial im wesentlichen dazu eingesetzt wird, die Lokalisation des Klanges beeinflussen zu können. So werden Sprecher üblicherweise auf den Center-Kanal abgebildet und Geräusche können ausschließlich aus den hinteren Lautsprechern kommen. One of the best known methods for this is the so-called "Dolby Pro Logic" Process which is used in film material essentially to To be able to influence the localization of the sound. This is how speakers become usually mapped onto the center channel and noises can come exclusively from the rear speakers.

Weiterhin gibt es eine ganze Klasse von Verfahren, die zur Nachbildung von Raumakustiken verwendet werden. Häufig anzutreffende Bezeichnungen derartiger Verfahren lauten "Hall", "Stadium", "Jazz", "Club" etc.. Bei diesen auf Musiksignale optimierten Verfahren ist es nicht erwünscht, Sprachsignale (Gesang) nur aus dem Center-Lautsprecher zu vernehmen oder ein Musiksignal nur aus den hinteren Lautsprechern auszugeben, welches unter Verwendung des "Dolby Pro Logic" Verfahrens möglich ist. Furthermore, there is a whole class of methods for the simulation of Room acoustics are used. Common names Such procedures are called "Hall", "Stadium", "Jazz", "Club", etc. These include Processes optimized for music signals, it is not desirable to use speech signals (Vocals) only heard from the center speaker or one Output music signal only from the rear speakers, which under Using the "Dolby Pro Logic" procedure is possible.

Bei dem Nachfolgeverfahren von Dolby Pro Logic, welches Dolby Pro Logic II genannt wurde, ist abgesehen von dem Filmmodus ein Modus für Musik vorgesehen, der diese Unterschiede berücksichtigt. In the successor procedure of Dolby Pro Logic, which Dolby Pro Logic II is a mode for music apart from the film mode provided that these differences are taken into account.

Aus EP 0 481 374 B1 ist ein Verfahren zum Kodieren von Sprache bekannt. Hierbei wird eine diskrete Umformung eines Sprachfensters vorgenommen, um ein diskretes Spektrum von Koeffizienten zu erhalten. Eine angenäherte Einhüllenden des diskreten Spektrums wird in jedem einer Vielzahl von Unterbändern errechnet und zum digitalen Kodieren der definierten Einhüllenden eines jeden Unterbands verwendet. Innerhalb von Subbändern wird jeder skalierte Koeffizient in eine Anzahl von Bits mit mindestens einem von einer Vielzahl von Quantisierern unterschiedlicher Bitlängen umgerechnet. Der für jedes Unterband benutzte Ouantisierer wird für jedes Sprachfenster durch Berechnen der Zuweisung von Bits als eine Anzahl von Bits größer als oder gleich Null bestimmt, in Abhängigkeit einer Leistungsdichteabschätzung für das Unterband und einer Verzerrungsfehlerabschätzung für das Sprachfenster. A method for coding speech is known from EP 0 481 374 B1. Here a discrete reshaping of a speech window is carried out in order to to get a discrete spectrum of coefficients. An approximate one Envelopes of the discrete spectrum are found in any of a variety of Subbands calculated and for digitally coding the defined Envelopes of each subband used. Within subbands each scaled coefficient is divided into a number of bits with at least one converted by a variety of quantizers of different bit lengths. The quantizer used for each subband becomes for each speech window by calculating the allocation of bits as a number of bits greater than or determined to be zero, depending on a power density estimate for the subband and a distortion error estimate for the Language window.

Aus EP 0 587 733 B1 ist ein Signalanalysesystem zur Filterung von einem ein oder mehrere Signale repräsentierenden Eingangsabtastwert bekannt. Es sind Eingangspuffermittel zum Gruppieren der Eingangsabtastwerte in Zeitbereichs- Signalabtastwertblöcke vorgesehen. Die Eingangsabtastwerte sind analysefenster-gewichtete Abtastwerte. Außerdem sind Analysemittel zur Erzeugung von Spektralinformation als Antwort auf die Zeitbereichs- Signalabtastwertblöcke vorhanden; wobei die Spektralinformation Spektralkoeffizienten umfaßt, die im wesentlichen einer geradzahlig gestapelten Zeitbereichs-Aliasingaufhebungs-Transformation angewendet auf die Zeitbereichs-Signal-Abtastwertblöcke entspricht. Bei den Spektralkoeffizienten handelt es sich im wesentlichen um Koeffizienten einer modifizierten diskreten Cosinus-Transformation bzw. Koeffizienten einer modifizierten diskreten Sinus- Transformation. Die Analysemittel umfassen Vorwärts-Vor- Transformationsmittel zur Erzeugung modifizierter Abtastwertblöcke und Vorwärts-Transformationsmittel zur Erzeugung von Frequenzbereichs- Transformationskoeffizienten. EP 0 587 733 B1 describes a signal analysis system for filtering one or input signals representing several signals. There are Input buffer means for grouping the input samples into time domain Signal sample blocks provided. The input samples are Analysis window weighted samples. In addition, means of analysis are Generation of spectral information in response to the time domain Signal sample blocks present; where the spectral information Spectral coefficients, which are essentially an even-numbered stacked Time domain aliasing transformation applied to the Time domain signal sample blocks. With the spectral coefficients are essentially coefficients of a modified discrete Cosine transformation or coefficients of a modified discrete sine Transformation. The analysis means include forward-forward Transformation means for generating modified sample blocks and Forward transform means for generating frequency domain Transform coefficients.

Aus EP 0 664 943 B1 ist eine Kodiervorrichtung zur adaptiven Verarbeitung von Audiosignalen für das Kodieren, Übertragen oder Speichern und Wiedergewinnen bekannt, wobei der Rauschpegel mit dem Signalamplitudenpegel schwankt. Es ist eine Verarbeitungseinrichtung vorhanden, welche auf Eingangssignale derart anspricht, daß sie entweder ein erstes und ein zweites Signal oder die Summe und Differenz des ersten und zweiten Signals ausgibt. Das erste und zweite Signal entsprechen den beiden matrixkodierten Audiosignalen einer vier zu zwei Audiosignalmatrix, wobei die Verarbeitungseinrichtung auch ein Steuersignal erzeugt, welches anzeigt, ob das erste und zweite Signal oder die Summe und Differenz des ersten und zweiten Signals ausgegeben wird. From EP 0 664 943 B1 is a coding device for adaptive processing of Audio signals for coding, transmission or storage and Recover known, the noise level with the Signal amplitude level fluctuates. It is a processing facility available, which responds to input signals such that they either a first and a second signal or the sum and difference of the first and outputs second signal. The first and second signals correspond to the two matrix-coded audio signals of a four to two audio signal matrix, the Processing device also generates a control signal which indicates whether the first and second signal or the sum and difference of the first and second signal is output.

Aus EP 0 519 055 B1 ist ein Decoder, bestehend aus einem Empfangsmittel zum Empfang einer Mehrzahl von Lieferkanälen formatierter Information, Deformatierungsmitteln zur Erzeugung ansprechend auf die Empfangsmittel, einer deformatierten Darstellung abhängig von jedem Lieferkanal, und Synthesemittel zur Erzeugung von Ausgangssignalen abhängig von den deformatierten Darstellungen, bekannt. Zwischen den Deformatierungsmitteln und den Synthesemitteln sind Verteilermittel angeordnet, welche auf die Deformatierungsmittel ansprechen und einen oder mehrere Zwischensignale erzeugen, wobei wenigstens ein Zwischensignal durch Kombination der Information von zwei oder mehr der deformatierten Darstellungen erzeugt wird. Die Synthesemittel erzeugen ein jeweiliges Ausgangssignal als Antwort auf jedes der Zwischensignale. EP 0 519 055 B1 describes a decoder consisting of a receiving means to receive a plurality of information channels formatted delivery channels, Deformatting means for generating in response to the receiving means, a deformed representation depending on each delivery channel, and Synthesis means for generating output signals depending on the deformed representations, known. Between the means of deforming and the synthesis means are arranged distribution means which on the Deformers address and one or more intermediate signals generate, at least one intermediate signal by combining the Information is generated from two or more of the deformatted representations. The synthesis means generate a respective output signal in response to each of the intermediate signals.

Aus EP 0 520 068 B1 ist ein Kodierer zum Kodieren von zwei oder mehr Audiokanälen bekannt. Der Kodierer weist eine Teilbandeinrichtung zum Erzeugen von Teilbandsignalen, eine Mischeinrichtung zum Schaffen eines oder mehrerer zusammengesetzter Signale, und Mittel zum Erzeugen von Steuerinformation für ein entsprechendes zusammengesetztes Signal auf. Außerdem weist der Kodierer eine Kodiereinrichtung zum Erzeugen kodierter Information durch Zuteilen von Bits zu dem einen oder mehreren zusammengesetzten Signalen auf. Es ist weiterhin eine Formatiereinrichtung zum Zusammensetzen der kodierten Information und der Steuerinformation zu einem Ausgabesignal vorhanden. From EP 0 520 068 B1 is an encoder for coding two or more Audio channels known. The encoder has a subband device Generation of subband signals, a mixing device for creating a or more composite signals, and means for generating Control information for a corresponding composite signal. In addition, the encoder has an encoder for generating encoded Information by assigning bits to the one or more composite signals. It is still a formatter for assembling the coded information and the control information an output signal available.

Aus EP 0 208 712 B1 ist ein Sprachkodierer bekannt. Dieser Sprachkodierer enthält eine Fourier-Transformationseinrichtung zur Ausführung einer diskreten Fourier-Transformation eines ankommenden Sprachsignals zur Erzeugung eines diskreten Transformationsspektrums von Koeffizienten, eine Normierungseinrichtung zum Modifizieren des Transformationsspektrums zur Erzeugung eines normierten, flacheren Spektrums und zum Codieren einer Funktion, durch die das diskrete Spektrum modifiziert wird. Außerdem ist eine Einrichtung zum Codieren wenigstens eines Teils des Spektrums vorhanden. Die Normierungseinrichtung weist eine Einrichtung (44) zum Definieren der approximierten Einhüllenden des diskreten Spektrums in jedem von mehreren Unterbändern von Koeffizienten und zum Codieren der definierten Einhüllenden eines jedes Unterbandes von Koeffizienten und Einrichtungen zum Skalieren jedes Spektrumkoeffizienten relativ zur definierten Einhüllenden des betreffenden Unterbandes von Koeffizienten auf. A speech encoder is known from EP 0 208 712 B1. This speech encoder contains a Fourier transformer for executing a discrete one Fourier transform of an incoming speech signal for generation of a discrete transform spectrum of coefficients, one Standardization device for modifying the transformation spectrum for Generation of a standardized, flatter spectrum and for coding one Function that modifies the discrete spectrum. Besides, one is Device for coding at least a part of the spectrum is available. The normalization device has a device (44) for defining the approximated envelopes of the discrete spectrum in each of several Subbands of coefficients and for coding the defined envelope of each subband of coefficients and scaling devices each spectrum coefficient relative to the defined envelope of the relevant subband of coefficients.

Als weitere allgemein bekannte Verfahren zur Verbesserung dieses Problems wurden dann die Verfahren Dolby Digital (auch bekannt unter dem Namen AC3) und DTS eingeführt, welche die Wiedergabe von 6 unterschiedlichen Kanälen gestatten. Trotzdem damit ein rechter und ein linker hinterer separater Kanal möglich sind, war dies für eine perfekte Wiedergabe immer noch nicht genug, daher wurden diese Verfahren durch Matrizierung wieder so erweitert, dass ein zusätzlicher hinterer Centerkanal möglich ist. Mit DTS-ES DISCRETE wurde dann auf die Matrizierung verzichtet und ein echter siebter Audiokanal übertragen. THX-EX erzeugt mittlerweile 8 Kanäle und bei AAC sind sogar über 100 separate Audiokanäle möglich. As another well known method to improve this problem Dolby Digital (also known as AC3) and DTS introduced which play 6 different channels allow. Still a right and a left rear separate channel possible, this was still not enough for a perfect reproduction, Therefore, these methods were expanded again by matrixing so that a additional rear center channel is possible. With DTS-ES DISCRETE then dispensed with the matrixing and a real seventh audio channel transfer. THX-EX now generates 8 channels and AAC are even over 100 separate audio channels possible.

Aus ISO/IEC JTC 1/SC 29/WG11 (MPEG 4 Structured Audio) ist ein Verfahren bekannt, welches für die synthetische Erzeugung von Musiksignalen die Möglichkeit bietet, den künstlich erzeugten Musikinstrumenten eine Positionsinformation sowie einen oder mehrere Effekte zuzuweisen. Es ist auch möglich, Samples derart zu integrieren. ISO / IEC JTC 1 / SC 29 / WG11 (MPEG 4 Structured Audio) is a procedure known which for the synthetic generation of music signals the Offers the artificially created musical instruments a Assign position information and one or more effects. It is also possible to integrate samples in this way.

Nachteilig bei MPEG 4 Structured Audio ist, dass es für die Echtzeitübertragung über einen Kanal mit begrenzter Datenrate nicht geeignet ist, da keine obere Begrenzung für die Datenrate und die Rechenleistung vorgesehen ist. Auch die Beschränkung auf Samples, welche normalerweise nur kurzen Klangstücken entsprechen und die auch schon dem Wiedergabegerät zu dem Zeitpunkt komplett bekannt sein müssen, wenn deren abspielen beginnt stellt ein Problem dar. Weiterhin ist eine Synchronisation schwierig, soll mit dem Abspielen an einer bestimmten Stelle begonnen werden so ist es eventuell nötig, die Datei komplett von Anfang an zu berechnen. Einer Anwendung bei Filmmaterial wiederspricht auch das Fehlen einer Kompression der Samples, welche dadurch unnötig viel Datenspeicher benötigen. Die Angabe der Winkel der Schallquellen alleine reicht auch nicht aus, um immer eine gute Zuordnung der Schallquellen zum Bildmaterial zu erreichen, da das Bildmaterial durch verschiedene Projektionstechniken unterschiedliche Größen und Entfernungen zum Beobachter aufweisen kann. Ist am linken Bildrand ein Sprecher zu sehen, so sollte dessen Sprache in einem Kino auch aus den linken Lautsprechern wiedergegeben werden, bei einer Darstellung über einen 5 Meter entfernten Fernseher mit 72 cm Bildschirmdiagonale macht es aber mehr Sinn, die Sprache auch auf dem mittleren Lautsprecher auszugeben, da dann auch dort der Sprecher zu sein scheint. A disadvantage of MPEG 4 Structured Audio is that it is for real-time transmission over a channel with a limited data rate is not suitable because there is no upper one Limitation for the data rate and the computing power is provided. Also the Limitation to samples, which are usually only short pieces of sound correspond and that already corresponds to the playback device at the time need to be completely known when their play starts poses a problem Synchronization is also difficult, should start with the playback at a certain point so it may be necessary to open the file to be calculated completely from the start. An application in film material also contradicts the lack of compression of the samples, which thereby needlessly a lot of data storage. Specifying the angle of the Sound sources alone are also not enough to always ensure a good allocation of the Sound sources to reach the image material, because the image material through different projection techniques different sizes and distances can have to the observer. If a speaker can be seen on the left edge of the picture, so its language should also come from the left speakers in a cinema are reproduced in a representation over a 5 meter distance Televisions with 72 cm screen diagonals make more sense, however Output language on the middle speaker, because then there too the speaker appears to be.

Nachteilig bei allen bekannten Erfindungen bezüglich der Audiodatenkompression ist, dass aufgrund der Fixierung der Positionen der Klangquellen eine hohe Anzahl an Audikanälen zur Nachbildung des gewünschten Klangfeldes benötigt wird. Dies verursacht eine hohe Datenmenge, die sowohl bei Speichermedien als auch bei der Übertragung unerwünscht ist. Weiterhin ist die Möglichkeit der Nachbildung von Raumakustiken durch die Fixierung der Lautsprecherpositionen eingeschränkt. A disadvantage of all known inventions with regard to Audio data compression is that due to the fixation of the positions of the Sound sources have a high number of audio channels to emulate the desired sound field is required. This causes a high one Amount of data, both for storage media and for transmission is undesirable. There is also the possibility of replicating Room acoustics limited by fixing the speaker positions.

Beispielsweise ist bei Dolby Digital und DTS kein Deckenlautsprecher vorgesehen, der von oben kommende Klänge nachbilden könnte. For example, Dolby Digital and DTS do not have ceiling speakers provided that could emulate sounds coming from above.

Aufgabe der Erfindung ist es, ein Verfahren anzugeben, welches eine effiziente Codierung von mehreren Audiosignalen unter Berücksichtigung des zugehörigen Klangfeldes ermöglicht. The object of the invention is to provide a method which is efficient Coding of multiple audio signals taking into account the associated sound field.

Die vorliegende Erfindung löst diese Aufgabe durch die Merkmale der Ansprüche 1 und 14. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen, der zugehörigen Beschreibung nebst Fig. 1 angegeben. The present invention solves this problem by the features of claims 1 and 14. Advantageous refinements and developments of the invention are specified in the dependent claims and the associated description together with FIG. 1.

Die vorliegende Erfindung löst die Aufgabe dadurch, dass die zu einem Klangfeld gehörenden Klangquellen zuerst einzeln mit einem herkömmlichen Kompressionsverfahren, beispielsweise AC3, MP3, AAC, WMA, usw. komprimiert werden. Bei einer Überschreitung einer maximal erlaubten Datenrate wird eine Zusammenfassung von Klangquellen oder eine stärkere Kompression zur Verringerung der Datenrate durchgeführt. Jeder dieser Klangquellen werden Informationen über deren Art sowie eine Positionsinformation hinzugefügt, die angibt, wo sich das Objekt in Bezug auf den Betrachter befindet. Informationen über die Eigenschaften des nachzubildenden Raumes sowie über die aktuellen horizontalen und vertikalen Sichtwinkel werden übertragen. Basierend auf den Positionsinformationen und Informationen über die Quellen, den Informationen über die Eigenschaften des nachzubildenden Raumes, den aktuellen horizontalen und vertikalen Sichtwinkeln sowie über der Größe und Position des Bildes des Wiedergabegerätes werden dann Nachbearbeitungen und Abbildungen der einzelnen Quellen auf die vorhandenen Lautsprecher oder ein Kopfhörersignal durchgeführt. The present invention solves the problem in that the one Sound sources belonging to the sound field first individually with a conventional one Compression methods, e.g. AC3, MP3, AAC, WMA, etc. be compressed. If a maximum allowed is exceeded Data rate becomes a summary of sound sources or a stronger one Compression performed to reduce the data rate. Each of these Sound sources are information about their type as well as a Position information added, indicating where the object is in relation to the viewer. Information about the properties of the the room to be reproduced and the current horizontal and vertical Viewing angles are transmitted. Based on the position information and information about the sources, the information about the properties of the room to be reproduced, the current horizontal and vertical Viewing angles as well as the size and position of the image of the Playback device are then postprocessing and images of the individual sources to the existing speakers or a headphone signal carried out.

Betrachtet man natürliche Klangfelder, so stellt man fest, dass das menschliche Gehör diese derart analysiert, dass eine Aufteilung in verschiedene Klangquellen sowie deren Charakteristiken stattfindet und zudem die Eigenschaft des Raumes, in welchem die akustische Wiedergabe erfolgt, ausgewertet wird. Die Aufteilung der Klangquellen erfolgt in erster Linie durch Auswertung der spektralen Zusammensetzung und der Position der Schallquelle. Laufzeitunterschiede und die richtungsabhängige Frequenzempfindlichkeitskurve des Gehörs haben nur einen geringen Einfluss auf die Aufteilung. Eine gute Approximation vieler Klangfelder kann schon erreicht werden, wenn zwei Sprachkanäle sowie zwei Effektkanäle zur Verfügung stehen. Damit kann die Kommunikation zweier Personen sowie diverse Umgebungsgeräusche (beispielsweise vorbeifahrende Autos) erfasst und nachgebildet werden. If one looks at natural sound fields, one finds that the human Heard this analyzed in such a way that a division into different Sound sources and their characteristics take place and also the Property of the room in which the acoustic reproduction takes place, is evaluated. The distribution of the sound sources is primarily done by Evaluation of the spectral composition and the position of the Sound source. Runtime differences and the directional The frequency sensitivity curve of the hearing has only a minor influence on the division. A good approximation of many sound fields can can be achieved if two voice channels and two effect channels are used To be available. It allows communication between two people as well various ambient noises (e.g. passing cars) recorded and be replicated.

Erfindungsgemäß werden die von verschiedenen Klangquellen erzeugten Audiodaten in der Art und Weise codiert, dass Klangquellen zusammengefasst werden, die für das Gehör gleiche Eigenschaften besitzen und diese dann mit einer Positionsinformation, einer Information über die Art des Kanales (Gesang, Hintergrundgeräusch, Sprache . . .) sowie einer Information über eventuell mögliche Effekte (Hall, Dynamikkompressor) versehen werden. Diese Informationen werden kontinuierlich übertragen. Bei der Wiedergabe kann über die Art des Kanales eine Nachbearbeitung erfolgen, in der dann z. B. für Hintergrundgeräusche dieses Signal mehrfach dekorreliert und auf die Lautsprecher ausgegeben wird. Es wird jeder Signalart ein individueller Nachverarbeitungsalgorithmus zugeordnet. Eine vorteilhafte Implementierung ergibt sich, wenn zusätzlich noch zu jeder Klangquelle eine Information über deren Abstrahlcharakteristik, wie kugelförmig, nierenförmig etc., übertragen wird. Eine weitere vorteilhafte Implementierung ergibt sich, wenn zusätzlich noch Informationen über die gewünschte Raumcharakteristik (z. B. Badezimmer, Kathedrale, usw.), Parameter (z. B. Hallzeit) bzw. direkt algorithmische Beschreibungen zur Erzielung dieser Klangeindrücke sowie Eigenschaften der einzelnen Schallquellen (wie z. B. Sprache oder Musik oder Effekt) mitübertragen werden. Als Parameter zur Beschreibung der Raumcharakteristik sind z. B. die Raumgeometrie und die Raumabsorptionseigenschaften zu übertragen. Ein Wohnzimmer mit Gardinen und Teppichböden schluckt nämlich den Schall viel stärker als ein Badezimmer oder eine Kirche. According to the invention, those generated by different sound sources Audio data encoded in the way that sound sources are grouped together that have the same properties for hearing and then these with position information, information about the type of channel (singing, Background noise, speech. , .) and information about any possible effects (reverb, dynamic compressor) can be provided. This Information is transmitted continuously. When playing, over the type of channel post-processing, in which z. B. for Background noise this signal decorrelated several times and on the Speaker is output. Each type of signal becomes an individual one Postprocessing algorithm assigned. An advantageous implementation results if, in addition, information about each sound source transmit their radiation characteristics, such as spherical, kidney-shaped, etc. becomes. Another advantageous implementation arises if, in addition information about the desired room characteristics (e.g. bathroom, Cathedral, etc.), parameters (e.g. reverberation time) or directly algorithmic Descriptions to achieve these sound impressions and properties of the individual sound sources (such as speech or music or effect) are also transmitted. As a parameter to describe the room characteristics are z. B. the room geometry and the room absorption properties transfer. A living room with curtains and carpets swallows the sound much stronger than a bathroom or a church.

Ist ein Wiedergabegerät nicht leistungsfähig genug, diese Daten auszuwerten, so ignoriert es eben diese Zusatzdaten bei der Wiedergabe. If a playback device is not powerful enough to evaluate this data, it just ignores this additional data during playback.

Eine weitere vorteilhafte Ausgestaltung der Erfindung ergibt sich, wenn zusätzlich noch Eigenschaften über den Sichtwinkel übertragen werden, d. h. dass man aus den Winkeln der Klangquelle und diesen Sichtwinkeln direkt schließen kann, ob das dazugehörige Objekt im Bild sichtbar ist. Dies ist dann der Fall, wenn der horizontale Winkel des Objektes innerhalb des horizontalen Sichtwinkelbereiches und der vertikale Winkel des Objektes innerhalb des vertikalen Sichtwinkelbereiches liegt. Der Sichtwinkel ist dabei wie auch die Position der Objekte auf den Betrachter der Orginalszene bezogen. Der Sichtwinkel kann sich laufend ändern, daher wird dieser vorteilhafterweise zu jedem einzelnen Bild übertragen. Basierend auf dem Winkel des Objektes, des Sichtwinkels sowie der Position und Größe des projezierten Bildes wird dann ein virtueller Winkel bezogen auf die Abhörposition ermittelt. Damit beim Verlassen von Objekten aus dem Sichtwinkelbereich kein abrupter Sprung stattfindet, wird dort vorteilhafterweise eine nichtlineare Abbildung verwendet. So kann z. B. der bei kleinen Bildschirmen geschrumpfte Winkelbereich durch eine Streckung des restlichen Winkelbereiches ausgeglichen werden. Eine vorteilhafte Ausgestaltungung ergibt sich, wenn die Stärke der Stauchung/Streckung durch den Anwender einstellbar ist. Another advantageous embodiment of the invention results if properties are also transmitted via the viewing angle, d. H. that you can directly from the angles of the sound source and these viewing angles can conclude whether the associated object is visible in the image. Then this is the case when the horizontal angle of the object is within the horizontal Viewing angle range and the vertical angle of the object within the vertical viewing angle range. The viewing angle is like that Position of the objects related to the viewer of the original scene. The Viewing angle can change continuously, so it is advantageous to every single image. Based on the angle of the object The viewing angle and the position and size of the projected image is then a virtual angle is determined based on the listening position. So with No abrupt jump when leaving objects from the viewing angle range takes place, a non-linear mapping is advantageously used there. So z. B. the angular range shrunk with small screens an extension of the remaining angular range can be compensated. A advantageous embodiment results if the strength of the Compression / stretching is adjustable by the user.

Durch die Erfindung wird

- eine wesentlich realistischere Audiodarbietung erreicht;
- die Ausnutzung der vorhandenen Kanäle wesentlich verbessert, somit wird bei DVDs Kapazität und bei Broadcast-Verfahren Bandbreite gespart;
- bei Hinzufügung der Klangeffekte im Endgerät bei der Codierung der unverfälschten Originalsignale eine wesentlich geringere Datenrate benötigt, dies gibt eine zusätzliche Datenratenersparnis;
- die Kanalabbildung wesentlich verbessert, ein überfliegender Hubschrauber kann mit nur einem Kanal perfekt nachgebildet werden;
- das System abwärtskompatibel gehalten, die Wiedergabe anderer Standards kann durch Annahme der Positionen der Klangquellen auf die dabei üblichen Aufstellungspositionen der Lautsprecher erfolgen; es muss die vom Kunden gewählte Lautsprecherkonstellation nicht modifiziert werden;
- die Aufstellungspositionen der Lautsprecher nicht vorgegeben und kann beliebig sein, die Lautsprecher müssen dem System nur bekannt gemacht werden; das System berechnet dann, auf welchen Lautsprechern es bestimmte Kanäle am geeignetesten ausgibt; so ist es möglich, die räumlichen Gegebenheiten perfekt auszunutzen;
- eine bessere Anpassung an verschiedene Bildformate bei der Wiedergabe erreicht, Klangquellen zu im Bildbereich gehörenden Objekten können klanglich auch dorthin fokussiert werden.

Through the invention

- achieved a much more realistic audio performance;
- The utilization of the existing channels is significantly improved, thus saving capacity for DVDs and bandwidth for broadcast processes;
- When adding the sound effects in the terminal when coding the unadulterated original signals requires a much lower data rate, this gives an additional data rate saving;
- The channel image is significantly improved, a flying helicopter can be reproduced perfectly with just one channel;
- The system kept downward compatible, the playback of other standards can be done by accepting the positions of the sound sources on the usual placement positions of the speakers; the speaker constellation chosen by the customer does not have to be modified;
- The installation positions of the speakers are not specified and can be arbitrary, the speakers only have to be made known to the system; the system then calculates on which speakers it most suitably outputs certain channels; this makes it possible to make perfect use of the spatial conditions;
- A better adaptation to different image formats achieved during playback, sound sources for objects belonging to the image area can also be focused there.

Außerdem ist die Anzahl an aufgestellten Lautsprechern theoretisch unbegrenzt, sie ist nur begrenzt durch die Anzahl an Verstärkerkanälen und durch die Rechenleistung des Systems. Ein Nutzer kann nachträglich ohne großen Aufwand und Probleme zwei seitliche Lautsprecher nachrüsten oder einen Deckenlautsprecher entfernen. In addition, the number of speakers placed is theoretical unlimited, it is only limited by the number of amplifier channels and through the computing power of the system. A user can subsequently without great effort and problems to retrofit two side speakers or remove a ceiling speaker.

Schließlich ist die zur Übertragung der Zusatzinformationen benötigte Datenmenge gegenüber der Datenmenge zur Codierung der einzelnen Audiokanäle vernachlässigbar gering. Finally, the one required to transmit the additional information Amount of data compared to the amount of data for coding the individual Audio channels negligible.

Im Weiteren wird die Erfindung anhand eines konkreten Ausführungsbeispieles Fig. 1 beschrieben. The invention is described below on the basis of a specific exemplary embodiment in FIG. 1.

Das Ausführungsbeispiel zeigt eine erfindungsgemäße Vorrichtung. Die erfindungsgemäße Vorrichtung weist die Audiosignaleingänge A1 bis An auf. Über die Eingänge I1 bis In werden zu den n Audiosignalen Informationen zu der Position und die Eigenschaften des entsprechenden Audiosignales übertragen. Über den Eingang SF werden die horizontalen und vertikalen Sichtwinkel sowie die Eigenschaft des nachzubildenden Raumes eingespeist. Die eingehenden Audiosignale werden in den Vorrichtungen K1 bis Kn in der Datenrate zu den Signalen C1 bis Cn komprimiert. Die Datenströme C, I und SF werden dann in der Vorrichtung MX zu einem einzelnen Datenstrom US zusammengemischt. Der Datenstrom US kann dann entweder im Broadcasting- Format übertragen werden oder auch auf einem Speichermedium zwischengespeichert werden. Zur Ausgabe wird dieser Datenstrom dann auf eine Vorrichtung DX gegeben, die daraus wieder die Datenströme C1 bis Cn regeneriert sowie ISF1 bis ISFn erzeugt. ISFi entspricht dabei dem Datenstrom Ii, dem noch SF hinzugefügt ist. Die komprimierten Datenströme C1 bis Cn werden in den Vorrichtungen D1 bis Dn dekomprimiert. Die einzelnen dekomprimierten Datenströme werden dann jeweils zusammen mit ihrem zugehörigen Datenstrom ISFi sowie dem Signal BP auf die Vorrichtungen R1 bis Rn gegeben. Das Signal BP entspricht dabei einer Information über das Bildformat, der Position des Wiedergabegerätes sowie den vom Kunden gewählten Parametern zur Wiedergabe. In den Vorrichtungen Ri erfolgt dann eine Abbildung der dekodierten Audiosignale auf die Summensignale S1 bis Sk unter Berücksichtigung der in BP und ISFi vorhandenen Parameter. Die Anzahl der Summensignale k entspricht dabei der vom Kunden installierten Anzahl an Lautsprechern. Die von den einzelnen Vorrichtungen Ri erzeugten Summensignale S werden summiert und dann auf die Lautsprecher L1 bis Lk ausgegeben. Bezugszeichenliste A Audiosignaleingang
BP Information über Bildformat, Position der Klangquelle und Kundenparameter
C Komprimierte Audiosignale
D Vorrichtung zur Dekompression einzelner Audiosignale
DX Vorrichtung zur Aufspaltung des Datenstromes
I Eingang für Informationen zu einem Audiosignal
ISF Information zu einem Audiosignal sowie Informationen über die Sichtwinkel der Klangquelle
K Vorrichtung zur Kompression einzelner Audiosignale
L Lautsprecherausgangssignal
MX Vorrichtung zur Zusammenmischung einzelner Datenströme
R Vorrichtung zur Abbildung eines Audiosignales auf die Lautsprechersignale
S Summenkanäle für die Lautsprecher
SF Informationen über die Sichtwinkel der Klangquellen
US Übertragungsstrecke
The exemplary embodiment shows a device according to the invention. The device according to the invention has the audio signal inputs A1 to An. Information on the position and properties of the corresponding audio signal is transmitted to the n audio signals via the inputs I1 to In. The horizontal and vertical viewing angles and the property of the room to be simulated are fed in via the SF input. The incoming audio signals are compressed in the devices K1 to Kn in the data rate to the signals C1 to Cn. The data streams C, I and SF are then mixed together in the device MX to form a single data stream US. The data stream US can then either be transmitted in broadcasting format or can also be temporarily stored on a storage medium. For output, this data stream is then sent to a device DX, which regenerates the data streams C1 to Cn and generates ISF1 to ISFn. ISFi corresponds to the data stream Ii, to which SF is added. The compressed data streams C1 to Cn are decompressed in the devices D1 to Dn. The individual decompressed data streams are then each given to the devices R1 to Rn together with their associated data stream ISFi and the signal BP. The signal BP corresponds to information about the image format, the position of the playback device and the parameters selected by the customer for playback. The decoded audio signals are then mapped in the devices Ri to the sum signals S1 to Sk, taking into account the parameters present in BP and ISFi. The number of sum signals k corresponds to the number of loudspeakers installed by the customer. The sum signals S generated by the individual devices Ri are summed and then output to the loudspeakers L1 to Lk. LIST OF REFERENCE SIGNS A audio signal input
BP Information about picture format, position of the sound source and customer parameters
C Compressed audio signals
D Device for decompression of individual audio signals
DX device for splitting the data stream
I Input for information on an audio signal
ISF Information about an audio signal and information about the viewing angle of the sound source
K device for compressing individual audio signals
L speaker output signal
MX device for mixing individual data streams
R Device for mapping an audio signal onto the loudspeaker signals
S Sum channels for the loudspeakers
SF Information about the viewing angle of the sound sources
US transmission line

Claims

1. A method for coding audio signals, wherein a plurality of audio signals are compressed using a compression method known per se, characterized in that
Similar sound sources belonging to a sound field are summarized and the compression factors are selected so that the maximum permissible data rate is not exceeded,
For each of these summarized sound sources, information about the type of the source and position information, which indicates where the object is in relation to the viewer, is added.

2. The method according to claim 1, characterized in that Information about the properties of the room to be simulated as well Information about the current horizontal and vertical viewing angles in the generated data stream are inserted.

3. The method according to claim 1 or 2, characterized in that evaluated the size and position of the image projection in the playback device and based on it, based on the characteristics of the room to be simulated, on the information about the current horizontal and vertical Viewing angles as well as the position information and information about the Types and abstract properties of the sources an illustration of the Sound sources are performed on the existing speakers.

4. The method according to any one of claims 1 to 3, characterized in that for coding the AC3 method, the DTS method or the MP3 Method, or the AAC method, the WMA method or the like Procedure is applied.

5. The method according to any one of claims 1 to 4, characterized in that the information about the type of source in the form of algorithms or Parameters to specified algorithms is specified.

6. The method according to any one of claims 1 to 4, characterized in that the information about the properties of the room to be replicated in Form of algorithms or parameters for given algorithms is specified.

7. The method according to any one of claims 1 to 6, characterized in that playback via headphones or speakers.

8. The method according to any one of claims 1 to 7, characterized in that Each sound source has information about its radiation properties can be assigned.

9. The method according to claim 8, characterized in that the radiation properties are spherical, conical, flat or are kidney-shaped.

10. The method according to any one of claims 1 to 9, characterized in that in the playback device the properties of the listening room, d. H. of the room in which the speakers are set up, adjustable and / or by Measurements can be determined and these during playback be taken into account.

11. The method according to claim 10, characterized in that the characteristics of the listening room through the geometry of the room and The nature of the walls and floor can be specified.

12. The method according to any one of claims 1 to 11, characterized in that any number of speakers can be used for playback.

13. The method according to any one of claims 1 to 9, characterized in that the speaker positions made known to the playback device so that the best possible mapping of the individual channels onto the Speaker is made.

14. Device for performing the method according to one or more of the preceding claims.