DE10154932B4

DE10154932B4 - Method for audio coding

Info

Publication number: DE10154932B4
Application number: DE10154932A
Authority: DE
Inventors: Donald Dr. Schulz
Original assignee: Grundig Multimedia BV
Current assignee: Grundig Multimedia BV
Priority date: 2001-11-08
Filing date: 2001-11-08
Publication date: 2008-01-03
Anticipated expiration: 2021-11-09
Also published as: DE50214481D1; ATE470925T1; EP1318502B1; EP1318502A2; DE10154932A1; ES2347221T3; EP1318502A3

Abstract

The method involves compressing several audio signals with a conventional compression technique by combining sound sources similar to a sound field and selecting compression factors so that the maximum permitted data rate is not exceeded. Information is added to the combined sound sources regarding the type of source and the object position with respect to the observer <??>AN Independent claim is also included for the following: an arrangement for implementing the inventive method.

Description

Die Erfindung betrifft ein Verfahren zur Audiocodierung gemäss den Merkmalen des Oberbegriffes des Anspruch 1.The The invention relates to a method for audio coding according to the features the preamble of claim 1.

Bei der Wiedergabe von Filmton und Musiksignalen wird versucht, die Abbildung des Klanges mit der Position der Entstehung in Einklang zu bringen. Bei reinen Musiksignalen wird schon eine gute Approximation durch Verwendung von Stereolautsprechern erreicht. Will man allerdings bei Musikstücken einen anderen Raumeindruck erzielen, beispielsweise den eines Jazz-Clubs, so reichen diese zwei Lautsprecher kaum aus. Insbesondere bei Filmmaterial sind mehr Kanäle wünschenswert, da auch akustische Effekte, die von hinten kommen, wiedergegeben werden sollen.at Playback of movie sound and music signals is attempted, the Illustration of the sound with the position of the origin in harmony bring to. In pure music signals is already a good approximation achieved by using stereo speakers. But you want it with music pieces achieve a different spatial impression, for example that of a jazz club, So these two speakers barely enough. Especially with film material are more channels desirable, as well as acoustic effects that come from behind, played should be.

Eines der bekanntesten Verfahren hierfür ist das sogenannte „Dolby Pro Logic" Verfahren, welches bei Filmmaterial im wesentlichen dazu eingesetzt wird, die Lokalisation des Klanges beeinflussen zu können. So werden Sprecher üblicherweise auf den Center-Kanal abgebildet und Geräusche können ausschließlich aus den hinteren Lautsprechern kommen.One the best known method for this is the so-called "Dolby Pro Logic "procedure, which is used in film material essentially, the To influence the localization of the sound. This is how speakers usually become Shown on the center channel and noises can be made exclusively come to the rear speakers.

Weiterhin gibt es eine ganze Klasse von Verfahren, die zur Nachbildung von Raumakustiken verwendet werden. Häufig anzutreffende Bezeichnungen derartiger Verfahren lauten „Hall", „Stadium", „Jazz", „Club" etc.. Bei diesen auf Musiksignale optimierten Verfahren ist es nicht erwünscht, Sprachsignale (Gesang) nur aus dem Center-Lautsprecher zu vernehmen oder ein Musiksignal nur aus den hinteren Lautsprechern auszugeben, welches unter Verwendung des „Dolby Pro Logic" Verfahrens möglich ist.Farther There is a whole class of procedures for replicating Room acoustics are used. Frequently encountered terms such procedures are "Hall", "Stadium", "Jazz", "Club" etc .. In these On music signals optimized method, it is not desirable to voice signals (Vocals) only from the center speaker to hear or a music signal only output from the rear speakers, which are using of "Dolby Pro Logic "procedure is possible.

Bei dem Nachfolgeverfahren von Dolby Pro Logic, welches Dolby Pro Logic II genannt wurde, ist abgesehen von dem Filmmodus ein Modus für Musik vorgesehen, der diese Unterschiede berücksichtigt.at the successor to Dolby Pro Logic, which is Dolby Pro Logic II, apart from the movie mode, a mode for music is provided, which takes these differences into account.

Aus EP 0 481 374 B1 ist ein Verfahren zum Kodieren von Sprache bekannt. Hierbei wird eine diskrete Umformung eines Sprachfensters vorgenommen, um ein diskretes Spektrum von Koeffizienten zu erhalten. Eine angenäherte Einhüllenden des diskreten Spektrums wird in jedem einer Vielzahl von Unterbändern errechnet und zum digitalen Kodieren der definierten Einhüllenden eines jeden Unterbands verwendet. Innerhalb von Subbändern wird jeder skalierte Koeffizient in eine Anzahl von Bits mit mindestens einem von einer Vielzahl von Quantisierern unterschiedlicher Bitlängen umgerechnet. Der für jedes Unterband benutzte Ouantisierer wird für jedes Sprachfenster durch Berechnen der Zuweisung von Bits als eine Anzahl von Bits größer als oder gleich Null bestimmt, in Abhängigkeit einer Leistungsdichteabschätzung für das Unterband und einer Verzerrungsfehlerabschätzung für das Sprachfenster.Out EP 0 481 374 B1 For example, a method of encoding speech is known. Here, a discrete conversion of a speech window is made to obtain a discrete spectrum of coefficients. An approximate envelope of the discrete spectrum is computed in each of a plurality of subbands and used to digitally encode the defined envelopes of each subbands. Within subbands, each scaled coefficient is converted into a number of bits with at least one of a plurality of quantizers of different bit lengths. The quantizer used for each subband is determined for each speech window by computing the allocation of bits as a number of bits greater than or equal to zero, in response to a power density estimate for the subband and a distortion error estimate for the speech window.

Aus EP 0 587 733 B1 ist ein Signalanalysesystem zur Filterung von einem ein oder mehrere Signale repräsentierenden Eingangsabtastwert bekannt. Es sind Eingangspuffermittel zum Gruppieren der Eingangsabtastwerte in Zeitbereichs-Signalabtastwertblöcke vorgesehen. Die Eingangsabtastwerte sind analysefenster-gewichtete Abtastwerte. Außerdem sind Analysemittel zur Erzeugung von Spektralinformation als Antwort auf die Zeitbereichs-Signalabtastwertblöcke vorhanden; wobei die Spektralinformation Spektralkoeffizienten umfaßt, die im wesentlichen einer geradzahlig gestapelten Zeitbereichs-Aliasingaufhebungs-Transformation angewendet auf die Zeitbereichs-Signal-Abtastwertblöcke entspricht. Bei den Spektralkoeffizienten handelt es sich im wesentlichen um Koeffizienten einer modifizierten diskreten Cosinus-Transformation bzw. Koeffizienten einer modifizierten diskreten Sinus-Transformation. Die Analysemittel umfassen Vorwärts-Vor-Transformationsmittel zur Erzeugung modifizierter Abtastwertblöcke und Vorwärts-Transformationsmittel zur Erzeugung von Frequenzbereichs-Transformationskoeffizienten.Out EP 0 587 733 B1 For example, a signal analysis system is known for filtering from an input sample representing one or more signals. Input buffer means are provided for grouping the input samples into time domain signal sample blocks. The input samples are analysis window weighted samples. In addition, analyzing means are provided for generating spectral information in response to the time domain signal sample blocks; wherein the spectral information comprises spectral coefficients substantially corresponding to an even-stacked time-domain aliasing cancellation applied to the time-domain signal sample blocks. The spectral coefficients are essentially coefficients of a modified discrete cosine transformation or coefficients of a modified discrete sine transformation. The analyzing means comprises forward-ahead-transforming means for generating modified sample blocks and forward-transforming means for generating frequency-domain transform coefficients.

Aus EP 0 664 943 B1 ist eine Kodiervorrichtung zur adaptiven Verarbeitung von Audiosignalen für das Kodieren, Übertragen oder Speichern und Wiedergewinnen bekannt, wobei der Rauschpegel mit dem Signalamplitudenpegel schwankt. Es ist eine Verarbeitungseinrichtung vorhanden, welche auf Eingangssignale derart anspricht, daß sie entweder ein erstes und ein zweites Signal oder die Summe und Differenz des ersten und zweiten Signals ausgibt. Das erste und zweite Signal entsprechen den beiden matrixkodierten Audiosignalen einer vier zu zwei Audiosignalmatrix, wobei die Verarbeitungseinrichtung auch ein Steuersignal erzeugt, welches anzeigt, ob das erste und zweite Signal oder die Summe und Differenz des ersten und zweiten Signals ausgegeben wird.Out EP 0 664 943 B1 For example, an encoding apparatus for adaptively processing audio signals for encoding, transmission or storage and retrieval is known, wherein the noise level fluctuates with the signal amplitude level. There is a processing means responsive to input signals for outputting either a first and a second signal or the sum and difference of the first and second signals. The first and second signals correspond to the two matrix encoded audio signals of a four to two audio signal matrix, wherein the processing means also generates a control signal indicating whether the first and second signals or the sum and difference of the first and second signals are output.

Aus EP 0 519 055 B1 ist ein Decoder, bestehend aus einem Empfangsmittel zum Empfang einer Mehrzahl von Lieferkanälen formatierter Information, Deformatierungsmitteln zur Erzeugung ansprechend auf die Empfangsmittel, einer deformatierten Darstellung abhängig von jedem Lieferkanal, und Synthesemittel zur Erzeugung von Ausgangssignalen abhängig von den deformatierten Darstellungen, bekannt. Zwischen den Deformatierungsmitteln und den Synthesemitteln sind Verteilermittel angeordnet, welche auf die Deformatierungsmittel ansprechen und einen oder mehrere Zwischensignale erzeugen, wobei wenigstens ein Zwischensignal durch Kombination der Information von zwei oder mehr der deformatierten Darstellungen erzeugt wird. Die Synthesemittel erzeugen ein jeweiliges Ausgangssignal als Antwort auf jedes der Zwischensignale.Out EP 0 519 055 B1 is a decoder consisting of receiving means for receiving a plurality of delivery channels of formatted information, deforming means for generating in response to the receiving means, a deformed representation depending on each delivery channel, and synthesizing means for generating output signals depending on the deformed representations. Distributor means are arranged between the deforming means and the synthesis means, which are responsive to the deforming means and generate one or more intermediate signals, wherein at least one intermediate signal is generated by combining the information from two or more of the deformed representations. The synthesizer he produce a respective output signal in response to each of the intermediate signals.

Aus EP 0 520 068 B1 ist ein Kodierer zum Kodieren von zwei oder mehr Audiokanälen bekannt. Der Kodierer weist eine Teilbandeinrichtung zum Erzeugen von Teilbandsignalen, eine Mischeinrichtung zum Schaffen eines oder mehrerer zusammengesetzter Signale, und Mittel zum Erzeugen von Steuerinformation für ein entsprechendes zusammengesetztes Signal auf. Außerdem weist der Kodierer eine Kodiereinrichtung zum Erzeugen kodierter Information durch Zuteilen von Bits zu dem einen oder mehreren zusammengesetzten Signalen auf. Es ist weiterhin eine Formatiereinrichtung zum Zusammensetzen der kodierten Information und der Steuerinformation zu einem Ausgabesignal vorhanden.Out EP 0 520 068 B1 For example, a coder for coding two or more audio channels is known. The encoder includes subband means for generating subband signals, a mixer for providing one or more composite signals, and means for generating control information for a corresponding composite signal. In addition, the encoder comprises an encoder for generating coded information by allocating bits to the one or more composite signals. There is further provided a formatter for composing the coded information and the control information about an output signal.

Aus EP 0 208 712 B1 ist ein Sprachkodierer bekannt. Dieser Sprachkodierer enthält eine Fourier-Transformationseinrichtung zur Ausführung einer diskreten Fourier-Transformation eines ankommenden Sprachsignals zur Erzeugung eines diskreten Transformationsspektrums von Koeffizienten, eine Normierungseinrichtung zum Modifizieren des Transformationsspektrums zur Erzeugung eines normierten, flacheren Spektrums und zum Codieren einer Funktion, durch die das diskrete Spektrum modifiziert wird. Außerdem ist eine Einrichtung zum Codieren wenigstens eines Teils des Spektrums vorhanden. Die Normierungseinrichtung weist eine Einrichtung (44) zum Definieren der approximierten Einhüllenden des diskreten Spektrums in jedem von mehreren Unterbändern von Koeffizienten und zum Codieren der definierten Einhüllenden eines jedes Unterbandes von Koeffizienten und Einrichtungen zum Skalieren jedes Spektrumkoeffizienten relativ zur definierten Einhüllenden des betreffenden Unterbandes von Koeffizienten auf.Out EP 0 208 712 B1 a speech coder is known. This speech coder includes Fourier transform means for performing a Discrete Fourier Transform of an incoming speech signal to produce a discrete transform spectrum of coefficients, normalization means for modifying the transform spectrum to produce a normalized, flatter spectrum, and encoding a function by which the discrete spectrum modifies becomes. In addition, means are provided for encoding at least a portion of the spectrum. The normalization means comprises means (44) for defining the approximated envelopes of the discrete spectrum in each of a plurality of subbands of coefficients and for encoding the defined envelopes of each subband of coefficients and means for scaling each spectrum coefficient relative to the defined envelope of the respective subband of coefficients ,

Als weitere allgemein bekannte Verfahren zur Verbesserung dieses Problems wurden dann die Verfahren Dolby Digital (auch bekannt unter dem Namen AC3) und DTS eingeführt, welche die Wiedergabe von 6 unterschiedlichen Kanälen gestatten. Trotzdem damit ein rechter und ein linker hinterer separater Kanal möglich sind, war dies für eine perfekte Wiedergabe immer noch nicht genug, daher wurden diese Verfahren durch Matrizierung wieder so erweitert, dass ein zusätzlicher hinterer Centerkanal möglich ist. Mit DTS-ES DISCRETE wurde dann auf die Matrizierung verzichtet und ein echter siebter Audiokanal übertragen. THX-EX erzeugt mittlerweile 8 Kanäle und bei AAC sind sogar über 100 separate Audiokanäle möglich.When other well-known methods for improving this problem then the procedures were Dolby Digital (also known under the Name AC3) and DTS introduced, which allow the playback of 6 different channels. Nevertheless, thus a right and a left rear separate channel possible are, this was for a perfect rendition still not enough, so these were Method by matrixing again extended so that an additional rear center channel possible is. With DTS-ES DISCRETE was then dispensed with the matrixing and transmit a true seventh audio channel. THX-EX is now producing 8 channels and at AAC are even over 100 separate audio channels possible.

Aus ISO/IEC JTC 1/SC 29/WG11 (MPEG 4 Structured Audio) ist ein Verfahren bekannt, welches für die synthetische Erzeugung von Musiksignalen die Möglichkeit bietet, den künstlich erzeugten Musikinstrumenten eine Positionsinformation sowie einen oder mehrere Effekte zuzuweisen. Es ist auch möglich, Samples derart zu integrieren.Out ISO / IEC JTC 1 / SC 29 / WG 11 (MPEG 4 Structured Audio) is a procedure known which for the synthetic generation of music signals the possibility offers that artificial generated musical instruments position information and a or assign multiple effects. It is also possible to integrate samples in such a way.

Nachteilig bei MPEG 4 Structured Audio ist, dass es für die Echtzeitübertragung über einen Kanal mit begrenzter Datenrate nicht geeignet ist, da keine obere Begrenzung für die Datenrate und die Rechenleistung vorgesehen ist. Auch die Beschränkung auf Samples, welche normalerweise nur kurzen Klangstücken entsprechen und die auch schon dem Wiedergabegerät zu dem Zeitpunkt komplett bekannt sein müssen, wenn deren abspielen beginnt stellt ein Problem dar. Weiterhin ist eine Synchronisation schwierig, soll mit dem Abspielen an einer bestimmten Stelle begonnen werden so ist es eventuell nötig, die Datei komplett von Anfang an zu berechnen. Einer Anwendung bei Filmmaterial wiederspricht auch das Fehlen einer Kompression der Samples, welche dadurch unnötig viel Datenspeicher benötigen. Die Angabe der Winkel der Schallquellen alleine reicht auch nicht aus, um immer eine gute Zuordnung der Schallquellen zum Bildmaterial zu erreichen, da das Bildmaterial durch verschiedene Projektionstechniken unterschiedliche Größen und Entfernungen zum Beobachter aufweisen kann. Ist am linken Bildrand ein Sprecher zu sehen, so sollte dessen Sprache in einem Kino auch aus den linken Lautsprechern wiedergegeben werden, bei einer Darstellung über einen 5 Meter entfernten Fernseher mit 72 cm Bildschirmdiagonale macht es aber mehr Sinn, die Sprache auch auf dem mittleren Lautsprecher auszugeben, da dann auch dort der Sprecher zu sein scheint.adversely In MPEG 4 Structured Audio, it is for real-time transmission over a Channel with limited data rate is not suitable because no upper Limit for the data rate and the computing power is provided. Also the restriction to samples, which normally only correspond to short pieces of sound and that too already the playback device at the time must be completely known when their play starts is a problem. Furthermore, synchronization is difficult should be started with the play at a certain place so it may be necessary, the To calculate file completely from the beginning. An application for footage also contradicts the lack of compression of the samples, which thereby unnecessary need a lot of data storage. The indication of the angle of the sound sources alone is not enough from getting a good allocation of the sound sources to the footage to achieve because the picture material through different projection techniques different sizes and Distances to the observer may have. Is on the left edge of the picture Speakers should see their language in a cinema too the left speakers are played, in a representation of a 5 Meter away with 72 cm screen size makes it but more sense, the language also on the middle speaker to spend, because then there seems to be the speaker.

Nachteilig bei allen bekannten Erfindungen bezüglich der Audiodatenkompression ist, dass aufgrund der Fixierung der Positionen der Klangquellen eine hohe Anzahl an Audikanälen zur Nachbildung des gewünschten Klangfeldes benötigt wird. Dies verursacht eine hohe Datenmenge, die sowohl bei Speichermedien als auch bei der Übertragung unerwünscht ist. Weiterhin ist die Möglichkeit der Nachbildung von Raumakustiken durch die Fixierung der Lautsprecherpositionen eingeschränkt.adversely in all known inventions relating to audio data compression is that due to the fixation of the positions of the sound sources one high number of auditoriums to replicate the desired Sound field needed becomes. This causes a high amount of data, both in storage media as well as in the transmission undesirable is. Furthermore, the possibility the reproduction of room acoustics by fixing the speaker positions limited.

Beispielsweise ist bei Dolby Digital und DTS kein Deckenlautsprecher vorgesehen, der von oben kommende Klänge nachbilden könnte.For example Dolby Digital and DTS do not provide a ceiling speaker, the sounds coming from above could emulate.

Aus „CARROUSO-SYSTEM Specifications and Functional Architecture"; Projekt CARROUSO Information Society Technology (IST) Program, Deliverable 1, public version, 12. Juni 2006, Seiten 1-14 ist ein System offenbart, bei welchem bei der Aufnahme von akustischen Signalen ein MPEG4-Kompressionsverfahren sowie eine Zuordnung von Klangquellen zu Klangfelder offenbart ist.From "CARROUSO SYSTEM Specifications and Functional Architecture ", project CARROUSO Information Society Technology (IST) Program, Deliverable 1, public version, June 12 2006, pages 1-14 discloses a system in which the Recording of acoustic signals an MPEG4 compression method and an association of sound sources to sound fields is disclosed.

Aus BOUNE M.M. „acoustic rendering with wave field synthesis: ACM SIGGRAPH AND EUROGRAPHIC CAMPFIRE; acoustic rendering for virtual environments, Snowbird, Utah, 26.-29. Mai 2001, ist ebenfalls bekannt, Klangquellen Klangfeldern zuzuweisen.From BOUNE MM "acoustic rendering with wave field synthesis: ACM SIGGRAPH AND EURO GRAPHIC CAMPFIRE; acoustic rendering for virtual environments, Snowbird, Utah, 26.-29. May 2001, is also known to assign sound sources to sound fields.

Aufgabe der Erfindung ist es, ein Verfahren anzugeben, welches eine effiziente Codierung von mehreren Audiosignalen unter Berücksichtigung des zugehörigen Klangfeldes ermöglicht.task The invention is to provide a method which is an efficient Coding of several audio signals taking into account the associated sound field allows.

Die vorliegende Erfindung löst diese Aufgabe durch die Merkmale der Ansprüche 1 und 12. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen, der zugehörigen Beschreibung nebst 1 angegeben.The present invention solves this problem by the features of claims 1 and 12. Advantageous embodiments and further developments of the invention are in the dependent claims, the accompanying description along 1 specified.

Die vorliegende Erfindung löst die Aufgabe dadurch, dass die zu einem Klangfeld gehörenden Klangquellen zuerst einzeln mit einem herkömmlichen Kompressionsverfahren, beispielsweise AC3, MP3, AAC, WMA, usw. komprimiert werden. Bei einer Überschreitung einer maximal erlaubten Datenrate wird eine Zusammenfassung von Klangquellen oder eine stärkere Kompression zur Verringerung der Datenrate durchgeführt. Jeder dieser Klangquellen werden Informationen über deren Art sowie eine Positionsinformation hinzugefügt, die angibt, wo sich das Objekt in Bezug auf den Betrachter befindet. Informationen über die Eigenschaften des nachzubildenden Raumes sowie über die aktuellen horizontalen und vertikalen Sichtwinkel werden übertragen. Basierend auf den Positionsinformationen und Informationen über die Quellen, den Informationen über die Eigenschaften des nachzubildenden Raumes, den aktuellen horizontalen und vertikalen Sichtwinkeln sowie über der Größe und Position des Bildes des Wiedergabegerätes werden dann Nachbearbeitungen und Abbildungen der einzelnen Quellen auf die vorhandenen Lautsprecher oder ein Kopfhörersignal durchgeführt.The present invention solves the task in that the sound sources belonging to a sound field first individually with a conventional one Compression methods, such as AC3, MP3, AAC, WMA, etc. are compressed become. When exceeded a maximum allowed data rate will be a summary of Sound sources or a stronger one Compression performed to reduce the data rate. Everyone These sound sources will be information about their nature as well as position information added which indicates where the object is in relation to the viewer. information about the characteristics of the room to be replicated as well as the current horizontal and vertical viewing angles are transmitted. Based on the location information and information about the Sources, information about the Properties of the room to be recreated, the current horizontal and vertical viewing angles as well as the size and position of the image of the image Playback device will then be post-processing and illustrations of the individual sources performed on the existing speakers or a headphone signal.

Betrachtet man natürliche Klangfelder, so stellt man fest, dass das menschliche Gehör diese derart analysiert, dass eine Aufteilung in verschiedene Klangquellen sowie deren Charakteristiken stattfindet und zudem die Eigenschaft des Raumes, in welchem die akustische Wiedergabe erfolgt, ausgewertet wird. Die Aufteilung der Klangquellen erfolgt in erster Linie durch Auswertung der spektralen Zusammensetzung und der Position der Schallquelle. Laufzeitunterschiede und die richtungsabhängige Frequenzempfindlichkeitskurve des Gehörs haben nur einen geringen Einfluss auf die Aufteilung. Eine gute Approximation vieler Klangfelder kann schon erreicht werden, wenn zwei Sprachkanäle sowie zwei Effektkanäle zur Verfügung stehen. Damit kann die Kommunikation zweier Personen sowie diverse Umgebungsgeräusche (beispielsweise vorbeifahrende Autos) erfasst und nachgebildet werden.considered man natural Sound fields, it is found that the human ear this way analyzed that a division into different sound sources as well whose characteristics take place and also the property of the Room in which the acoustic reproduction takes place, evaluated becomes. The distribution of the sound sources is done primarily by Evaluation of the spectral composition and the position of the sound source. Time differences and the directional frequency sensitivity curve of hearing have only a minor impact on the distribution. A good approximation Many sound fields can already be achieved if two voice channels as well two effects channels to disposal stand. Thus the communication of two persons as well as various ambient noise (For example, passing cars) are recorded and replicated.

Erfindungsgemäß werden die von verschiedenen Klangquellen erzeugten Audiodaten in der Art und Weise codiert, dass Klangquellen zusammengefasst werden, die für das Gehör gleiche Eigenschaften besitzen und diese dann mit einer Positionsinformation, einer Information über die Art des Kanales (Gesang, Hintergrundgeräusch, Sprache ...) sowie einer Information über eventuell mögliche Effekte (Hall, Dynamikkompressor) versehen werden. Diese Informationen werden kontinuierlich übertragen. Bei der Wiedergabe kann über die Art des Kanales eine Nachbearbeitung erfolgen, in der dann z.B. für Hintergrundgeräusche dieses Signal mehrfach dekorreliert und auf die Lautsprecher ausgegeben wird. Es wird jeder Signalart ein individueller Nachverarbeitungsalgorithmus zugeordnet. Eine vorteilhafte Implementierung ergibt sich, wenn zusätzlich noch zu jeder Klangquelle eine Information über deren Abstrahlcharakteristik, wie kugelförmig, nierenförmig etc., übertragen wird. Eine weitere vorteilhafte Implementierung ergibt sich, wenn zusätzlich noch Informationen über die gewünschte Raumcharakteristik (z.B. Badezimmer, Kathedrale, usw.), Parameter (z.B. Hallzeit) bzw. direkt algorithmische Beschreibungen zur Erzielung dieser Klangeindrücke sowie Eigenschaften der einzelnen Schallquellen (wie z.B. Sprache oder Musik oder Effekt) mitübertragen werden. Als Parameter zur Beschreibung der Raumcharakteristik sind z.B. die Raumgeometrie und die Raumabsorptionseigenschaften zu übertragen. Ein Wohnzimmer mit Gardinen und Teppichböden schluckt nämlich den Schall viel stärker als ein Badezimmer oder eine Kirche.According to the invention the audio data generated by different sound sources in the way and Ways to encode sound sources that are the same for your hearing Own properties and then with a position information, an information about the type of channel (vocals, background noise, language ...) and one information about possibly possible Effects (reverb, dynamic compressor) are provided. This information are transmitted continuously. When playing can over the type of channel is post-processing, in which then e.g. for background noise this Signal decorrelated several times and output to the speakers becomes. Each signal type becomes an individual postprocessing algorithm assigned. An advantageous implementation arises when additionally information about their emission characteristics for every sound source, like spherical, kidney-shaped, etc., transferred becomes. A further advantageous implementation results when additionally still information about the desired Room characteristics (e.g., bathroom, cathedral, etc.), parameters (e.g. Hall time) or directly algorithmic descriptions to achieve these sound impressions and characteristics of the individual sound sources (such as speech) or music or effect) become. As parameters for describing the spatial characteristics are e.g. to transfer the space geometry and the room absorption properties. A living room with curtains and carpets namely swallows the Sound much stronger as a bathroom or a church.

Ist ein Wiedergabegerät nicht leistungsfähig genug, diese Daten auszuwerten, so ignoriert es eben diese Zusatzdaten bei der Wiedergabe.is a playback device not powerful enough, To evaluate this data, it just ignores this additional data during playback.

Eine weitere vorteilhafte Ausgestaltung der Erfindung ergibt sich, wenn zusätzlich noch Eigenschaften über den Sichtwinkel übertragen werden, d.h. dass man aus den Winkeln der Klangquelle und diesen Sichtwinkeln direkt schließen kann, ob das dazugehörige Objekt im Bild sichtbar ist. Dies ist dann der Fall, wenn der horizontale Winkel des Objektes innerhalb des horizontalen Sichtwinkelbereiches und der vertikale Winkel des Objektes innerhalb des vertikalen Sichtwinkelbereiches liegt. Der Sichtwinkel ist dabei wie auch die Position der Objekte auf den Betrachter der Orginalszene bezogen. Der Sichtwinkel kann sich laufend ändern, daher wird dieser vorteilhafterweise zu jedem einzelnen Bild übertragen. Basierend auf dem Winkel des Objektes, des Sichtwinkels sowie der Position und Größe des projezierten Bildes wird dann ein virtueller Winkel bezogen auf die Abhörposition ermittelt. Damit beim Verlassen von Objekten aus dem Sichtwinkelbereich kein abrupter Sprung stattfindet, wird dort vorteilhafterweise eine nichtlineare Abbildung verwendet.A Further advantageous embodiment of the invention results when additionally still features about transfer the viewing angle are, i. that from the angles of the sound source and this one Close the viewing angles directly can, if the associated Object is visible in the picture. This is the case when the horizontal Angle of the object within the horizontal viewing angle range and the vertical angle of the object within the vertical field of view lies. The viewing angle is the same as the position of the objects related to the viewer of the original scene. The viewing angle can to change constantly, therefore, it is advantageously transmitted to each individual image. Based on the angle of the object, the viewing angle and the Position and size of the projected Picture becomes then a virtual angle relative to the listening position determined. So when leaving objects from the field of view angle no occurs abruptly, there is advantageously a non-linear Illustration used.

So kann z.B. der bei kleinen Bildschirmen geschrumpfte Winkelbereich durch eine Streckung des restlichen Winkelbereiches ausgeglichen werden. Eine vorteilhafte Ausgestaltungung ergibt sich, wenn die Stärke der Stauchung/Streckung durch den Anwender einstellbar ist.So can e.g. the angle range shrunk at small screens balanced by an extension of the remaining angular range become. An advantageous embodiment is obtained when the Strength the compression / extension by the user is adjustable.

Durch die Erfindung wird

– eine wesentlich realistischere Audiodarbietung erreicht;
– die Ausnutzung der vorhandenen Kanäle wesentlich verbessert, somit wird bei DVDs Kapazität und bei Broadcast-Verfahren Bandbreite gespart;
– bei Hinzufügung der Klangeffekte im Endgerät bei der Codierung der unverfälschten Originalsignale eine wesentlich geringere Datenrate benötigt, dies gibt eine zusätzliche Datenratenersparnis;
– die Kanalabbildung wesentlich verbessert, ein überfliegender Hubschrauber kann mit nur einem Kanal perfekt nachgebildet werden;
– das System abwärtskompatibel gehalten, die Wiedergabe anderer Standards kann durch Annahme der Positionen der Klangquellen auf die dabei üblichen Aufstellungspositionen der Lautsprecher erfolgen; es muss die vom Kunden gewählte Lautsprecherkonstellation nicht modifiziert werden;
– die Aufstellungspositionen der Lautsprecher nicht vorgegeben und kann beliebig sein, die Lautsprecher müssen dem System nur bekannt gemacht werden; das System berechnet dann, auf welchen Lautsprechern es bestimmte Kanäle am geeignetesten ausgibt; so ist es möglich, die räumlichen Gegebenheiten perfekt auszunutzen;
– eine bessere Anpassung an verschiedene Bildformate bei der Wiedergabe erreicht, Klangquellen zu im Bildbereich gehörenden Objekten können klanglich auch dorthin fokussiert werden.

By the invention is

- achieved a much more realistic audio performance;
- significantly improves the utilization of existing channels, thus saving capacity on DVDs and bandwidth on broadcasting;
- When adding the sound effects in the terminal in the coding of the original unaltered signals requires a much lower data rate, this gives an additional data rate savings;
- The channel image improved significantly, a flying helicopter can be perfectly simulated with only one channel;
- the system is backward compatible, the reproduction of other standards can be done by assuming the positions of the sound sources in the usual installation positions of the speakers; the customer-selected loudspeaker constellation does not need to be modified;
- The installation positions of the speakers are not predetermined and can be arbitrary, the speakers must be made known to the system only; the system then calculates on which speakers it will most appropriately output certain channels; so it is possible to make perfect use of the spatial conditions;
- achieves a better adaptation to different image formats during playback, sound sources for objects belonging to the image area can also be focussed there soundwise.

Außerdem ist die Anzahl an aufgestellten Lautsprechern theoretisch unbegrenzt, sie ist nur begrenzt durch die Anzahl an Verstärkerkanälen und durch die Rechenleistung des Systems. Ein Nutzer kann nachträglich ohne großen Aufwand und Probleme zwei seitliche Lautsprecher nachrüsten oder einen Deckenlautsprecher entfernen.Besides that is the number of speakers installed theoretically unlimited, it is only limited by the number of amplifier channels and by the computing power of the system. A user can retrofit without much effort and problems to retrofit two side speakers or a ceiling speaker remove.

Schließlich ist die zur Übertragung der Zusatzinformationen benötigte Datenmenge gegenüber der Datenmenge zur Codierung der einzelnen Audiokanäle vernachlässigbar gering.Finally is those for transfer the additional information needed Amount of data compared to the Data volume for encoding the individual audio channels negligible.

Im Weiteren wird die Erfindung anhand eines konkreten Ausführungsbeispieles 1 beschrieben.Furthermore, the invention will be described with reference to a concrete embodiment 1 described.

Das Ausführungsbeispiel zeigt eine erfindungsgemäße Vorrichtung. Die erfindungsgemäße Vorrichtung weist die Audiosignaleingänge A1 bis An auf. Über die Eingänge I1 bis In werden zu den n Audiosignalen Informationen zu der Position und die Eigenschaften des entsprechenden Audiosignales übertragen. Über den Eingang SF werden die horizontalen und vertikalen Sichtwinkel sowie die Eigenschaft des nachzubildenden Raumes eingespeist. Die eingehenden Audiosignale werden in den Vorrichtungen K1 bis Kn in der Datenrate zu den Signalen C1 bis Cn komprimiert. Die Datenströme C, I und SF werden dann in der Vorrichtung MX zu einem einzelnen Datenstrom US zusammengemischt. Der Datenstrom US kann dann entweder im Broadcasting-Format übertragen werden oder auch auf einem Speichermedium zwischengespeichert werden. Zur Ausgabe wird dieser Datenstrom dann auf eine Vorrichtung DX gegeben, die daraus wieder die Datenströme C1 bis Cn regeneriert sowie ISF1 bis ISFn erzeugt. ISFi entspricht dabei dem Datenstrom Ii, dem noch SF hinzugefügt ist. Die komprimierten Datenströme C1 bis Cn werden in den Vorrichtungen D1 bis Dn dekomprimiert. Die einzelnen dekomprimierten Datenströme werden dann jeweils zusammen mit ihrem zugehörigen Datenstrom ISFi sowie dem Signal BP auf die Vorrichtungen R1 bis Rn gegeben. Das Signal BP entspricht dabei einer Information über das Bildformat, der Position des Wiedergabegerätes sowie den vom Kunden gewählten Parametern zur Wiedergabe. In den Vorrichtungen Ri erfolgt dann eine Abbildung der dekodierten Audiosignale auf die Summensignale S1 bis Sk unter Berücksichtigung der in BP und ISFi vorhandenen Parameter. Die Anzahl der Summensignale k entspricht dabei der vom Kunden installierten Anzahl an Lautsprechern. Die von den einzelnen Vorrichtungen Ri erzeugten Summensignale S werden summiert und dann auf die Lautsprecher L1 bis Lk ausgegeben.The embodiment shows a device according to the invention. The device according to the invention indicates the audio signal inputs A1 to An on. about the entrances I1 to In, information about the position is added to the n audio signals and transmit the characteristics of the corresponding audio signal. On the Input SF will be the horizontal and vertical viewing angles as well fed the property of the room to be replicated. The incoming Audio signals in the devices K1 to Kn are in the data rate compressed to the signals C1 to Cn. The data streams C, I and SF then become a single data stream in the device MX US mixed together. The data stream US can then be transmitted either in broadcasting format or be cached on a storage medium. For output, this data stream is then transferred to a device DX given that regenerates the data streams C1 to Cn from it again and ISF1 to ISFn generated. ISFi corresponds to the data stream Ii, added SF is. The compressed data streams C1 to Cn are decompressed in the devices D1 to Dn. The individual decompressed data streams are then combined together with their associated Data stream ISFi and the signal BP to the devices R1 to Rn given. The signal BP corresponds to information about the image format, the position of the playback device as well as those chosen by the customer Parameters for playback. In the devices Ri then takes place an illustration of the decoded audio signals to the sum signals S1 to Sk under consideration the parameters present in BP and ISFi. The number of sum signals k corresponds to the number of loudspeakers installed by the customer. The sum signals S generated by the individual devices Ri are summed and then output to the loudspeakers L1 to Lk.

AA: AudiosignaleingangAudio signal input
BPBP: Information über Bildformat, Position der Klangquelle und KundenparameterInformation about image format, Position of sound source and customer parameters
CC: Komprimierte Audiosignalecompressed Audio signals
DD: Vorrichtung zur Dekompression einzelner Audiosignalecontraption for decompression of individual audio signals
DXDX: Vorrichtung zur Aufspaltung des Datenstromescontraption for splitting the data stream
II: Eingang für Informationen zu einem Audiosignalentrance for information to an audio signal
ISFISF: Information zu einem Audiosignal sowie Informationen über die Sichtwinkel der Klangquelleinformation to an audio signal and information about the viewing angles of the sound source
KK: Vorrichtung zur Kompression einzelner Audiosignalecontraption for compression of individual audio signals
LL: LautsprecherausgangssignalSpeaker output
MXMX: Vorrichtung zur Zusammenmischung einzelner Datenströmecontraption for mixing individual data streams
RR: Vorrichtung zur Abbildung eines Audiosignales auf die Lautsprechersignalecontraption for mapping an audio signal to the loudspeaker signals
SS: Summenkanäle für die LautsprecherSum channels for the speakers
SFSF: Informationen über die Sichtwinkel der KlangquellenInformation about the View angle of the sound sources
USUS: Übertragungsstrecketransmission path

Claims

A method of encoding audio signals, wherein a plurality of audio signals are compressed using a compression method known per se, wherein similar sound sources belonging to a sound field are combined and the compression factors are chosen such that the maximum allowable data rate is not exceeded, to each of these combined sound sources Information about the type of source and a position information indicating where the object is located with respect to the viewer, is attached, characterized in that each sound source can be assigned information about their radiation properties, the radiation properties spherical, conical, planar or kidney-shaped and the information about their radiation properties are also transmitted for playback.

Method according to claim 1, characterized in that that information about the characteristics of the room to be replicated and information about the current horizontal and vertical viewing angle in the generated Data stream inserted become.

Method according to claim 1 or 2, characterized that in the playback device the size and position of an image projection evaluated and based on it on the characteristics of the room to be replicated, on the information about the current ones horizontal and vertical viewing angles as well as the position information and information about the types and abstract characteristics of the sources an illustration of Sound sources on the existing speakers is performed.

Method according to one of claims 1 to 3, characterized that for encoding the AC3 method, the DTS method or the MP3 method, or the AAC method, the WMA method or a similar method applied becomes.

Method according to one of claims 1 to 4, characterized that information about the type of source in the form of algorithms or parameters to given Algorithms is specified.

Method according to one of claims 1 to 4, characterized that information about the properties of the imitation space in the form of algorithms or parameters given to given algorithms.

Method according to one of claims 1 to 6, characterized that a playback over headphone or over Speaker is done.

Method according to one of claims 1 to 7, characterized that in the playback device the Properties of the listening room, i.e. the room in which the speakers are placed, adjustable are and / or can be determined by measurements and these during playback considered become.

Method according to claim 8, characterized in that that the properties of the listening room through the geometry of the room and texture of the walls and of the soil.

Method according to one of claims 1 to 9, characterized that any number of speakers can be used for playback is.

Method according to one of claims 1 to 10, characterized that the speaker positions known to the player be made so that the best possible picture of the individual channels is done on the speakers.

Apparatus for carrying out the method according to one or more of the preceding claims.