DE10113322C2 - Process for encoding audio data - Google Patents

Process for encoding audio data

Info

Publication number
DE10113322C2
DE10113322C2 DE2001113322 DE10113322A DE10113322C2 DE 10113322 C2 DE10113322 C2 DE 10113322C2 DE 2001113322 DE2001113322 DE 2001113322 DE 10113322 A DE10113322 A DE 10113322A DE 10113322 C2 DE10113322 C2 DE 10113322C2
Authority
DE
Germany
Prior art keywords
audio data
quantization
coding
quality measure
masking threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE2001113322
Other languages
German (de)
Other versions
DE10113322A1 (en
Inventor
Christian Mittendorf
Andree Buschmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE2001113322 priority Critical patent/DE10113322C2/en
Publication of DE10113322A1 publication Critical patent/DE10113322A1/en
Application granted granted Critical
Publication of DE10113322C2 publication Critical patent/DE10113322C2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Stand der TechnikState of the art

Die Erfindung geht aus von einem Verfahren zur Codierung von Audiodaten nach der Gattung des unabhängigen Patentanspruchs.The invention is based on a method for coding Audio data according to the genre of the independent Claim.

Es ist bereits bekannt, aus Audiodaten mittels eines psychoakustischen Modells wichtige Parameter, wie z. B. die Maskierungsschwelle zu ermitteln. Audiodaten, die unter der Maskierungsschwelle liegen, sind für das menschliche Ohr nicht mehr wahrnehmbar. Sie beschreibt also diejenige Fehlerleistung, die von einer nachfolgenden Quantisierung nicht überschritten werden darf. Die Audiodaten werden ferner in den Frequenzbereich transformiert, beispielsweise mittels einer modifizierten diskreten Cosinustransformation (MCDT), um sie dann im Frequenzbereich zu quantisieren und zu codieren. Die Audiodaten liegen ferner in Rahmen vor.It is already known from audio data using a psychoacoustic model important parameters such. B. the Determine masking threshold. Audio data under the Masking thresholds are for the human ear no longer perceptible. So she describes the one Error performance by a subsequent quantization must not be exceeded. The audio data will be further transformed into the frequency domain, for example using a modified discrete cosine transform (MCDT) to then quantize them in the frequency domain and to code. The audio data are also available in frames.

Aus der EP 0 966 108 A2 ist ein Verfahren und eine Vorrichtung zur variable Bitzuweisung für Audiocodierungen bakannt. Diese Bitzuweisung basiert auf einem psychoakustischen Modell mit vereinfachtem Maskierungsmodell. Es wird die Energie der Spitzen in Frequenzteilbändern berechnet und mit einem vereinfachten Maskierungsmodell komprimiert. In Abhängigkeit des Signal- Maskierungs-Abstandes wird jedem Teilfrequenzband eine variable Bitanzahl zugewiesen.EP 0 966 108 A2 describes a method and an apparatus for variable bit allocation for audio coding known. These Bit allocation is based on a psychoacoustic model simplified masking model. It becomes the energy of the tips in Frequency subbands calculated and with a simplified Masking model compressed. Depending on the signal Masking distance is a variable for each sub-frequency band Number of bits assigned.

Aus der JP 11261421 A ist ein Verfahren zur Informationscodierung bekannt, bei dem eine Bitanzahlzuweisung in Abhängigkeit des Signal- Maskierungs-Abstandes erfolgt, wobei die Maskierungskurve aufgrund einer berechneten Hörschwelle festgelegt wird. Bei kleinem Signal- Maskierungs-Abstand werden zwei Bits für die Obertöne bereitgestellt.JP 11261421 A describes a method for information coding known in which a bit number assignment depending on the signal Masking distance takes place, the masking curve due to a calculated hearing threshold is set. With a small signal Masking distance becomes two bits for the overtones provided.

In dem Artikel "Die Kunst des Weglassens" von Felix von Leitner, erschienen in der Zeitschrift c't 2000, Heft 3, Seiten 130-137 werden die Grundlagen der Audio-Kompression, insbesondere der MPEG- Codierung beschrieben.In the article "The Art of Omission" by Felix von Leitner, published in the magazine c't 2000, issue 3, pages 130-137 the basics of audio compression, especially MPEG Coding described.

In der Veröffentlichung "ISO/IEC MPEG-2 Advanced Audio Coding" von Bosi et al., erschienen im Journal of Audio Engineering Society, Vol. 45, No. 10, Seiten 789-814 wird im Kapitel Quantization and Coding eine variable Bitzuweisung mit Hilfe der Reservoirtechnik beschrieben unter Berücksichtigung einer von einem psychoakustischen Modell hergeleiteten Maskierungsschwelle und einer maximal zur Verfügung stehenden Bitanzahl.In the publication "ISO / IEC MPEG-2 Advanced Audio Coding" by Bosi et al., Published in the Journal of Audio Engineering Society, Vol. 45, No. 10, pages 789-814 is described in the chapter Quantization and Coding a variable bit allocation using the reservoir technique described considering one of a psychoacoustic Model derived masking threshold and a maximum of Available number of bits.

Vorteile der ErfindungAdvantages of the invention

Das erfindungsgemäße Verfahren zur Codierung von Audiodaten mit den Merkmalen des unabhängigen Patentanspruchs hat demgegenüber den Vorteil, dass die Ermittlung einer an die Sollbitrate angepaßten Fehlerleistung, nachfolgend als Gütemaß bezeichnet, die Anzahl an notwendigen Iterationen zur Bestimmung der Quantisiererauflösung verringert, wodurch der Rechenaufwand erheblich reduziert wird. Darüber hinaus wird die Audioqualität nicht beeinträchtigt. Das erfindungsgemäße Verfahren zur Codierung von Audiodaten kann sowohl in Hardware als auch in Software implementiert werden.The method according to the invention for encoding audio data with the features of the independent claim on the other hand the advantage that the determination of one to the Target bit rate adjusted error performance, hereinafter as  Quality measure denotes the number of iterations required reduced to determine the quantizer resolution, whereby the computing effort is significantly reduced. Furthermore the audio quality is not affected. The Methods according to the invention for coding audio data can implemented in both hardware and software will.

Durch die in den abhängigen Ansprüchen aufgeführten Maßnahmen und Weiterbildungen sind vorteilhafte Verbesserungen des im unabhängigen Patentanspruch angegebenen Verfahrens zur Codierung von Audiodaten möglich.By those listed in the dependent claims Measures and further training are advantageous Improvements in the independent claim specified method for encoding audio data possible.

Besonders vorteilhaft ist, dass iterativ eine Rückwirkung der angepassten Maskierungsschwelle als Gütemaß auf den wahrnehmbaren Informationsgehalt berücksichtigt wird. Damit wird erreicht, dass die innerhalb der Anpassung des Gütemaßes durchgeführte Schätzung der Bitanzahl pro Rahmen genauer erfolgt.It is particularly advantageous that iteratively a retroactive effect the adjusted masking threshold as a measure of quality to the perceptible information content is taken into account. In order to is achieved within the adjustment of the Quality estimate of the number of bits per frame done more precisely.

Weiterhin ist es von Vorteil, dass bei der Quantisierung und Codierung der Audiodaten die Anzahl von notwendigen Iterationen erheblich reduziert wird, ohne dass es zu Beeinträchtigungen der Audioqualität führt.It is also advantageous that the quantization and Encoding the audio data the number of necessary Iterations is significantly reduced without causing it Impairment of audio quality leads.

Durch die Bereitstellung eines Bitreservoirs wird erreicht, dass kurzzeitig eine über der Sollbitzahl liegende erforderliche Bitanzahl zur Verfügung gestellt werden kann. Dies wird dann in anderen Rahmen dadurch ausgeglichen, dass eine Bitanzahl bereitgestellt wird, die unter der Sollbitzahl liegt, so dass im Mittel die Sollbitzahl erreicht wird.By providing a bit reservoir, that for a short time one that is above the target number of bits required number of bits can be provided. This is then offset in other frameworks by the fact that a number of bits is provided, which under the Target bit number is such that the target bit number is on average is achieved.

Schließlich ist es auch von Vorteil, dass ein Sender zur Durchführung des Verfahrens vorliegt, wobei der Prozessor einen Speicher, eine Quantisierung und eine Codierung aufweist.Finally, it is also advantageous that a transmitter for The method is carried out using the processor  a memory, quantization and coding having.

Zeichnungdrawing

Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden in der nachfolgenden Beschreibung näher erläutert. Es zeigtEmbodiments of the invention are in the drawing are shown and are described in the following description explained in more detail. It shows

Fig. 1 ein Blockschaltbild des erfindungsgemäßen Senders, Fig. 1 is a block diagram of the transmitter according to the invention,

Fig. 2 ein Signalflußdiagramm des erfindungsgemäßen Verfahrens, Fig. 2 is a signal flow diagram of the method according to the invention,

Fig. 3 ein erstes Flußdiagramm, Fig. 3 shows a first flow chart,

Fig. 4 ein Energiefrequenzdiagramm, Fig. 4 is an energy frequency diagram,

Fig. 5 ein erstes Schalldruckpegelfrequenzdiagramm, Fig. 5, a first sound pressure level frequency diagram,

Fig. 6 ein zweites Flußdiagramm, Fig. 6 is a second flow chart,

Fig. 7 ein zweites Schalldruckpegelfrequenzdiagramm und Fig. 7 shows a second sound pressure level and frequency diagram

Fig. 8 ein Bitentropiediagramm. Fig. 8 is a Bitentropiediagramm.

Beschreibungdescription

Bei digitalen Rundfunkübertragungsverfahren, wie es DAB (Digital Audio Broadcasting) oder DRM (Digital Radio Mondial) sind, stellt die Audiocodierung einen entscheidenden Schritt dar, da hier die verfügbare Bitrate und die Audioqualität optimiert werden müssen. Erfindungsgemäß wird nun die Maskierungsschwelle als Gütemaß verwendet und der wahrnehmbare Informationsgehalt der Audiodaten in Abhängigkeit von dem Gütemaß ermittelt.In digital broadcast transmission methods such as DAB (Digital Audio Broadcasting) or DRM (Digital Radio Mondial), the audio coding sets one decisive step, since here the available bit rate and the audio quality must be optimized. According to the invention, the masking threshold is now used as a measure of quality used and the perceptible information content of the Audio data determined depending on the quality measure.

Fig. 1 zeigt als Blockschaltbild einen erfindungsgemäßen Sender. Eine Datenquelle 8 ist an einen Prozessor 9 angeschlossen, der über einen Datenein-/-ausgang mit einem Speicher 15 verbunden ist. An den Prozessor 9 ist eine Quantisierung 10 angeschlossen, die wiederum mit einer Codierung 11 verbunden ist. Die Codierung 11 ist an einen Dateneingang eines Modulators 12 angeschlossen, der wiederum an einen Verstärker 13 angeschlossen ist. An einen Ausgang des Verstärkers 13 ist eine Antenne 14 angeschlossen. Fig. 1 shows a block diagram of a transmitter according to the invention. A data source 8 is connected to a processor 9 , which is connected to a memory 15 via a data input / output. A quantization 10 is connected to the processor 9 , which in turn is connected to a coding 11 . The coding 11 is connected to a data input of a modulator 12 , which in turn is connected to an amplifier 13 . An antenna 14 is connected to an output of the amplifier 13 .

Die Datenquelle 8 stellt die Daten bereit, die über die Antenne 14 versendet werden sollen und überträgt sie als Datenstrom zum Prozessor 9. Der Prozessor 9 transformiert diese Daten, die Audiodaten sind, in den Frequenzbereich, beispielsweise mittels einer modifizierten diskreten Cosinustransformation (MDCT), und berechnet daraus mittels eines psychoakustischen Modells die Mithör- oder Maskierungsschwelle. Die Maskierungsschwelle stellt einen Schwellwert dar, der wahrnehmbare von nicht wahrnehmbaren Signalkomponenten trennt. Komponenten mit Signalenergien, die unterhalb dieser Maskierungsschwelle liegen, werden durch das menschliche Gehör nicht wahrgenommen. Der Prozessor 9 verwendet den Speicher 15 zur Durchführung der Transformation und zur Bestimmung der Maskierungsschwelle. Weiterhin stellt dann der Prozessor 9 die Maskierungsschwelle und die transformierten Audiodaten der Quantisierung 10 zur Verfügung, die eine erfindungsgemäße Quantisierung und Codierung zusammen mit der Codierung 11 durchführt. Die so codierten Daten werden dann an den Modulator 12 übergeben, der gemäß den codierten Daten eine Modulation durchführt. Bei DAB wird hier die Modulation gemäß QPSK (Quadraturphasenumtastung) durchgeführt. Darüber hinaus setzt der Modulator 12 die modulierten Signale auf eine Zwischenfrequenz um und führt eine Verteilung der Modulationssymbole auf eng benachbarte Träger durch. Es findet also die Bildung eines orthogonalen Frequenzmultiplexes (OFDM) statt. Die so erzeugten OFDM- Signale werden dann vom Verstärker 13 verstärkt und mit der Antenne 14 versendet. The data source 8 provides the data that are to be sent via the antenna 14 and transmits it as a data stream to the processor 9 . The processor 9 transforms this data, which is audio data, into the frequency range, for example by means of a modified discrete cosine transformation (MDCT), and uses this to calculate the listening or masking threshold using a psychoacoustic model. The masking threshold represents a threshold value that separates perceptible from imperceptible signal components. Components with signal energies that are below this masking threshold are not perceived by the human ear. The processor 9 uses the memory 15 to carry out the transformation and to determine the masking threshold. Furthermore, the processor 9 then provides the masking threshold and the transformed audio data for the quantization 10 , which carries out a quantization and coding according to the invention together with the coding 11 . The data coded in this way are then transferred to the modulator 12 , which modulates according to the coded data. With DAB, the modulation is carried out in accordance with QPSK (quadrature phase shift keying). In addition, the modulator 12 converts the modulated signals to an intermediate frequency and distributes the modulation symbols to closely adjacent carriers. An orthogonal frequency division multiplex (OFDM) is thus formed. The OFDM signals generated in this way are then amplified by the amplifier 13 and sent with the antenna 14 .

Fig. 2 zeigt als Signalflußdiagramm den Ablauf der einzelnen Arbeitsschritte, die vom Prozessor 9, der Quantisierung 10 und der Codierung 11 durchgeführt werden. Es ist möglich, dass jeweils eine dedizierte Hardware für die einzelnen Blöcke eingesetzt wird oder dass alle drei Aufgaben von einem Prozessor erledigt werden. Dieses System zur Codierung von Audiodaten, das auch als Transformationscoder bezeichnet wird, wird beispielsweise bei MPEG-2/4-Advanced-Audio-Coding Anwendung finden. Die blockweise eingelesenen Audiodaten werden zunächst mittels einer MDCT in den Frequenzbereich transformiert. Parallel dazu werden mittels eines psychoakustischen Modells wichtige Parameter wie beispielsweise die Maskierungsschwelle ermittelt. Alle Signalanteile unterhalb dieser Schwelle sind für das menschliche Gehör nicht mehr wahrnehmbar. Die Maskierungsschwelle beschreibt also diejenige Fehlerleistung, die von der folgenden Quantisierung nicht überschritten werden darf. Fig. 2 shows as a signal the sequence of the individual steps, which are performed by the processor 9, quantization 10 and the encoding. 11 It is possible that dedicated hardware is used for the individual blocks or that all three tasks are performed by one processor. This system for encoding audio data, which is also referred to as a transformation encoder, will be used, for example, in MPEG-2/4-Advanced-Audio-Coding. The audio data read in blocks are first transformed into the frequency range by means of an MDCT. In parallel, important parameters such as the masking threshold are determined using a psychoacoustic model. All signal components below this threshold are no longer perceptible to human hearing. The masking threshold therefore describes the error power that the following quantization must not exceed.

Diese Seiteninformationen, zu denen die Maskierungsschwelle gehört, gelangen zusammen mit den aus der Transformation gewonnenen Spektralwerten in das Modul Quantisierung und Codierung, wo die eigentliche Codierung stattfindet. Abschließend erfolgt die Formatierung des Bitstroms.This side information to which the masking threshold heard come along with those from the transformation obtained spectral values in the module quantization and Coding, where the actual coding takes place. Finally, the bit stream is formatted.

In Fig. 6 ist ein Flußdiagramm zum Ablauf im Block Quantisierung und Codierung dargestellt. In Verfahrensschritt 1 erfolgt eine nichtlineare Stauchung des Spektrums der Audiodaten. Die spektralen Daten sind hierbei zu Frequenzbändern gruppiert. In Verfahrensschritt 2 werden die Quantisierer initialisiert. In Verfahrensschritt 3 erfolgt eine Skalierung und Quantisierung. Dabei erreichen die Daten nun die innere Iterationsschleife, in der die Skalierung und Quantisierung durchgeführt wird. Dabei wird in jedem Band die Auflösung des Quantisierers, also seine Güte, solange verbessert, bis die Fehlerenergie eines jeden Bandes kleiner oder gleich einer vorher im psychoakustischen Modell berechneten Fehlerenergie ist. Das Quantisierungsrauschen muß also unterhalb der Wahrnehmungsschwelle des menschlichen Gehörs liegen. Erfüllen alle Bänder dieses Kriterium, dies wird in Block 4 geprüft, dann wird die Schleife verlassen. Anschließend erfolgt die Codierung im Block 5, bei der das quantisierte Spektrum und die Seiteninformationen in das standardisierte Bitstromformat überführt werden. In Block 6 wird schließlich überprüft, ob die geforderte Bitrate eingehalten wird. Ist diese Bedingung erfüllt, dann kann der fertige Bitstrom in den Ausgangspuffer geschrieben werden. Im anderen Fall wird die Quantisierungsgüte in allen Frequenzbändern verschlechtert und es erfolgt erneut der Rücksprung in die innere Schleife.In FIG. 6, a flow chart is shown to flow in the block quantization and coding. In method step 1 there is a non-linear compression of the spectrum of the audio data. The spectral data are grouped into frequency bands. In step 2 , the quantizers are initialized. In method step 3 , scaling and quantization take place. The data now reach the inner iteration loop in which the scaling and quantization is carried out. The resolution of the quantizer, ie its quality, is improved in each band until the error energy of each band is less than or equal to an error energy previously calculated in the psychoacoustic model. The quantization noise must therefore be below the threshold of perception of the human ear. If all bands meet this criterion, this is checked in block 4 , then the loop is exited. The coding in block 5 then takes place, in which the quantized spectrum and the side information are converted into the standardized bitstream format. In block 6 , it is finally checked whether the required bit rate is observed. If this condition is met, the finished bit stream can be written to the output buffer. In the other case, the quality of quantization deteriorates in all frequency bands and the return to the inner loop takes place again.

Dieser schematisch beschriebene Ablauf lässt sich anhand eines konkreten Signalbeispiels in Fig. 4 näher erläutern. Aufgetragen ist der Verlauf der Signalenergie und der Maskierungsschwelle über der Frequenzachse. Die Maskierungsschwelle wurde in dem psychoakustischen Modell berechnet und beschreibt, welche Signalanteile für das menschliche Gehör wahrnehmbar sind und welche nicht. Diejenigen Anteile, die unter der Schwelle liegen sind nicht wahrnehmbar, während die über der Schwelle liegenden Anteile akustisch wahrnehmbar sind. Die Wirkungsweise der beiden Iterationsschleifen aus Fig. 6 lässt sich so charakterisieren, dass ausgehend von einem Initialisierungszustand die Quantisierer so eingestellt werden, dass das Quantisierungsrauschen möglichst die Form und Lage der aus der Psychoakustik ermittelten Maskierungsschwelle annehmen soll. This schematically described sequence can be explained in more detail using a concrete signal example in FIG. 4. The course of the signal energy and the masking threshold is plotted over the frequency axis. The masking threshold was calculated in the psychoacoustic model and describes which signal components are perceptible to the human ear and which are not. Those parts below the threshold are imperceptible, while the parts above the threshold are perceptible acoustically. The mode of operation of the two iteration loops from FIG. 6 can be characterized in such a way that, starting from an initialization state, the quantizers are set in such a way that the quantization noise should take on the form and position of the masking threshold determined from the psychoacoustics.

Fig. 4 zeigt als untere punktierte Linie den initialisierten Ausgangszustand. Diese Linie ist waagerecht. Die innere Iterationsschleife sorgt für die spektrale Formung der Fehlerenergie, die von den Quantisierern verursacht wird, während die äußere Schleife für die Verschiebung zuständig ist, die bei Überschreiten der Sollbitzahl erforderlich wird. Bei dieser Vorgehensweise sind mehrere Iterationen notwendig, um die optimalen Quantisierergüten für die gegebene Sollbitzahl zu erhalten. Fig. 4 shows as a lower dotted line the initialized starting state. This line is horizontal. The inner iteration loop provides the spectral shaping of the error energy caused by the quantizers, while the outer loop is responsible for the shift that is required when the target number of bits is exceeded. With this procedure, several iterations are necessary in order to obtain the optimal quantizer quality for the given target number of bits.

Fig. 3 zeigt nun als Flußdiagramm das erfindungsgemäße Verfahren zur Codierung von Audiodaten. Das gestauchte Spektrum wird dazu verwendet, den wahrnehmbaren Informationsgehalt (Perceptual Entropy = PE) mittels des Prozessors 9 zu berechnen. Die PE ist der wahrnehmbare Informationsgehalt und ist in etwa proportional zur Bitrate. Sie berechnet sich laut Informationstheorie für alle hörbaren Signalanteile aus der Maskierungsschwelle M(ω) und der Signalleistung S(ω)
Fig. 3 now shows as a flow chart the inventive method for encoding audio data. The compressed spectrum is used to calculate the perceptual entropy (PE) by means of the processor 9 . The PE is the perceptible information content and is roughly proportional to the bit rate. According to information theory, it is calculated for all audible signal components from the masking threshold M (ω) and the signal power S (ω)

In der Fig. 5 wird der Begriff Perceptual Entropy beziehungsweise wahrnehmbarer Informationsgehalt veranschaulicht: Es handelt sich dabei um die getönte Fläche zwischen dem Signalpegel und der Maskierungsschwelle. Im nachfolgenden Schritt wird dann aus der berechneten PE die geschätzte notwendige Anzahl von Bits, also die Bitrate für jeden Kanal ermittelt.In Fig. 5 the concept of perceptual entropy or perceptual information content is illustrated: This is the tinted area between the signal level and the masking threshold. In the subsequent step, the estimated necessary number of bits, ie the bit rate for each channel, is then determined from the calculated PE.

Dies geschieht nun im Block, der bezeichnet ist mit Schätzung Bitrate aus PE. Da der Zusammenhang zwischen tatsächlicher Bitrate und PE nicht geschlossen lösbar ist, wird dieser Zusammenhang durch Messung ermittelt und durch unten stehende Formel angenähert. Wenn die Schätzung des Bitaufwands für jeden Kanal getrennt erfolgt, lässt sich der Bitaufwand br daher wie folgt aus der PE berechnen:
This now happens in the block, which is designated with an estimate of the bit rate from PE. Since the relationship between the actual bit rate and PE cannot be solved in a closed manner, this relationship is determined by measurement and approximated using the formula below. If the bit expenditure is estimated separately for each channel, the bit expenditure br can therefore be calculated from the PE as follows:

br = a.PE + b.√PE + c.br = a.PE + b.√PE + c.

Ein geeigneter Datensatz a, b, c lässt sich angepasst an die Transformationslänge der MDCT für Signale mit stationären bzw. transientem Charakter aus Simulationen ermitteln. Mit diesem Zusammenhang hat man nun die Möglichkeit, die zur Codierung dieses Signalabschnitts notwendige Bitrate aus der PE zu bestimmen.A suitable data set a, b, c can be adapted to the Transformation length of the MDCT for signals with stationary or transient character from simulations. With In this context, you now have the opportunity to Coding of this signal section necessary bit rate from the To determine PE.

Im folgenden Block wird nun der Einfluß des Bitreservoirs berücksichtigt. Das Bitreservoir hat die Aufgabe, bei Signalabschnitten, die hohe Bitraten benötigen, also z. B. transiente Signale - wie z. B. Anschläge - kurzzeitig eine höhere Bitrate zu erlauben als es die Sollbitrate vorgibt. Im einfachsten Fall werden hierbei zwei Fälle unterschieden: Der erste Fall tritt ein, falls der geschätzte Bitaufwand br größer ist als die durchschnittlich erlaubte Bitanzahl bitsToUse. Für diesen Rahmen darf dann zusätzlich ein definierter Anteil aus dem Reservoir aufgebraucht werden. Der zweite Fall tritt ein, falls die geschätzte Bitrate unterhalb der durchschnittlichen liegt. In diesem Fall muß dafür gesorgt werden, dass das Reservoir wieder aufgefüllt wird, indem die durchschnittliche Bitrate geringfügig unterschritten wird.The following block shows the influence of the bit reservoir considered. The bit reservoir has the task of Signal sections that require high bit rates, e.g. B. transient signals - such as B. attacks - briefly one Allow higher bit rate than the target bit rate specifies. In the simplest case, a distinction is made between two cases: The first case occurs if the estimated bit expenditure br is greater than the average number of bits allowed bitsToUse. For this frame an additional may then defined portion of the reservoir are used up. The second case occurs if the estimated bit rate is below the average. In this case be made sure that the reservoir is refilled is made slightly by the average bit rate is undercut.

In beiden Fällen wird die geschätzte Bitrate br von der erlaubten Bitrate bitsToUse nach oben oder unten abweichen. Da die geschätzte Bitrate br direkt mit der Maskierungsschwelle korreliert ist, ist es notwendig, die zulässige Fehlerenergie (Gütemaß) zu verkleinern oder zu vergrößern, d. h. die Quantisierergüte zu verbessern oder zu verschlechtern. Diese Anpassung wird im folgenden Abschnitt beschrieben. Der Block Anpassung Maskierungsschwelle ist der letzte Schritt vor der eigentlichen Quantisierung und Codierung. Hierbei wird die Anpassung des Gütemaßes an diejenige Bitrate vorgenommen (bitsToUse), die die Reservoirsteuerung freigbibt. Der Bitratenschätzer geht zunächst von der Maskierungsschwelle und somit von einer PE aus, die zu einer Quantisierung ohne hörbare Verzerrungen führt.In both cases, the estimated bit rate br is derived from the allowable bit rate bitsToUse up or down. Since the estimated bit rate br directly matches the Masking threshold is correlated, it is necessary to permissible error energy (quality measure) to reduce or to enlarge, d. H. to improve or improve the quantizer quality  worsen. This adjustment is described in the following section described. The Adjust Masking Threshold block is the last step before the actual quantization and Encoding. Here, the adjustment of the quality measure made the bit rate (bitsToUse) that the Reservoir control releases. The bit rate estimator goes initially from the masking threshold and thus from a PE out leading to quantization with no audible distortion leads.

Wenn jedoch die geschätzte Bitrate von der Reservoirsteuerung nicht zur Verfügung gestellt werden kann, muß die Quantisierung gröber erfolgen, es wird also die erlaubte Fehlerleistung über die Maskierungsschwelle angehoben. Würde die erlaubte Fehlerleistung somit zuvor nicht angepasst, benötigt die Quantisierung und Codierung mehrere Iterationsdurchläufe, bis die tatsächlich verfügbare Bitrate unterschritten ist. Innerhalb dieser Iterationsdurchläufe werden die Quantisierergüten schrittweise verschlechtert. Der Ansatz der Anpassung ist daher, die erlaubte Fehlerleistung derart zu verändern, dass von vornherein die richtigen Quantisierergüten ausgewählt werden, so dass zusätzliche Iterationen vermieden werden. Ähnlich funktioniert dies bei einer Erhöhung der Bitrate durch die Reservoirsteuerung. In diesem Fall muß die Quantisiererauflösung vergrößert werden (höhere Güte), da ansonsten innerhalb der Quantisierungsroutine nach der ersten Iteration abgebrochen würde. Dies würde zu einer Unterschreitung der Bitrate führen. Nun kann in die Iterationsschleifen gemäß Verfahrensschritt 3 aus Fig. 6 mit den Daten gegangen werden.However, if the estimated bit rate cannot be made available by the reservoir controller, the quantization must be carried out more coarsely, ie the permitted error power is raised above the masking threshold. If the permitted error performance were not adjusted beforehand, the quantization and coding requires several iteration runs until the actual available bit rate is fallen below. The quantizer quality is gradually deteriorated within these iteration runs. The adaptation approach is therefore to change the permitted error performance in such a way that the correct quantizer qualities are selected from the outset, so that additional iterations are avoided. This works in a similar way if the bit rate is increased by the reservoir control. In this case, the quantizer resolution must be increased (higher quality), since otherwise the quantization routine would abort after the first iteration. This would lead to the bit rate falling below. Now the iteration loops according to method step 3 from FIG. 6 can be entered with the data.

Im Folgenden wird der Vorgang der Anpassung der erlaubten Fehlerleistung beschrieben. Der erste Schritt zu einer gezielten Anpassung der erlaubten Fehlerleistung ist die Schätzung der bei der Sollbitrate erreichbaren PE. Da der funktionale Zusammenhang Bitanzahl/Rahmen = f(PE) nicht eindeutig umkehrbar ist, muß die PE über ein Näherungsverfahren ermittelt werden. Das verwendete Näherungsverfahren soll anhand von Fig. 8 verdeutlicht werden. Dabei wird der Verlauf aus Messungen der für verschiedene PE's auftretenden Bitrate entnommen. Angenommen sei, dass die initiale Entropie pe0 ist, zu welcher die geschätzte Bitrate br0 gehört. Nach der Bitreservoirsteuerung wird dem aktuellen Signalabschnitt eine Bitrate von br zur Verfügung gestellt, welche eine Perceptual Entropy von pe besitzt. Der funktionale Zusammenhang zwischen pe und br sei allgemein
The process of adjusting the allowed error performance is described below. The first step to a targeted adjustment of the allowed error performance is the estimation of the PE achievable at the target bit rate. Since the functional relationship between the number of bits / frame = f (PE) is not clearly reversible, the PE must be determined using an approximation method. The approximation method used is to be illustrated with reference to FIG. 8. The course is taken from measurements of the bit rate occurring for different PEs. Assume that the initial entropy is pe0, to which the estimated bit rate br0 belongs. After the bit reservoir control, the current signal section is provided with a bit rate of br, which has a perceptual entropy of pe. The functional relationship between pe and br is general

br(pe) = a.pe + b.√pe + c.br (pe) = a.pe + b.√pe + c.

Dann kann man sich dem tatsächlich gesuchten pe durch sukzessive Approximation annähern:
Then you can approximate the actually searched pe by successive approximation:

Aus der Schätzung der zur Sollbitrate passenden PE muß nachfolgend noch die Anpassung der erlaubten Fehlerleistung berechnet werden. Die pe berechnet sich wie bereits beschrieben nach:
From the estimate of the PE matching the target bit rate, the adaptation of the permitted error power must subsequently be calculated. The pe is calculated as already described according to:

Der Ausdruck linewidth(sfb) gibt die Zahl der Spektralkoeffizienten innerhalb des Frequenzbandes sfb an. Der min-Operator sorgt dafür, dass nur wahrnehmbare Frequenzbänder in die Berechnung eingehen, d. h. das inverse Signal-To-Mask-Ration (ismr) ist kleiner eins. Wird die Maskierungsschwelle mittels eines Faktors fac verändert, dann ergibt sich der folgende Zusammenhang:
The expression linewidth (sfb) indicates the number of spectral coefficients within the frequency band sfb. The min operator ensures that only perceptible frequency bands are included in the calculation, ie the inverse signal-to-mask ration (ismr) is less than one. If the masking threshold is changed using a factor fac, the following relationship results:

Die Größe audible_lines soll die Anzahl aller wahrnehmbaren Spektralkoeffizienten darstellen. Es lässt sich folglich aus der zuvor geschätzten Veränderung Δp = pe2 - pe0 eine Abschätzung über die äquivalente Anpassung der Maskierungsschwelle ableiten:
The size audible_lines should represent the number of all perceptible spectral coefficients. An estimate of the equivalent adaptation of the masking threshold can therefore be derived from the previously estimated change Δp = pe2 - pe0:

Voraussetzung für eine solche Berechnung ist jedoch, dass sich die Anzahl der wahrnehmbaren Signalanteile audible_lines nicht verändert. Dies kann für den allgemeinen Fall jedoch nicht angenommen werden, wie Fig. 7 zeigt. Die mittlere Maskierungsschwelle stellt die nicht angepasste, ursprüngliche dar. Laut dieser Maskierungsschwelle sind alle dunklen und mittleren Bereiche hörbar. Bei einer Anhebung der Maskierungsschwelle sind nur die dunklen Bereiche hörbar, so dass die Anzahl der wahrnehmbaren Signalanteile sinkt. Das Gegenteil tritt bei einer Absenkung der Maskierungsschwelle ein, wodurch die Anzahl der wahrnehmbaren Signalanteile zunimmt.However, a prerequisite for such a calculation is that the number of audible_lines signal components that can be perceived does not change. However, this cannot be assumed for the general case, as shown in FIG. 7. The middle masking threshold represents the unmatched, original one. According to this masking threshold, all dark and middle areas are audible. When the masking threshold is raised, only the dark areas can be heard, so that the number of perceptible signal components drops. The opposite occurs when the masking threshold is lowered, as a result of which the number of perceptible signal components increases.

Um eine genauere Anpassung der erlaubten Fehlerleistung zu erreichen, was zu einer weiteren Absenkung bzw. Begrenzung der Iterationen innerhalb der Bitzuweisung führt, wird die PE und die Größe audible_lines nach der ersten Approximation erneut berechnet. Auf Basis dieser aktuellen Werte wird nachfolgend nochmals eine sukzessive Approximation nach Fig. 8 vollzogen. Durch diese Maßnahme kann selbst bei kritischen Sequenzen die Bitzuweisung auf maximal fünf Iterationen begrenzt werden. Im Originalverfahren waren dafür etwa 30 Iterationen notwendig.In order to achieve a more precise adjustment of the permitted error performance, which leads to a further reduction or limitation of the iterations within the bit allocation, the PE and the size audible_lines are recalculated after the first approximation. Based on these current values, a successive approximation according to FIG. 8 is carried out again in the following. With this measure, the bit allocation can be limited to a maximum of five iterations even in the case of critical sequences. About 30 iterations were necessary for this in the original process.

Damit wurde das Ziel erreicht, direkt aus der PE mit zusätzlichen Anforderungen aus dem Bitreservoir die notwendige Bitrate für den aktuellen Signalabschnitt zu schätzen und daraus die erlaubte Fehlerleistung der Quantisierer zu bestimmen. Durch diese Schätzung wurde die Anzahl der notwendigen äußeren Schleifendurchläufe stark minimiert.So the goal was achieved, directly from the PE with additional requirements from the bit reservoir necessary bit rate for the current signal section estimate and from this the allowed error performance of the To determine quantizers. This estimate made the Number of the necessary external loop runs strong minimized.

Claims (6)

1. Verfahren zur iterativen Codierung von Audiodaten,
wobei zu Beginn der Iteration für die Audiodaten anhand vorgegebener Parameter eine Maskierungsschwelle als eine erste Näherung eines Gütemasses für eine nachfolgende Quantisierung ermittelt wird,
wobei die Audiodaten in einen Frequenzbereich transformiert werden,
wobei die Audiodaten in Rahmen vorliegen,
wobei in jeder Iterationsstufe ein wahrnehmbarer Informationsgehalt der Audiodaten in Abhängigkeit von dem geltenden Gütemaß ermittelt wird, und für den wahrnehmbaren Informationsgehalt eine erforderliche Bitanzahl pro Rahmen ermittelt wird, und diese Anzahl mit einer Sollbitzahl pro Rahmen verglichen wird, und in Abhängigkeit von der Bitanzahl pro Rahmen und dem Gütemaß die Quantisierung und Codierung der Audiodaten erfolgt,
wobei in jeder Iterationsstufe das Gütemaß neu in Abhängigkeit von der Sollbitzahl und des wahrnehmbaren Informationsgehalts durch ein sukzessives Approximationsverfahren geschätzt wird.
1. method for iterative coding of audio data,
a masking threshold being determined as a first approximation of a quality measure for a subsequent quantization at the beginning of the iteration for the audio data on the basis of predetermined parameters,
whereby the audio data is transformed into a frequency range,
with the audio data in frames,
wherein a perceptible information content of the audio data is determined in each iteration level depending on the applicable quality measure, and a required number of bits per frame is determined for the perceptible information content, and this number is compared with a target number of bits per frame, and depending on the number of bits per frame and the quality measure is used to quantize and encode the audio data,
in each iteration level, the quality measure is newly estimated depending on the target bit number and the perceptible information content by a successive approximation method.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Rückwirkung des angepassten Gütemasses auf den wahrnehmbaren Informationsgehalt iterativ berücksichtigt wird.2. The method according to claim 1, characterized in that a retroactive effect of the adjusted quality measure on the perceptible information content considered iteratively becomes. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Quantisierung und die Codierung der Audiodaten iterativ erfolgen.3. The method according to claim 1 or 2, characterized in that the quantization and coding of the audio data done iteratively. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass ein Bitreservoir vorgesehen wird, um eine kurzzeitig über der Sollbitzahl liegende erforderliche Bitanzahl zur Verfügung zu stellen.4. The method according to any one of claims 1 to 3, characterized characterized in that a bit reservoir is provided to  a required one that is temporarily above the target number of bits To provide the number of bits. 5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass ein Quantisierungsfehler in seiner spektralen Form an die Maskierungsschwelle angepasst wird.5. The method according to any one of claims 1 to 4, characterized characterized that a quantization error in its spectral shape is adapted to the masking threshold. 6. Sender zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der Sender einen Prozessor, eine Quantisierung und eine Codierung aufweist.6. Transmitter to carry out the method according to one of the Claims 1 to 5, characterized in that the transmitter a processor, quantization and coding having.
DE2001113322 2001-03-20 2001-03-20 Process for encoding audio data Expired - Fee Related DE10113322C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2001113322 DE10113322C2 (en) 2001-03-20 2001-03-20 Process for encoding audio data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2001113322 DE10113322C2 (en) 2001-03-20 2001-03-20 Process for encoding audio data

Publications (2)

Publication Number Publication Date
DE10113322A1 DE10113322A1 (en) 2002-10-02
DE10113322C2 true DE10113322C2 (en) 2003-08-21

Family

ID=7678111

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2001113322 Expired - Fee Related DE10113322C2 (en) 2001-03-20 2001-03-20 Process for encoding audio data

Country Status (1)

Country Link
DE (1) DE10113322C2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009056867A1 (en) * 2007-10-31 2009-05-07 Cambridge Silicon Radio Ltd Adaptive tuning of the perceptual model

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0966108A2 (en) * 1998-06-16 1999-12-22 Matsushita Electric Industrial Co., Ltd. Dynamic bit allocation and apparatus and method for audio coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0966108A2 (en) * 1998-06-16 1999-12-22 Matsushita Electric Industrial Co., Ltd. Dynamic bit allocation and apparatus and method for audio coding

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOSI, M. u.a.: ISO/IEC MPEG-2 Advanced Audio Coding. In: J. Audio Eng.Soc., Vol. 45, No. 10, October 1997, S. 789-814 *
JP 11261421 A. Patent abstracts of Japan. (CD-Rom), 1999 *
LEITNER, F.: Die Kunst des Weglassens. In: c't, Heft 3, 2000, S. 130-134 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009056867A1 (en) * 2007-10-31 2009-05-07 Cambridge Silicon Radio Ltd Adaptive tuning of the perceptual model
US8326619B2 (en) 2007-10-31 2012-12-04 Cambridge Silicon Radio Limited Adaptive tuning of the perceptual model

Also Published As

Publication number Publication date
DE10113322A1 (en) 2002-10-02

Similar Documents

Publication Publication Date Title
DE19921122C1 (en) Method and device for concealing an error in a coded audio signal and method and device for decoding a coded audio signal
EP0954909B1 (en) Method for coding an audio signal
DE69927505T2 (en) METHOD FOR INSERTING ADDITIONAL DATA INTO AN AUDIO DATA STREAM
DE19747132C2 (en) Methods and devices for encoding audio signals and methods and devices for decoding a bit stream
DE60310716T2 (en) SYSTEM FOR AUDIO CODING WITH FILLING OF SPECTRAL GAPS
EP1687810B1 (en) Device and method for determining a quantiser step size
DE60202881T2 (en) RECONSTRUCTION OF HIGH-FREQUENCY COMPONENTS
DE19628293C1 (en) Encoding and decoding audio signals using intensity stereo and prediction
DE60103424T2 (en) IMPROVING THE PERFORMANCE OF CODING SYSTEMS USING HIGH FREQUENCY RECONSTRUCTION PROCESSES
DE60214027T2 (en) CODING DEVICE AND DECODING DEVICE
DE69923555T2 (en) METHOD AND DEVICE FOR ENTROPYING THE CODING OF QUANTIZED TRANSFORMATION COEFFICIENTS OF A SIGNAL
DE69333394T2 (en) Highly effective coding method and device
EP0931386B1 (en) Method for signalling a noise substitution during audio signal coding
DE19736669C1 (en) Beat detection method for time discrete audio signal
EP0910927A1 (en) Process for coding and decoding stereophonic spectral values
WO2005083678A1 (en) Device and method for processing a multi-channel signal
EP1382038A2 (en) Device and method for embedding a watermark in an audio signal
DE60131766T2 (en) PERCEPTIONALLY IMPROVED CODING OF ACOUSTIC SIGNALS
DE60214627T2 (en) Method and apparatus for bit rate conversion
WO1998048531A1 (en) Method for masking defects in a stream of audio data
EP1023777B1 (en) Method and device for limiting a stream of audio data with a scaleable bit rate
DE10113322C2 (en) Process for encoding audio data
DE19742201C1 (en) Method of encoding time discrete audio signals, esp. for studio use
DE10119980C1 (en) Audio data coding method uses maximum permissible error level for each frequency band and signal power of audio data for determining quantisation resolution
DE19804584A1 (en) Method and device for encoding and decoding audio signals

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8304 Grant after examination procedure
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20141001