DE19515805C2

DE19515805C2 - Method for data reduction of a digitized audio signal

Info

Publication number: DE19515805C2
Application number: DE1995115805
Authority: DE
Inventors: Soeren Nielsen; Susanne Ritscher
Original assignee: Institut fuer Rundfunktechnik GmbH
Current assignee: Institut fuer Rundfunktechnik GmbH
Priority date: 1995-04-29
Filing date: 1995-04-29
Publication date: 1997-08-07
Anticipated expiration: 2015-04-30
Also published as: DE19515805A1

Description

Zur Datenreduktion digitalisierter Tonsignale ist es bekannt (DE 36 39 753 C2), bei der Quellencodierung das digitalisierte Tonsignal durch eine Filterung im Zeitbereich in eine Anzahl von Teilbändern aufzuspalten und die einzelnen Teilbandsignale nach psycho-akustischen Gesichtspunkten neu zu quantisieren. Hierzu wird die Quantisierung durch ein Gehörmodell gesteuert, welches durch die Verdeckungseigenschaften (Mithörschwelle, Ruhehörschwelle) des menschlichen Gehörs bestimmt wird. Anstelle einer Filterung des digitalisierten Tonsignals im Zeitbereich läßt sich auch eine Transformation der Abtastwerte in die Frequenzebene vornehmen; die entstehenden Spektralanteile werden ebenso wie die Teilbandsignale nach psychoakustischen Gesichtspunkten neu quantisiert (EP 0251 028 B1).For data reduction of digitized audio signals, it is known (DE 36 39 753 C2), at the source coding the digitized sound signal by filtering in Split the time range into a number of subbands and the individual ones To re-quantize subband signals from a psycho-acoustic point of view. For this purpose, the quantization is controlled by an auditory model, which is controlled by the Masking properties (listening threshold, resting hearing threshold) of the human Hearing is determined. Instead of filtering the digitized audio signal in the Time domain can also be a transformation of the samples into the frequency level make; the resulting spectral components are just like the subband signals newly quantized according to psychoacoustic criteria (EP 0251 028 B1).

Bei den bekannten Datenreduktionsverfahren tritt das Problem auf, daß bei der Quellencodierung die Eigenschaften des menschlichen Gehörs bei der Wiedergabe des quellencodierten Tonsignals berücksichtigt werden. Die Tonwahrnehmung des menschlichen Gehörs ist jedoch von einer Reihe von Parametern abhängig, welche bislang bei der Quellencodierung nicht ausreichend berücksichtigt wurden. Insbesondere ändern sich viele Eigenschaften des menschlichen Gehörs mit dem Schalldruck. Die wahrgenommene Lautheit ist vom Schalldruck jedoch nicht linear abhängig, sondern ändert sich in Abhängigkeit von der Frequenzlage des gehörten Schalls. Ferner stellt die Ruhehörschwelle (d. h., die untere Grenze für den Schalldruckpegel, unterhalb welcher ein Schall vom Gehör nicht wahrnehmbar ist) eine Nichtlinearität infolge der sprunghaften Wahrnehmungsänderung bei Über- oder Unterschreitung der Ruhehörschwelle dar. Schließlich stellt auch die pegelabhängige Form der Mithörschwelle (d. h., die Wahrnehmungsgrenze von einem schwächerem Signal bei zeitgleicher oder zeitnaher Anwesenheit eines stärkeren Signals (Maskierer) gleicher oder benachbarter Frequenz) eine weitere Nichtliniarität wegen der nicht-linearen Verdeckungsänderungen bei unterschiedlichen Maskiererpegeln dar.In the known data reduction method, the problem arises that Source coding the characteristics of human hearing when playing of the source-coded audio signal are taken into account. The sound perception of the Human hearing is dependent on a number of parameters, however have so far not been sufficiently taken into account in the source coding. In particular, many characteristics of human hearing change with it Sound pressure. However, the perceived loudness is not linear from sound pressure dependent, but changes depending on the frequency of the heard Sound. Furthermore, the resting hearing threshold (i.e., the lower limit for the Sound pressure level below which sound is not perceptible to the hearing) a nonlinearity as a result of the sudden change in perception when over or Below the resting hearing threshold represents. Finally, the level-dependent Form of listening threshold (i.e., the perceptual limit of a weaker Signal when a stronger signal is present or at the same time (Masker) of the same or adjacent frequency) due to another non-linearity the non-linear masking changes at different masking levels represents.

Bei der bisher praktizierten Quellencodierung geht man davon aus, daß ein bestimmter elektrischer Signalpegel einem exakt festgelegten akustischen Schalldruckpegel auf der Wiedergabeseite entspricht. Bei der Lautstärkeregelung des Wiedergabesystems ändert sich infolge der erläuterten Nichtlinearitäten zwischen Schalldruckpegel und Wahrnehmung der Lautheitseindruck des Menschen in nicht linearer Weise. Dieses Phänomen hat für datenreduzierte Tonsignale unerwünschte Folgen. Bei der psychoakustischen Datenreduktion wird nämlich festgestellt, wie weit die Auflösung eines Spektralanteils des Nutzsignals bei einer angenommenen Wiedergabelautstärke verringert werden kann, damit das dadurch verursachte Quantisierungsrauschen gerade noch unterhalb der Mithör- oder Ruhehörschwelle liegt. Mit dieser festgestellten Minimalauflösung wird dann der betreffende Spektralanteil codiert. Durch ungünstige Lautstärkeregelung auf der Wiedergabeseite kann das als unhörbar angenommene Quantisierungsrauschen hörbar werden, was die Wiedergabequalität der datenreduzierten Tonsignale verringert.With the source coding practiced so far, it is assumed that a certain electrical signal level a precisely defined acoustic Sound pressure level on the playback side corresponds. With the volume control of the Playback system changes between due to the non-linearities explained Sound pressure level and perception of people's loudness impression in not linear way. This phenomenon has undesirable for data-reduced audio signals Consequences. Psychoacoustic data reduction determines how far the resolution of a spectral component of the useful signal in an assumed Playback volume can be reduced so that it caused Quantization noise just below the listening or quiet listening threshold lies. With this determined minimum resolution, the relevant one becomes Spectral component coded. Due to unfavorable volume control on the playback side can the quantization noise assumed to be inaudible be heard, what the playback quality of the data-reduced audio signals is reduced.

Eine weitere Verschlechterung der Wiedergabequalität kann sich ergeben, wenn Signalanteile, die bei der Codierung als unhörbar (irrelevant) angenommen und deshalb im datenreduzierten Signal weggelassen wurden, infolge geänderter Wieder gabelautstärke wahrnehmbar wären; ihr Fehlen wird als Klangverfälschung bemerkt. Andererseits kann es vorkommen, daß bei der Codierung Signalanteile als hörbar angenommen und daher in dem datenreduzierten Signal codiert wurden, welche bei entsprechender Wiedergabelautstärke unhörbar sind. Die nutzlose Codierung dieser unhörbaren Signalanteile beansprucht eine unnötige Datenkapazität in dem Übertragungskanal, welche besser nutzbar wäre, beispielsweise für die im Zeit multiplex übertragenen Zusatzdienste oder für eine bessere Auflösung anderer Signalanteile. Gleiches gilt, wenn die bei der Codierung vorgenommene Hörbar keitsschwelle für das Quantisierungsrauschen im Wiedergabefall höher ist, so daß eine unnötig gute Quantisierung vorgenommen wurde.A further deterioration in the playback quality can result if Signal components that are assumed to be inaudible (irrelevant) during coding and were therefore omitted in the data-reduced signal as a result of changed re fork volume would be perceptible; their absence is noted as a distortion of sound. On the other hand, it can happen that signal components are audible during coding assumed and therefore encoded in the data-reduced signal, which at corresponding playback volume are inaudible. The useless coding of this inaudible signal components takes up unnecessary data capacity in the Transmission channel that would be more usable, for example for those in time multiplex transmitted additional services or for a better resolution of others Signal components. The same applies if the audible made during the coding speed threshold for the quantization noise in the playback case is higher, so that an unnecessarily good quantization has been carried out.

Die Aufgabe der Erfindung besteht darin, die Codierung bezüglich der Daten reduktion und der Wiedergabequalität zu optimieren.The object of the invention is to encode the data to optimize reduction and playback quality.

Diese Aufgabe wird erfindungsgemäß durch die kennzeichnenden Merkmale des Patentanspruchs 1 gelöst.This object is achieved by the characterizing features of Claim 1 solved.

Vorteilhafte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen.Advantageous refinements and developments of the invention Procedures result from the subclaims.

Die Erfindung wird im folgenden anhand eines in den Zeichnungen veran schaulichten Ausführungsbeispiels näher erläutert. Es zeigt The invention is hereinafter based on one in the drawings clear exemplary embodiment explained in more detail. It shows

Fig. 1 ein Blockschaltbild eines aus Encoder und Decoder bestehenden Systems zur Datenreduktion nach dem erfindungsgemäßen Verfahren; Figure 1 is a block diagram of a system consisting of encoder and decoder for data reduction according to the inventive method.

Fig. 2 ein Zeitdiagramm eines Signalpegelverlaufs, bestehend aus einem lauten Anfangsabschnitt, einer Pause und einem leiseren Endabschnitt; Fig. 2 is a timing diagram of a signal level curve, consisting of a loud initial section, a pause and a softer end portion;

Fig. 3 ein Zeitdiagramm für eine angenommene maximale Abhörlautstärke mit einer vom Hörer vorgenommenen sprunghaften Änderung der Lautstärkeeinstellung, und Fig. 3 is a timing diagram for an assumed maximum listening volume with a made by the listener abrupt change of the volume setting, and

Fig. 4 eine Kurvenschar für die im Block "Gehörmodell" von Fig. 1 verwendete Abbildungsfunktion zwischen der elektrischen und akustischen Signalebene. Fig. 4 is a family of curves for the mapping function used in the block "hearing model" of Fig. 1 between the electrical and acoustic signal level.

Bei dem in Fig. 1 gezeigten Blockschaltbild eines Systems zur Datenreduktion umfaßt der Encoder den Funktionsblock 10 "Datenreduktion" mit der Unterfunktion "Quantisierung", den Funktionsblock 20 "Erfassung der Langzeit- Signalparameter" und den Funktionsblock 30 "Modell des Gehörs". Dem Encoder wird eine digitalisiertes Tonsignal 11 zugeführt, welches an die Eingänge der Funktionsblöcke 10, 20 und 30 gleichzeitig gelangt. Aus dem Tonsignal 11 ermittelt der Funktionsblock 20 den durchschnittlichen Pegel über einen statistisch ausreichend langen Zeitabschnitt. Der so gebildete Langzeit-Signalparameter wird dem Block 30 als Eingangssignal 31 zugeführt, wo er in einem anhand von Fig. 4 noch näher erläuterten Gehörmodell verarbeitet wird. Der Funktionsblock 30 "Gehörmodell" erzeugt in Abhängigkeit von dem digitalisierten Tonsignal 11 und dem Langzeit-Signalparameter 31 ein Steuersignal 32, mit welchem die Quantisierung der digitalisierten Tonsignale 11 in dem Block 10 gesteuert wird.In the block diagram of a system for data reduction shown in FIG. 1, the encoder comprises the function block 10 "data reduction" with the subfunction "quantization", the function block 20 "acquisition of the long-term signal parameters" and the function block 30 "model of hearing". A digitized audio signal 11 is fed to the encoder, which reaches the inputs of the function blocks 10 , 20 and 30 simultaneously. From the sound signal 11, the function block 20 determines the average level over a statistically sufficiently long period of time. The long-term signal parameter thus formed is the block 30 is supplied as an input signal 31, where it is processed in a still explained in more detail with reference to FIG. 4 auditory model. The function block 30 “hearing model” generates a control signal 32 as a function of the digitized sound signal 11 and the long-term signal parameter 31 , with which the quantization of the digitized sound signals 11 in the block 10 is controlled.

Das encodierte Signal 12 am Ausgang des Funktionsblocks 10 wird über eine Strecke 40 (drahtlose oder drahtgebundene Übertragungsstrecke einschließlich Satelliten-Übertragungsstrecke oder Speichermedium) dem Decoder 50 zugeführt, welcher die encoderseitig reduzierten Daten zu einem ausgangsseitigen Tonsignal 51 rekonstruiert. The encoded signal 12 at the output of the function block 10 is fed to the decoder 50 via a link 40 (wireless or wired transmission link including satellite transmission link or storage medium), which reconstructs the data reduced on the encoder side to form an audio signal 51 on the output side.

Die Arbeitsweise der Funktionsblöcke 10 "Datenreduktion, Quantisierung" und 50 "Datenrekonstruktion" ist beispielsweise aus den eingangs genannten Druckschriften DE 36 39 753 C2 (Teilband-Codierverfahren) oder EP 0 251 028 B1 (Transformations-Codierverfahren) bekannt. Auf den Inhalt dieser Druckschriften wird ausdrücklich Bezug genommen.The functioning of the function blocks 10 "data reduction, quantization" and 50 "data reconstruction" is known, for example, from the publications DE 36 39 753 C2 (sub-band coding method) or EP 0 251 028 B1 (transformation coding method) mentioned at the beginning. We expressly refer to the content of these publications.

Ausgangspunkt der Überlegungen der Erfindung ist eine Abschätzung des Hörerverhaltens bei Auftreten bestimmter Signalcharakteristika. Das Hörerverhalten besteht darin, den Lautstärkesteller des Wiedergabegerätes auf "lauter" oder "leiser" zu stellen. Mit Hilfe dieser Vorhersage des Hörerverhaltens wird das Gehörmodell (Block 30) derart variiert, daß die Quantisierung im Funktionsblock 10 an die vorhergesagte Wiedergabesituation angepaßt wird. Infolge dieser Anpassung lassen sich die eingangs beschriebenen Nachteile aufgrund der Annahme einer bestimmten, invarianten Wiedergabesituation vermeiden.The starting point of the considerations of the invention is an estimate of the listener's behavior when certain signal characteristics occur. The listener behavior consists in turning the volume control of the playback device to "louder" or "quieter". With the aid of this prediction of the listener behavior, the hearing model (block 30 ) is varied in such a way that the quantization in function block 10 is adapted to the predicted playback situation. As a result of this adaptation, the disadvantages described at the outset due to the assumption of a specific, invariant reproduction situation can be avoided.

Zur Eingrenzung und technischen Nutzbarmachung im Sinne einer Vorhersage des Hörerverhaltens werden vorzugsweise folgende Signalcharakteristika betrachtet:For limitation and technical utilization in the sense of a prediction of the The following signal characteristics are preferably considered in terms of listener behavior:

a) The average level of the digitized audio signal over a statistically sufficiently long period of time ("long-term level")

oderor

b) typical peculiarities in the frequency spectrum of the digitized audio signal,

oderor

c) preferably represents the signal dynamics of the digitized audio signal through the scale factors, which reduce the data of the digitized Sound signal generated anyway and transmitted together with the samples or saved.

Die Verwendung des Langzeitpegels ist in dem Beispiel nach Fig. 1 verwirklicht, und zwar durch den Funktionsblock 20. Dabei wird angenommen, daß bei hohem Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer die Wiedergabelautstarke (Abhörpegel) reduziert, weil er den hohen Signalpegel als störend empfindet. Umgekehrt wird bei geringem Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer den Abhörpegel anheben, da er glaubt, "zu wenig" oder "nichts mehr" zu hören. Entsprechend diesem angenommenen Hörerverhalten stellt das Ausgangssignal ("Langzeitpegel") des Funktionsblocks 20 einen Parameter für die Variation des Gehörmodells zur Adaption der Quantisierung dar.The use of the long-term level is implemented in the example according to FIG. 1, specifically by the function block 20 . It is assumed that at a high signal level over a longer period of time, for example 5 seconds, the listener reduces the playback volume (listening level) because he perceives the high signal level as disturbing. Conversely, if the signal level is low, the listener will raise the listening level over a longer period of time, for example 5 seconds, because he believes he is hearing "too little" or "nothing more". According to this assumed listener behavior, the output signal ("long-term level") of the function block 20 represents a parameter for the variation of the hearing model for the adaptation of the quantization.

Alternativ zum Langzeitpegel können als Parameter für die Variation des Gehörmodells 30 auch typische Besonderheiten im Frequenzspektrum oder die Signaldynamik vorgesehen werden. Treten beispielsweise im Frequenzspektrum dominierende tonale Komponenten im mittleren Frequenzbereich (zwischen 1 kHz und 6 kHz) auf, die üblicherweise als besonders störend empfunden werden, so wird der Hörer aller Wahrscheinlichkeit nach den Abhörpegel absenken. Bei etwa gleichmäßiger Verteilung der Spektrallinien ist dagegen zu erwarten, daß der Hörer den Abhörpegel anhebt. Besonders deutlich dürfte dies bei Dominanz von Spektrallinien im unteren Frequenzbereich (kleiner als 1 kHz) sein, da in diesem Frequenzbereich die Empfindlichkeit des menschlichen Gehörs geringer ist.As an alternative to the long-term level, typical peculiarities in the frequency spectrum or the signal dynamics can also be provided as parameters for the variation of the auditory model 30 . For example, if tonal components dominating the frequency spectrum occur in the middle frequency range (between 1 kHz and 6 kHz), which are usually perceived as particularly disturbing, the listener will in all likelihood lower the listening level. With an approximately even distribution of the spectral lines, on the other hand, it can be expected that the listener will raise the listening level. This should be particularly clear with the dominance of spectral lines in the lower frequency range (less than 1 kHz), since the sensitivity of the human ear is lower in this frequency range.

Die Signaldynamik beschreibt den Unterschied zwischen dem leisesten und dem lautesten Ton eines Schallereignisses. Bei großer Signaldynamik wird der Hörer unabhängig vom Langzeitpegel aller Wahrscheinlichkeit nach einen mittelgroßen Abhörpegel wählen. Bei kleiner Signaldynamik und großem Langzeitpegel wird der Hörer den Abhörpegel absenken, dagegen bei kleiner Signaldynamik und kleinem Langzeitpegel den Abhörpegel anheben.The signal dynamics describes the difference between the quietest and the loudest sound of a sound event. With great signal dynamics the handset a medium-sized one, regardless of the long-term level Select listening level. With small signal dynamics and large long-term levels, the Lower the listening level, on the other hand with small signal dynamics and small Long-term level raise the listening level.

Zum Verständnis des Gehörmodells (Block 30 in Fig. 1) ist in Fig. 2 der elektrische Kurzzeitpegel eines Tonsignals dargestellt, welches einen lauten Anfangsabschnitt mit durchschnittlichem Pegelwert um -20 dB, eine Pause zwischen den Zeitpunkten t0 und t1 und einen leiseren Endabschnitt mit durchschnittlichem Pegelwert um -55 dB aufweist. Entsprechend diesem Pegelverlauf wird eine Voraussage über eine angenommene Änderung der Lautstärkeeinstellung seitens des Hörers erstellt. Der Verlauf des vorausgesagten maximalen Schalldruckpegels ist in Fig. 3 als durchgezogene Kurve dargestellt. Der tatsächliche Verlauf der Lautstärkeeinstellung, die zum Zeitpunkt t1 sprunghaft vom Hörer geändert wird, ist in Fig. 3 als gestrichelte Kurve wiedergegeben. In order to understand the auditory model (block 30 in FIG. 1), the short-term electrical level of a sound signal is shown in FIG Level value around -55 dB. According to this level curve, a prediction is made about an assumed change in the volume setting on the part of the listener. The course of the predicted maximum sound pressure level is shown in FIG. 3 as a solid curve. The actual course of the volume setting, which is suddenly changed by the listener at time t1, is shown in FIG. 3 as a dashed curve.

In dem Diagramm nach Fig. 4 ist der Schalldruckpegel im Gehörmodell in Abhängigkeit vom elektrischen Kurzzeitpegel (Fig. 2) aufgetragen. Bei Vollaussteuerung ergeben sich die oberen und unteren maximalen Schalldruckpegel gemäß Fig. 3 (106 dB bezogen auf 20 µPa bzw. 76 dB bezogen auf 20 µPa). Die drei in Fig. 4 gezeigten Kurven verlaufen über den Aussteuerbereich des Kurzzeitsignalpegels, der im Beispiel von Fig. 2 zwischen -10 dB und -90 dB liegt. Als Scharparameter A, B, C der Kurven gemäß Fig. 4 dient der angenommene maximale Abhörpegel, der bei dem Beispiel gemäß Fig. 3 zwischen den Werten 76 dB und 106 dB verändert wird. Alle drei Kurven in Fig. 4 verlaufen linear und parallel zueinander, da für die elektrisch-akustische Abbildung davon ausgegangen wird, daß sich das Wiedergabesystem (beispielsweise Lautsprecher) linear verhält. Die im elektrischen Kurzzeitpegel (Fig. 2) auftretenden Signalschwankungen bilden sich in Schwankungen des Schalldruckpegels ab, wobei die für die Abbildung jeweils gültige Scharkurve A, B oder C gemäß Fig. 4 von dem angenommenen maximalen Abhörpegel abhängt.In the diagram of FIG. 4, the sound pressure levels in the auditory model in dependence on the electric short-term level (Fig. 2) is plotted. With full modulation, the upper and lower maximum sound pressure levels according to FIG. 3 are obtained (106 dB related to 20 µPa and 76 dB related to 20 µPa). The three curves shown in FIG. 4 run over the modulation range of the short-term signal level, which in the example of FIG. 2 is between -10 dB and -90 dB. 3 76 dB and 106 dB is changed between the values as a family parameter A, B, C of the curves shown in Fig. 4 serves the assumed maximum listening level which, in the example of FIG.. All three curves in FIG. 4 run linearly and parallel to one another, since it is assumed for the electrical-acoustic imaging that the reproduction system (for example loudspeakers) behaves linearly. The signal fluctuations occurring in the short-term electrical level ( FIG. 2) are reflected in fluctuations in the sound pressure level, the share curve A, B or C according to FIG. 4 which is valid for the illustration depending on the assumed maximum listening level.

Bei dem Gehörmodell 30 werden die Quantisierungsparameter (Quantisierungs steuersignal 32) mit relativ kleinen Zeitabständen geändert, typisch 40 mal pro Sekunde, um damit schnellen Signaländerungen folgen zu können. Die Grundlage für die Einstellung der Quantisierungsparameter ist eine Kurzzeitsignalanalyse. Hierzu wird im Gehörmodell 30 der elektrische Signalpegel in einen Kurzzeit- Schalldruckpegel umgerechnet. Durch die Kurzzeit-Signalanalyse wird die Wahrnehmbarkeit verschiedener Signalanteile bei der Wiedergabe in Abhängigkeit von Ruhe- und Mithörschwellen berücksichtigt. Die wichtigste Analyse ist eine Spektralanalyse, da der größte Teil der Datenreduktion auf der spektralen Verdeckung basiert. Zusätzliche Analysemöglichkeiten sind z. B. Transientanalyse und Korrelationsanalyse.In the hearing model 30 , the quantization parameters (quantization control signal 32 ) are changed at relatively small time intervals, typically 40 times per second, in order to be able to follow rapid signal changes. The basis for setting the quantization parameters is a short-term signal analysis. For this purpose, the electrical signal level is converted into a short-term sound pressure level in the hearing model 30 . The short-term signal analysis takes into account the perceptibility of different signal components during playback depending on the rest and listening thresholds. The most important analysis is spectral analysis, since most of the data reduction is based on spectral masking. Additional analysis options are e.g. B. Transient analysis and correlation analysis.

Eine wesentliche Grundlage für die Analyse der Verdeckungseffekte ist die angenommene Wiedergabelautstärke. In den Fig. 3 und 4 wird die Widergabelautstärke, die einem voll ausgesteuertem Tonsignal entspricht, angegeben. Diese angenommene Wiedergabelautstärke wird mit dem erfindungsgemäßen Verfahren aus Langzeit-Signalparametern (Eingangsignal 31; Fig. 1) gewonnen. The assumed playback volume is an essential basis for the analysis of the masking effects. In FIGS. 3 and 4, the playback volume, which corresponds to a fully ausgesteuertem tone signal specified. This assumed reproduction volume is obtained with the method according to the invention from long-term signal parameters (input signal 31 ; FIG. 1).

Für die Kurzzeit-Signalanalyse im Gehörmodell 30 wird der elektrische Signalpegel in einen Kurzzeit-Schalldruckpegel umgerechnet.For the short-term signal analysis in the hearing model 30 , the electrical signal level is converted into a short-term sound pressure level.

Das erfindungsgemäße Verfahren ermöglicht aufgrund der Vorhersage der Wiedergabelautsärke eine Optimierung der Datenreduktion sowohl im Hinblick auf den Reduktionsgrad als auch die Wiedergabequalität.The method according to the invention enables the prediction of the Playback volume optimizes both with regard to data reduction the degree of reduction as well as the playback quality.

Claims

1. A method for data reduction of a digitized audio signal, in which the quantization is controlled by a psychoacoustic auditory model, characterized in that the auditory model is varied as a function of signal parameters of the digitized audio signal in such a way that the quantization is adapted to an assumed reproduction situation.

2. The method according to claim 1, characterized in that determine as the signal parameter is the average level of the digitized audio signal is used over a statistically sufficiently long period of time.

3. The method according to claim 1, characterized in that determine as the signal parameter the frequency spectrum of the signal is used.

4. The method according to claim 1, characterized in that determine as the signal parameters the signal dynamics resulting from scale factors is used.