DE19515805C2 - Method for data reduction of a digitized audio signal - Google Patents

Method for data reduction of a digitized audio signal

Info

Publication number
DE19515805C2
DE19515805C2 DE1995115805 DE19515805A DE19515805C2 DE 19515805 C2 DE19515805 C2 DE 19515805C2 DE 1995115805 DE1995115805 DE 1995115805 DE 19515805 A DE19515805 A DE 19515805A DE 19515805 C2 DE19515805 C2 DE 19515805C2
Authority
DE
Germany
Prior art keywords
signal
level
digitized audio
audio signal
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE1995115805
Other languages
German (de)
Other versions
DE19515805A1 (en
Inventor
Soeren Nielsen
Susanne Ritscher
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institut fuer Rundfunktechnik GmbH
Original Assignee
Institut fuer Rundfunktechnik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institut fuer Rundfunktechnik GmbH filed Critical Institut fuer Rundfunktechnik GmbH
Priority to DE1995115805 priority Critical patent/DE19515805C2/en
Publication of DE19515805A1 publication Critical patent/DE19515805A1/en
Application granted granted Critical
Publication of DE19515805C2 publication Critical patent/DE19515805C2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Zur Datenreduktion digitalisierter Tonsignale ist es bekannt (DE 36 39 753 C2), bei der Quellencodierung das digitalisierte Tonsignal durch eine Filterung im Zeitbereich in eine Anzahl von Teilbändern aufzuspalten und die einzelnen Teilbandsignale nach psycho-akustischen Gesichtspunkten neu zu quantisieren. Hierzu wird die Quantisierung durch ein Gehörmodell gesteuert, welches durch die Verdeckungseigenschaften (Mithörschwelle, Ruhehörschwelle) des menschlichen Gehörs bestimmt wird. Anstelle einer Filterung des digitalisierten Tonsignals im Zeitbereich läßt sich auch eine Transformation der Abtastwerte in die Frequenzebene vornehmen; die entstehenden Spektralanteile werden ebenso wie die Teilbandsignale nach psychoakustischen Gesichtspunkten neu quantisiert (EP 0251 028 B1).For data reduction of digitized audio signals, it is known (DE 36 39 753 C2), at the source coding the digitized sound signal by filtering in Split the time range into a number of subbands and the individual ones To re-quantize subband signals from a psycho-acoustic point of view. For this purpose, the quantization is controlled by an auditory model, which is controlled by the Masking properties (listening threshold, resting hearing threshold) of the human Hearing is determined. Instead of filtering the digitized audio signal in the Time domain can also be a transformation of the samples into the frequency level make; the resulting spectral components are just like the subband signals newly quantized according to psychoacoustic criteria (EP 0251 028 B1).

Bei den bekannten Datenreduktionsverfahren tritt das Problem auf, daß bei der Quellencodierung die Eigenschaften des menschlichen Gehörs bei der Wiedergabe des quellencodierten Tonsignals berücksichtigt werden. Die Tonwahrnehmung des menschlichen Gehörs ist jedoch von einer Reihe von Parametern abhängig, welche bislang bei der Quellencodierung nicht ausreichend berücksichtigt wurden. Insbesondere ändern sich viele Eigenschaften des menschlichen Gehörs mit dem Schalldruck. Die wahrgenommene Lautheit ist vom Schalldruck jedoch nicht linear abhängig, sondern ändert sich in Abhängigkeit von der Frequenzlage des gehörten Schalls. Ferner stellt die Ruhehörschwelle (d. h., die untere Grenze für den Schalldruckpegel, unterhalb welcher ein Schall vom Gehör nicht wahrnehmbar ist) eine Nichtlinearität infolge der sprunghaften Wahrnehmungsänderung bei Über- oder Unterschreitung der Ruhehörschwelle dar. Schließlich stellt auch die pegelabhängige Form der Mithörschwelle (d. h., die Wahrnehmungsgrenze von einem schwächerem Signal bei zeitgleicher oder zeitnaher Anwesenheit eines stärkeren Signals (Maskierer) gleicher oder benachbarter Frequenz) eine weitere Nichtliniarität wegen der nicht-linearen Verdeckungsänderungen bei unterschiedlichen Maskiererpegeln dar.In the known data reduction method, the problem arises that Source coding the characteristics of human hearing when playing of the source-coded audio signal are taken into account. The sound perception of the Human hearing is dependent on a number of parameters, however have so far not been sufficiently taken into account in the source coding. In particular, many characteristics of human hearing change with it Sound pressure. However, the perceived loudness is not linear from sound pressure dependent, but changes depending on the frequency of the heard Sound. Furthermore, the resting hearing threshold (i.e., the lower limit for the Sound pressure level below which sound is not perceptible to the hearing) a nonlinearity as a result of the sudden change in perception when over or Below the resting hearing threshold represents. Finally, the level-dependent Form of listening threshold (i.e., the perceptual limit of a weaker Signal when a stronger signal is present or at the same time (Masker) of the same or adjacent frequency) due to another non-linearity the non-linear masking changes at different masking levels represents.

Bei der bisher praktizierten Quellencodierung geht man davon aus, daß ein bestimmter elektrischer Signalpegel einem exakt festgelegten akustischen Schalldruckpegel auf der Wiedergabeseite entspricht. Bei der Lautstärkeregelung des Wiedergabesystems ändert sich infolge der erläuterten Nichtlinearitäten zwischen Schalldruckpegel und Wahrnehmung der Lautheitseindruck des Menschen in nicht­ linearer Weise. Dieses Phänomen hat für datenreduzierte Tonsignale unerwünschte Folgen. Bei der psychoakustischen Datenreduktion wird nämlich festgestellt, wie weit die Auflösung eines Spektralanteils des Nutzsignals bei einer angenommenen Wiedergabelautstärke verringert werden kann, damit das dadurch verursachte Quantisierungsrauschen gerade noch unterhalb der Mithör- oder Ruhehörschwelle liegt. Mit dieser festgestellten Minimalauflösung wird dann der betreffende Spektralanteil codiert. Durch ungünstige Lautstärkeregelung auf der Wiedergabeseite kann das als unhörbar angenommene Quantisierungsrauschen hörbar werden, was die Wiedergabequalität der datenreduzierten Tonsignale verringert.With the source coding practiced so far, it is assumed that a certain electrical signal level a precisely defined acoustic Sound pressure level on the playback side corresponds. With the volume control of the  Playback system changes between due to the non-linearities explained Sound pressure level and perception of people's loudness impression in not linear way. This phenomenon has undesirable for data-reduced audio signals Consequences. Psychoacoustic data reduction determines how far the resolution of a spectral component of the useful signal in an assumed Playback volume can be reduced so that it caused Quantization noise just below the listening or quiet listening threshold lies. With this determined minimum resolution, the relevant one becomes Spectral component coded. Due to unfavorable volume control on the playback side can the quantization noise assumed to be inaudible be heard, what the playback quality of the data-reduced audio signals is reduced.

Eine weitere Verschlechterung der Wiedergabequalität kann sich ergeben, wenn Signalanteile, die bei der Codierung als unhörbar (irrelevant) angenommen und deshalb im datenreduzierten Signal weggelassen wurden, infolge geänderter Wieder­ gabelautstärke wahrnehmbar wären; ihr Fehlen wird als Klangverfälschung bemerkt. Andererseits kann es vorkommen, daß bei der Codierung Signalanteile als hörbar angenommen und daher in dem datenreduzierten Signal codiert wurden, welche bei entsprechender Wiedergabelautstärke unhörbar sind. Die nutzlose Codierung dieser unhörbaren Signalanteile beansprucht eine unnötige Datenkapazität in dem Übertragungskanal, welche besser nutzbar wäre, beispielsweise für die im Zeit­ multiplex übertragenen Zusatzdienste oder für eine bessere Auflösung anderer Signalanteile. Gleiches gilt, wenn die bei der Codierung vorgenommene Hörbar­ keitsschwelle für das Quantisierungsrauschen im Wiedergabefall höher ist, so daß eine unnötig gute Quantisierung vorgenommen wurde.A further deterioration in the playback quality can result if Signal components that are assumed to be inaudible (irrelevant) during coding and were therefore omitted in the data-reduced signal as a result of changed re fork volume would be perceptible; their absence is noted as a distortion of sound. On the other hand, it can happen that signal components are audible during coding assumed and therefore encoded in the data-reduced signal, which at corresponding playback volume are inaudible. The useless coding of this inaudible signal components takes up unnecessary data capacity in the Transmission channel that would be more usable, for example for those in time multiplex transmitted additional services or for a better resolution of others Signal components. The same applies if the audible made during the coding speed threshold for the quantization noise in the playback case is higher, so that an unnecessarily good quantization has been carried out.

Die Aufgabe der Erfindung besteht darin, die Codierung bezüglich der Daten­ reduktion und der Wiedergabequalität zu optimieren.The object of the invention is to encode the data to optimize reduction and playback quality.

Diese Aufgabe wird erfindungsgemäß durch die kennzeichnenden Merkmale des Patentanspruchs 1 gelöst.This object is achieved by the characterizing features of Claim 1 solved.

Vorteilhafte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen.Advantageous refinements and developments of the invention Procedures result from the subclaims.

Die Erfindung wird im folgenden anhand eines in den Zeichnungen veran­ schaulichten Ausführungsbeispiels näher erläutert. Es zeigt The invention is hereinafter based on one in the drawings clear exemplary embodiment explained in more detail. It shows  

Fig. 1 ein Blockschaltbild eines aus Encoder und Decoder bestehenden Systems zur Datenreduktion nach dem erfindungsgemäßen Verfahren; Figure 1 is a block diagram of a system consisting of encoder and decoder for data reduction according to the inventive method.

Fig. 2 ein Zeitdiagramm eines Signalpegelverlaufs, bestehend aus einem lauten Anfangsabschnitt, einer Pause und einem leiseren Endabschnitt; Fig. 2 is a timing diagram of a signal level curve, consisting of a loud initial section, a pause and a softer end portion;

Fig. 3 ein Zeitdiagramm für eine angenommene maximale Abhörlautstärke mit einer vom Hörer vorgenommenen sprunghaften Änderung der Lautstärkeeinstellung, und Fig. 3 is a timing diagram for an assumed maximum listening volume with a made by the listener abrupt change of the volume setting, and

Fig. 4 eine Kurvenschar für die im Block "Gehörmodell" von Fig. 1 verwendete Abbildungsfunktion zwischen der elektrischen und akustischen Signalebene. Fig. 4 is a family of curves for the mapping function used in the block "hearing model" of Fig. 1 between the electrical and acoustic signal level.

Bei dem in Fig. 1 gezeigten Blockschaltbild eines Systems zur Datenreduktion umfaßt der Encoder den Funktionsblock 10 "Datenreduktion" mit der Unterfunktion "Quantisierung", den Funktionsblock 20 "Erfassung der Langzeit- Signalparameter" und den Funktionsblock 30 "Modell des Gehörs". Dem Encoder wird eine digitalisiertes Tonsignal 11 zugeführt, welches an die Eingänge der Funktionsblöcke 10, 20 und 30 gleichzeitig gelangt. Aus dem Tonsignal 11 ermittelt der Funktionsblock 20 den durchschnittlichen Pegel über einen statistisch ausreichend langen Zeitabschnitt. Der so gebildete Langzeit-Signalparameter wird dem Block 30 als Eingangssignal 31 zugeführt, wo er in einem anhand von Fig. 4 noch näher erläuterten Gehörmodell verarbeitet wird. Der Funktionsblock 30 "Gehörmodell" erzeugt in Abhängigkeit von dem digitalisierten Tonsignal 11 und dem Langzeit-Signalparameter 31 ein Steuersignal 32, mit welchem die Quantisierung der digitalisierten Tonsignale 11 in dem Block 10 gesteuert wird.In the block diagram of a system for data reduction shown in FIG. 1, the encoder comprises the function block 10 "data reduction" with the subfunction "quantization", the function block 20 "acquisition of the long-term signal parameters" and the function block 30 "model of hearing". A digitized audio signal 11 is fed to the encoder, which reaches the inputs of the function blocks 10 , 20 and 30 simultaneously. From the sound signal 11, the function block 20 determines the average level over a statistically sufficiently long period of time. The long-term signal parameter thus formed is the block 30 is supplied as an input signal 31, where it is processed in a still explained in more detail with reference to FIG. 4 auditory model. The function block 30 “hearing model” generates a control signal 32 as a function of the digitized sound signal 11 and the long-term signal parameter 31 , with which the quantization of the digitized sound signals 11 in the block 10 is controlled.

Das encodierte Signal 12 am Ausgang des Funktionsblocks 10 wird über eine Strecke 40 (drahtlose oder drahtgebundene Übertragungsstrecke einschließlich Satelliten-Übertragungsstrecke oder Speichermedium) dem Decoder 50 zugeführt, welcher die encoderseitig reduzierten Daten zu einem ausgangsseitigen Tonsignal 51 rekonstruiert. The encoded signal 12 at the output of the function block 10 is fed to the decoder 50 via a link 40 (wireless or wired transmission link including satellite transmission link or storage medium), which reconstructs the data reduced on the encoder side to form an audio signal 51 on the output side.

Die Arbeitsweise der Funktionsblöcke 10 "Datenreduktion, Quantisierung" und 50 "Datenrekonstruktion" ist beispielsweise aus den eingangs genannten Druckschriften DE 36 39 753 C2 (Teilband-Codierverfahren) oder EP 0 251 028 B1 (Transformations-Codierverfahren) bekannt. Auf den Inhalt dieser Druckschriften wird ausdrücklich Bezug genommen.The functioning of the function blocks 10 "data reduction, quantization" and 50 "data reconstruction" is known, for example, from the publications DE 36 39 753 C2 (sub-band coding method) or EP 0 251 028 B1 (transformation coding method) mentioned at the beginning. We expressly refer to the content of these publications.

Ausgangspunkt der Überlegungen der Erfindung ist eine Abschätzung des Hörerverhaltens bei Auftreten bestimmter Signalcharakteristika. Das Hörerverhalten besteht darin, den Lautstärkesteller des Wiedergabegerätes auf "lauter" oder "leiser" zu stellen. Mit Hilfe dieser Vorhersage des Hörerverhaltens wird das Gehörmodell (Block 30) derart variiert, daß die Quantisierung im Funktionsblock 10 an die vorhergesagte Wiedergabesituation angepaßt wird. Infolge dieser Anpassung lassen sich die eingangs beschriebenen Nachteile aufgrund der Annahme einer bestimmten, invarianten Wiedergabesituation vermeiden.The starting point of the considerations of the invention is an estimate of the listener's behavior when certain signal characteristics occur. The listener behavior consists in turning the volume control of the playback device to "louder" or "quieter". With the aid of this prediction of the listener behavior, the hearing model (block 30 ) is varied in such a way that the quantization in function block 10 is adapted to the predicted playback situation. As a result of this adaptation, the disadvantages described at the outset due to the assumption of a specific, invariant reproduction situation can be avoided.

Zur Eingrenzung und technischen Nutzbarmachung im Sinne einer Vorhersage des Hörerverhaltens werden vorzugsweise folgende Signalcharakteristika betrachtet:For limitation and technical utilization in the sense of a prediction of the The following signal characteristics are preferably considered in terms of listener behavior:

  • a) Der durchschnittliche Pegel des digitalisierten Tonsignals über einen statistisch ausreichend langen Zeitabschnitt ("Langzeitpegel")a) The average level of the digitized audio signal over a statistically sufficiently long period of time ("long-term level")

oderor

  • b) typische Besonderheiten im Frequenzspektrum des digitalisierten Tonsignals,b) typical peculiarities in the frequency spectrum of the digitized audio signal,

oderor

  • c) die Signaldynamik des digitalisierten Tonsignals, vorzugsweise repräsentiert durch die Skalenfaktoren, welche bei der Datenreduktion des digitalisierten Tonsignals ohnehin erzeugt und zusammen mit den Abtastwerten übertragen bzw. gespeichert werden.c) preferably represents the signal dynamics of the digitized audio signal through the scale factors, which reduce the data of the digitized Sound signal generated anyway and transmitted together with the samples or saved.

Die Verwendung des Langzeitpegels ist in dem Beispiel nach Fig. 1 verwirklicht, und zwar durch den Funktionsblock 20. Dabei wird angenommen, daß bei hohem Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer die Wiedergabelautstarke (Abhörpegel) reduziert, weil er den hohen Signalpegel als störend empfindet. Umgekehrt wird bei geringem Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer den Abhörpegel anheben, da er glaubt, "zu wenig" oder "nichts mehr" zu hören. Entsprechend diesem angenommenen Hörerverhalten stellt das Ausgangssignal ("Langzeitpegel") des Funktionsblocks 20 einen Parameter für die Variation des Gehörmodells zur Adaption der Quantisierung dar.The use of the long-term level is implemented in the example according to FIG. 1, specifically by the function block 20 . It is assumed that at a high signal level over a longer period of time, for example 5 seconds, the listener reduces the playback volume (listening level) because he perceives the high signal level as disturbing. Conversely, if the signal level is low, the listener will raise the listening level over a longer period of time, for example 5 seconds, because he believes he is hearing "too little" or "nothing more". According to this assumed listener behavior, the output signal ("long-term level") of the function block 20 represents a parameter for the variation of the hearing model for the adaptation of the quantization.

Alternativ zum Langzeitpegel können als Parameter für die Variation des Gehörmodells 30 auch typische Besonderheiten im Frequenzspektrum oder die Signaldynamik vorgesehen werden. Treten beispielsweise im Frequenzspektrum dominierende tonale Komponenten im mittleren Frequenzbereich (zwischen 1 kHz und 6 kHz) auf, die üblicherweise als besonders störend empfunden werden, so wird der Hörer aller Wahrscheinlichkeit nach den Abhörpegel absenken. Bei etwa gleichmäßiger Verteilung der Spektrallinien ist dagegen zu erwarten, daß der Hörer den Abhörpegel anhebt. Besonders deutlich dürfte dies bei Dominanz von Spektrallinien im unteren Frequenzbereich (kleiner als 1 kHz) sein, da in diesem Frequenzbereich die Empfindlichkeit des menschlichen Gehörs geringer ist.As an alternative to the long-term level, typical peculiarities in the frequency spectrum or the signal dynamics can also be provided as parameters for the variation of the auditory model 30 . For example, if tonal components dominating the frequency spectrum occur in the middle frequency range (between 1 kHz and 6 kHz), which are usually perceived as particularly disturbing, the listener will in all likelihood lower the listening level. With an approximately even distribution of the spectral lines, on the other hand, it can be expected that the listener will raise the listening level. This should be particularly clear with the dominance of spectral lines in the lower frequency range (less than 1 kHz), since the sensitivity of the human ear is lower in this frequency range.

Die Signaldynamik beschreibt den Unterschied zwischen dem leisesten und dem lautesten Ton eines Schallereignisses. Bei großer Signaldynamik wird der Hörer unabhängig vom Langzeitpegel aller Wahrscheinlichkeit nach einen mittelgroßen Abhörpegel wählen. Bei kleiner Signaldynamik und großem Langzeitpegel wird der Hörer den Abhörpegel absenken, dagegen bei kleiner Signaldynamik und kleinem Langzeitpegel den Abhörpegel anheben.The signal dynamics describes the difference between the quietest and the loudest sound of a sound event. With great signal dynamics the handset a medium-sized one, regardless of the long-term level Select listening level. With small signal dynamics and large long-term levels, the Lower the listening level, on the other hand with small signal dynamics and small Long-term level raise the listening level.

Zum Verständnis des Gehörmodells (Block 30 in Fig. 1) ist in Fig. 2 der elektrische Kurzzeitpegel eines Tonsignals dargestellt, welches einen lauten Anfangsabschnitt mit durchschnittlichem Pegelwert um -20 dB, eine Pause zwischen den Zeitpunkten t0 und t1 und einen leiseren Endabschnitt mit durchschnittlichem Pegelwert um -55 dB aufweist. Entsprechend diesem Pegelverlauf wird eine Voraussage über eine angenommene Änderung der Lautstärkeeinstellung seitens des Hörers erstellt. Der Verlauf des vorausgesagten maximalen Schalldruckpegels ist in Fig. 3 als durchgezogene Kurve dargestellt. Der tatsächliche Verlauf der Lautstärkeeinstellung, die zum Zeitpunkt t1 sprunghaft vom Hörer geändert wird, ist in Fig. 3 als gestrichelte Kurve wiedergegeben. In order to understand the auditory model (block 30 in FIG. 1), the short-term electrical level of a sound signal is shown in FIG Level value around -55 dB. According to this level curve, a prediction is made about an assumed change in the volume setting on the part of the listener. The course of the predicted maximum sound pressure level is shown in FIG. 3 as a solid curve. The actual course of the volume setting, which is suddenly changed by the listener at time t1, is shown in FIG. 3 as a dashed curve.

In dem Diagramm nach Fig. 4 ist der Schalldruckpegel im Gehörmodell in Abhängigkeit vom elektrischen Kurzzeitpegel (Fig. 2) aufgetragen. Bei Vollaussteuerung ergeben sich die oberen und unteren maximalen Schalldruckpegel gemäß Fig. 3 (106 dB bezogen auf 20 µPa bzw. 76 dB bezogen auf 20 µPa). Die drei in Fig. 4 gezeigten Kurven verlaufen über den Aussteuerbereich des Kurzzeitsignalpegels, der im Beispiel von Fig. 2 zwischen -10 dB und -90 dB liegt. Als Scharparameter A, B, C der Kurven gemäß Fig. 4 dient der angenommene maximale Abhörpegel, der bei dem Beispiel gemäß Fig. 3 zwischen den Werten 76 dB und 106 dB verändert wird. Alle drei Kurven in Fig. 4 verlaufen linear und parallel zueinander, da für die elektrisch-akustische Abbildung davon ausgegangen wird, daß sich das Wiedergabesystem (beispielsweise Lautsprecher) linear verhält. Die im elektrischen Kurzzeitpegel (Fig. 2) auftretenden Signalschwankungen bilden sich in Schwankungen des Schalldruckpegels ab, wobei die für die Abbildung jeweils gültige Scharkurve A, B oder C gemäß Fig. 4 von dem angenommenen maximalen Abhörpegel abhängt.In the diagram of FIG. 4, the sound pressure levels in the auditory model in dependence on the electric short-term level (Fig. 2) is plotted. With full modulation, the upper and lower maximum sound pressure levels according to FIG. 3 are obtained (106 dB related to 20 µPa and 76 dB related to 20 µPa). The three curves shown in FIG. 4 run over the modulation range of the short-term signal level, which in the example of FIG. 2 is between -10 dB and -90 dB. 3 76 dB and 106 dB is changed between the values as a family parameter A, B, C of the curves shown in Fig. 4 serves the assumed maximum listening level which, in the example of FIG.. All three curves in FIG. 4 run linearly and parallel to one another, since it is assumed for the electrical-acoustic imaging that the reproduction system (for example loudspeakers) behaves linearly. The signal fluctuations occurring in the short-term electrical level ( FIG. 2) are reflected in fluctuations in the sound pressure level, the share curve A, B or C according to FIG. 4 which is valid for the illustration depending on the assumed maximum listening level.

Bei dem Gehörmodell 30 werden die Quantisierungsparameter (Quantisierungs­ steuersignal 32) mit relativ kleinen Zeitabständen geändert, typisch 40 mal pro Sekunde, um damit schnellen Signaländerungen folgen zu können. Die Grundlage für die Einstellung der Quantisierungsparameter ist eine Kurzzeitsignalanalyse. Hierzu wird im Gehörmodell 30 der elektrische Signalpegel in einen Kurzzeit- Schalldruckpegel umgerechnet. Durch die Kurzzeit-Signalanalyse wird die Wahrnehmbarkeit verschiedener Signalanteile bei der Wiedergabe in Abhängigkeit von Ruhe- und Mithörschwellen berücksichtigt. Die wichtigste Analyse ist eine Spektralanalyse, da der größte Teil der Datenreduktion auf der spektralen Verdeckung basiert. Zusätzliche Analysemöglichkeiten sind z. B. Transientanalyse und Korrelationsanalyse.In the hearing model 30 , the quantization parameters (quantization control signal 32 ) are changed at relatively small time intervals, typically 40 times per second, in order to be able to follow rapid signal changes. The basis for setting the quantization parameters is a short-term signal analysis. For this purpose, the electrical signal level is converted into a short-term sound pressure level in the hearing model 30 . The short-term signal analysis takes into account the perceptibility of different signal components during playback depending on the rest and listening thresholds. The most important analysis is spectral analysis, since most of the data reduction is based on spectral masking. Additional analysis options are e.g. B. Transient analysis and correlation analysis.

Eine wesentliche Grundlage für die Analyse der Verdeckungseffekte ist die angenommene Wiedergabelautstärke. In den Fig. 3 und 4 wird die Widergabelautstärke, die einem voll ausgesteuertem Tonsignal entspricht, angegeben. Diese angenommene Wiedergabelautstärke wird mit dem erfindungsgemäßen Verfahren aus Langzeit-Signalparametern (Eingangsignal 31; Fig. 1) gewonnen. The assumed playback volume is an essential basis for the analysis of the masking effects. In FIGS. 3 and 4, the playback volume, which corresponds to a fully ausgesteuertem tone signal specified. This assumed reproduction volume is obtained with the method according to the invention from long-term signal parameters (input signal 31 ; FIG. 1).

Für die Kurzzeit-Signalanalyse im Gehörmodell 30 wird der elektrische Signalpegel in einen Kurzzeit-Schalldruckpegel umgerechnet.For the short-term signal analysis in the hearing model 30 , the electrical signal level is converted into a short-term sound pressure level.

Das erfindungsgemäße Verfahren ermöglicht aufgrund der Vorhersage der Wiedergabelautsärke eine Optimierung der Datenreduktion sowohl im Hinblick auf den Reduktionsgrad als auch die Wiedergabequalität.The method according to the invention enables the prediction of the Playback volume optimizes both with regard to data reduction the degree of reduction as well as the playback quality.

Claims (4)

1. Verfahren zur Datenreduktion eines digitalisierten Tonsignals, bei dem die Quantisierung durch ein psychoakustisches Gehörmodell gesteuert wird, dadurch gekennzeichnet, daß das Gehörmodell in Abhängigkeit von Signal­ parametern des digitalisierten Tonsignals variiert wird, derart, daß eine Adaption der Quantisierung an eine angenommene Wiedergabesituation erfolgt.1. A method for data reduction of a digitized audio signal, in which the quantization is controlled by a psychoacoustic auditory model, characterized in that the auditory model is varied as a function of signal parameters of the digitized audio signal in such a way that the quantization is adapted to an assumed reproduction situation. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen­ der Signalparameter der durchschnittliche Pegel des digitalisierten Tonsignals über einen statistisch ausreichend langen Zeitabschnitt verwendet wird.2. The method according to claim 1, characterized in that determine as the signal parameter is the average level of the digitized audio signal is used over a statistically sufficiently long period of time. 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen­ der Signalparameter das Frequenzspektrum des Signals verwendet wird.3. The method according to claim 1, characterized in that determine as the signal parameter the frequency spectrum of the signal is used. 4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen­ der Signalparameter die sich aus Skalenfaktoren ergebene Signaldynamik verwendet wird.4. The method according to claim 1, characterized in that determine as the signal parameters the signal dynamics resulting from scale factors is used.
DE1995115805 1995-04-29 1995-04-29 Method for data reduction of a digitized audio signal Expired - Lifetime DE19515805C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1995115805 DE19515805C2 (en) 1995-04-29 1995-04-29 Method for data reduction of a digitized audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1995115805 DE19515805C2 (en) 1995-04-29 1995-04-29 Method for data reduction of a digitized audio signal

Publications (2)

Publication Number Publication Date
DE19515805A1 DE19515805A1 (en) 1996-10-31
DE19515805C2 true DE19515805C2 (en) 1997-08-07

Family

ID=7760695

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1995115805 Expired - Lifetime DE19515805C2 (en) 1995-04-29 1995-04-29 Method for data reduction of a digitized audio signal

Country Status (1)

Country Link
DE (1) DE19515805C2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19758629B4 (en) * 1996-12-17 2005-01-13 Nec Corp. Portable radio device with data compression and data transmission function - has transmission section for automatic transmission of transmission data on basis of target information within communication area

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2792853B2 (en) * 1986-06-27 1998-09-03 トムソン コンシューマー エレクトロニクス セイルズ ゲゼルシャフト ミット ベシュレンクテル ハフツング Audio signal transmission method and apparatus
DE3639753A1 (en) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh METHOD FOR TRANSMITTING DIGITALIZED SOUND SIGNALS

Also Published As

Publication number Publication date
DE19515805A1 (en) 1996-10-31

Similar Documents

Publication Publication Date Title
DE3639753C2 (en)
DE69233094T2 (en) Method and arrangement for data compression in which quantization bits are allocated to a block in a current frame depending on a block in a past frame
DE60103424T2 (en) IMPROVING THE PERFORMANCE OF CODING SYSTEMS USING HIGH FREQUENCY RECONSTRUCTION PROCESSES
DE60110679T2 (en) Perceptual coding of audio signals using separate irrelevance reduction and redundancy reduction
EP1687808B1 (en) Audio coding
DE60214599T2 (en) SCALABLE AUDIO CODING
EP0193143B1 (en) Audio signal transmission method
DE69901273T2 (en) Methods for coding and quantizing audio signals
EP0251028B1 (en) Audio signal transmission method
DE69515907T2 (en) METHOD AND DEVICE FOR APPLYING WAVEFORM PREDICTION TO PARTIAL TAPES IN A PERCEPTIVE ENCODING SYSTEM
DE69320872T2 (en) Compression and stretching of digital signals
EP1697929B1 (en) Method and device for quantizing a data signal
WO2001043503A2 (en) Method and device for processing a stereo audio signal
DE69932861T2 (en) METHOD FOR CODING AN AUDIO SIGNAL WITH A QUALITY VALUE FOR BIT ASSIGNMENT
EP3110173A1 (en) Method for compressing the dynamics in an audio signal
DE69217590T2 (en) Method and device for coding a digital audio signal
DE3440613C1 (en) Method for digital transmission of a broadcast radio programme signal
DE68927927T2 (en) Coding of audio signals taking into account the perceptibility
WO2005078705A1 (en) Audio encoding
DE19515805C2 (en) Method for data reduction of a digitized audio signal
EP1351550B1 (en) Method for adapting a signal amplification in a hearing aid and a hearing aid
EP0503536B1 (en) Method for optimizing the fitting of hearing aids
EP1405302A1 (en) Method for masking interference during the transfer of digital audio signals
EP0905918A2 (en) Method and apparatus for encoding audio signals
DE69021986T2 (en) Method for coding an audio signal using an orthogonal transformation.

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
R071 Expiry of right
R071 Expiry of right