DE19821273B4 - Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen - Google Patents

Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen Download PDF

Info

Publication number
DE19821273B4
DE19821273B4 DE19821273A DE19821273A DE19821273B4 DE 19821273 B4 DE19821273 B4 DE 19821273B4 DE 19821273 A DE19821273 A DE 19821273A DE 19821273 A DE19821273 A DE 19821273A DE 19821273 B4 DE19821273 B4 DE 19821273B4
Authority
DE
Germany
Prior art keywords
filter
signal
signals
test
reference signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19821273A
Other languages
English (en)
Other versions
DE19821273A1 (de
Inventor
Thilo Thiede
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to DE19821273A priority Critical patent/DE19821273B4/de
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to AT99106223T priority patent/ATE317151T1/de
Priority to EP99106223A priority patent/EP0957471B1/de
Priority to DK99106223T priority patent/DK0957471T3/da
Priority to DE59913088T priority patent/DE59913088D1/de
Priority to CA2271445A priority patent/CA2271445C/en
Priority to US09/311,490 priority patent/US7194093B1/en
Publication of DE19821273A1 publication Critical patent/DE19821273A1/de
Application granted granted Critical
Publication of DE19821273B4 publication Critical patent/DE19821273B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

Messverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen, wobei ein zu bewertendes Testsignal mit einem Referenzsignal verglichen wird, mit Hilfe von Filtern, zeitlicher Verschmierung, Pegel- und Frequenzgangangleich, wobei das zu bewertende Audiosignal als Testsignal (1a, b) mit einem als Referenzsignal (1c, d) gelieferten Originalsignal verglichen wird, beide Signale bzw. Signalpaare (1a, b; 1c, d) nach einer Vorfilterung (2) durch eine Filterbank (3) in den 20 Frequenzbereich mit der gewünschten Filtermittenfrequenz zerlegt werden, durch die Charakteristik der Filterbank (3) und eine anschließende zeitliche Verschmierung (9) mittels Tiefpassfilterung der Filterausgangssignale eine gehörgerechte Darstellung der als Testsignal (1a, b) zu bewertenden Audiosignale erzeugt wird, durch Vergleich der gehörgerechten Darstellung von Testsignal (1a, b) und Referenzsignal (1c, d) nach nichtlinearen Umformungen eine Abschätzung des zu erwartenden Höreindrucks geliefert wird, die Filterbank (3) gehörangepasst ist und aus jedem einlaufenden Signal durch rekursive komplexe Multiplikation eine ungedämpfte Sinusschwingung mit der gewünschten Fil termittelfrequenz erzeugt, die zu einem Testsignal...

Description

  • Die Erfindung betrifft ein Meßverfahren zur gehörrichtigen Qualtitätsbewertung von codierten Audiosignalen.
  • Meßverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen sind grundsätzlich bekannt. Die grundsätzliche Struktur eines solchen Meßverfahrens besteht in der Abbildung der Eingangssignale auf eine gehörgerechte Zeit-Frequenz-Repräsentation, einem Vergleich dieser Darstellung und der Berechnung von Einzelzahlwerten zur Abschätzung der wahrnehmbaren Störungen. Hierzu wird auf folgende Veröffentlichungen verwiesen:
    • Schroeder, M.R.; Atal, B. S.; Hall, J.L: Optimizing digital speech coders by exploiting masking properties of the human ear. J. Acoust. Soc. Am., Vol. 66 (1979), No. 6, December, Seiten 1647–1652.
    • Beerends, J.G.; Stemerdink, J.A.: A Perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation. J. AES, Vol. 40 (1992), No. 12, December, Seiten 963–978.
    • Brandenburg, K.H.; Sporer, Th.: NMR and Masking Flag: Evaluation of Quality Using Perceptual Criteria. Proceedings of the AES 11th International Conference, Portland, Oregon, USA, 1992, Seiten 169–179.
  • Wie aus diesen Veröffentlichungen hervorgeht, benutzen die für die Beurteilung von codierten Audiosignalen verwendeten Modelle jedoch FFT Algorithmen und erfordern daher eine Umrechnung von der durch die FFT vorgegebenen linearen Frequenzeinteilung auf eine gehörgerechte Frequenzeinteilung. Dadurch ist die zeitliche Auflösung suboptimal. Außerdem erfolgt die Faltung mit Verschmierungsfunktion nach der Gleichrichtung bzw. Betragsbildung.
  • In der DE 195 23 327 A1 ist ein Verfahren zum Ermitteln des Übertragungsverhaltens eines Übertragungssystems beschrieben, welches von einem Sender ein Signal an einen Empfänger überträgt, wobei das Signal ein Trainingssignal einer Trainingssequenz mit bekanntem Informationsgehalt enthält. Im Verlauf wird das Trainingssignal am empfängerseitigen Ende des Übertragungssystems abgetastet, und aus dem Trainingssignal wird eine geschätzte Impulsantwort des Übertragungssystems ermittelt. Aus der Abweichung zwischen dem tatsächlichen Verlauf und dem berechneten Verlauf des Trainingssignals wird die Abweichung berechnet und die geschätzte Impulsantwort wird so geändert, daß die Abweichung zwischen den beiden Verläufen minimal ist. Diejenige Impulsantwort, bei der die Abweichung minimal ist, wird zum Beschreiben des Übertragungsverhaltens verwendet. Hier wird ein Testsignal mit einem Referenzsignal verglichen, um das Übertragungsverhalten eines Übertragungssystems zu ermitteln.
  • Aus dem Artikel von Thide T., Kabot E.; "A new Perceptual Quality Measure for Bit Rate Reduced Audio", Proceedings of the 100th AES convention, Kopenhaben 1996, Preprint 4280 ist ein Meßverfahren zur Qualitätsbewertung von codierten Audiosignalen bekannt, bei dem ein zu bewertendes Testsignal mit einem Referenzsignal verglichen wird.
  • Beide Signale werden nach einer Vorfilterung durch eine Filterbank in den Frequenzber mit der gewünschten Filtermittenfrequenz zerlegt. Durch die Charakteristik der Filterbank und eine ansschließende zeitliche Verschmierung mittels Tiefpassfilterung der Filterausgangssignale wird eine gehörgerechte Darstellung der Audiosignale erzeugt.
  • Hierbei wird die Summe der hörbaren Verzerrungen geschätzt, indem das Testsignal mit einen unverzerrten Referenzwert geschätzt wird.
  • Der Erfindung liegt deshalb die Aufgabe zugrunde, ein objektives Meßverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen mittels neuer schneller Algorithmen zur Berechnung linearphasiger Filter zu schaffen, bei dem eine optimale zeitliche Auflösung erreicht werden soll und zwar bei signifikanter Einsparung von Rechenzeit gegenüber anderen Filterbänken.
  • Diese Aufgabe wird durch ein Meßverfahren gemäß Anspruche 1 gelöst.
  • Weitere Lösungen bzw. Ausgestaltungen der Erfindung sind in den Unteransprüchen dargelegt.
  • Ein wesentlicher Vorteil des erfindungsgemäßen Verfahrens besteht darin, daß ein genaueres Gehörmodell erzielt wird, da hörbare Störungen unter Berücksichtigung der zeitlichen Änderung der Hüllkurven an den einzelnen Filterausgängen berechnet werden.
  • Außerdem wird eine gehörangepaßte Filterbank verwendet, wodurch eine optimale zeitliche Auflösung erreicht wird, und das zeitliche Verhalten der Filter (Impulsantwort u.s.w.) direkt mit der Pegelabhängigkeit der Übertragungsfunktionen korrespondiert. Die Phaseninformation in den Filterkanälen bleibt erhalten. Wie bereits ausgeführt, erfolgt bei den bisher bekannten Lösungen die Faltung mit Verschmierfunktion erst nach der Gleichrichtung bzw. Betragsbildung. Eine Signalabhängigkeit der Filtercharakteristiken wird dadurch erreicht, daß die Filterausgänge vor der Gleichrichtung/Betragsbildung mit einer pegelabhängigen Verschmierfunktion im Frequenzbereich gefaltet werden.
  • Dadurch, daß ein neuer schneller Algorithmus zur rekursiven Berechnung linearphasiger Filter verwendet wird, ergibt sich eine wesentliche Einsparung an Rechenzeit, ein einfacher Entwurf und Filter, die leichter variierbar als die bisher angewandten konventionellen rekursiven Filter sind.
  • Im Originalsignal vorhandene und lediglich in ihrer spektralen Verteilung veränderte Signalanteile werden von additiven bzw. von durch nicht Linearitäten erzeugten Störungen getrennt, wobei die Trennung durch Auswertung der Orthogonalitätsbeziehung zwischen den zeitlichen Verläufen der Hüllkurven an einander entsprechenden Filterausgängen des zu bewertenden Signals und des Originalsignals erfolgt. Die Trennung dieser Störanteile entspricht besser dem tatsächlichen Höreindruck.
  • Der Filterbankalgorithmus wird in folgender Weise realisiert:
    • – Aus jedem einlaufendem Impuls wird durch rekursive komplexe Multiplikation eine ungedämpfte Sinusschwingung mit der gewünschten Filtermittenfrequenz erzeugt.
    • – Die zu einem Eingangsimpuls gehörende Sinusschwingung wird durch Subtraktion des um dem Kehrwert der gewünschten Filterbandbreite entsprechende Zeit verzögerten und mit dem der Verzögerung entsprechenden Phasenwinkel multiplizierten Eingangsimpuls wieder abgebrochen.
    • – Durch Faltung im Frequenzbereich wird durch gewichtete Summation von je n Filterausgängen gleicher Bandbreite und um jeweils eine Periode versetzter Mittenfrequenz aus dem nach Schritt 2 resultierendem sin(x)/x-förmigen Dämpfungsverlauf ein der Fouriertransformierten eines cos^(n – 1) förmigen Zeitfensters entsprechender Dämpfungsverlauf erzeugt. Hierdurch kann der Dämpfungsverlauf in der Umgebung der Filtermittenfrequenzen geformt und eine ausreichend hohe Sperrdämpfung ermöglicht werden.
    • – Der Dämpfungsverlauf in größerer Entfernung von der Filtermittenfrequenz kann durch eine weitere Faltung im Frequenzbereich bestimmt werden (Übergang zwischen Durchlaßbereich und Sperrbereich).
  • Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung in Verbindung mit den in der Zeichnung dargestellten Ausführungsbeispielen.
  • Die Erfindung wird im folgenden anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher beschrieben. In der Beschreibung, in den Patentansprüchen, der Zusammenfassung und in der Zeichnung werden die in der hinten angeführten Liste der Bezugszeichen verwendeten Begriffe und zugeordneten Bezugszeichen verwendet.
  • In den Zeichnungen bedeuten:
  • 1 eine Struktur des Meßverfahrens und
  • 2 eine Filterstruktur.
  • Das vorliegende Meßverfahren bewertet die Störungen eines Audiosignals durch Vergleich mit einem ungestörten Referenzsignal. Nach einer Filterung mit den Übertragungsfunktionen von Außen- und Mittelohr werden die Eingangssignale durch eine gehörangepaßte Filterbank in eine Zeit-Tonheits-Darstellung umgerechnet. Es werden die Betragsquadrate der Filterausgangssignale berechnet (Gleichrichtung) und es wird eine Faltung der Filterausgänge mit einer Verschmierfunktion durchgeführt. Die Faltung kann im Gegensatz zu den bisher bekannten Verfahren vor der Gleichrichtung erfolgen oder auch danach. Pegelunterschiede zwischen Test- und Referenzsignal sowie lineare Verzerrungen im Testsignal werden kompensiert und getrennt ausgewertet. Anschließend wird ein frequenzabhängiger Offset addiert, um das Eigenrauschen des Gehörs zu modellieren und es wird eine zeitliche Verschmierung der Ausgangssignale vorgenommen. Ein Teil dieser zeitlichen Verschmierung kann bereits direkt nach der Gleichrichtung erfolgen, um Rechenzeit zu sparen. Nach der zeitlichen Verschmierung (Tiefpaßfilterung) ist dann eine Unterabtastung der Signale zulässig. Durch einen Vergleich zwischen dem sich ergebenden gehörgerechten Zeit-Frequenzmustern von Test- und Referenzsignal können eine Reihe von Ausgangsgrößen berechnet werden, die eine Abschätzung der wahrnehmbaren Störungen liefern.
  • Zunächst soll die in 1 als Ausführungsbeispiel dargestellte Struktur bzw. der Aufbau des Meßverfahrens erklärt werden. Die Testsignale 1a, 1b, für den linken bzw. rechten Kanal und die Referenzsignale 1c, 1d, für den linken bzw. rechten Kanal werden zur Vorfilterung jeweils auf Vorfilter 2 gegeben. Nach der Vorfilterung erfolgt die eigentliche Filterung in der Filterbank 3. Danach erfolgt die spektrale Verschmierung 4 und die Berechnung der Betragsquadrate 5. Die mit 6 bezeichneten Kästchen in der Figur stellen symbolisch die zeitliche Verschmierung dar. Danach erfolgt der Pegel- und Frequenzgangangleich 7, wobei auch Ausgangsparameter 11 geliefert werden. Nach dem Pegel- und Frequenzangleich 7 erfolgt die Addition von Eigenrauschen 8 und danach die zeitliche Verschmierung 9.
  • Die Berechnung von Ausgangsparametern 11 erfolgt in der dargestellten Struktur bei dem symbolisch dargestellten Block 10. Der Pegel- und Frequenzgangangleich 7 kann auch zwischen Schritt bzw. Operation 9 und 10 erfolgen.
  • Zunächst wird die Berechnung der Erregungsmuster mittels der gehörangepaßten Filterbank 3 beschrieben.
  • Die Filterbank 3 besteht aus einer beliebig wählbaren Anzahl von Filterpaaren für Test- und Referenzsignal 1a, b bzw. 1d, c (sinnvoll sind Werte zwischen 30 und 200) Die Filter können auf weitgehend beliebigen Tonhöhenskalen gleichmäßig verteilt werden. Eine geeignete Tonhöhenskala ist z. B. folgende von Schroeder vorgeschlagene Näherung:
    Figure 00080001
  • Die Filter sind linearphasig und werden durch Impulsantworten folgender Form definiert:
    Figure 00080002
  • Der Wert n bestimmt die Sperrdämpfung der Filter und sollte >= 2 sein.
  • Die Ausgangswerte der Filterbank 3 werden zur Berücksichtigung der Simultanverdeckung mit 31 dB/Bark an der unteren Flanke und zwischen –24 und –6 dB/Bark an der oberen Flanke spektral verschmiert, das heißt, es wird ein Übersprechen zwischen den Filterausgängen erzeugt.
  • Die obere Flanke wird pegelabhängig berechnet:
    Figure 00080003
  • Der Pegel L wird unabhängig für jeden Filterausgang aus dem mit einer Zeitkonstante von 10ms tiefpaßgefilterten Betragsquadrat 5 des entsprechenden Ausgangswertes berechnet. Diese Verschmierung wird unabhängig für die Filter, die den Realteil des Signals representieren (Gl. 2) und die Filter, die den Imaginärteil (Gl. 3) des Signals repräsentieren, durchgeführt. Als Alternative kann der Pegel auch ohne Tiefpaßfilter berechnet werden und stattdessen der das Übersprechen bestimmende Faktor, der sich durch Delogarithmierung der Flankensteilheit (Gl. 4) ergibt, tiefpaßgefiltert werden. Da diese Faltungsoperation quasi linear ist und daher die Relation zwischen dem resultierenden Frequenzgang und der resultierenden Impulsantwort bewahrt, kann sie als Teil der Filterbank 3 aufgefaßt werden.
  • Da die Filterbank 3 Paare von Ausgangssignalen mit um 90° verschobenen Phasen liefert, kann die Gleichrichtung durch Bildung der Betragsquadrate 5 der Filterausgänge erfolgen: E(fc, t) = Are 2(fc, t) + Aim 2(fc, t) Gl. 5
  • Die zeitliche Verschmierung der Filterausgangssignale erfolgt in zwei Stufen. In der ersten Stufe werden die Signale über ein cos2-förmiges Zeitfenster gemittelt, wodurch in erster Linie die Vorverdeckung modelliert wird. In der zweiten Stufe wird dann die Nachverdeckung modelliert, die später genauer beschrieben wird. Das cos2-förmige Zeitfenster hat eine Länge von 400 Abtastwerten bei einer Abtatstrate von 48 kHz. Der Abstand zwischen dem Maximum des Zeitfensters und seinem 3 dB Punkt beträgt damit etwa 100 Abtastwerte oder 2 ms, was etwa einer oft für die Vorverdeckung angenommenen Zeitspanne enspricht.
  • Pegeldifferenzen und lineare Verzerrungen (Frequenzgänge des Testobjekts) zwischen Test- und Referenzsignal 1a, b bzw. 1c, d können kompensiert und damit von der Bewerung anderer Störungsarten getrennt werden.
  • Für den Pegelangleich werden die momentanen Betragsquadrate an den Filterausgängen durch Tiefpässe erster Ordnung zeitlich geglättet. Die verwendeten Zeitkonstanten werden in Abhängigkeit von der Mittenfrequenz des jeweiligen Filters gewählt:
    Figure 00100001
    τ100 ≥ τ0
  • Aus den so geglätteten Filterausgangswerten Ptest and Pref wird ein Korrekturfaktor corrtotal berechnet:
    Figure 00100002
  • Ist dieser Korrekturfaktor größer eins, wird das Referenzsignal 1a; b durch den Korrekturfaktor geteilt, ansonsten wird das Testsignal 1c; d mit dem Korrekturfaktor multipliziert.
  • Für jeden Filterkanal werden Korrekturfaktoren aus der Orthogonalitätsbeziehung zwischen den zeitlichen Hüllkurven der Filterausgänge von Test- und Referenzsignal 1a, b; 1c, d berechnet:
    Figure 00100003
  • Die Zeitkonstanten werden nach Gl. 6 bestimmt. Wenn ratiof,t größer eins ist, wird der Korrekturfaktor für das Testsignal zu ratiof,t –1 gesetzt und der Korrekturfaktor für das Referenzsignal auf eins gesetzt. Im umgekehrten Fall wird der Korrekturfaktor für das Referenzsignal zu ratiof,t gesetzt und der Korrekturfaktor für das Testsignal auf eins gesetzt.
  • Die Korrekturfaktoren werden über mehrere benachbarte Filterkanäle und mit denselben Zeitkonstanten zeitlich geglättet, wie oben angegeben.
  • Ein frequenzabhängiger Offset zur Modellierung des Eigenrauschens des Gehörs wird zu den Betragsquadraten an allen Filterausgängen addiert. Ein weiterer Offset zur Berücksichtung von Hintergrundgeräuschen kann ebenfalls addiert werden (wird aber im Normalfall auf 0 gesetzt).
  • Figure 00110001
  • Zur Modellierung der Nachverdeckung werden die momentanen Betragsquadrate in jedem Filterkanal durch einen Tiefpaß erster Ordnung mit einer Zeitkonsante von ca. 10 ms zeitlich verschmiert. Die Zeitkonstante kann wahlweise auch in Abhängigkeit von der Mittenfrequenz des jeweiligen Filters berechnet werden. In diesem Fall liegt sie bei 50 ms für niedrige Frequenzen und bei 8ms bei hohen Frequenzen (wie Gl. 6).
  • Vor der soeben beschriebenen zweiten Stufe der zeitlichen Verschmierung wird eine einfache Näherung für die Lautheit berechnet, indem die Betragsquadrate an den Filterausgängen hoch 0.3 genommen werden. Dieser Wert E und der Betrag seiner zeitlichen Ableitung dE/dt werden mit denselben Zeitkonstanten geglättet wie bereits beschrieben. Aus dem Ergebnis der zeitlichen Glättung Eder wird ein Maß für die Hüllkurvenmodulation in jedem Kanal bestimmt:
    Figure 00110002
  • Der wichtigste und am höchsten mit subjektiven Hörtestdaten korrelierte Ausgangsparameter des Verfahrens ist die Lautheit der Störung bei Drosselung durch das Nutzsignal. Die Eingangswerte hierzu sind die Betragsquadrate in jedem Filterkanal Eref und Etest ("Erregung"), die Hüllkurvenmodulation, das Eigenrauschen des Gehörs ("Grunderregung") EHS und die Konstanten E0 und α.
  • Die gedrosselte Störlautheit wird nach
    Figure 00120001
    berechnet, wobei gilt:
    Figure 00120002
    E0 = 104 α = 1.0 s = 0.04·mod(fc, t)/Hz + 1
  • G1. 11 ist hier so entworfen worden, daß sie die spezifische Lautheit der Störung liefert, wenn kein Maskierer vorhanden ist und in etwa das Verhältnis zwischen Störung und Maskierer liefert, wenn die Störung im Verhältnis zum Maskierer sehr klein ist. Der die Drosselung bestimmende Faktor β wird nach folgender Gleichung berechnet:
    Figure 00120003
  • Die "Gedrosselte Störlautheit" entspricht dem Mittelwert dieser Größe über Zeit und Filterkanäle. Um lineare Verzerrungen zu bestimmen, wird dieselbe Berechnung nochmals ohne Frequenzgangangleich durchgeführt, wobei in den oben angegebenen Gleichungen Test- und Referenzsignal vertauscht werden. Der sich ergebende Ausgangsparameter wird als "Lautheit fehlender Signalanteile" bezeichnet. Mit Hilfe dieser beiden Ausgangsgrößen ist eine gute Vorhersage der subjektiv empfundenen Signalqualität eines codierten Audiosignals möglich. Alternativ können lineare Verzerrungen auch bestimmt werden, indem das Referenzsignal vor dem Signalangleich als Testsignal verwendet wird. Eine weitere Ausgangsgröße ist die Modulationsdifferenz, die sich durch Normierung des Betrages der Differenz der Modulation von Test- und Referenzsignal auf die Modulation des Referenzsignals ergibt. Dabei wird bei der Normierung auf das Referenzsignal ein Offset addiert, um die berechneten Werte bei sehr kleiner Modulation des Referenzsignals zu begrenzen:
    Figure 00130001
  • Die Modulationsdifferenz wird über Zeit und Filterbänder Bemittelt.
  • Die eingangsseitig verwendete Modulation ergibt sich durch Normierung der zeitlichen Ableitung der Momentanwerte auf ihren zeitlich geglätteten Wert.
  • In 2 ist eine Filterstruktur zur rekursiven Berechnung eines einfachen Bandpass mit endlicher Impulsantwort (FIR) dargestellt.
  • Das Signal wird getrennt nach Realteil (oberer Pfad) und Imaginärteil (unterer Pfad) verarbeitet. Da das Eingangssignal X ursprünglich rein reell ist, fehlt der untere Pfad zunächst. Das Eingangssignal X wird um N Abtastwerte verzögert (1) und nach einer Multiplikation mit einem komplexwertigen Faktor cos (N·φ) + j·sin (N·φ) vom ursprünglichen Eingangssignal subtrahiert (2). Das resultierende Signal V wird zu dem um einen Abtastwert verzögerten Ausgangssignal addiert (3). Das Resultat multipliziert mit einem weiteren komplexwertigen Faktor cos(φ) + j·sin(φ) ergibt das neue Ausgangssignal Y (4). Die überstrichenen Bezeichner für V und Y markieren jeweils den Imaginärteil.
  • Die zweite komplexe Multiplikation setzt das Eingangssignal periodisch fort. Die Addition des verzögerten und durch die erste komplexe Multiplikation gewichteten Eingangssignals bricht die Fortsetzung des Eingangssignals nach N Abtastwerten wieder ab.
  • Das gesamte Filter, bestehend aus Real- und Imaginärteilausgang, hat den Amplitudenfrequenzgang
    Figure 00140001
  • Wobei fA die Abtastfrequenz bezeichnet.
  • Die zunächst geringe Sperrdämpfung dieser Bandpässe läßt sich erhöhen, indem man K + 1 solcher Bandpässe mit gleicher Impulsantwortlänge N, aber verschiedenen Werten von φ parallel berechnet, ihre Phasengänge durch eine weitere komplexe Multiplikation einander anpaßt und ihre Ausgangssignale gewichtet aufaddiert:
    Figure 00140002
    mit
    Figure 00140003
    (fM: Mittenfrequenz des Bandpasses) und
    Figure 00150001
  • Die Sperrdämpfung der resultierenden Filter nimmt mit der (K + 1)ten Potenz des Abstandes der Signalfrequenz zur Mittenfrequenz des Filters ab: Die Impulsantwort des gesamten Filters hat die Form
    Figure 00150002
    für den Realteil und
    Figure 00150003
    für den Imaginärteil. Dies entspricht den in Gl. 2 und 3 beschriebenen Charakteristiken.
  • 1a
    Testsignal, linker Kanal
    1b
    Testsignal, rechter Kanal
    1c
    Referenzsignal, linker Kanal
    1d
    Referenzsignal, rechter Kanal
    2
    Vorfilterung
    3
    Filterbank
    4
    spektrale Verschmierung
    5
    Berechnung der Betragsquadrate
    6
    zeitliche Verschmierung
    7
    Pegel- und Frequenzgangangleich
    8
    Addition von Eigenrauschen
    9
    zeitliche Verschmierung
    10
    Berechnung von Ausgangsparametern
    11
    Ausgangsparameter

Claims (18)

  1. Messverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen, wobei ein zu bewertendes Testsignal mit einem Referenzsignal verglichen wird, mit Hilfe von Filtern, zeitlicher Verschmierung, Pegel- und Frequenzgangangleich, wobei das zu bewertende Audiosignal als Testsignal (1a, b) mit einem als Referenzsignal (1c, d) gelieferten Originalsignal verglichen wird, beide Signale bzw. Signalpaare (1a, b; 1c, d) nach einer Vorfilterung (2) durch eine Filterbank (3) in den 20 Frequenzbereich mit der gewünschten Filtermittenfrequenz zerlegt werden, durch die Charakteristik der Filterbank (3) und eine anschließende zeitliche Verschmierung (9) mittels Tiefpassfilterung der Filterausgangssignale eine gehörgerechte Darstellung der als Testsignal (1a, b) zu bewertenden Audiosignale erzeugt wird, durch Vergleich der gehörgerechten Darstellung von Testsignal (1a, b) und Referenzsignal (1c, d) nach nichtlinearen Umformungen eine Abschätzung des zu erwartenden Höreindrucks geliefert wird, die Filterbank (3) gehörangepasst ist und aus jedem einlaufenden Signal durch rekursive komplexe Multiplikation eine ungedämpfte Sinusschwingung mit der gewünschten Fil termittelfrequenz erzeugt, die zu einem Testsignal (1a, b) gehörende Sinusschwingung durch Subtraktion des um den Kehrwert der gewünschten Filterbandbreite um eine entsprechende Zeit verzögerten und mit dem der Verzögerung entsprechenden Phasenwinkel multiplizierten Eingangstestsignal (1a, b) wieder abgebrochen wird, durch Faltung im Frequenzbereich aus je n Filterausgängen gleicher Bandbreite und um jeweils den Kehrwert der Fensterlänge versetzter Mittenfrequenz ein der Fouriertransformierten eines cosn (n – 1) förmigen Zeitfensters ein entsprechender Dämpfungsverlauf erzeugt wird, und der Dämpfungsverlauf in größerer Entfernung von der Filtermittelfrequenz im Übergang zwischen Durchlassbereich und Sperrbereich durch eine weitere Faltung im Frequenzbereich bestimmt wird.
  2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, daß die Eingangstestsignale (1a, b) und die Referenzsignale (1c, d) jeweils für einen linken und einen rechten Kanal, das heißt paarweise als Eingangsgröße eingeführt werden.
  3. Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet, daß die Testsignale (1a, b) und die Referenzsignale (1c, d) zunächst einer Vorfilterung (2) unterworfen werden, danach in eine Filterbank (3) geleitet werden, daß danach eine spektrale Verschmierung (4) erfolgt, daß dann die Berechnung von Betragsquadraten (5) erfolgt, worauf eine zeitliche Verschmierung durchgeführt wird, daß die so erzielten Ausgangsgrößen einem Pegelund Frequenzgangangleich (7) unterworfen werden und daß danach eine Addition von Eigenrauschen (8) erfolgt, worauf wiederum eine zeitliche Verschmierung (9) und eine Berechnung (10) von Ausgangsparametern (11) erfolgt oder Schritt (7) wird zwischen Schritt (9) und (10) durchgeführt.
  4. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß nach der Filterung mit Übertragungsfunktionen von Außen- und Mittelohr Eingangssignale durch eine gehörangepaßte Filterbank (3) eine Umrechnung in eine Zeit-Tonheits-Darstellung durchgeführt wird, und daß danach Betragsquadrate (5) der Filterausgangssignale berechnet werden und eine Faltung der Filterausgangssignale mit einer Verschmierungsfunktion (6) durchgeführt wird.
  5. Verfahren nach Patentanspruch 4, dadurch gekennzeichnet, daß die Faltung vor oder nach der Gleichrichtung erfolgt.
  6. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß Pegelunterschiede zwischen Test- und Referenzsignal (1a, b bzw. 1c, d) sowie lineare Verzerrungen des Referenzsignales (1c, d) kompensiert und getrennt ausgewertet werden.
  7. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß ein Teil der zeitlichen Verschmierung direkt nach der Gleichrichtung erfolgt.
  8. Verfahren nach einem der Patentansprüche 1 oder 5, gekennzeichnet durch, eine Filterbank (3), die eine Signalabhängigkeit der Filtercharakteristiken dadurch erreicht, daß die Filterausgänge vor der Gleichrichtung/Betragsbildung mit einer pegelabhängigen Verschmierungsfunktion im Frequenzbereich gefaltet werden.
  9. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß im Referenzsignal (1c, d) vorhandene und lediglich in ihrer spektralen Verteilung veränderten Signalanteile von additiven bzw. von durch nicht Linearitäten erzeugten Störungen getrennt werden und daß die Trennung dieser Störanteile durch Auswertung der Orthogonalitätsbeziehung zwischen den zeitlichen Verläufen der Hüllkurven an einander entsprechenden Filterausgängen des zu bewertenden Testsignals (1a, b) und des Referenzsignals (1c, d) erfolgt.
  10. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß die Filterbank (3) aus einer beliebigen wählbaren Anzahl von Filterpaaren für Test- und Referenzsignal (1a, b bzw. 1c, d) besteht und daß die Filter auf weitgehend beliebigen Tonhöhenskalen gleichmäßig verteilt werden.
  11. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß die Ausgangswerte der Filterbank (3) zur Berücksichtigung der Simultanverdeckung an der oberen Flanke spektral verschmiert werden, daß der Pegel (L) abhängig für jeden Filterausgang aus dem mit einer Zeitkonstante tiefpaßgefilterten Betragsquadrat (5) des entsprechenden Ausgangswertes berechnet wird oder ohne Tiefpaßfilter bestimmt und stattdessen der Verschmierungsfaktor tiefpaßgefiltert wird und daß die Verschmierung unabhängig für die Filter, die den Realteil des Signals repräsentieren und die Filter, die den Imaginärteil des Signals repräsentieren, durchgeführt wird.
  12. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß die zeitliche Verschmierung der Filterausgangssignale in zwei Stufen erfolgt, wobei in der ersten Stufe die Signale über ein Cosinus2-förmiges Zeitfenster ermittelt werden und in der zweiten Stufe eine Nachverdeckung moduliert wird.
  13. Verfahren nach Patentanspruch 12, dadurch gekennzeichnet, daß die Cosinus2-förmigen Zeitfenster eine Länge zwischen 1 bis 16 ms haben.
  14. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß zum Pegelangleich die momentanen Betragsquadrate (5) an den Filterausgängen durch Tiefpässe erster Ordnung zeitlich geglättet werden, daß die verwendeten Zeitkonstanten in Abhängigkeit von der Mittenfrequenz des jeweiligen Filters gewählt werden und daß ein Korrekturfaktor aus der Orthogonalitätsbeziehung zwischen spektralen Hüllkurven der zeitlich geglätteten Filterausgänge von Test- und Referenzsignal (1a, b; 1c, d) berechnet wird.
  15. Verfahren nach Patentanspruch 14, dadurch gekennzeichnet, daß das Testsignal mit dem Korrekturfaktor multipliziert wird, wenn der Korrekturfaktor < 1 ist und das Referenzsignal durch den Korrekturfaktor geteilt wird, wenn der Korrekturfaktor > 1 ist.
  16. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß für jeden Filterkanal Korrekturfaktoren aus der Orthogonalitätsbeziehung zwischen den zeitlichen Hüllkurven der Filterausgänge von Test- und Referenzsignal (1a, b; 1c, d) berechnet werden.
  17. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß aus Eingangswerten in Form der Betragsquadrate (5) in jedem Filterkanal, die Hüllkurvenmodulation, das Eigenrauschen des Gehörs und Konstanten eine gedrosselte Störlautheit ermittelt und über Zeit und Filterkanäle gemittelt wird.
  18. Verfahren nach einem der vorangehenden Patentansprüche, dadurch gekennzeichnet, daß das Eingangssignal (X) um N Abtastwerte verzögert und nach einer Multiplikation mit einem komplexwertigen Faktor vom ursprünglichen Eingangssignal subtrahiert wird, daß das resultierende Signal (V) zu dem um einen Abtastwert verzögerten Ausgangssignal addiert wird und daß das Resultat multipliziert mit einem weiteren komplexwertigen Faktor das neue Ausgangssignal ergibt.
DE19821273A 1998-05-13 1998-05-13 Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen Expired - Fee Related DE19821273B4 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE19821273A DE19821273B4 (de) 1998-05-13 1998-05-13 Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen
EP99106223A EP0957471B1 (de) 1998-05-13 1999-04-12 Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen
DK99106223T DK0957471T3 (da) 1998-05-13 1999-04-12 Målefremgangsmåde til psykoakustisk rigtig kvalitetsvurdering af audiosignaler
DE59913088T DE59913088D1 (de) 1998-05-13 1999-04-12 Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen
AT99106223T ATE317151T1 (de) 1998-05-13 1999-04-12 Messverfahren zur gehörrichtigen qualitätsbewertung von audiosignalen
CA2271445A CA2271445C (en) 1998-05-13 1999-05-12 Measurement procedure for aurally correct quality assessment of audio signals
US09/311,490 US7194093B1 (en) 1998-05-13 1999-05-13 Measurement method for perceptually adapted quality evaluation of audio signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19821273A DE19821273B4 (de) 1998-05-13 1998-05-13 Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen

Publications (2)

Publication Number Publication Date
DE19821273A1 DE19821273A1 (de) 1999-12-02
DE19821273B4 true DE19821273B4 (de) 2006-10-05

Family

ID=7867531

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19821273A Expired - Fee Related DE19821273B4 (de) 1998-05-13 1998-05-13 Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen
DE59913088T Expired - Lifetime DE59913088D1 (de) 1998-05-13 1999-04-12 Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE59913088T Expired - Lifetime DE59913088D1 (de) 1998-05-13 1999-04-12 Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen

Country Status (6)

Country Link
US (1) US7194093B1 (de)
EP (1) EP0957471B1 (de)
AT (1) ATE317151T1 (de)
CA (1) CA2271445C (de)
DE (2) DE19821273B4 (de)
DK (1) DK0957471T3 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001065543A1 (en) * 2000-02-29 2001-09-07 Telefonaktiebolaget Lm Ericsson (Publ) Compensation for linear filtering using frequency weighting factors
US7278289B2 (en) * 2003-04-28 2007-10-09 Sonora Medical Systems, Inc. Apparatus and methods for testing acoustic systems
WO2004107318A1 (en) * 2003-05-27 2004-12-09 Koninklijke Philips Electronics N.V. Audio coding
US20050085316A1 (en) * 2003-10-20 2005-04-21 Exelys Llc Golf ball location system
DE102004029872B4 (de) * 2004-06-16 2011-05-05 Deutsche Telekom Ag Verfahren und Anordnung zur Verbesserung der Qualität bei der Übertragung codierter Audio-/Video-Signale
WO2007098258A1 (en) * 2006-02-24 2007-08-30 Neural Audio Corporation Audio codec conditioning system and method
DE102006025403B3 (de) * 2006-05-31 2007-08-16 Siemens Audiologische Technik Gmbh Verfahren zum Analysieren eines nichtlinearen Signalverarbeitungssystems
KR101600082B1 (ko) * 2009-01-29 2016-03-04 삼성전자주식회사 오디오 신호의 음질 평가 방법 및 장치
CN102422531B (zh) * 2009-06-29 2014-09-03 三菱电机株式会社 音频信号处理装置
US20110015922A1 (en) * 2009-07-20 2011-01-20 Larry Joseph Kirn Speech Intelligibility Improvement Method and Apparatus
US8682621B2 (en) * 2010-07-16 2014-03-25 Micron Technology, Inc. Simulating the transmission of asymmetric signals in a computer system
CN102881289B (zh) * 2012-09-11 2014-04-02 重庆大学 一种基于听觉感知特性的语音质量客观评价方法
CN104361894A (zh) * 2014-11-27 2015-02-18 湖南省计量检测研究院 一种基于输出的客观语音质量评估的方法
CN113077815B (zh) * 2021-03-29 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频评估方法及组件

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19523327A1 (de) * 1995-06-27 1997-01-02 Siemens Ag Verfahren zur verbesserten Schätzung der Impulsantwort eines Übertragungskanals

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4450531A (en) * 1982-09-10 1984-05-22 Ensco, Inc. Broadcast signal recognition system and method
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
JPH0398318A (ja) * 1989-09-11 1991-04-23 Fujitsu Ltd 音声符号化方式
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
DE4431481A1 (de) * 1994-09-03 1996-03-07 Philips Patentverwaltung Schaltungsanordnung mit steuerbarem Übertragungsverhalten
DE4437287C2 (de) * 1994-10-18 1996-10-24 Fraunhofer Ges Forschung Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale
DE19647399C1 (de) * 1996-11-15 1998-07-02 Fraunhofer Ges Forschung Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19523327A1 (de) * 1995-06-27 1997-01-02 Siemens Ag Verfahren zur verbesserten Schätzung der Impulsantwort eines Übertragungskanals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Thiede T., Kabot E.:"A New Perceptual Quality Me- asure for Bit Rate Reduced Audio", Proc. 100th. AES Convention, Kopenhagen, 1996, Reprint 4280.
Thiede T., Kabot E.:"A New Perceptual Quality Me-asure for Bit Rate Reduced Audio", Proc. 100th. AES Convention, Kopenhagen, 1996, Reprint 4280. *

Also Published As

Publication number Publication date
DK0957471T3 (da) 2006-06-06
CA2271445C (en) 2011-02-22
US7194093B1 (en) 2007-03-20
EP0957471B1 (de) 2006-02-01
ATE317151T1 (de) 2006-02-15
DE19821273A1 (de) 1999-12-02
DE59913088D1 (de) 2006-04-13
EP0957471A2 (de) 1999-11-17
EP0957471A3 (de) 2004-01-02
CA2271445A1 (en) 1999-11-13

Similar Documents

Publication Publication Date Title
DE19821273B4 (de) Meßverfahren zur gehörrichtigen Qualitätsbewertung von codierten Audiosignalen
EP0830771B1 (de) Verfahren und schaltungsanordnung zur verbesserung der trägertrennung bei der übertragung von ofdm signalen
DE3506912C2 (de)
DE4316297C1 (de) Frequenzanalyseverfahren
DE60303214T2 (de) Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden
EP1208664B1 (de) Übertragungsverfahren mit senderseitiger frequenz- und zeitspreizung
DE69600728T2 (de) Vorrichtung und verfahren zur signalqualitätserfassung
DE69609850T2 (de) Gleichkanalstörungsreduktion
DE69903334T2 (de) Vorrichtung zur signal-rauschverhältnismessung in einem sprachsignal
DE2749132A1 (de) Rauschfilter-anordnung
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE60220449T2 (de) Verfahren und gerät zur dopplerspreizschätzung und dopplerverschiebungsschätzung
DE3802903A1 (de) Einrichtung zur uebertragung von sprache
WO1998023130A1 (de) Gehörangepasste qualitätsbeurteilung von audiosignalen
DE102011011978A1 (de) Verfahren und Vorrichtung zur gleichzeitigen Ermittlung des Amplituden- und Phasenrauschens eines Messobjekts
DE19505435C1 (de) Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
EP1239455A2 (de) Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung
EP0485390A1 (de) Verfahren zur übertragung eines signals.
WO2003107558A1 (de) Verfahren und schaltungsanordnung zum ermitteln von übertragungsparametern
EP1458216B1 (de) Vorrichtung und Verfahren zur Adaption von Hörgerätemikrofonen
WO2004040790A1 (de) Vorrichtung und verfahren zur aufbereitung von pilotsymbolen für eine kanalschätzung mittels adaptiver tiefpassfilterung
DE69614829T2 (de) Vorrichtung und Verfahren zur Bestimmung der Qualität eines Ausgangssignals, das von einem Signalverarbeitungsschaltkreis erzeugt werden soll
EP0075311B1 (de) Anordnung zur Übertragung von Sprache nach dem Kanalvocoderprinzip
EP1775851A1 (de) Kompensationsschaltung, Kompensationseinheit, Verfahren zur Kompensation des Nebensprechens.
EP0340301A1 (de) Digitales adaptives transformationscodierverfahren

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee