DE602004008455T2 - Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals - Google Patents

Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals Download PDF

Info

Publication number
DE602004008455T2
DE602004008455T2 DE602004008455T DE602004008455T DE602004008455T2 DE 602004008455 T2 DE602004008455 T2 DE 602004008455T2 DE 602004008455 T DE602004008455 T DE 602004008455T DE 602004008455 T DE602004008455 T DE 602004008455T DE 602004008455 T2 DE602004008455 T2 DE 602004008455T2
Authority
DE
Germany
Prior art keywords
loudness
signal
audio signal
audio
excitation signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE602004008455T
Other languages
English (en)
Other versions
DE602004008455D1 (de
Inventor
Alan Jeffrey San Francisco SEEFELDT
Michael J. San Francisco SMITHERS
Brett Graham San Francisco CROCKETT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of DE602004008455D1 publication Critical patent/DE602004008455D1/de
Application granted granted Critical
Publication of DE602004008455T2 publication Critical patent/DE602004008455T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Television Receiver Circuits (AREA)
  • Circuits Of Receivers In General (AREA)

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf Lautheitsmessungen von Audiosignalen und auf Geräte, Verfahren und Rechnerprogramme zur Steuerung der Lautheit von Audiosignalen als Antwort auf solche Messungen.
  • Stand der Technik
  • Lautheit ist eine subjektiv wahrgenommene Eigenschaft eines das Gehör betreffenden Sinneseindrucks, durch die Geräusche auf einem sich von leise zu laut erstreckenden Maßstab geordnet werden können. Da Lautheit eine durch den Zuhörer wahrgenommene Sinneswahrnehmung ist, ist sie nicht für eine direkte physikalische Messung geeignet, was es schwierig macht, sie zu quantifizieren. Zusätzlich können wegen der Wahrnehmungskomponente der Lautheit verschiedene Zuhörer mit „normalem" Gehör verschiedene Wahrnehmungen desselben Geräuschs haben. Der einzige Weg, die Streuungen zu verringern, die durch die individuelle Wahrnehmung verursacht werden, und zu einem allgemein gültigen Maß der Lautheit von Audiomaterial zu gelangen, ist es, eine Gruppe von Zuhörern zu versammeln und einen Lautheitswert oder eine Rangfolge statistisch zu erlangen. Dies ist offensichtlich ein unpraktischer Ansatz für normale, alltägliche Lautheitsmessungen.
  • Es gab viele Versuche, ein befriedigendes, objektives Verfahren zur Lautheitsmessung zu entwickeln. Fletcher und Munson ermittelten 1933, dass das menschliche Ohr bei niedrigen und hohen Frequenzen weniger empfindlich ist als bei mittleren (oder Stimm-)Frequenzen. Sie fanden auch heraus, dass sich die relative Änderung der Empfindlichkeit mit steigendem Geräuschpegel verringert. Ein frühes Lautheitsmessgerät bestand aus einem Mikrofon, Verstärker, Messgerät und einer Kombination von Filtern, die so ausgelegt waren, dass sie die Frequenzantwort des Gehörs bei niedrigen, mittleren und hohen Geräuschpegeln ungefähr nachahmten.
  • Obwohl solche Geräte eine Messung der Lautheit eines einzelnen, auf konstantem Pegel liegenden, isolierten Tons zur Verfügung stellten, passten Messungen von komplexen Geräuschen nicht sehr gut zu den subjektiven Lautheitseindrücken. Geräuschpegelmessgeräte dieser Bauform sind standardisiert worden, aber nur für spezielle Aufgaben, wie die Überwachung und Steuerung von Arbeitslärm, verwendet worden.
  • In den frühen 50er Jahren des 20. Jahrhunderts erweiterten neben anderen Zwicker und Stevens das Werk von Fletcher und Munson durch Entwicklung eines realitätsnäheren Modells des Lautstärkewahrnehmungs-Vorgangs. Stevens veröffentlichte 1956 ein Verfahren zur "Calculation of the Loudness of Complex Noise" im Journal of the Acoustical Society of America, und Zwicker veröffentlichte 1958 seinen Aufsatz zur "Psychological and Methodical Basis of Loudness" in Acoustica. 1959 veröffentlichte Zwicker ein grafisches Verfahren zur Lautheitsberechnung sowie kurz darauf verschiedene ähnliche Aufsätze. Die Verfahren von Stevens und Zwicker wurden als ISO 532, Teile A bzw. B, standardisiert. Beide Verfahren beziehen übliche psychoakustische Phänomene wie Frequenzgruppierung, Frequenzverdeckung und spezifische Lautheit ein. Die Verfahren basieren auf der Aufteilung komplexer Geräusche in Anteile, die in „kritische Gruppen" von Frequenzen fallen, was zulässt, dass einige Signalanteile andere verdecken, und der Ergänzung der spezifischen Lautheit in jeder Frequenzgruppe, um zur Gesamtlautheit des Geräuschs zu gelangen.
  • Ausweislich der "Investigation into Loudness of Advertisements" (Juli 2002) der Australian Broadcasting Authority (ABA) hat die jüngste Forschung gezeigt, dass viele Werbespots (und einige Programme) im Verhältnis zu anderen Programmen als zu laut wahrgenommen wurden und dadurch sehr störend für die Zuhörer sind. Die Untersuchung der ABA ist lediglich der jüngste Versuch, sich mit einem Problem zu befassen, das seit Jahren für nahezu das gesamte gesendete Material und nahezu alle Länder bestand. Die Ergebnisse zeigen, dass die Störung des Publikums aufgrund uneinheitlicher Lautheit über das Programmmaterial verringert oder unterbunden werden könnte, falls verlässliche, einheitliche Messungen der Programmlautheit durchgeführt werden könnten und benutzt würden, um die störenden Schwankungen der Lautheit zu verringern.
  • Die Barkskala ist eine im Frequenzgruppenkonzept verwendete Maßeinheit. Die Frequenzgruppenskala basiert auf der Tatsache, dass das menschliche Gehör ein Breitbandspektrum in Teile zerlegt, die kleineren, kritischen Unterbändern entsprechen. Hinzufügen einer Frequenzgruppe zu der nächsten auf eine Art und Weise, dass die obere Grenze der unteren Frequenzgruppe die untere Grenze der nächsthöheren Frequenzgruppe ist, führt zur Frequenzgruppenskala. Falls die Frequenzgruppen auf diese Weise zusammengefügt werden, dann entspricht jedem Übergangspunkt eine bestimmte Frequenz. Die erste Frequenzgruppe umfasst den Bereich von 0 bis 100 Hz, die zweite den Bereich von 100 Hz bis 200 Hz, die dritte den Bereich von 200 Hz bis 300 Hz und so weiter, bis hinauf zu 500 Hz, wo sich der Frequenzbereich jeder Frequenzgruppe vergrößert. Der hörbare Frequenzbereich von 0 bis 16 kHz kann in 24 aneinander angrenzende Frequenzgruppen unterteilt werden, deren Bandbreite sich mit höherer Frequenz vergrößert. Die Frequenzgruppen sind von 0 bis 24 durchnummeriert und haben die die Barkskala definierende Einheit "Bark". Die Beziehung zwischen Frequenzgruppenzahl und Frequenz ist für das Verständnis vieler Charakteristika des menschlichen Ohrs wichtig. Siehe beispielsweise, Psychoacoustics – Facts and Models von E. Zwicker and H. Fastl, Springer-Verlag, Berlin, 1990.
  • Die äquivalente rechteckige Filterbandbreiten-Skala (ERB) ist ein der Barkskala ähnlicher Weg zur Messung der Frequenz für das menschliche Gehör. Entwickelt durch Moore, Glasberg und Baer ist es eine Verfeinerung von Zwicker's Lautheitswerk. Siehe Moore, Glasberg und Baer (B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness," Journal of the Audio Engineering Society, Bd. 45, Nr. 4, April 1997, Seiten 224–240).
  • Die Messung von Frequenzgruppen unterhalb von 500 Hz ist schwierig, da bei solch niedrigen Frequenzen die Leistungsfähigkeit und Empfindlichkeit des menschlichen Hörsystems rasch abnehmen. Verbesserte Messungen der Hörfilterbandbreite haben zur ERB-Frequenzskala geführt. Derartige Messungen verwendeten Notched-Noise Maskierer, um die Hörfilterbandbreite zu messen. Im Allgemeinen ist die Hörfilterbandbreite (in Einheiten ERB ausgedrückt) auf der ERB-Skala kleiner als auf der Barkskala. Für niedrige Frequenzen werden die Unterschiede größer.
  • Die Frequenztrennschärfe des menschlichen Hörsystems kann durch Aufteilen der Geräuschintensität auf in Frequenzgruppen fallende Anteile angenähert werden. Solch eine Näherung führt zum Begriff der Frequenzgruppen-Intensitäten. Wenn statt einer unendlich steilen Flanke der hypothetischen Frequenzgruppen-Filter die durch das menschliche Hörsystem tatsächlich erzeugte Flanke berücksichtigt wird, führt solch ein Vorgehen dann zu einer, Erregung genannten, Zwischengröße der Intensität. Meistens werden solche Größen nicht als lineare Größen, sondern ähnlich wie Schalldruckpegel, als logarithmische Größen verwendet. Die Frequenzgruppen- und Erregungspegel sind die einander zugeordneten Größen, die als Zwischengrößen eine wichtige Rolle in vielen Modellen spielen. (Siehe Psychoacoustics – Facts and Models, supra).
  • Lautstärkepegel können in der Einheit „Phon" gemessen werden. Ein Phon ist definiert als empfundene Lautstärke einer bei 1 dB Schalldruckpegel (SPL) abgespielten reinen 1 kHz Sinuswelle, was einem Druckeffektivwert von 2 × 10–5 Pascal entspricht. N Phon ist die wahrgenommene Lautstärke eines bei N dB SPL abgespielten 1 kHz Tones. Unter Verwendung dieser Definition beim Vergleich der Lautheit von Tönen mit anderen Frequenzen als 1 kHz mit einem Ton bei 1 kHz können Kurven gleicher Lautstärke für einen gegebenen Phonpegel bestimmt werden. 7 zeigt Kurven gleicher Lautstärkepegel für Frequenzen zwischen 20 Hz und 12,5 kHz, und für Phonpegel zwischen 4,2 Phon (wird als Ruhehörschwelle angesehen) und 120 Phon (ISO226: 1987 (E), "Acoustics – Normal Equal Loudness Level Contours").
  • Lautstärke- bzw. Lautheitspegel können auch in der Einheit „Sone" gemessen werden. Es gibt wie in 7 angegeben eine eindeutige Zuordnung zwischen Phoneinheiten und Soneeinheiten. Ein Sone ist definiert als die Lautstärke einer 40 dB (SPL) reinen 1 kHz Sinuswelle und entspricht 40 Phon. Die Soneeinheiten sind so definiert, dass einer Verdoppelung in Sone eine Verdoppelung der wahrgenommener Lautstärke entspricht. Beispielsweise werden 4 Sone als zweimal so laut wie 2 Sone wahrgenommen. Daher ist es aussagekräftiger, die Lautstärkepegel in Sone anzugeben.
  • Da Sone eine Maßeinheit der Lautheit eines Audiosignals ist, ist die spezifische Lautheit einfach die Lautheit pro Frequenzeinheit. Deshalb hat die spezifische Lautheit bei Verwendung der Bark-Frequenzskala Einheiten von Sone pro Bark, und bei Verwendung der ERB-Frequenzskala sind die Einheiten Sone pro ERB.
  • Während des ganzen restlichen Teils dieses Dokuments werden hierin Begriffe wie „Filter" und „Filterbank verwendet, um im Wesentlichen jede Form rekursiven und nichtrekursiven Filterns wie IIR-Filter oder Transformationen einzuschließen, und „gefilterte" Information ist das Ergebnis der Anwendung solcher Filter. Unten beschriebene Ausführungsformen setzen durch IIR-Filter und Transformationen realisierte Filterbänke ein.
  • Offenbarung der Erfindung
  • Eine Aufgabe der Erfindung ist es, ein Verfahren zur objektiven Lautheitsmessung bereitzustellen, das genauer an die durch statistische Messung der Lautheit mittels mehrerer menschlicher Zuhörer gewonnen subjektiven Lautheitsergebnisse angepasst werden kann.
  • Gemäß einem Aspekt der vorliegenden Erfindung umfasst ein Verfahren zur Bearbeitung von Audiosignalen die Erzeugung eines Erregungssignals als Reaktion auf das Audiosignal und die Berechnung der wahrgenommenen Lautstärke des Audiosignals als Reaktion auf das Erregungssignal und eines Maßes für die Charakteristika des Audiosignals, wobei die Berechnung aus einer Gruppe von zwei oder mehr Modellierungsfunktionen der spezifischen Lautheit eine oder eine Kombination von zwei oder mehr der Modellierungsfunktionen der spezifischen Lautheit auswählt, wobei deren Auswahl durch das Maß der Charakteristika des Audioeingangssignals gesteuert wird.
  • Gemäß weiteren Aspekten der Erfindung werden eine Vorrichtung und ein Computerprogramm geschaffen, wie in Patentanspruch 20 bzw. 21 dargelegt.
  • In einer Aspekte der Erfindung verwendenden Ausführungsform erfasst ein Verfahren oder eine Vorrichtung zur Signalverarbeitung ein Audioeingangssignal. Das Signal wird durch ein Filter oder eine Filterfunktion, die die Charakteristika des Außenohrs und des Mittelohrs nachbilden, sowie eine Filterbank oder Filterbankfunktion, die das gefilterte Signal in Frequenzbänder aufteilt, die das entlang der Basilarmembran des Innenohrs erzeugte Erregungsmuster nachbilden, linear gefiltert. Für jedes Frequenzband wird die spezifische Lautheit unter Verwendung einer oder mehrerer Funktionen oder Modellen der spezifischen Lautheit berechnet, wobei deren Auswahl durch aus dem Audioeingangssignal gewonnene Eigenschaften oder Merkmale gesteuert wird. Die spezifische Lautheit jedes Frequenzbandes wird zu einem Lautheitsmaß kombiniert, das kennzeichnend für das Breitband-Audioeingangssignal ist. Für irgendeine begrenzte Zeitspanne des Eingangssignals kann ein einzelner Wert des Lautheitsmaßes berechnet werden, oder das Lautheitsmaß kann wiederholt für Zeitintervalle oder Blöcke des Audioeingangssignals berechnet werden.
  • In einer weiteren, Aspekte der Erfindung verwendenden Ausführungsform erfasst ein Verfahren oder eine Vorrichtung zur Signalverarbeitung ein Audioeingangssignal. Das Signal wird durch ein Filter oder eine Filterfunktion, die die Charakteristika des Außenohrs und des Mittelohrs nachbilden, sowie eine Filterbank oder Filterbankfunktion, die das gefilterte Signal in Frequenzbänder aufteilt, die das entlang der Basilarmembran des Innenohrs erzeugte Erregungsmuster nachbilden, linear gefiltert. Für jedes Frequenzband wird die spezifische Lautheit unter Verwendung einer oder mehrerer Funktionen oder Modellen der spezifischen Lautheit berechnet; deren Auswahl wird durch aus dem Audioeingangssignal gewonnene Eigenschaften oder Merkmale gesteuert. Die spezifische Lautheit jedes Frequenzbandes wird zu einem Lautheitsmaß kombiniert, das kennzeichnend für das Breitband-Audioeingangssignal ist. Das Lautheitsmaß wird mit einem Referenzlautheitswert verglichen, und die Differenz. wird verwendet, um die vorher für die Berechnung der spezifischen Lautheit eingegebenen, in Frequenzbänder aufgeteilten Signale zu skalieren oder deren Verstärkung einzustellen. Die Berechnung der spezifischen Lautheit, die Berechnung der Lautheit und der Vergleich mit der Referenz werden solange wiederholt, bis der Lautheitswert und der Referenzlautheitswert im Wesentlichen gleich sind. Folglich verkörpert die auf die in Frequenzbänder aufgeteilten Signale angewandte Verstärkung diejenige Verstärkung, die, wenn sie auf das Audioeingangssignal angewandt wird, zu einer der Referenzlautheit im Wesentlichen gleichen wahrgenommenen Lautstärke des Audioeingangssignals führt. Für irgendeine begrenzte Zeitspanne des Eingangssignals kann ein einzelner Wert des Lautheitsmaßes berechnet werden, oder das Lautheitsmaß kann wiederholt für Zeitintervalle oder Blöcke des Audioeingangssignals berechnet werden. Eine rekursive Anwendung der Verstärkung ist sowohl wegen der nichtlinearen Natur von wahrgenommener Lautstärke als auch wegen der Struktur des Lautheitsmessprozesses vorzuziehen.
  • Die verschiedenen Aspekte der vorliegenden Erfindung und ihrer bevorzugten Ausführungsformen können durch Bezugnahme auf die folgende Offenbarung und die begleitenden Zeichnungen, in denen in den verschiedenen Zeichnungen gleiche Bezugszeichen gleiche Bestandteile bezeichnen, besser verstanden werden. Die verschiedene Vorrichtungen und Prozesse darstellenden Zeichnungen zeigen wesentliche Bestandteile, die zum Verständnis der vorliegenden Erfindung hilfreich sind. Um der Klarheit willen lassen die Zeichnungen viele andere Merkmale weg, die in praxisnahen Ausführungsformen wichtig sein können und dem Durchschnittsfachmann bekannt sind, aber zum Verständnis der Konzepte der vorliegenden Erfindung nicht notwendig sind. Die Signalverarbeitung zur Umsetzung der vorliegenden Erfindung kann auf vielfältige Art und Weise ausgeführt werden, einschließlich durch auf Mikroprozessoren, digitalen Signalverarbeitungsprozessoren, Gatteranordnungen und anderen Formen von Rechenschaltkreisen ablaufenden Programmen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein schematisches Funktionsblockdiagramm einer Ausführungsform eines Aspekts der vorliegenden Erfindung.
  • 2 ist ein schematisches Funktionsblockdiagramm einer Ausführungsform eines weiteren Aspekts der vorliegenden Erfindung.
  • 3 ist ein schematisches Funktionsblockdiagramm einer Ausführungsform eines weiteren Aspekts der vorliegenden Erfindung.
  • 4 ist ein idealisiertes Übertragungsverhalten eines als Übertragungsfilter in einer Ausführungsform der vorliegenden Erfindung geeigneten linearen Filters P(z), in der die vertikale Achse die Dämpfung in Dezibel (dB) und die horizontale Achse die Frequenz als Logarithmus zur Basis 10 in Hertz (Hz) ist.
  • 5 zeigt die Beziehung zwischen der ERB Frequenzskala (vertikale Achse) und der Frequenz in Hertz (horizontale Achse).
  • 6 zeigt einen Satz idealisierter Hörfilter-Übertragungsverhalten, die die Frequenzgruppierung auf der ERB-Skala annähern. Die horizontale Skala ist die Frequenz in Hertz und die vertikale Skala ist der Pegel in Dezibel.
  • 7 zeigt Kurven gleicher Lautstärke aus ISO266. Die horizontale Skala ist die Frequenz in Hertz (Logarithmus zur Basis 10 Skalierung) und die vertikale Skala ist der Schalldruckpegel in Dezibel.
  • 8 zeigt durch das Übertragungsfilter P(z) normalisierte Kurven gleicher Lautstärke aus ISO266. Die horizontale Skala ist die Frequenz in Hertz (Logarithmus zur Basis 10 Skalierung) und die vertikale Skala ist der Schalldruckpegel in Dezibel.
  • 9 (durchgezogene Linien) zeigt grafische Darstellungen von Lautheit sowohl für gleichförmig erregendes Rauschen und einen 1 kHz Sinuston, wobei die durchgezogenen Linien in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung sind, in der die Parameter so gewählt sind, dass sie experimentellen Daten nach Zwicker entsprechen (Quadrate und Kreise). Die vertikale Skala ist die Lautheit in Sone (Logarithmus zur Basis 10) und die horizontale Skala ist der Schalldruckpegel in Dezibel.
  • 10 ist ein schematisches Funktionsblockdiagramm einer Ausführungsform eines weiteren Aspekts der vorliegenden Erfindung.
  • 11 ist ein schematisches Funktionsblockdiagramm einer Ausführungsform eines weiteren Aspekts der vorliegenden Erfindung.
  • 12 ist ein schematisches Funktionsblockdiagramm einer Ausführungsform eines anderen Aspekts der vorliegenden Erfindung.
  • 13 ist ein schematisches Funktionsblockdiagramm einer Ausführungsform eines anderen Aspekts der vorliegenden Erfindung.
  • Verfahren zur Ausführung der Erfindung
  • Wie unten detaillierter beschrieben, umfasst eine in 1 gezeigte Ausführungsform eines ersten Aspekts der vorliegenden Erfindung eine Steuereinheit oder eine Steuerfunktion der spezifischen Lautheit („Steuerung der spezifischen Lautheit") 124, die Charakteristika eines Audioeingangssignals auswerten und ableiten. Die Audiocharakteristika werden verwendet, um Parameter in einem Wandler der spezifischen Lautheit oder einer Wandlerfunktion der spezifischen Lautheit („spezifische Lautheit") 120 zu steuern. Durch unter Verwendung von Signalcharakteristika eingestellte Parameter der spezifischen Lautheit kann die Methode zur objektiven Lautheitsmessung genauer an die durch statistische Messung der Lautheit mittels mehrerer menschlicher Zuhörer gewonnen subjektiven Lautheitsmesswerte angepasst werden. Die Verwendung von Signalcharakteristika zur Steuerung der Lautheitsparameter kann ebenso das Auftreten von fehlerhaften Messwerten verringern, die eine als für die Zuhörer störend erachtete Signallautheit zur Folge haben.
  • Wie unten detaillierter beschrieben, fügt eine in 2 gezeigte Ausführungsform eines zweiten Aspekts der vorliegenden Erfindung eine Verstärkungsvorrichtung oder -funktion („iterative Verstärkungsaktualisierung") 233 hinzu, deren Zweck es ist, die Verstärkung des vom Audioeingangssignal abgeleiteten zeitgemittelten Erregungssignals iterativ so lange einzustellen, bis die zugehörige Lautheit bei 223 in 2 der erwünschten Referenzlautheit bei 230 in 2 entspricht. Da die objektive Messung der wahrgenommenen Lautstärke einen von Natur aus nichtlinearen Prozess umfasst, kann zweckmäßigerweise eine iterative Schleife eingesetzt werden, um eine geeignete Verstärkung zu bestimmen, die die Lautheit des Eingangsaudiosignals an den erwünschten Lautheitspegel angleicht. Jedoch würde eine iterative, ein gesamtes Lautheits-Messsystem umschließende Verstärkungsschleife, in der Art, dass die Verstärkungseinstellung für jede Lautheitsiteration auf das originale Audioeingangssignal angewendet wird, wegen der zur genauen Messung der Langzeitlautheit notwendigen Zeitintegration aufwendig zu realisieren sein. Im Allgemeinen erfordert in einer derartigen Anordnung die Zeitintegration für jede Veränderung der Verstärkung in der Iteration eine neue Berechnung. Wie weiter unten erklärt, kann jedoch in den Aspekten der Erfindung, die in den Ausführungsformen in 2 und auch in 3 und 1012 gezeigt sind, die Zeitintegration in linearen Verarbeitungspfaden durchgeführt werden, die dem nichtlinearen, einen Teil der iterativen Verstärkungsschleife bildenden Prozess vorausgehen und/oder folgen. Lineare Verarbeitungspfade müssen nicht einen Teil der iterativen Schleife bilden. Daher kann, beispielsweise in der Ausführungsform von 2, der Lautheitsmesspfad vom Eingang 201 bis zu einem Wandler der spezifischen Lautheit oder einer Wandlerfunktion der spezifischen Lautheit („spezifische Lautheit") 220 die Zeitintegration in der Zeitmittelungsfunktion („Zeitmittelung") 206 enthalten und linear sein. Folglich brauchen die Verstärkungsiterationen nur auf eine verkleinerte Menge von Lautheitsmessvorrichtungen oder -funktionen angewendet werden und müssen keine Zeitintegration beinhalten. In der Ausführungsform aus 2 sind das Übertragungsfilter oder die Übertragungsfilterfunktion („Übertragungsfilter") 202, die Filterbank oder die Filterbankfunktion („Filterbank") 204, der Zeitmittelungsbilder oder die Zeitmittelungsfunktion („Zeitmittelung") 206 und die Steuereinheit der spezifischen Lautheit oder die Steuerfunktion der spezifischen Lautheit („Steuerung der spezifischen Lautheit") 224 nicht Teil der iterativen Schleife, was die Realisierung der iterativen Verstärkungssteuerung durch effiziente und genaue Echtzeitsysteme erlaubt.
  • Wieder auf 1 bezugnehmend wird ein Funktionsblockdiagramm einer Ausführungsform des Lautheitsmessgeräts oder Lautheitsmessprozesses 100 gemäß einem ersten Aspekt der vorliegenden Erfindung gezeigt. Ein Audiosignal, dessen Lautheitsmaß bestimmt werden soll, wird an einen Eingang 101 des Lautheitsmessgerätes oder Lautheitsmessprozesses 100 angelegt. Der Eingang wird an zwei Pfade angelegt – einen ersten (Haupt-)Pfad, der die spezifische Lautheit in jedem einer Vielzahl von Frequenzbändern berechnet, die diejenigen Erregungsmuster nachbildet, die entlang der Basilarmembran des Innenohrs gebildet werden, und einen zweiten (Neben-)Pfad mit einer Steuereinheit der spezifischen Lautheit, die die im Hauptpfad eingesetzten Funktionen oder Modelle der spezifischen Lautheit auswählt.
  • In einer bevorzugten Ausführungsform wird die Audioverarbeitung digital durchgeführt. Entsprechend wird das Audioeingangssignal durch die diskrete Zeitfolge x[n] bezeichnet, die von der Audioquelle mit irgendeiner Abtastfrequenz fs abgetastet wurde. Es wird vorausgesetzt, dass die Folge x[n] geeignet skaliert ist, so dass die durch
    Figure 00080001
    bestimmte Effektivleistung von x[n] in dB dem Schalldruckpegel in dB entspricht, bei dem das Audio einem menschlichen Zuhörer vorgespielt wird. Zusätzlich wird der Einfachheit der Erklärung wegen angenommen, dass das Audiosignal monophon ist. In einer später beschriebenen Art und Weise kann jedoch die Ausführungsform an Multikanal-Audio angepasst werden.
  • Übertragungsfilter 102
  • Im Hauptpfad wird das Audioeingangssignal an ein Übertragungsfilter oder eine Übertragungsfilterfunktion („Übertragungsfilter") 102 angelegt, deren Ausgabe eine gefilterte Version des Audiosignals ist. Das Übertragungsfilter 102 bildet durch die Anwendung des linearen Filters P(z) die Wirkung der Audioübertragung durch das Außen- und Mittelohr nach. Wie in 4 gezeigt, ist der Betrag einer geeigneten Übertragungsfunktion von P(z) unter 1 kHz Eins und über 1 kHz folgt die Übertragungsfunktion dem Inversen der im ISO226 Standard angegebenen Ruhehörschwelle, wobei die Schwelle so normalisiert ist, dass sie bei 1 kHz gleich Eins ist. Durch Anwendung des Übertragungsfilters ähnelt das vom Lautheitsmessprozess verarbeitete Audio mehr dem vom menschlichen Gehör wahrgenommenen Audio und verbessert dadurch das objektive Lautheitsmaß. Daher ist die Ausgabe des Übertragungsfilters 102 eine frequenzabhängig skalierte Version der Zeitbereichs-Audioeingangsabtastwerte x[n].
  • Filterbank 104
  • Das gefilterte Audiosignal wird an eine Filterbank oder Filterbankfunktion ("Filterbank") 104 (1) angelegt. Die Filterbank 104 ist dafür ausgelegt, das entlang der Basilarmembran des Innenohrs erzeugte Erregungsmuster nachzubilden. Die Filterbank 104 kann einen Satz an linearen Filtern umfassen, deren Bandbreite und Rastermaß auf der äquivalenten rechteckigen Filterbandbreiten (ERB)-Frequenzskala, wie von Moore, Glasberg and Baer (B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness," supra) definiert, konstant sind.
  • Obwohl die ERB-Frequenzskala besser der menschlichen Wahrnehmung angepasst ist und bei der Erzeugung von den subjektiven Lautheitsergebnissen angepassten objektiven Lautheitsmessungen bessere Ergebnisse aufweist, kann mit verringerter Leistung die Bark-Frequenzskala eingesetzt werden.
  • Für eine Mittenfrequenz f in Hertz kann die Breite eines ERB-Bandes in Hertz so angenähert werden: ERB(f) = 24,7(4,37f/1000 + 1) (1)
  • Durch diese Beziehung wird eine verzerrte Frequenzskala derart definiert, dass an jedem Punkt entlang der verzerrten Skala die zugehörige ERB in Einheiten der verzerrten Skala gleich Eins ist. Die Funktion zur Umwandlung der linearen Frequenz in Hertz in diese ERB-Frequenzskala erhält man durch Integration des Kehrwertes von Gleichung 1:
    Figure 00090001
  • Es ist auch zweckdienlich, die Abbildung von der ERB-Skala zurück in die lineare Frequenzskala durch Auflösen der Gleichung 2a nach f auszudrücken:
    Figure 00090002
    wobei e in Einheiten der ERB-Skala ist. 5 zeigt die Beziehung zwischen der ERB-Skala und der Frequenz in Hertz.
  • Die Übertragungsfunktion der Hörfilter für die Filterbank 104 kann durch Verwendung üblicher IIR-Filter beschrieben und realisiert werden. Im Speziellen können die in der Filterbank 104 realisierten einzelnen Hörfilter bei Mittenfrequenz fc in Hertz durch die IIR-Übertragungsfunktion zwölfter Ordnung bestimmt werden:
    Figure 00090003
    Bw = min{1,55ERB(fc),0,5fc}, (4c) fB = min{ERBscale–1(ERBscale(fc) + 5,25), fs/2}, (4d) rB = 0,985, (4e)fs die Abtastfrequenz in Hertz ist, und G ein normalisierender Faktor ist, um sicherzustellen, dass jedes Filter beim Maximum seiner Übertragungsfunktion den Verstärkungsfaktor Eins hat; derart gewählt, dass
    Figure 00100001
  • Die Filterbank 104 kann M derartiger als Bänder bezeichneter Hörfilter auf in gleichen Abständen auf der ERB-Skala angeordneten Mittenfrequenzen fc[1]...fc[M] enthalten. Im Speziellen, fc[1] = fmin (5a) fc[m] = fc[m – 1] + ERBToHz(HzToERB(fc[m – 1]) + Δ) m = 2...M (5b) fc[M] < fmax, (5c)wobei Δ das gewünschte ERB-Rastermaß der Filterbank 104 ist und wobei fmin und fmax die gewünschten minimalen beziehungsweise maximalen Mittenfrequenzen sind. Man kann Δ = 1 wählen und man kann, den Frequenzbereich berücksichtigend, in dem das menschliche Gehör empfindlich ist, fmin = 50Hz und fmax = 20,000Hz festlegen. Mit derartigen Parametern liefert beispielsweise die Anwendung der Gleichungen 6a–c M = 40 Hörfilter. Die Amplitudengänge derartiger M Hörfilter, die die Frequenzgruppierung auf der ERB-Skala annähern, sind in 6 gezeigt.
  • Alternativ können die Filteroperationen hinreichend durch unter Verwendung einer gewöhnlich als Kurzzeit-Diskrete-Fouriertransformation (STDFT) bezeichneten diskreten Fouriertransformation endlicher Länge angenähert werden, da von einer die Filter auf der Abtastrate des Audiosignals ausführenden, als Vollraten-Realisierung bezeichneten Realisierung angenommen wird, dass sie eine größere Zeitauflösung bereitstellt als für genaue Lautheitsmessungen nötig ist. Durch Verwendung von STDFT anstelle einer Vollraten-Realisierung kann eine Verbesserung der Effizienz und eine Verringerung der Rechenkomplexität erreicht werden.
  • Die STDFT des Audioeingangssignals ist bestimmt als:
    Figure 00110001
    wobei k der Frequenzindex ist, t der Blockindex ist, N die DFT-Größe ist, T die Sprungweite ist, und w[n] ein Fenster der Länge N ist, das so normalisiert ist, dass
    Figure 00110002
  • Man beachte, dass die Variable t in Gleichung 6, im Gegensatz zu einem Maß der Zeit in Sekunden, ein diskreter, den Zeitblock der STDFT darstellender Index ist. Jedes Inkrement von t stellt einen Sprung von T Abtastwerten entlang des Signals x[n] dar. Folgende Bezüge auf den Index t übernehmen diese Definition. Während abhängig von den Details der Realisierung unterschiedliche Parametereinstellungen und Fensterformen verwendet werden können, führt N = 4096, T = 2048 und wenn w[n] ein Hanning-Fenster ist, für fs = 44100Hz zu hervorragenden Ergebnissen. Die oben beschriebene STDFT kann durch Verwendung der schnellen Fourier-Transformation (FFT) effizienter sein.
  • Um die Lautheit des Audioeingangssignals zu berechnen, ist ein Maß der Audiosignalenergie in jedem Filter der Filterbank 104 nötig. Die Kurzzeit-Energieausgabe jedes Filters in Filterbank 104 kann durch Multiplikation von Filterübertragungsfunktionen in der Frequenzdomäne mit dem Leistungsspektrum des Eingabesignals angenähert werden:
    Figure 00110003
    wobei m die Bandnummer ist, t die Blocknummer ist, und P das Übertragungsfilter ist. Es sei beachtet, dass andere als in Gleichung 3 angegebene Formen des Amplitudengangs der Hörfilter in Gleichung 8 verwendet werden können, um ähnliche Ergebnisse zu erzielen. Beispielsweise schlagen Moore und Glasberg eine durch eine Exponentialfunktion beschriebene Filterform vor, die Ähnliches wie Gleichung 3 leistet. Zusätzlich kann man, mit einer kleinen Abnahme der Leistungsfähigkeit, jedes Filter durch einen „Brick-Wall" Bandpass mit der Bandbreite von einem ERB annähern, und als eine weitere Näherung kann das Übertragungsfilter P aus der Summe herausgezogen werden. In diesem Fall vereinfacht sich Gleichung 8 zu
    Figure 00110004
    k1 = round(ERBToHz(HzToERB(fc[m]) – 1/2)N/fs) (9b) k2 = round(ERBToHz(HzToERB(fc[m]) + 1/2)N/fs) (9c)
  • Daher ist die Erregungsausgabe der Filterbank 104 eine Darstellung der Energie E in den jeweiligen ERB-Bändern m je Zeitperiode t im Frequenzbereich.
  • Mehrkanal
  • Für den Fall eines in einem Mehrkanal-Format vorliegenden Audioeingangssignals, das über mehrere Lautsprecher, einen für jeden Kanal, vorzuspielen ist, kann zuerst die Erregung für jeden Einzelkanal wie oben beschrieben berechnet werden. Um daran anschließend die wahrgenommene Lautstärke aller Kanäle in Kombination zu berechnen, können die Einzelerregungen zu einer einzelnen Erregung aufsummiert werden, um die die Ohren des Zuhörers erreichende Erregung anzunähern. Die gesamte folgende Weiterverarbeitung wird dann mit dieser einzelnen, aufsummierten Erregung durchgeführt.
  • Zeitmittelung 106
  • Die Psychoakustik-Forschung und subjektive Lautheitstests legen nahe, dass beim Vergleich der Lautheit verschiedener Audiosignale die Zuhörer irgendeine Art von Zeitintegration der Kurzzeit- oder „Augenblicks-"Signallautheit durchführen, um zu einem im Vergleich verwendeten Wert der wahrgenommenen Langzeitlautstärke zu gelangen. Bei der Erstellung eines Modells der Lautstärkewahrnehmung haben andere vorgeschlagen, dass diese Zeitintegration durchgeführt wird, nachdem die Erregung nichtlinear in die spezifische Lautheit umgewandelt wurde. Jedoch haben die vorliegenden Erfinder festgestellt, dass diese Zeitintegration durch Anwendung von linearer Glättung auf die Erregung vor der Umwandlung in spezifische Lautheit angemessen modelliert werden kann. Durch Durchführung der Glättung vor der Berechnung der spezifischen Lautheit wird gemäß einem Aspekt der vorliegenden Erfindung ein wesentlicher Vorteil verwirklicht, wenn die Verstärkung berechnet wird, die auf ein Signal angewendet werden muss, um seine gemessene Lautheit in einer vorgeschriebenen Art und Weise einzustellen. Wie weiter unten erklärt, kann die Verstärkung durch Verwendung einer iterativen Schleife berechnet werden, die nicht nur die Berechnung der Erregung, sondern vorzugsweise auch eine derartige Zeitintegration ausschließt. Auf diese Art und Weise kann die iterative Schleife die Verstärkung durch Berechnungen bilden, die nur vom aktuellen Zeitrahmen, für den die Verstärkung berechnet wird, abhängen, im Gegensatz zu Berechnungen, die von der gesamten Zeitstrecke der Zeitintegration abhängen. Das Ergebnis ist eine Einsparung sowohl in Abarbeitungszeit als auch in Speicher. Ausführungsformen, die eine Verstärkung unter Verwendung einer iterativen Schleife berechnen, schließen diejenigen ein, die unten in Zusammenhang mit den 2, 3 und 1012 beschrieben werden.
  • Zurückkehrend zur Beschreibung von 1 kann die lineare Glättung der Erregung auf verschiedene Art und Weise realisiert werden. Beispielsweise kann die Glättung rekursiv unter Verwendung einer Zeitmittelungsvorrichtung oder -funktion („Zeitmittelung") 106 durchgeführt werden, die die folgenden Gleichungen anwenden:
    Figure 00130001
    wobei die Anfangsbedingungen E ~[m, – 1] = 0 und σ ~[m, – 1] = 0 sind. Ein spezifisches Merkmal des Glättungsfilters ist, dass durch Veränderung des Glättungsparameter λm die geglättete Energie E ~[m, t] vom echten Zeitmittel von E[m, t] bis zu einem Fading-Memory-Mittel von E[m, t] reicht. Für λm = 1 kann man dann aus (10b) ersehen, dass σ ~[m, t] = t, und dass dann E ~[m, t] für Zeitblöcke von 0 bis t gleich dem echten Zeitmittel von E[m, t] ist. Für 0 ≤ λm < 1 gilt σ ~[m, t] → 1/(1 – λm) für t → ∞ und E ~[m, t] ist einfach das Ergebnis der Anwendung eines einpoligen Glätters auf E[m, t]. Für den Anwendungsfall, bei dem eine einzige, die Langzeitlautheit eines Audiosignals endlicher Länge beschreibende Zahl gewünscht wird, kann man λm = 1 für alle m setzen. Für einen Echtzeitanwendungsfall, bei dem man die sich über die Zeit verändernde Langzeitlautheit eines fortdauernden Audiostroms in Echtzeit verfolgen möchte, kann man 0 ≤ λm < 1 festlegen und λm für alle m auf denselben Wert einstellen.
  • In der Berechnung der Zeitmittelung von E[m, t] kann es wünschenswert sein, als „zu leise" erachtete und nicht zur wahrgenommenen Lautstärke beitragenden Kurzzeitsegmente wegzulassen. Um dies zu erreichen, kann ein zweiter, mit einem Schwellwert versehener Glätter parallel zum Glätter in Gleichung 10 betrieben werden. Dieser zweite Glätter halt seinen augenblicklichen Wert, wenn E[m, t] klein im Verhältnis zu E ~[m, t] ist:
    Figure 00130002
    wobei tdB die in Dezibel vorgegebene relative Schwelle ist. Obwohl es nicht entscheidend für die Erfindung ist, wurde festgestellt, dass ein Wert von tdB = –24 gute Ergebnisse liefert. Falls kein zweiter Glätter parallel betrieben wird, dann gilt E[m, t] = E ~[m, t].
  • Spezifische Lautheit 120
  • Es bleibt, die in Bänder aufgeteilte, zeitgemittelte Erregungsenergie E[m, t] in ein einziges Maß der Lautheit in Wahrnehmungseinheiten, in diesem Fall Sone, umzuwandeln. Im Wandler der spezifischen Lautheit oder in der Wandlerfunktion der spezifischen Lautheit ("Spezifische Lautheit") 120 wird jedes Band der Erregung in einen Wert der spezifischen Lautheit, die in Sone pro ERB gemessen wird, umgewandelt. Im Lautheitskombinierer oder in der Lautheitskombinier-Funktion („Lautheit") 122 können die Werte der spezifischen Lautheit zur Bildung der gesamten wahrgenommenen Lautstärke über die Bänder integriert oder summiert werden.
  • Steuerung der spezifischen Lautheit 124/Spezifische Lautheit 120
  • Mehrere Modelle
  • In einem Aspekt benutzt die vorliegende Erfindung in Block 120 eine Vielzahl von Modellen zur Umwandlung der in Bändern aufgeteilten Erregung zu in Bändern aufgeteilter spezifischen Lautheit. Die vom Audioeingangssignal mittels der Steuerung der spezifischen Lautheit 124 im Seitenpfad abgeleitete Steuerinformation wählt ein Modell aus oder steuert das Ausmaß, zu dem ein Modell zur spezifischen Lautheit beiträgt. In Block 124 werden bestimmte Eigenschaften oder Charakteristika aus dem Audio gewonnen, die zur Auswahl eines oder mehrerer Modelle der spezifischen Lautheit aus den zur Verfügung stehenden nützlich sind. Die Steuersignale, die angeben, welches Modell benutzt werden soll oder welche Kombinationen von Modellen benutzt werden sollen, werden aus den gewonnenen Eigenschaften oder Charakteristika erzeugt. Wo es erwünscht sein kann, mehr als ein Modell zu verwenden, kann die Steuerinformation auch angeben, wie derartige Modelle kombiniert werden sollen.
  • Beispielsweise kann die spezifische Lautheit je Band N'[m, t] als lineare Kombination der spezifischen Lautheit je Band für jedes Modell N'q[m, t] ausgedrückt werden als:
    Figure 00140001
    wobei Q die Gesamtzahl der Modelle angibt und die Steuerinformation αq[m, t] die Gewichtung oder den Beitrag jedes Modells darstellt. Die Summe aller Gewichtungen kann abhängig von den verwendeten Modellen gleich oder ungleich Eins sein.
  • Obwohl die Erfindung nicht auf sie beschränkt ist, sind zwei Modelle entdeckt worden, die zu genauen Ergebnissen führen. Ein Modell arbeitet am besten, wenn das Audiosignal als schmalbandig charakterisiert ist und das andere arbeitet am Besten, wenn das Audiosignal als breitbandig charakterisiert ist.
  • Zunächst kann in der Berechnung der spezifischen Lautheit der Erregungspegel in jedem Band E[m, t] in einen äquivalenten Erregungspegel bei 1 kHz, wie durch die durch das Übertragungsfilter P(z) (8) normalisierten Kurven gleicher Lautstärke von ISO266 (7) festgelegt, umgewandelt werden: E 1kHz[m, t] = L1kHz(E[m, t], fc[m]), (13)wobei L1kHz(E, f) eine Funktion ist, die den Pegel bei 1 kHz bildet, der gleich laut wie der Pegel E bei Frequenz f ist. In der Praxis ist L1kHz(E, f) als eine Interpolation einer Nachschlagetabelle der durch das Übertragungsfilter normalisierten Kurven gleicher Lautstärke realisiert. Die Umwandlung in äquivalente Pegel bei 1 kHz vereinfacht die folgende Berechnung der spezifischen Lautheit.
  • Als nächstes kann die spezifische Lautheit in jedem Band berechnet werden als: N'[m, t] = α[m, t]N'NB[m, t] + (1 – α[m, t])N'WB[m, t], (14)wobei N'NB[m, t] und N'WB[m, t] Werte der spezifischen Lautheit sind, die auf einem Schmalbandmodell beziehungsweise einem Breitbandmodell basieren. Der Wert α[m, t] ist ein zwischen 0 und 1 liegender, aus dem Audiosignal berechneter Interpolationsfaktor, dessen Details unten beschrieben werden.
  • Die Werte der schmalbandigen und breitbandigen spezifischen Lautheit N'NB[m, t] und N'WB[m, t] können aus der in Bänder aufgeteilten Erregung mittels der Exponentialfunktionen geschätzt werden:
    Figure 00150001
    wobei TQ1kHz der Erregungspegel bei der Ruhehörschwelle für einen 1 kHz Ton ist. Aus den Kurven gleicher Lautstärke (7 und 8) ergibt sich, dass TQ1kHz gleich 4,2 dB ist. Man beachte, dass diese beiden Funktionen der spezifischen Lautheit gleich Null sind, wenn die Erregung gleich der Ruhehörschwelle ist. Für Erregungen, die größer als die Ruhehörschwelle sind, wachsen beide Funktionen monoton mit einem Potenzgesetz in Übereinstimmung mit Stevens' Gesetz der Intensitätsempfindung. Der Exponent für die Schmalband-Funktion wird größer als der der Breitband-Funktion gewählt, was die Schmalband-Funktion schneller als die Breitband-Funktion wachsen lässt. Die genaue Wahl der Exponenten β und der Verstärkungen G für die Schmalband- und Breitbandfälle wird weiter unten behandelt.
  • Lautheit 122
  • Lautheit 122 nutzt die in Bänder aufgeteilte spezifische Lautheit von Spezifische Lautheit 120, um ein einzelnes Lautheitsmaß für das Audiosignal zu erstellen, und zwar eine Ausgabe an Anschluss 123, die ein Lautheitswert in Wahrnehmungseinheiten ist. Das Lautheitsmaß kann beliebige Einheiten haben, solange der Vergleich von Lautheitswerten für verschiedene Audiosignale anzeigt, welches lauter und welches leiser ist.
  • Die gesamte, in Sone-Einheiten ausgedrückte Lautheit kann als die Summe der spezifischen Lautheiten über alle Frequenzbänder berechnet werden.
    Figure 00160001
    wobei Δ das in Gleichung 6b festgelegte ERB-Rastermaß ist. Die Parameter GNB und βNB in Gleichung 15a werden so gewählt, dass, wenn α[m, t] = 1, ein Diagramm von S in Sone gegenüber SPL für einen 1 kHz Ton im Wesentlichen den entsprechenden durch Zwicker vorgelegten Versuchsdaten (die Kreise in 9) entspricht (Zwicker, H. Fastl, "Psychoacoustics – Facts and Models," supra). Die Parameter GWB und βWB in Gleichung 15b werden so gewählt, dass, wenn α[m, t] = 0, ein Diagramm von N in Sone gegenüber SPL für gleichförmiges Erregungsrauschen (Rauschen mit gleicher Leistung in jedem ERB) im Wesentlichen den entsprechenden Ergebnissen (die Quadrate in 9) von Zwicker entspricht. Eine Least-Squares-Anpassung an Zwicker's Daten ergibt: GNB = 0,0404 (17a) βNB = 0,279 (17b) GWB = 0,058 (17c) βNB = 0,212 (17d)
  • 9 (durchgezogene Linien) zeigt Diagramme der Lautheit sowohl für gleichförmiges Erregungsrauschen als auch einen 1 kHz Ton.
  • Steuerung der spezifischen Lautheit 124
  • Wie vorher angemerkt werden in einer praxisnahen Ausführungsform zwei Modelle der spezifischen Lautheit verwendet (Gleichungen 15a und 15b), eines für Schmalband- und eines für Breitband-Signale. Die Steuerung der spezifischen Lautheit 124 im Seitenpfad berechnet ein Maß, α[m, t], des Ausmaßes, zu dem ein Eingangssignal in jedem Band entweder schmalbandig oder breitbandig ist. Im Allgemeinen sollte α[m, t] gleich Eins sein, wenn das Signal nahe der Mittenfrequenz fc[m] eines Bandes schmalbandig ist, und Null sein, wenn das Signal nahe der Mittenfrequenz fc[m] eines Bandes breitbandig ist. Die Steuerung sollte für sich ändernde Mischungen derartiger Eigenschaften fortlaufend zwischen den beiden Extremen schwanken. Als eine Vereinfachung kann die Steuerung α[m, t] über alle Bänder als fest gewählt werden, wobei in diesem Fall α[m, t] im Folgenden unter Weglassen des Bandindex m als α[t] bezeichnet wird. Die Steuerung α[t] stellt dann ein Maß dafür da, wie schmalbandig ein Signal über alle Bänder ist. Obwohl ein geeignetes Verfahren zur Bildung einer derartigen Steuerung als nächstes beschrieben wird, ist das spezielle Verfahren nicht entscheidend, und es können andere geeignete Verfahren eingesetzt werden.
  • Die Steuerung α[t] kann eher aus der Erregung E[m, t] am Ausgang der Filterbank 104 berechnet werden, als durch irgendeine andere Verarbeitung des Signals x[n]. E[m, t] kann eine geeignete Referenz bilden, aus der die „Schmalbandigkeit" und „Breitbandigkeit" von x[n] gemessen wird, und als ein Ergebnis kann α[t] mit wenig zusätzlicher Berechnung gebildet werden.
  • "Spektrale Flachheit" ist eine Eigenschaft von E[m, t], aus der α[t] berechnet werden kann. Spektrale Flachheit, wie von Jayant und Noll definiert (N. S. Jayant, P. Noll, Digital Coding Of Waveforms, Prentice Hall, New Jersey, 1984), ist das Verhältnis des geometrischen Mittels zum arithmetischen Mittel, wobei das Mittel über die Frequenz gebildet wird (Index m im Fall von E[m, t]). Wenn E[m, t] über m konstant ist, ist das geometrische Mittel gleich dem arithmetischen Mittel, und die spektrale Flachheit ist gleich Eins. Dies entspricht dem Breitbandfall. Falls sich E[m, t] über m deutlich ändert, ist das geometrische Mittel deutlich kleiner als das arithmetische Mittel, und die spektrale Flachheit nähert sich Null an. Dies entspricht dem Schmalbandfall. Speziell kann man Eins minus eine modifizierte spektrale Flachheit von E[m, t] berechnen:
    Figure 00170001
    wobei P[m] gleich der mit der Frequenz ω = 2πfc[m]/fs abgetasteten Übertragungsfunktion des Übertragungsfilters P(z) ist. Eine Normalisierung von E[m, t] durch das Übertragungsfilter kann bessere Ergebnisse liefern, da das Übertragungsfilter einen tendenziell das „Schmalbandigkeitsmaß" hochtreibenden „Höcker" in E[m, t] einbringt. Zusätzlich kann die Berechnung der spektralen Flachheit über eine Untermenge der Bänder von E[m, t] bessere Ergebnisse liefern. Die unteren und oberen Grenzen der Summation in Gleichung 18, Ml[t] und Mu[t], legen einen Bereich fest, der kleiner sein kann als der Bereich aller M Bänder. Es ist erstrebenswert, dass Ml[t] und Mu[t] den Teil von E[m, t] einschließen, der den Großteil ihrer Energie enthält, und dass der durch Ml[t] und Mu[t] festgelegte Bereich nicht mehr als 24 Einheiten auf der ERB-Skala groß ist. Genauer (und sich daran erinnernd, dass fc[m] die Mittenfrequenz des Bandes m in Hz ist) wünscht man sich: HzToERB(fc[Mu[t]]) – HzToERB(fc[Ml[t]]) ≌ 24 (19a)und man fordert: HzToERB(fc[Mu[t]]) ≥ CT[t] ≥ HzToERB(fc[Ml[t]]) (19b) HzToERB(fc[Ml[t]]) ≥ HzToERB(fc[1]) (19c) HzToERB(fc[Mu[t]]) ≤ HzToERB(fc[M]), (19d)wobei CT[t] der auf der ERB-Skala gemessene spektrale Schwerpunkt von E[m, t] ist:
    Figure 00180001
  • Idealerweise sind die Grenzen der Summation, Ml[t] und Mu[t], um CT[t] zentriert, wenn sie auf der ERB-Skala gemessen ist, aber dies ist, wenn CT[t] nahe den oberen oder unteren Grenzen ihres Bereichs ist, nicht immer möglich.
  • Als nächstes kann NB[t] über die Zeit in einer zu Gleichung 11a analogen Art und Weise geglättet werden:
    Figure 00180002
    wobei σ[t] gleich dem in Gleichung 11b definierten Maximum von σ[m, t] über alle m ist. Zuletzt wird α[t] aus NB[t] wie folgt berechnet:
    Figure 00180003
    wobei Φ{x} = 12,2568x3 – 22,8320x2 + 14,5869x – 2,9594 (21b)
  • Obwohl die genaue Form von Φ{x} nicht entscheidend ist, kann das Polynom in Gleichung 21b durch Optimierung von α[t] an der subjektiv gemessenen Lautheit einer großen Auswahl von Audiomaterial gefunden werden.
  • 2 zeigt ein Funktionsblockdiagramm einer Ausführungsform eines Lautheitsmessgerätes oder Lautheitsmessprozesses 200 gemäß einem zweiten Aspekt der vorliegenden Erfindung. Vorrichtungen oder Funktionen 202, 204 206, 220, 222, 223 und 224 aus 2 entsprechen den jeweiligen Vorrichtungen oder Funktionen 102, 104, 106, 120, 122, 123 und 124 aus 1.
  • Gemäß einem ersten Aspekt der Erfindung, von dem 1 eine Ausführungsform zeigt, bilden das Lautheitsmessgerät oder die -berechnung einen Lautheitswert in Wahrnehmungseinheiten. Um die Lautheit des Eingangssignals einzustellen, ist eine Verstärkung G[t] ein brauchbares Maß, das, wenn es mit dem Eingangssignal x[n] multipliziert wird (wie beispielsweise in der unten beschriebenen Ausführungsform von 3), seine Lautheit gleich dem Referenzlautheitspegel Sref macht. Die Referenzlautheit Sref kann willkürlich festgelegt werden oder durch eine andere, gemäß dem ersten Aspekt der Erfindung arbeitende Vorrichtung oder einen Prozess aus irgendeinem „bekannten" Referenzaudiosignal gemessen werden. Wenn Ψ{x[n], t} die Darstellung aller zur Bildung der Lautheit S[t] auf dem Signal x[n] durchgeführten Berechnungen ist, so will man G[t] derart finden, dass Sref = S[t] = Ψ{G[t]x[n], t} (23)
  • Da ein Teil der in Ψ{·} enthaltenen Verarbeitung nichtlinear ist, existiert keine geschlossene Lösung für G[t], weshalb stattdessen eine iterative Methode zur Ermittlung einer Näherungslösung verwendet werden kann. In jeder Iteration i des Prozesses sei Gi die Darstellung der aktuellen Schätzung von G[t]. In jeder Iteration wird Gi so aktualisiert, dass die absolute Abweichung von der Referenzlautheit abnimmt: Sref – Ψ{Gix[n], t}|<|Sref – Ψ{Gi-1x[n], t}| (24)
  • Es gibt viele geeignete Methoden zur Aktualisierung von Gi, um die obige Abnahme der Abweichung zu erreichen. Eine derartige Methode ist der Gradientenabstieg (siehe Nonlinear Programming von Dimitri P. Bertseakas, Athena Scientific, Belmont, MA 1995), in dem Gi um einen der Abweichung bei der letzten Iteration proportionalen Betrag aktualisiert wird: Gi = Gi-1 + μ(Sref – Ψ{Gi-1x[n], t}), (25)wobei μ die Schrittweite der Iteration ist. Die obige Iteration geht weiter, bis die absolute Abweichung unter einer gewissen Schwelle ist, bis die Zahl der Iterationen eine gewisse, vorher festgelegte Grenze erreicht hat oder bis eine festgelegte Zeit überschritten ist. An diesem Punkt wird G[t] gleich Gi gesetzt.
  • Auf die Gleichungen 6–8 zurückverweisend stellt man fest, dass die Erregung des Signals x[n] durch lineare Operationen am Quadrat des STDFT-Betrags des Signals, |X[k, t]|2, gewonnen wird. Es ergibt sich, dass die sich aus einem in der Verstärkung geänderten Signal Gx[n] ergebende Erregung gleich der mit G2 multiplizierten Erregung von x[n] ist. Weiterhin kann die zur Schätzung der wahrgenommenen Langzeitlautstärke benötigte Zeitintegration durch lineare Zeitmittelung der Erregung durchgeführt werden, und daher ist die sich auf Gx[n] beziehende zeitgemittelte Erregung gleich der mit G2 multiplizierten zeitgemittelten Erregung von x[n]. Als Ergebnis muss die Zeitmittelung nicht für jede Neuberechnung von Ψ{Gix[n], t} im oben beschriebenen iterativen Prozess über die gesamte Vergangenheit des Eingangssignals neu ausgerechnet werden. Stattdessen kann die zeitgemittelte Erregung E[m, t] einmalig aus x[n] berechnet werden, und in der Iteration können die aktualisierten Lautheitswerte durch Anwendung des Quadrates der aktualisierten Verstärkung direkt auf E[m, t] berechnet werden. Wenn genauer ΨE{E[m, t]} die Darstellung aller der zur Errechnung von S[t] auf der zeitgemittelten Erregung E[m, t] durchgeführten Verarbeitung ist, so gilt für eine allgemeine multiplikative Verstärkung G die folgende Beziehung: ΨE{G2 E[m, t]} = Ψ{Gx[n], t} (26)
  • Unter Benutzung dieser Beziehung kann das iterative Verfahren durch Ersetzen von Ψ{Gix[n], t} durch ΨE{G2i E[m, t]} vereinfacht werden. Diese Vereinfachung wäre nicht möglich, wenn die zur Schätzung der wahrgenommenen Langzeitlautstärke notwendige Zeitintegration nach der nichtlinearen Umformung zu spezifischer Lautheit durchgeführt worden wäre.
  • Der iterative Prozess zur Berechnung von G[t] ist in 2 dargestellt. Die Lautheitsausgabe S[t] an Anschluss 223 kann in einem subtrahierenden Kombinierer oder einer Kombinierfunktion 231 von der Referenzlautheit Sref Anschluss 230 subtrahiert werden. Das sich ergebende Fehlersignal 232 wird in den iterativen Verstärkungsaktualisierer oder in die iterative Aktualisierungsfunktion („Iterative Verstärkungsaktualisierung") 233 eingegeben, die in der Iteration die nächste Verstärkung Gi bilden. Das Quadrat dieser Verstärkung, G2i , wird dann an Ausgang 234 zum multiplizierenden Kombinierer 208 rückgekoppelt, wo G2i mit dem zeitgemittelten Erregungssignal aus Block 206 multipliziert wird. Der nächste Wert von S[t] in der Iteration wird dann aus dieser in der Verstärkung veränderten Version der zeitgemittelten Erregung durch die Blöcke 220 und 222 berechnet. Die beschriebene Schleife wiederholt sich bis die Abbruchbedingungen erfüllt sind, wobei zu diesem Zeitpunkt die Verstärkung G[t] am Anschluss 235 gleich dem aktuellen Wert von Gi gesetzt wird. Der Endwert G[t] kann durch den beschriebenen Prozess beispielsweise für jeden FFT-Rahmen t oder nur einmal am Ende eines Audiosegments, nachdem die Erregung über die gesamte Länge dieses Segments gemittelt wurde, berechnet werden.
  • Wenn man wünscht, die nicht in der Verstärkung veränderte Signallautheit zusammen mit diesem iterativen Prozess zu berechnen, kann die Verstärkung Gi zu Beginn jedes iterativen Prozesses für jede Zeitperiode t zu Eins initialisiert werden. Auf diese Weise stellt der erste in der Schleife berechnete Wert von S[t] die originale Signallautheit dar und kann als solcher gespeichert werden. Wenn man jedoch diesen Wert nicht speichern will, kann Gi mit jedem Wert initialisiert werden. Falls G[t] über mehrere aufeinanderfolgende Zeitrahmen berechnet wird und man die Speicherung der originalen Signallautstärke nicht wünscht, kann es erstrebenswert sein, Gi mit dem Wert von G[t] aus der vorhergehenden Zeitperiode zu initialisieren. Sofern sich das Signal gegenüber der vorherigen Zeitperiode nicht wesentlich geändert hat, ist es auf diese Weise wahrscheinlich, dass der Wert G[t] im Wesentlichen der Gleiche geblieben ist. Daher werden nur wenige Iterationen benötigt werden, um zum korrekten Wert zu konvergieren.
  • Sobald die Iterationen abgeschlossen sind, stellt G[t] die auf das Audioeingangssignal bei 201 durch irgendeine externe Vorrichtung derart anzuwendende Verstärkung dar, dass die Lautheit des modifizierten Signals der Referenzlautheit entspricht. 3 zeigt eine geeignete Anordnung, in der die Verstärkung G[t] aus der iterativen Verstärkungsaktualisierung 233 an einen Steuereingang einer Signalpegel-Steuervorrichtung oder -funktion, wie zum Beispiel einen spannungsgesteuerten Verstärker (VCA) 236, angelegt wird, um ein in der Verstärkung angepasstes Ausgangssignal bereitzustellen. Der VCA 236 in 3 kann durch eine die Verstärkungseinstellung als Antwort auf eine sensorische Anzeige der Verstärkung G[t] auf Leitung 235 steuernde Bedienperson ersetzt werden. Eine sensorische Anzeige kann beispielsweise durch ein Anzeigeinstrument bereitgestellt werden. Die Verstärkung G[t] kann Zeitglättung unterliegen (nicht gezeigt).
  • Für einige Signale kann zur Berechnung der wahrgenommenen Langzeitlautstärke ein Ersatz der in Gleichungen 10 und 11 beschriebenen Glättung erstrebenswert sein. Zuhörer neigen dazu, die Langzeitlautheit eines Signals mit den lautesten Teilen dieses Signals zu verbinden. Demzufolge kann die in den Gleichungen 10 und 11 gezeigte Glättung die wahrgenommene Lautstärke eines Signals, das lange, durch kürzere Abschnitte lauteren Materials unterbrochene Anteile relativer Ruhe enthält, unterschätzen. Derartige Signale werden oft in Filmtonspuren mit kurzen, von längeren Anteilen von Szenenumgebungsrauschen umgebenen Dialogsequenzen festgestellt. Sogar mit der in Gleichung 11 gezeigten Benutzung von Schwellen können die leisen Teile derartiger Signale zu stark zu der zeitgemittelten Erregung E[m, t] beitragen.
  • Um mit diesem Problem fertig zu werden, kann in einem weiteren Aspekt der vorliegenden Erfindung ein statistisches Verfahren zur Berechnung der Langzeitlautheit eingesetzt werden. Zuerst wird die Glättungszeitkonstante in den Gleichungen 10 und 11 sehr klein gemacht und tdB wird auf minus Unendlich gesetzt, so dass E[m, t] die „Augenblicks"-Erregung darstellt. In diesem Fall kann der Glättungsparameter λm so gewählt werden, dass er sich über die Bänder m ändert, um die Art und Weise genauer zu modellieren, in der die Wahrnehmung der Augenblicks-Lautheit sich über die Frequenz ändert. In der Praxis bringt es jedoch annehmbare Ergebnisse, wenn λm fest über m gewählt wird. Der Rest des vorher beschriebenen Algorithmus arbeitet unverändert, was, wie in Gleichung 16 festgelegt, ein Augenblicks-Lautheitssignal S[t] ergibt. Über einen beliebigen Bereich t1 ≤ t ≤ t2 ist die Langzeitlautheit Sp[t1, t2] dann definiert als ein Wert, der für p Prozent der Zeitwerte in dem Bereich größer als S[t] und für 100-p Prozent der Zeitwerte in dem Bereich kleiner als S[t] ist. Versuche haben gezeigt, dass eine Einstellung von p auf ungefähr 90% der subjektiv wahrgenommenen Langzeitlautheit entspricht. Mit dieser Einstellung brauchen nur 10% der Werte von S[t] maßgeblich zur Bestimmung der Langzeitlautheit sein. Die anderen 90% der Werte können verhältnismäßig leise sein, ohne das Maß der Langzeitlautstärke zu senken.
  • Der Wert Sp[t1, t2] kann berechnet werden, indem in absteigender Reihenfolge die Werte S[t], t1 ≤ t ≤ t2 in eine Liste Ssort{i}, 0 ≤ i ≤ t2 – t1 einsortiert werden, wobei i das i-te Element der sortierten Liste darstellt. Die Langzeitlautheit ist dann durch das Element der Liste gegeben, das auf p Prozent der Listenlänge steht: Sp[t1, t2] = Ssort{round(p(t2 – t1)/100)} (27)
  • An sich ist die obige Berechnung relativ unkompliziert. Wünscht man jedoch eine Verstärkung Gp[t1, t2] zu berechnen, die bei Multiplikation mit x[n] dazu führt, dass Sp[t1, t2] gleich der Referenzlautheit Sref ist, wird die Berechnung erheblich aufwändiger. Wie oben wird ein iterativer Ansatz benötigt, aber jetzt hängt das Maß der Langzeitlautstärke Sp[t1, t2] vom gesamten Bereich der Werte S[t], t1 ≤ t ≤ t2, ab, von denen jeder mit jeder Aktualisierung von Gi aktualisiert werden muss. Um diese Aktualisierungen zu berechnen, muss das Signal E[m, t] über den gesamten Bereich t1 ≤ t ≤ t2 gespeichert werden. Zusätzlich kann sich die relative Ordnung von S[t], t1 ≤ t ≤ t2, mit jeder Iteration ändern, da S[t] nichtlinear von Gi abhängt, und daher muss auch Ssort{i} neu berechnet werden. Die Notwendigkeit zur Neusortierung ist ohne weiteres klar, wenn Kurzzeit-Signalsegmente in Betracht gezogen werden, deren Spektrum für eine bestimmte Verstärkung in der Iteration gerade unterhalb der Hörschwelle liegt. Wenn die Verstärkung vergrößert wird, kann ein erheblicher Anteil des Spektrums des Segments hörbar werden, was die Gesamtlautheit des Segments größer als die anderer, vorher hörbarer Schmalband-Segmente des Signals machen kann. Wenn der Bereich t1 ≤ t ≤ t2 groß wird oder falls man wünscht, die Verstärkung Gp[t1, t2] fortlaufend als eine Funktion eines sich verschiebenden Zeitfensters zu berechnen, können der Rechen- und Speicheraufwand dieses iterativen Verfahrens untragbar werden.
  • Bedeutende Einsparungen bei der Berechnung und beim Speicher werden erreicht, indem man erkennt, dass S[t] eine monoton steigende Funktion von Gi ist. Anders gesagt, die Vergrößerung von Gi erhöht zu jedem Zeitpunkt immer die Kurzzeitlautheit. Mit diesem Wissen kann die gewünschte Anpassungsverstärkung Gp[t1, t2] wie folgt effizient berechnet werden. Zuerst berechnet man unter Verwendung der beschriebenen Iteration für alle Werte von t im Bereich t1 ≤ t ≤ t2 die vorher definierte Anpassungsverstärkung G[t] aus E[m, t]. Man beachte, dass G[t] für jeden Wert von t durch Iteration auf dem einzigen Wert E[m, t] berechnet wird. Danach wird die Langzeit-Anpassungsverstärkung Gp[t1, t2] berechnet, indem die Werte G[t], t1 ≤ t ≤ t2 in absteigender Reihenfolge in eine Liste Gsort {i}, 0 ≤ i ≤ t2 – t1, einsortiert werden und dann Gp[t1, t2] = Gsort{round((100 – P)(t2 – t1)/100)} (28)festgelegt wird. Wir behaupten nun, dass Gp[t1, t2] gleich der Verstärkung ist, die bei Multiplikation mit x[n] dazu führt, dass Sp[t1, t2] gleich der gewünschten Referenzlautstärke Sref ist. Man beachte, dass nach Gleichung 28 für 100-p Prozent der Zeitwerte im Bereich t1 ≤ t ≤ t2 G[t] < Gp[t1, t2] ist und für die anderen p Prozent G[t] > Gp[t1, t2] ist. Für jene Werte von G[t], für die G[t] < Gp[t1, t2] ist, bemerkt man, dass die sich ergebenden Werte von S[t] größer als die erwünschte Referenzlautheit wären, wenn Gp[t1, t2] statt G[t] auf die entsprechenden Werte von E[m, t] angewendet werden würde. Dies trifft zu, da S[t] eine monoton steigende Funktion der Verstärkung ist. In ähnlicher Weise wären die sich ergebenden Werte von S[t] kleiner als die erwünschte Referenzlautheit, wenn Gp[t1, t2] auf die Werte von E[m, t], die G[t] entsprechen, für die G[t] > Gp[t1, t2] ist, angewendet werden würde. Daher führt die Anwendung von Gp[t1, t2] auf alle Werte von E[m, t] im Bereich t1 ≤ t ≤ t2 dazu, dass S[t] in 100-p Prozent der Zeit größer als die erwünschte Referenz und in p Prozent der Zeit kleiner als die Referenz ist. Anders gesagt, Sp[t1, t2] ist gleich der erwünschten Referenz.
  • Dieses Ersatzverfahren zur Berechnung der Anpassungsverstärkung vermeidet die Notwendigkeit, E[m, t] und S[t] über den Bereich t1 ≤ t ≤ t2 zu speichern. Nur G[t] muss gespeichert werden. Zusätzlich muss im Gegensatz zum vorherigen Ansatz, bei dem S[t] mit jeder Iteration neu sortiert werden muss, für jeden Wert von Gp[t1, t2], der berechnet wird, das Sortieren von G[t] über den Bereich t1 ≤ t ≤ t2 nur einmal durchgeführt werden. Falls Gp[t1, t2] fortlaufend über irgendein sich verschiebendes Fenster der Länge T (z.B., t1 = t – T, t2 = t) berechnet werden soll, kann die Liste Gsort{i} dadurch effizient verwaltet werden, dass einfach für jeden neuen Zeitpunkt ein einzelner Wert aus der sortierten Liste gelöscht und hinzugefügt wird. Wenn der Bereich t1 ≤ t ≤ t2 äußerst groß wird (beispielsweise die gesamte Länge eines Lieds oder Films), kann der zur Speicherung von G[t] benötigte Speicher dennoch unerschwinglich sein. In diesem Fall kann Gp[t1, t2] aus einem diskretisierten Histogramm von G[t] angenähert werden. In der Praxis wird dieses Histogramm aus G[t] in Einheiten von Dezibel erstellt. Das Histogramm kann berechnet werden als
    H[i] = Zahl der Abtastwerte im Bereich t1 ≤ t ≤ t2, so dass ΔdBi + dBmin ≤ 20log10G[t] < ΔdB(i + 1) + dBmin (29)wobei ΔdB die Auflösung des Histogramms ist und dBmin das Minimum des Histogramms ist. Die Anpassungsverstärkung wird dann angenähert als Gp[t1, t2] ≅ ΔdBip + dBmin (30a)wobei
    Figure 00240001
    und I der größte Index des Histogramms ist. Bei Verwendung des diskretisierten Histogramms müssen nur I Werte gespeichert werden, und Gp[t1, t2] wird in einfacher Weise mit jedem neuen Wert von G[t] aktualisiert.
  • Man kann sich andere Verfahren zur Annäherung von Gp[t1, t2] aus G[t] ausdenken, und diese Erfindung soll derartige Verfahren einschließen. Der Hauptaspekt dieses Teils der Erfindung ist es, zur Bildung der Langzeit-Anpassungsverstärkung Gp[t1, t2] irgendeine Art der Glättung auf der Anpassungsverstärkung G[t] durchzuführen, anstatt die Augenblickslautheit S[t] zu verarbeiten, um die Langzeitlautheit Sp[t1, t2] zu bilden, aus der durch ein iteratives Verfahren dann Gp[t1, t2] geschätzt wird.
  • Die 10 und 11 zeigen Systeme, die ähnlich den entsprechenden 2 und 3 sind, bei denen aber die Glättung (Vorrichtung oder Funktion 237) der Anpassungsverstärkung G[t] verwendet wird, um ein geglättetes Verstärkungssignal Gp[t1, t2] (Signal 238) zu erzeugen.
  • Die Referenzlautheit an Eingang 230 (2, 3, 10, 11) kann „fest" oder „variabel" sein, und die Quelle der Referenzlautheit kann intern oder extern von einer Aspekte der Erfindung verwendenden Anordnung sein. Beispielsweise kann die Referenzlautheit durch einen Anwender eingestellt werden, wobei in diesem Fall die Quelle extern ist und sie für eine Zeitdauer „fest" bleiben kann, bis sie der Anwender neu einstellt. Wahlweise kann die Referenzlautheit ein Maß der Lautheit einer anderen Audioquelle sein, welche durch einen Lautheitsmessprozess oder eine -vorrichtung gemäß der vorliegenden Erfindung, wie zum Beispiel die in 1 gezeigte Anordnung, abgeleitet wurden.
  • Die übliche Lautstärkesteuerung einer Audio erzeugenden Vorrichtung kann durch einen Prozess oder eine Vorrichtung gemäß Aspekten der Erfindung, wie etwa die Beispiele von 3 und 11, ersetzt werden. In diesem Fall würde der durch den Benutzer bediente Lautstärke-Drehknopf oder -Schieber, etc. die Referenzlautstärke bei 230 von 3 oder 11 steuern, und die Audio erzeugende Vorrichtung würde folglich eine Lautheit entsprechend der Einstellung der Lautstärkesteuerung durch den Benutzer haben.
  • Ein Beispiel einer variablen Referenz ist in 12 gezeigt, wo die Referenzlautheit Sref durch eine variable Referenz Sref[t] ersetzt wird, die beispielsweise aus dem Lautheitssignal S[t] durch eine Vorrichtung der variablen Referenzlautheit oder eine Funktion der variablen Referenzlautheit („variable Referenzlautheit") 239 berechnet wird. In dieser Anordnung kann die variable Referenz Sref[t] aus der nicht veränderten Lautheit S[t] am Anfang jeder Iteration für jeden Zeitabschnitt t berechnet werden, bevor irgendeine Verstärkung auf die Erregung bei 208 angewendet wurde. Die Abhängigkeit von Sref[t] und S[t] durch die Funktion der variablen Referenzlautheit 239 kann verschiedene Formen annehmen, um verschiedene Auswirkungen zu erzielen. Beispielsweise kann die Funktion zur Bildung einer Referenz, die ein fester Anteil der Originallautheit ist, einfach S[t] skalieren. Wahlweise kann die Funktion eine Referenz erzeugen, die größer als S[t] ist, wenn S[t] unter einer Schwelle ist, und die kleiner als S[t] ist, wenn S[t] über einer Schwelle ist, und daher den Aussteuerungsbereich der wahrgenommenen Lautstärke des Audios verringern. Egal welche Form diese Funktion hat, die vorher beschriebene Iteration wird zur Berechnung von G[t] derart ausgeführt, dass ΨE{G2[t]E[m, t]} = Sref[t] (31)
  • Die Anpassungsverstärkung G[t] kann dann wie oben beschrieben oder durch eine andere geeignete Methode geglättet werden, um den gewünschten Wahrnehmungseffekt zu erreichen. Zum Abschluss kann eine Verzögerung 240 zwischen dem Audiosignal 201 und dem VCA-Block 236 eingeführt werden, um eine Latenzzeit in der Berechnung der geglätteten Verstärkung auszugleichen. Eine derartige Verzögerung kann auch in den Anordnungen aus 3 und 11 vorgesehen werden.
  • Das Verstärkungssteuersignal G[t] aus der Anordnung aus 3 und das geglättete Verstärkungssteuersignal aus der Anordnung aus 11 können in einer Vielzahl von Anwendungen nützlich sein, die beispielsweise Fernsehübertragung oder Satellitenradio einschließen, wo sich die wahrgenommene Lautstärke über verschiedene Kanäle ändert. In derartigen Umgebungen kann das Gerät oder das Verfahren der vorliegenden Erfindung das Audiosignal aus jedem Kanal mit einer Referenzlautheit (oder der Lautheit eines Referenzsignals) vergleichen. Ein Bediener oder eine automatisierte Vorrichtung kann die Verstärkung zur Einstellung der Lautheit jedes Kanals nutzen. Alle Kanäle würden daher im Wesentlichen die gleiche wahrgenommene Lautstärke haben. 13 zeigt ein Beispiel einer derartigen Anordnung, in der das Audio von einer Vielzahl von Fernseh- oder Audiokanälen, 1 bis N, an die jeweiligen Eingänge 201 der Prozesse oder Vorrichtungen 250, 252 angelegt wird, die jeweils in 3 oder 11 gezeigten Aspekten der Erfindung entsprechen. Derselbe Referenzlautheitspegel wird an jeden der Prozesse oder jede der Vorrichtungen 250, 252 angelegt, was an jeder Ausgabe 236 einen in der Lautheit eingestellten ersten bis einschließlich N-ten Audiokanal ergibt.
  • Das Mess- und Verstärkungseinstell-Verfahren kann auch auf eine Echtzeitmessvorrichtung angewendet werden, die das Audioeingangsmaterial überwacht, die Verarbeitung durchführt, die hauptsächlich menschliche Sprachsignale enthaltenden Audioinhalt erkennt und die eine Verstärkung derart berechnet, dass die Sprachsignale im Wesentlichen einem vorher festgelegten Referenzpegel entsprechen. Geeignete Methoden zur Erkennung von Sprache in Audiomaterial sind in der am 30. August 2002 angemeldeten US-Patentanmeldung Nr. 10/233,073 dargelegt und als am 4. März 2004 veröffentlichte US-Patentoffenlegungsschrift US 2004/0044525 A1 bekannt gemacht worden. Da die Neigung besteht, dass sich der Ärger des Publikums über lauten Audioinhalt auf die Sprachanteile des Programm-Materials richtet, kann ein Mess- und Verstärkungseinstell-Verfahren die störenden Pegelunterschiede in allgemein in Fernseh-, Film- und Musikmaterial verwendetem Audio bedeutend verringern.
  • Ausführung
  • Die Erfindung kann in Hardware oder Software oder einer Kombination aus beiden (z.B. programmierbare Logikfelder) ausgeführt werden. Wenn nicht anders festgelegt, stehen die als Teil der Erfindung eingeschlossenen Algorithmen dem Wesen nach nicht in Beziehung zu irgendeinem bestimmten Rechner oder anderem Gerät. Insbesondere können verschiedene Universalapparate mit in Übereinstimmung mit den hierin enthaltenen Ausführungen geschriebenen Programmen verwendet werden, oder es ist günstiger, ein spezialisierteres Gerät (z.B. integrierte Schaltkreise) zu entwerfen, um die erforderlichen Verfahrensschritte auszuführen. Somit kann die Erfindung in einem oder mehreren Rechnerprogrammen ausgeführt werden, die auf einem oder mehreren Rechnersystemen ausgeführt werden, von denen jedes mindestens einen Prozessor, mindestens ein Datenspeichersystem (flüchtigen und nichtflüchtigen Speicher und/oder Speicherelemente umfassend), mindestens eine Eingabevorrichtung oder einen -anschluss, und mindestens eine Ausgabevorrichtung oder -anschluss enthält. Zur Durchführung der hierin beschriebenen Funktionen wird Programmcode auf Eingabedaten angewendet und Ausgabeinformation erzeugt. Die Ausgabeinformation wird in bekannter Weise einer oder mehreren Ausgabevorrichtungen zugeführt.
  • Jedes derartige Programm kann zur Kommunikation mit einem Rechnersystem in irgendeiner gewünschten Programmiersprache (Maschinenprogrammiersprachen, Assemblerprogrammiersprachen oder prozedurale, logische oder objektorientierte höhere Programmiersprachen umfassend) umgesetzt werden. Auf jeden Fall kann die Sprache eine übersetzte oder interpretierte Sprache sein.
  • Jedes derartige Rechnerprogramm wird bevorzugterweise auf einem durch einen programmierbaren Universal- oder Spezialrechner lesbarem Speichermedium oder einer -vorrichtung (z.B. Festkörperspeicher oder -medien, oder magnetische oder optische Medien) gespeichert oder auf diese geladen, um den Rechner zu konfigurieren und zu betreiben, wenn das Speichermedium oder die -vorrichtung durch das Rechnersystem gelesen wird, um die hierin beschriebenen Verfahrensschritte durchzuführen. Man kann auch in Betracht ziehen, das erfinderische System als ein rechnerlesbares Speichermedium auszuführen, das mit einem Rechnerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium ein Rechnersystem veranlasst, in einer genau bestimmten und vorher festgelegten Art und Weise die hierin beschriebenen Funktionen auszuführen.
  • Etliche Ausführungsformen der Erfindung wurden beschrieben. Dennoch versteht es sich, dass viele Änderungen durchgeführt werden können, ohne vom Schutzumfang der Erfindung abzuweichen. Beispielsweise können einige der oben beschriebenen Schritte reihenfolgeunabhängig sein und daher in einer anderen als der beschriebenen Reihenfolge ausgeführt werden. Demgemäß liegen andere Ausführungsformen im Schutzumfang der folgenden Ansprüche. Der Schutzumfang der Erfindung wird somit nur durch die beigefügten Patentansprüche beschränkt.

Claims (21)

  1. Verfahren zur Verarbeitung eines Audiosignals, enthaltend die Erzeugung eines Erregungssignals als Antwort auf das Audiosignal, und die Berechnung der wahrgenommenen Lautstärke des Audiosignals als Antwort auf das Erregungssignal und eines Maßes der Charakteristika des Audiosignals, wobei die Berechnung aus einer Gruppe von zwei oder mehr Modellierungsfunktionen der spezifischen Lautheit eine oder eine Kombination von zwei oder mehr Modellierungsfunktionen der spezifischen Lautheit auswählt, wobei deren Auswahl durch das Maß der Charakteristika des Audioeingangssignals gesteuert wird.
  2. Verfahren nach Anspruch 1, bei welchem das Maß der Charakteristika des Audiosignals ein Maß des Grades ist, zu dem das Eingangssignal spektral flach ist.
  3. Verfahren nach Anspruch 1, bei welchem die Berechnung aus zwei Modellierungsfunktionen der spezifischen Lautheit auswählt oder diese kombiniert, wobei eine erste Lautheitsmodellierungsfunktion durch ein sich aus einem nicht spektral flachen Eingangssignal ergebendes Maß der Charakteristika ausgewählt wird, eine zweite Lautheitsmodellierungsfunktion durch ein sich aus einem spektral flachen Eingangssignal ergebendes Maß der Charakteristika ausgewählt wird und eine Kombination der ersten und der zweiten Lautheitsmodellierungsfunktion durch ein sich aus einem teils nicht spektral flachen, teils spektral flachen Eingangssignal ergebendes Maß der Charakteristika ausgewählt wird.
  4. Verfahren nach Anspruch 3, bei welchem sowohl die erste als auch die zweite Lautheitsmodellierungsfunktion oberhalb der Ruhehörschwelle mit zunehmender Erregung gemäß einem Potenzgesetz monoton ansteigen, wobei die erste Lautheitsmodellierungsfunktion starker als die zweite Lautheitsmodellierungsfunktion steigt.
  5. Verfahren nach Anspruch 1, bei welchem die Berechnung aus einer Gruppe von zwei oder mehr Modellen der spezifischen Lautheit in jedem jeweiliger Frequenzbänder des Erregungssignals eine oder eine Kombination aus zwei oder mehr der genannten Modelle der spezifischen Lautheit auswählt.
  6. Verfahren nach Anspruch 1, bei welchem die Berechnung aus einer Gruppe von zwei oder mehr Modellen der spezifischen Lautheit in einer Gruppe jeweiliger Frequenzbänder des Erregungssignals eine oder eine Kombination aus zwei oder mehr der genannten Modelle der spezifischen Lautheit auswählt.
  7. Verfahren nach Anspruch 6, bei welchem die Gruppe jeweiliger Frequenzbänder alle Frequenzbänder des Erregungssignals sind.
  8. Verfahren nach Anspruch 1, bei welchem das Maß der Charakteristika des Audiosignals vom Erregungssignal abgeleitet wird.
  9. Verfahren nach Anspruch 1, bei welchem die Berechnung die Berechnung einer spezifischen Lautheit in jedem jeweiliger Frequenzbänder des Erregungssignals einschließt.
  10. Verfahren nach Anspruch 9, bei welchem die Berechnung überdies zur Bestimmung der wahrgenommenen Lautstärke die Auswahl der spezifischen Lautheit eines Frequenzbandes oder zur Bestimmung der wahrgenommenen Lautstärke die Kombination der spezifischen Lautheit einer Gruppe von Frequenzbändern enthält.
  11. Verfahren nach Anspruch 1, bei welchem die Erzeugung eines Erregungssignals als Antwort auf das Audiosignal enthält: lineare Filterung des Audiosignals durch eine Funktion oder Funktionen, die die Charakteristika des Außen- und Innenohrs nachbilden, zur Erzeugung eines linear gefilterten Audiosignals, und Aufteilen des linear gefilterten Audiosignals in Frequenzbänder, die das entlang der Basilarmembran des Innenohrs erzeugte Erregungsmuster nachbilden, um das Erregungssignal zu erzeugen.
  12. Verfahren nach irgendeinem der vorhergehenden Ansprüche, ferner enthaltend das Berechnen eines Verstärkungswertes G[t] als Antwort auf zumindest das Erregungssignal, wobei das Berechnen eine iterative Verarbeitungsschleife einschließt, enthaltend die Einstellung der Größe des Erregungssignals als Antwort auf eine Funktion eines Iterations-Verstärkungswertes Gi derart, dass die eingestellte Größe des Erregungssignals mit zunehmenden Werten von Gi zunimmt und mit abnehmenden Werten von Gi abnimmt, den Vergleich der berechneten wahrgenommenen Lautstärke des Audiosignals mit einer Referenz der wahrgenommenen Lautstärke zur Bildung einer Differenz, und die Einstellung des Verstärkungswerts Gi als Antwort auf die Differenz, so dass die Differenz zwischen der berechneten wahrgenommenen Lautstärke und der Referenz der wahrgenommenen Lautstärke verkleinert wird.
  13. Verfahren nach Anspruch 12, bei welchem das Erregungssignal zeitgeglättet wird und/oder das Verfahren überdies die Zeitglättung des Verstärkungswertes G[t] enthält.
  14. Verfahren nach Anspruch 13, bei welchem das Erregungssignal linear zeitgeglättet wird.
  15. Verfahren nach Anspruch 13, bei welchem das Verfahren überdies die Glättung des Verstärkungswertes G[t] umfasst, wobei die Glättung eine Histogrammtechnik einsetzt.
  16. Verfahren nach Anspruch 12, bei welchem die iterative Verarbeitungsschleife gemäß einem Minimierungsalgorithmus wiederholt die Größe des Erregungssignals einstellt, die wahrgenommene Lautstärke berechnet, die berechnete wahrgenommene Lautstärke mit der Referenz der wahrgenommenen Lautstärke vergleicht und den Verstärkungswert Gi auf einen Endwert G[t] einstellt.
  17. Verfahren nach Anspruch 16, bei welchem der Minimierungsalgorithmus dem Gradientenabstiegsverfahren zur Minimierung entspricht.
  18. Verfahren nach einem der Ansprüche 12 bis 17, ferner enthaltend die Steuerung der Amplitude des Audioeingangssignals mit der Verstärkung G[t], so dass die sich ergebende wahrgenommene Lautstärke im Wesentlichen dieselbe wie die Referenzlautheit ist.
  19. Verfahren nach einem der Ansprüche 12 bis 18, bei welchem die Referenzlautheit durch einen Anwender gesetzt wird.
  20. Vorrichtung, enthaltend Einrichtungen, die dafür ausgelegt sind, jeden der Schritte des Verfahrens nach einem der Ansprüche 1 bis 19 durchzuführen.
  21. Rechnerprogramm, das auf einem rechnerlesbaren Medium gespeichert ist, um einen Rechner zu veranlassen, jeden der Schritte des Verfahrens nach einem der Ansprüche 1 bis 19 durchzuführen, wenn das Rechnerprogramm auf dem Rechner abläuft.
DE602004008455T 2003-05-28 2004-05-27 Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals Expired - Lifetime DE602004008455T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US47407703P 2003-05-28 2003-05-28
US474077P 2003-05-28
PCT/US2004/016964 WO2004111994A2 (en) 2003-05-28 2004-05-27 Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal

Publications (2)

Publication Number Publication Date
DE602004008455D1 DE602004008455D1 (de) 2007-10-04
DE602004008455T2 true DE602004008455T2 (de) 2008-05-21

Family

ID=33551475

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004008455T Expired - Lifetime DE602004008455T2 (de) 2003-05-28 2004-05-27 Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals

Country Status (19)

Country Link
US (1) US8437482B2 (de)
EP (1) EP1629463B1 (de)
JP (1) JP4486646B2 (de)
KR (1) KR101164937B1 (de)
CN (2) CN1795490A (de)
AT (1) ATE371246T1 (de)
AU (1) AU2004248544B2 (de)
BR (1) BRPI0410740A (de)
CA (1) CA2525942C (de)
DE (1) DE602004008455T2 (de)
DK (1) DK1629463T3 (de)
ES (1) ES2290764T3 (de)
HK (2) HK1083918A1 (de)
IL (1) IL172108A (de)
IN (1) IN2010KN02913A (de)
MX (1) MXPA05012785A (de)
PL (1) PL1629463T3 (de)
SG (1) SG185134A1 (de)
WO (1) WO2004111994A2 (de)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
DE602005005948T2 (de) * 2004-01-13 2009-04-16 Koninklijke Philips Electronics N.V. Audiosignal-verbesserung
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
KR100708123B1 (ko) * 2005-02-04 2007-04-16 삼성전자주식회사 자동으로 오디오 볼륨을 조절하는 방법 및 장치
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
KR101251426B1 (ko) 2005-06-03 2013-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101421781A (zh) * 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
CN101410892B (zh) * 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
CN102684628B (zh) 2006-04-27 2014-11-26 杜比实验室特许公司 修正音频动态处理器的参数的方法以及执行该方法的设备
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
EP2044804A4 (de) * 2006-07-08 2013-12-18 Personics Holdings Inc Persönliches hörhilfegerät und verfahren
WO2008018012A2 (en) * 2006-08-10 2008-02-14 Koninklijke Philips Electronics N.V. A device for and a method of processing an audio signal
KR101137715B1 (ko) 2006-10-20 2012-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 리셋을 사용하는 오디오 다이내믹스 프로세싱
JP2010513974A (ja) 2006-12-21 2010-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声データを処理するシステム
JP4938862B2 (ja) * 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節
MY144152A (en) 2007-06-19 2011-08-15 Dolby Lab Licensing Corp Loudness measurement with spectral modifications
ES2354962T3 (es) 2007-07-13 2011-03-21 Dolby Laboratories Licensing Corporation Nivel de señal de audio variable con el tiempo usando una densidad de probabilidad estimada variable con el tiempo del nivel.
US8396574B2 (en) 2007-07-13 2013-03-12 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
DE102007035172A1 (de) 2007-07-27 2009-02-05 Siemens Medical Instruments Pte. Ltd. Hörsystem mit visualisierter psychoakustischer Größe und entsprechendes Verfahren
EP2188986B1 (de) * 2007-08-16 2016-04-06 DTS, Inc. Tonverarbeitung für komprimiertes digitales fernsehen
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
CA2720636C (en) * 2008-04-18 2014-02-18 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
TWI397058B (zh) * 2008-07-29 2013-05-21 Lg Electronics Inc 音頻訊號之處理裝置及其方法,及電腦可讀取之紀錄媒體
EP2329492A1 (de) 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Signalverarbeitung zur upstream-qualitätsverbesserung für ressourceneingeschränkte client-vorrichtungen
ES2385293T3 (es) * 2008-09-19 2012-07-20 Dolby Laboratories Licensing Corporation Procesamiento de señales ascendentes para dispositivos clientes en una red inalámbrica de células pequeñas
US9380385B1 (en) 2008-11-14 2016-06-28 That Corporation Compressor based dynamic bass enhancement with EQ
WO2010057134A1 (en) 2008-11-14 2010-05-20 That Corporation Dynamic volume control and multi-spatial processing protection
EP2374211B1 (de) 2008-12-24 2012-04-04 Dolby Laboratories Licensing Corporation Audiosignallautheitbestimmung und modifikation im frequenzbereich
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
WO2010127024A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
CN102422349A (zh) * 2009-05-14 2012-04-18 夏普株式会社 增益控制装置和增益控制方法、声音输出装置
WO2010138311A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
WO2010138309A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011071928A2 (en) * 2009-12-07 2011-06-16 Pixel Instruments Corporation Dialogue detector and correction
EP2367286B1 (de) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatische Korrektur der Lautstärke von Audiosignalen
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
CN103348408B (zh) 2011-02-10 2015-11-25 杜比实验室特许公司 噪声和位置外信号的组合抑制方法和系统
US20120263317A1 (en) * 2011-04-13 2012-10-18 Qualcomm Incorporated Systems, methods, apparatus, and computer readable media for equalization
EP2714184B1 (de) * 2011-05-26 2017-05-10 Advanced Bionics AG Systeme zur verbesserung der darstellung von audiosignalen mit zwischenlautstärken durch ein gehörprothesensystem
KR102060208B1 (ko) 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9437213B2 (en) * 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
WO2013142695A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
CN104221284B (zh) * 2012-04-12 2017-05-24 杜比实验室特许公司 用于调平音频信号的响度变化的系统及方法
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2014021890A1 (en) 2012-08-01 2014-02-06 Dolby Laboratories Licensing Corporation Percentile filtering of noise reduction gains
EP2693637A1 (de) * 2012-08-01 2014-02-05 Harman Becker Automotive Systems GmbH Automatische Lautheitsregelung
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9391576B1 (en) * 2013-09-05 2016-07-12 Cirrus Logic, Inc. Enhancement of dynamic range of audio signal path
US9831843B1 (en) 2013-09-05 2017-11-28 Cirrus Logic, Inc. Opportunistic playback state changes for audio devices
JP6151619B2 (ja) * 2013-10-07 2017-06-21 クラリオン株式会社 音場測定装置、音場測定方法および音場測定プログラム
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US9832562B2 (en) * 2013-11-07 2017-11-28 Gn Hearing A/S Hearing aid with probabilistic hearing loss compensation
DK2871858T3 (da) * 2013-11-07 2019-09-23 Gn Hearing As Et høreapparat med probabilistisk høretabskompensation
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
EP3092640B1 (de) * 2014-01-07 2018-06-27 Harman International Industries, Incorporated Signalqualitätsbasierte verbesserung und kompensation von komprimierten audiosignalen
US9774342B1 (en) 2014-03-05 2017-09-26 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9525940B1 (en) 2014-03-05 2016-12-20 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
US9306588B2 (en) 2014-04-14 2016-04-05 Cirrus Logic, Inc. Switchable secondary playback path
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
US10785568B2 (en) 2014-06-26 2020-09-22 Cirrus Logic, Inc. Reducing audio artifacts in a system for enhancing dynamic range of audio signal path
US10013992B2 (en) 2014-07-11 2018-07-03 Arizona Board Of Regents On Behalf Of Arizona State University Fast computation of excitation pattern, auditory pattern and loudness
US9337795B2 (en) 2014-09-09 2016-05-10 Cirrus Logic, Inc. Systems and methods for gain calibration of an audio signal path
US9596537B2 (en) 2014-09-11 2017-03-14 Cirrus Logic, Inc. Systems and methods for reduction of audio artifacts in an audio system with dynamic range enhancement
US9503027B2 (en) 2014-10-27 2016-11-22 Cirrus Logic, Inc. Systems and methods for dynamic range enhancement using an open-loop modulator in parallel with a closed-loop modulator
US9584911B2 (en) 2015-03-27 2017-02-28 Cirrus Logic, Inc. Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses
US10109288B2 (en) * 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US9959856B2 (en) 2015-06-15 2018-05-01 Cirrus Logic, Inc. Systems and methods for reducing artifacts and improving performance of a multi-path analog-to-digital converter
EP4156180A1 (de) * 2015-06-17 2023-03-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Lautstärkeregler für benutzerinteraktivität in audiocodierungssystemen
DE102015216822B4 (de) * 2015-09-02 2017-07-06 Sivantos Pte. Ltd. Verfahren zur Unterdrückung einer Rückkopplung in einem Hörgerät
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
DE102015217565A1 (de) 2015-09-15 2017-03-16 Ford Global Technologies, Llc Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen
US9955254B2 (en) 2015-11-25 2018-04-24 Cirrus Logic, Inc. Systems and methods for preventing distortion due to supply-based modulation index changes in an audio playback system
US9543975B1 (en) 2015-12-29 2017-01-10 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system with low-pass filter between paths
US9880802B2 (en) 2016-01-21 2018-01-30 Cirrus Logic, Inc. Systems and methods for reducing audio artifacts from switching between paths of a multi-path signal processing system
US9998826B2 (en) 2016-06-28 2018-06-12 Cirrus Logic, Inc. Optimization of performance and power in audio system
US10545561B2 (en) 2016-08-10 2020-01-28 Cirrus Logic, Inc. Multi-path digitation based on input signal fidelity and output requirements
US10263630B2 (en) 2016-08-11 2019-04-16 Cirrus Logic, Inc. Multi-path analog front end with adaptive path
US9813814B1 (en) 2016-08-23 2017-11-07 Cirrus Logic, Inc. Enhancing dynamic range based on spectral content of signal
US9780800B1 (en) 2016-09-19 2017-10-03 Cirrus Logic, Inc. Matching paths in a multiple path analog-to-digital converter
US9762255B1 (en) 2016-09-19 2017-09-12 Cirrus Logic, Inc. Reconfiguring paths in a multiple path analog-to-digital converter
US9929703B1 (en) 2016-09-27 2018-03-27 Cirrus Logic, Inc. Amplifier with configurable final output stage
US9967665B2 (en) 2016-10-05 2018-05-08 Cirrus Logic, Inc. Adaptation of dynamic range enhancement based on noise floor of signal
US10321230B2 (en) 2017-04-07 2019-06-11 Cirrus Logic, Inc. Switching in an audio system with multiple playback paths
US10008992B1 (en) 2017-04-14 2018-06-26 Cirrus Logic, Inc. Switching in amplifier with configurable final output stage
US9917557B1 (en) 2017-04-17 2018-03-13 Cirrus Logic, Inc. Calibration for amplifier with configurable final output stage
CN107464563B (zh) * 2017-08-11 2020-08-04 广州迪宝乐电子有限公司 一种语音交互玩具
US10389323B2 (en) * 2017-12-18 2019-08-20 Tls Corp. Context-aware loudness control
US11894006B2 (en) 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
CN112437957A (zh) 2018-07-27 2021-03-02 杜比实验室特许公司 用于全面收听的强加间隙插入
CN109547848B (zh) * 2018-11-23 2021-02-12 北京达佳互联信息技术有限公司 响度调整方法、装置、电子设备以及存储介质
JP2022527111A (ja) 2019-04-03 2022-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション スケーラブル音声シーンメディアサーバ
CN111640446B (zh) * 2020-06-24 2023-03-10 北京百瑞互联技术有限公司 一种基于音频编码器的响度均衡方法、编码器及蓝牙设备
US11916525B2 (en) * 2021-08-27 2024-02-27 Sennheiser Electronic Gmbh & Co. Kg Method for automatically controlling loudness of an audio signal, and device for automatically controlling loudness of an audio signal
WO2023122227A1 (en) * 2021-12-22 2023-06-29 University Of Maryland Audio control system

Family Cites Families (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) * 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) * 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4739514A (en) * 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US4953112A (en) 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5027410A (en) * 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (de) * 1989-03-08 1990-09-21
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) * 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
SG49883A1 (en) * 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
EP0517233B1 (de) 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Gerät zur Unterscheidung von Musik und Sprache
US5278912A (en) * 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
US5363147A (en) * 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
GB2272615A (en) 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
US5548638A (en) 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) * 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) * 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (de) * 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5530760A (en) * 1994-04-29 1996-06-25 Audio Products International Corp. Apparatus and method for adjusting levels between channels of a sound system
US5500902A (en) * 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) * 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
ATE229729T1 (de) 1995-03-13 2002-12-15 Phonak Ag Verfahren zur anpassung eines hörgerätes, vorrichtung hierzu und hörgerät
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
WO1996032710A1 (en) * 1995-04-10 1996-10-17 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
US6301555B2 (en) * 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
US5601617A (en) * 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) * 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) * 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) * 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
US5822018A (en) 1996-04-02 1998-10-13 Farmer; James O. Method and apparatus for normalizing signal levels in a signal processing system
US6108431A (en) * 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6327366B1 (en) * 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6430533B1 (en) * 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09312540A (ja) * 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) * 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
EP0820212B1 (de) * 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) * 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) * 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) * 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) * 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
US6404891B1 (en) * 1997-10-23 2002-06-11 Cardio Theater Volume adjustment as a function of transmission quality
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) * 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
JP3505085B2 (ja) * 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
JP2002518912A (ja) * 1998-06-08 2002-06-25 コックレア リミティド 聴覚装置
EP0980064A1 (de) * 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) * 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
DE69933929T2 (de) * 1999-04-09 2007-06-06 Texas Instruments Inc., Dallas Bereitstellen von digitalen Audio- und Videoprodukten
WO2000065872A1 (en) 1999-04-26 2000-11-02 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
US6263371B1 (en) * 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6985594B1 (en) * 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US7027981B2 (en) * 1999-11-29 2006-04-11 Bizjak Karl M System output control method and apparatus
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) * 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
JP2002051392A (ja) * 2000-08-01 2002-02-15 Alpine Electronics Inc 車内会話補助装置
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US6625433B1 (en) * 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
ATE333751T1 (de) * 2000-11-09 2006-08-15 Koninkl Kpn Nv Messen einer übertragungsqualität einer telefonverbindung in einem fernmeldenetz
US7457422B2 (en) * 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
DE10107385A1 (de) * 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) * 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
AU2001244029A1 (en) * 2001-04-10 2001-07-09 Phonak Ag Method for adjustment of a hearing aid to suit an individual
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
ATE318062T1 (de) 2001-04-18 2006-03-15 Gennum Corp Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen
JP4681163B2 (ja) * 2001-07-16 2011-05-11 パナソニック株式会社 ハウリング検出抑圧装置、これを備えた音響装置、及び、ハウリング検出抑圧方法
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7177803B2 (en) * 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3832396B2 (ja) * 2002-07-17 2006-10-11 コニカミノルタフォトイメージング株式会社 駆動装置、位置制御装置およびカメラ
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
DE10308483A1 (de) * 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8265295B2 (en) * 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
CN101410892B (zh) 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
CN101421781A (zh) 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
CN102684628B (zh) 2006-04-27 2014-11-26 杜比实验室特许公司 修正音频动态处理器的参数的方法以及执行该方法的设备
JP4938862B2 (ja) 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節

Also Published As

Publication number Publication date
EP1629463A2 (de) 2006-03-01
EP1629463B1 (de) 2007-08-22
JP2007503796A (ja) 2007-02-22
AU2004248544A1 (en) 2004-12-23
IL172108A (en) 2010-11-30
WO2004111994A2 (en) 2004-12-23
KR20060013400A (ko) 2006-02-09
CN1795490A (zh) 2006-06-28
MXPA05012785A (es) 2006-02-22
SG185134A1 (en) 2012-11-29
DK1629463T3 (da) 2007-12-10
IN2010KN02913A (de) 2015-05-01
HK1083918A1 (en) 2006-07-14
DE602004008455D1 (de) 2007-10-04
WO2004111994A3 (en) 2005-08-11
US8437482B2 (en) 2013-05-07
US20070092089A1 (en) 2007-04-26
JP4486646B2 (ja) 2010-06-23
CA2525942A1 (en) 2004-12-23
AU2004248544B2 (en) 2010-02-18
ES2290764T3 (es) 2008-02-16
KR101164937B1 (ko) 2012-07-12
CA2525942C (en) 2015-04-07
ATE371246T1 (de) 2007-09-15
BRPI0410740A (pt) 2006-06-27
PL1629463T3 (pl) 2008-01-31
CN101819771A (zh) 2010-09-01
HK1105711A1 (en) 2008-02-22
CN101819771B (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
DE602004008455T2 (de) Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69433662T2 (de) Adaptive verstärkung und filterschaltung für tonwiedergabesystem
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE69933141T2 (de) Tonprozessor zur adaptiven dynamikbereichsverbesserung
US8812308B2 (en) Apparatus and method for modifying an input audio signal
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE60120949T2 (de) Eine hörprothese mit automatischer hörumgebungsklassifizierung
EP0820212B1 (de) Lautheitsgesteuerte Verarbeitung akustischer Signale
EP1290914B1 (de) Verfahren zur anpassung eines hörgerätes an ein individuum
DE4340817A1 (de) Schaltungsanordnung für die automatische Regelung von Hörhilfsgeräten
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
DE112009000805T5 (de) Rauschreduktion
EP0661905A2 (de) Verfahren zur Anpassung eines Hörgerätes, Vorrichtung hierzu und Hörgerät
DE60113602T2 (de) Audiokodierer mit psychoakustischer Bitzuweisung
DE60308336T2 (de) Verfahren und system zur messung der übertragungsqualität eines systems
DE102012220620A1 (de) Bereitstellen von Audiosignalen für eine Tinnitustherapie
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
DE69629814T2 (de) Lautstärkebegrenzung
EP0779706B1 (de) Schaltungsanordnung zur Verbesserung des Störabstandes
DE60310084T2 (de) Vorrichtung und verfahren zur verteilten verstärkungsregelung zur spektralen verbesserung
EP0535425B1 (de) Verfahren zur Verstärkung von akustischen Signalen für Hörbehinderte, sowie Vorrichtung zur Durchführung des Verfahrens
EP1351550A1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät
EP1835487B1 (de) Verfahren, Vorrichtung und Computerprogramm zur Berechnung und Anpassung der wahrgenommenen Lautstärke eines Audiosignals
EP3190700B1 (de) Verfahren und vorrichtung zur verarbeitung von audio-signalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition