DE102012204193B4 - Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals - Google Patents

Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals Download PDF

Info

Publication number
DE102012204193B4
DE102012204193B4 DE102012204193.1A DE102012204193A DE102012204193B4 DE 102012204193 B4 DE102012204193 B4 DE 102012204193B4 DE 102012204193 A DE102012204193 A DE 102012204193A DE 102012204193 B4 DE102012204193 B4 DE 102012204193B4
Authority
DE
Germany
Prior art keywords
sample
attenuated
target
future
amplified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102012204193.1A
Other languages
English (en)
Other versions
DE102012204193A1 (de
Inventor
Christian Göttlinger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Algorithmix Digital Signal Proc Technologies GmbH
Algorithmix Digital Signal Processing Technologies GmbH
Original Assignee
Algorithmix Digital Signal Proc Technologies GmbH
Algorithmix Digital Signal Processing Technologies GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Algorithmix Digital Signal Proc Technologies GmbH, Algorithmix Digital Signal Processing Technologies GmbH filed Critical Algorithmix Digital Signal Proc Technologies GmbH
Priority to DE102012204193.1A priority Critical patent/DE102012204193B4/de
Publication of DE102012204193A1 publication Critical patent/DE102012204193A1/de
Application granted granted Critical
Publication of DE102012204193B4 publication Critical patent/DE102012204193B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Abstract

Audioprozessor (200) mit folgenden Merkmalen:
einem Verstärker (201), der ausgebildet ist, um ein empfangenes Audiosignal (205) zu verstärken oder zu dämpfen, und um eine Verstärkung oder Dämpfung des Audiosignals (205) basierend auf einer Zielvorgabe (207, ΔGfin,1:M(n)) zu variieren; und
einem Zielvorgabebestimmer (203), der ausgebildet ist, um die Zielvorgabe (207, ΔGfin,1:M(n)) basierend auf zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten x(n) des Audiosignals (205) zu bestimmen; und
wobei der Verstärker (201) ausgebildet ist, um die Verstärkung oder Dämpfung basierend auf der Zielvorgabe (207, ΔGfin,1:M(n)), noch bevor die zukünftigen noch zu verstärkenden oder zu dämpfenden Abtastwerte x(n), basierend auf denen der Zielvorgabebestimmer (203) die Zielvorgabe (207, ΔGfin,1:M(n)) bestimmt hat, verstärkt oder gedämpft werden, zu variieren,
wobei der Zielvorgabebestimmer (203) ausgebildet ist, um eine Vorverdeckung in den zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten (x(n)) zu detektieren und um bei der Bestimmung der Zielvorgabe (207, ΔGfin,1:M(n)) die detektierte Vorverdeckung zu berücksichtigen, so dass bei Vorliegen der Vorverdeckung der Verstärker (201) die Verstärkung oder Dämpfung zumindest teilweise während einer Vorverdeckungsphase variiert.

Description

  • Technisches Gebiet
  • Ausführungsbeispiele der vorliegenden Erfindung schaffen einen Audioprozessor, der beispielsweise in der Dynamikverarbeitung von Audiosignalen Verwendung finden kann. Weitere Ausführungsbeispiele der vorliegenden Erfindung schaffen ein Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals
  • Technischer Hintergrund
  • In fast allen Musikstilen wird die Dynamik heute teils massiv verändert. Sieht man von ästhetischen Gründen ab, so dient der Einsatz eines Dynamikkompressors vor allem zum Anpassen an die verfügbare Dynamik. Meist wird offen im Auto oder mit tragbaren Geräten und Kopfhörern in der Öffentlichkeit gehört. Der hier zur Verfügung stehende Dynamikbereich ist sehr gering. Im Auto herrschen zum Beispiel oft Geräuschkulissen von 60 dB über der Hörschwelle vor. Um den Hörer nicht mit zu hoher Lautheit zu belasten oder sogar Hörschäden zu verursachen, werden nun die lauteren Passagen gedämpft. Die leisen Stellen hingegen sollten angehoben werden, damit sie nicht im Rauschen untergehen. Die nötige Korrektur der Lautheit kann beträchtlich sein. Symphonieorchester können durchaus 60 dB Dynamik zwischen Pianissimo und Fortissimo entfalten, im Auto stehen je nach Geschwindigkeit teilweise weniger als 15 dB zur Verfügung.
  • Seit den 60er Jahren werden nun zur Verringerung dieser Unterschiede Dynamikprozessoren, in diesem Fall Kompressoren, eingesetzt. 13a zeigt dazu das grundsätzliche Prinzip der Dynamikkompression und 13b zeigt den prinzipiellen Aufbau eines bekannten Dynamikprozessors. Hier ist zu beachten, dass der in 13b gezeigte Dynamikprozessor keine Audiokompression im Sinne einer Verringerung der Übertragungsdatenmenge, wie beispielsweise bei MP3 durchführt, sondern eine „Kompression” des Signalpegels durchführt.
  • Mit einer Gleichrichtung und Mittelung wird zuerst der Signalpegel geschätzt (Block 1310). Mit einer nichtlinearen statistischen Eingangs-Ausgangskennlinie (Block 1312, bei hohen Pegeln wird die Steigerung verringert) wird aus dem Ist-Pegel der Soll-Pegel sowie die Differenz, also die Korrekturgröße, ermittelt. Würde dieser nun sofort auf den Audioanteil aufmultipliziert, käme es zu hörbaren Verzerrungen. Um dies zu vermeiden, wird diese Korrekturgröße zeitlich geglättet (Block 1314, im einfachsten Fall durch einen regressiven Filter erster Ordnung ähnlich einem Regelkreis mit Totzeit).
  • Dies kann jedoch auch durch komplexere Systeme getan werden, um das Regelverhalten für die menschliche Wahrnehmung noch weniger wahrnehmbar zu gestalten.
  • In 13c ist ein Beispiel für ein Eingangssignal x(n), für ein resultierendes Ausgangssignal durch die Kompression y(n) und für einen generierten Steuerfaktor g(n) gezeigt. Es wird deutlich, dass laute Stellen in dem Eingangssignal x(n) gedämpft werden, während leise Stellen in dem Eingangssignal x(n) verstärkt werden. Nachteilig ist bei allen Systemen, dass diese Kompression zu einer starken dynamischen Veränderung des Audiosignals führt und damit zu unschönen Höreindrücken (insbesondere bei einer Veränderung der Verstärkung) bei einem Hörer führen kann.
  • Die DE 69223 701 T2 offenbart eine dynamische Bereichskompression mit einem System, bei dem ein Block von Abtastwerten eines Audiosignals abgetastet wird, der mehrere Sekunden lang ist. Der Pegel des Signals wird in diesem Block analysiert und ein idealer Signalpegel wird für diesen Block berechnet. Eine Verstärkungssteuerung wird dann abgeleitet, die die für diesen Block verwendete Verstärkung in Richtung der erforderlichen Verstärkung einstellt, um den idealen Signalpegel zu erreichen. Hierzu ist insbesondere ein Verstärkungsgradientenberechner vorgesehen.
  • Die WO2009/086174 A1 offenbart ein Verfahren und System zum Einstellen einer Sekunden lang ist. Der Pegel des Signals wird in diesem Block analysiert und ein idealer wird verwendet, die eine Mehrzahl von Hörfiltern annähern, die das menschliche Gehör approximieren. Ziel ist eine konstante Lautheit des Audiosignals.
  • Die EP 1 542 359 A1 offenbart eine Signalkompressions- oder Signalexpansions-Vorrichtung mit einer Frequenzbandaufteilungsschaltung, einer Kompressions/Expansions-Schaltung und einer Bandsyntheseschaltung. Die bandweise vorgesehene Kompressions/Expansions-Schaltung komprimiert/expandiert das Eingangssignal in Übereinstimmung mit einem Pegel des Eingangssignals mit einer vorbestimmten Verstärkung.
  • Zusammenfassung der Erfindung
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Konzept zu schaffen, welches eine für einen Hörer möglichst nicht hörbare Audiomanipulation ermöglicht.
  • Diese Aufgabe wird gelöst durch einen Audioprozessor gemäß dem unabhängigen Patentanspruch 1 sowie ein Verfahren gemäß dem unabhängigen Patentanspruch 24.
  • Ausführungsbeispiele der vorliegenden Erfindung schaffen einen Audioprozessor mit einem Verstärker und einem Zielvorgabebestimmer. Der Verstärker ist ausgebildet, um ein empfangenes Audiosignal zu verstärken oder zu dämpfen und um eine Verstärkung oder Dämpfung des Audiosignals basierend auf einer Zielvorgabe zu variieren. Der Zielvorgabebestimmer ist ausgebildet, um die Zielvorgabe basierend auf zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten des Audiosignals zu bestimmen.
  • Ferner ist der Verstärker ausgebildet, um die Verstärkung oder Dämpfung basierend auf der Zielvorgabe, noch bevor die zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte, basierend auf denen der Zielvorgabebestimmer die Zielvorgabe bestimmt hat, verstärkt oder gedämpft werden, zu variieren.
  • Es ist ein Kerngedanke von Ausführungsbeispielen der vorliegenden Erfindung, dass eine möglichst unhörbare Audiomanipulation ermöglicht wird, wenn eine Zielvorgabe basierend auf zukünftigen noch zu verstärkenden oder zu dämpfenden Abtastwerten des Audiosignals bestimmt wird, und wenn eine Verstärkung oder Dämpfung des Audiosignals basierend auf der Zielvorgabe variiert wird, noch bevor die zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte verstärkt oder gedämpft werden. So wird nämlich dadurch, dass die Zielvorgabe basierend auf zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten ermittelt wird, ermöglicht, dass psychoakustische Effekte wie beispielsweise Vorverdeckung oder Nachverdeckung bei der Variierung der Verstärkung oder Dämpfung des Audiosignal ausgenutzt werden können. So kann bei Ausführungsbeispielen der vorliegenden Erfindung beispielsweise eine Variierung der Verstärkung oder Dämpfung des empfangenen Audiosignals bereits im Vorhinein erfolgen, bevor die Abtastwerte für die die Variierung der Verstärkung oder Dämpfung durchgeführt werden soll, überhaupt zur Verstärkung oder Dämpfung an dem Verstärker anliegen. So kann beispielsweise eine Variierung der Verstärkung oder eine Variierung der Dämpfung bei einem sogenannten Onset (Einsatz) bereits erfolgen, bevor dieser Onset vorliegt, insbesondere kann eine Reduktion der Verstärkung oder Erhöhung der Dämpfung in einer Vorverdeckungsphase erfolgen und ist damit für. einen Zuhörer nahezu unhörbar. So wird beispielsweise verhindert, dass bei einem Transienten zuerst der Transient auftritt, bevor die Regelung eintritt, also bevor die Verstärkung reduziert wird, was zu unschönen Höreindrücken führen würde.
  • Mit anderen Worten schaffen Ausführungsbeispiele der vorliegenden Erfindung eine optimierte zeitliche Steuerung für sämtliche Arten der dynamischen Audiobearbeitung, wie z. B. bei Kompressoren (Dynamikkomprimierung), Expandern (Dynamikvergrößerung), Gates (Unterdrückung leiser Stellen, z. B. Rauschen wird völlig ausgeblendet), Limitern (Pegel darf einen Wert absolut nicht überschreiten), Enhancern (Anheben eines Hochtonanteils eines Tonsignals), De-Essern (Absenkung von Sibilanten).
  • Es ist damit ein Vorteil von Ausführungsbeispielen der vorliegenden Erfindung, dass eine möglichst nicht hörbare Änderung einer Verstärkung oder Dämpfung eines Audiosignals ermöglicht wird, und zwar dadurch, dass eine Zielvorgabe für die Verstärkung oder Dämpfung des Audiosignals nicht aus aktuell zu verstärkenden oder zu dämpfenden Abtastwerten generiert wird, sondern dynamisch aus zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten generiert wird.
  • Gemäß einigen Ausführungsbeispielen kann der durch den Zielvorgabebestimmer durchgeführte „Blick in die Zukunft”, also die Betrachtung der zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte dynamisch sein. Mit anderen Worten kann die Anzahl der zukünftig noch zu verstärkenden Abtastwerte, basierend auf denen der Zielvorgabebestimmer die Zielvorgabe bestimmt, variieren. Er kann also beispielsweise sowohl auf Ereignisse reagieren welche erst in 2 ms auftreten als auch auf Ereignisse welche erst in 10 ms auftreten. Die genaue Sichtung und Wahl dieser Entfernung (bzw. der Anzahl von betrachteten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte) ist wichtig für die Qualität des Geräts. Der Zielvorgabebestimmer kann daher eine dynamische, adaptive Sichtweite aufweisen.
  • Gemäß einigen Ausführungsbeispielen der vorliegenden Erfindung kann der Zielvorgabebestimmer ausgebildet sein, um die Zielvorgabe basierend auf einem psychoakustischen Gehörmodell oder auch basierend auf einem anderen beliebigen Pegelermittler zu bestimmen. So kann der Zielvorgabebestimmer beispielsweise ausgebildet sein, um in den zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten Vorverdeckungsphasen, Onsets (Onset-Einsatz oder Einschwingen), Offsets (Offset-Ausklingen oder Ausschwingen) und/oder Nachverdeckungsphasen zu bestimmen, basierend auf denen der Zielvorgabebestimmer die Zielvorgabe für den Verstärker bereitstellt. Wie bereits erläutert, kann der Zielvorgabebestimmer damit die Zielvorgabe so bestimmen, dass die Variierung der Verstärkung durch den Verstärker möglichst unhörbar für einen Hörer erfolgt. Mit anderen Worten kann die Variierung der Verstärkung oder der Dämpfung des Audiosignals basierend auf der Zielvorgabe in Phasen des Audiosignals, bzw. während bestimmter Abtastwerte des Audiosignals durchgeführt werden, in denen diese Variierung der Verstärkung oder Dämpfung für einen Hörer nicht oder nahezu nicht hörbar sind, beispielsweise weil diese Abtastwerte vorverdeckt sind.
  • Bei einer Verwendung von Ausführungsbeispielen der vorliegenden Erfindung in Audiokompressoren können beispielsweise diese psychoakustischen Zusatzinformationen oder auch weitere, andere psychoakustischen Zusatzinformationen zur zeitlichen Regelung benutzt werden. Damit wird das zeitliche Regelverhalten besser von der Zielvorgabe aus der statischen Kennlinie entkoppelt und kann nun getrennt davon optimiert werden.
  • Die psychoakustischen Zusatzinformationen für den Zielvorgabebestimmer können beispielsweise sein: Onset/Offset, Vorverdeckung/Nachverdeckung vorhanden oder weitere Zusatzinformationen, wie Steigung, Onsetstärke, absolute Lautheitsänderung, absolute spezifische Lautheit, tonales Signal, Simultanverdeckung oder weitere. Gemäß einigen Ausführungsbeispielen kann bei der Simultanverdeckung die Schätzung durch das Gehörmodell zu Stande kommen (beispielsweise mittels weiterer Analysefilter und/oder einer Modifizierung des Gehörmodells z. B. dem später beschriebenen neuronalen Rückkopplungsmodell). Simultanverdeckung entsteht durch große Signalanteile in benachbarten Frequenzbändern. So kann beispielsweise ein Onset in benachbarten Frequenzbändern, auf andere Frequenzbänder überspringen. Auch Vor- und Nachverdeckung gelangen auf diesem Wege in andere Frequenzbereiche wo eigentlich kein deutlicher Maskierer hierfür vorhanden ist.
  • Gemäß weiteren Ausführungsbeispielen kann der Zielvorgabebestimmer ausgebildet sein, um die Zielvorgabe so dem Verstärker bereitzustellen, dass ein erster Regelweg zwischen einem ersten Verstärkungswert und einem zweiten Verstärkungswert in einem ersten Fall, in dem Vorverdeckung vorliegt, verschieden ist zu einem zweiten Regelweg zwischen dem ersten Verstärkungswert und dem zweiten Verstärkungswert in einem zweiten Fall, in dem keine Vorverdeckung vorliegt.
  • Mit anderen Worten kann der Zielvorgabebestimmer ausgebildet sein, um einen Regelweg zwischen identischen Verstärkungswerten unterschiedlich zu wählen, in Abhängigkeit davon, ob Vorverdeckung vorliegt oder nicht.
  • Im Allgemeinen kann der Zielvorgabestimmer ausgebildet sein, um einen Regelweg zwischen verschiedenen Verstärkungswerten in Abhängigkeit der psychoakustischen Zusatzinformationen zu bestimmen und auch zu variieren.
  • Dadurch wird beispielsweise ermöglicht, dass eine Regelung in den Fällen, in denen Vorverdeckung vorliegt, schneller und früher erfolgt als in Fällen, in denen keine Vorverdeckung vorliegt, da in den Fällen, in denen Vorverdeckung vorliegt ein schnellerer Regelweg (beispielsweise ein linearer Regelweg in einer logarithmischen Domäne) verwendet werden kann, als in den Fällen in denen keine Vorverdeckung vorliegt.
  • So wird ermöglicht, dass auch für Ruhephasen ohne große Verstärkungsunterschiede zwischen zwei Verstärkungswerten eine maximal schnelle Änderung ermöglicht wird, welche zusätzlich für einen Hörer nahezu unhörbar ist.
  • So kann beispielsweise in dem Fall, in dem Vorverdeckung vorliegt, sogar ein linearer Regelweg gewählt werden, da die betreffenden Abtastwerte von einem Hörer gar nicht gehört werden. Ein solcher linearer Regelweg würde bei Nichtvorliegen von Vorverdeckung zu deutlich hörbaren Veränderungen im Audiosignal führen.
  • Gemäß einigen Ausführungsbeispielen kann daher beispielsweise in Phasen der Vorverdeckung ein linearer Regelweg in der logarithmischen Domäne gewählt werden, während in Phasen, in denen keine Vorverdeckung vorliegt, ein logarithmischer Regelweg (basierend auf einer e-Funktion) von dem Zielvorgabebestimmer gewählt wird.
  • Der Vollständigkeit halber sei zu erwähnen, dass Vorverdeckung im Englischen als „Backward Masking” bezeichnet wird und Nachverdeckung im Englischen als „Forward Masking” bezeichnet wird.
  • Gemäß einigen Ausführungsbeispielen kann der Zielvorgabebestimmer ausgebildet sein, um für jeden Abtastwert der zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte zu bestimmen, ob dieser Abtastwert durch einen nachfolgenden Abtastwert vorverdeckt ist. Ferner kann der Zielvorgabebestimmer ausgebildet sein, um die Entscheidung, ob ein erster Abtastwert vorverdeckt ist, basierend auf einer Neuronenaktivitätsdifferenz zwischen einer Neuronenaktivität in Reaktion auf den ersten Abtastwert und eines gewichteten Mittels über eine kommende Neuronenaktivität in Reaktion auf eine vorbestimmte Anzahl von der dem ersten Abtastwert folgenden noch zu verstärkenden oder zu dämpfenden Abtastwerten, zu treffen.
  • Mit anderen Worten kann der Zielvorgabebestimmer ausgebildet sein, eine Neuronenaktivitätsdifferenz für jeden Abtastwert zu bestimmen, und basierend auf der Neuronenaktivitätsdifferenz für jeden Abtastwert zu bestimmen, ob der Absatzwert vorverdeckt ist oder nicht.
  • Mit anderen Worten kann der Zielvorgabebestimmer ausgebildet sein, um bei der Bestimmung ob ein Abtastwert oder ein Frequenzbereich des Abtastwerts vorverdeckt ist oder nicht, diese Bestimmung nicht nur allgemein in Abhängigkeit von einer Amplitude des empfangenen Audiosignals durchzuführen, sondern basierend auf (simulierten) Neuronenaktivitäten (und damit basierend auf den Ausgabewerten eines psychoakustischen Gehörmodells). Dadurch wird ermöglicht, dass eine noch genauere Steuerung der Verstärkung oder Dämpfung in dem Verstärker erreicht wird, um eine Änderung der Verstärkung oder Dämpfung des empfangenen Audiosignals möglichst unhörbar für einen Hörer durchzuführen. Gemäß einiger Ausführungsbeispiele kann sich die Bestimmung der Vorverdeckung sich auf einen Frequenzbereich des Abtastwerts erstrecken.
  • So liegt Vorverdeckung typischerweise vor, wenn ein starker Transient existiert. Dies kann bei Ausführungsbeispielen der vorliegenden Erfindung geschickt genutzt werden und zwar dadurch, dass, wie beschrieben, die Bedeutung eines einzelnen Abtastwerts bzw. die Bedeutung eines Frequenzbands eines einzelnen Abtastwerts im Vergleich zu den zukünftigen beachtet wird in der Hinsicht, dass die Neuronenaktivitätsdifferenz für jeden Abtastwert bestimmt wird, und falls diese Neuronenaktivitätsdifferenz größer als ein gewichtetes Integral über Neuronenaktivitäten in Reaktion auf den jeweiligen Abtastwert vorhergehende Abtastwerte ist, bestimmt wird, dass Vorverdeckung vorliegt.
  • Gemäß weiteren Ausführungsbeispielen der vorliegenden Erfindung kann der Zielvorgabebestimmer ausgebildet sein, um die Zielvorgabe einer Filterung zu unterziehen, bevor er die Zielvorgabe dem Verstärker bereitstellt. Insbesondere kann ein dazu verwendetes Filter zeitvariable Koeffizienten (beispielsweise Zeitkonstanten) aufweisen. Gemäß einigen Ausführungsbeispielen können diese zeitvariablen Konstanten in Abhängigkeit der oben genannten psychoakustischen Zusatzinformationen (Vorverdeckung, Nachverdeckung, Onset, Offset) gewählt werden.
  • Auch dadurch lasst sich die zeitliche Regelung in der Hinsicht verbessern, dass die Variation der Verstärkung und/oder Dämpfung in einem möglichst nicht hörbaren Bereich für einen Hörer durchgeführt wird.
  • Figurenkurzbeschreibung
  • Ausführungsbeispiele der vorliegenden Erfindung werden im Folgenden anhand der beiliegenden Figuren detailliert beschrieben. Es zeigen:
  • 1a ein Diagramm zur Visualisierung Kurven gleicher Lautheit für Sinustöne;
  • 1b eine Tabelle der kritischen Bänder in Bark nach Zwicker;
  • 1c ein Diagramm zur Visualisierung der spezifischen Lautheit;
  • 2 ein Blockschaltbild eines Audioprozessors gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 3a ein Blockschaltbild einer möglichen Implementierung des Audioprozessors auf 2 gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung;
  • 3b ein Blockschaltbild des Audioprozessors aus 3a mit einer detaillierteren Darstellung;
  • 3b ein Blockschaltbild des Audioprozessors aus 3a in einer abstrahierten Version
  • 4 ein Blockschaltbild eines Gehörmodells, wie es in dem in den
  • 3a und 3c gezeigten Audioprozessor Verwendung finden kann;
  • 5a eine schematische Darstellung einer Warped-Verzögerungslinie vor einer FFT, wie sie bei dem Warped-FIR-Filter des Gehörmodells aus 4 Verwendung finden kann;
  • 5b Diagramme zur Darstellung der Frequenz- und Zeiteigenschaften der Warped-FFT aus dem Gehörmodell aus 4;
  • 6a eine schematische Darstellung eines neuronalen Rückkopplungsmodells, wie es in dem Gehörmodell von 4 Verwendung finden kann;
  • 6b Diagramme zur Darstellung des Zeitverhaltens des neuronalen Rückkopplungsmodells aus 6a;
  • 6c ein Diagramm zum Vergleich der Lautheit nach dem neuronalen Rückkopplungsmodell aus 6a und gemäß Zwicker-Formel;
  • 6d ein Diagramm zur Darstellung des Ausschwingens des neuronalen Rückkopplungsmodells aus 6a im Vergleich zu den psychoakustischen Messdaten von Fast1;
  • 6e ein Diagramm zur Darstellung der Funktionsweise des Vorverdeckungsfilters;
  • 7a ein Blockschaltbild eines Gesamtsystems einer statischen Kennlinie, wie sie bei dem Audioprozessor gemäß den 3a und 3b Verwendung bringen kann;
  • 7b ein Diagramm zur Darstellung einer statischen Kompressorkennlinie, wie sie bei dem in 7a gezeigten Gesamtsystem Verwendung finden kann;
  • 7c ein Diagramm zur Darstellung der Gewichtung von kurz- und langfristiger Lautheit, wie es bei dem Gesamtsystem der statischen Kennlinie aus 7a durchgeführt werden kann;
  • 7d ein weiteres Diagramm zur Darstellung der Gewichtung der kurz- und langfristigen Lautheit;
  • 8 ein Blockschaltbild zur Berechnung der lokalen Regelziele pro Band aus dem globalen Regelziel;
  • 9a ein Blockschaltbild eines Aufbaus einer Attack/Release-Steuerung oder Regelung, wie sie bei dem Audioprozessor gemäß den 3a und 3b Verwendung finden kann;
  • 9b Diagramm zur Darstellung eines Beispiels des vorausschauenden adaptiven Attack/Release-Mechanismus;
  • 10a–d Diagramme zur Darstellung der Schritte zur Gewinnung des bandspezifischen Regelsignals anhand eines Basssolo-Beispiels;
  • 11a ein Flussdiagramm zur Darstellung der Konstruktion eines minimalphasigen Warped-FIR-Filters aus den Steuerfaktoren der Bänder;
  • 11b Diagramme zur Darstellung eines Vergleichs der Amplitudenspektra einer generierten Impulsantwort ohne zusätzliche Interpolation und mit zusätzlicher Interpolation;
  • 11c Diagramme zur Visualisierung der Eigenschaften des konstruierten minimalphasigen Warped-FIR-Filters;
  • 11d ein Flussdiagramm zur Darstellung einer Konstruktion eines Linearphasigen FIR-Filters aus den Steuerfaktoren der Bänder;
  • 12 ein Flussdiagramm eines Verfahrens gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 13a Diagramme zur Darstellung des grundsätzlichen Prinzips der Dynamikkompression;
  • 13b ein Blockschaltbild eines prinzipiellen Aufbaus eines bekannten Audiokompressors; und
  • 13c Beispiele für Signale, wie sie bei dem in 13b gezeigten Kompressor vorliegen können.
  • Detaillierte Beschreibung von Ausführungsbeispielen der vorliegenden Erfindung
  • Bevor im Folgenden Ausführungsbeispiele der vorliegenden Erfindung detailliert beschrieben werden, wird darauf hingewiesen, dass in den Figuren Elemente gleicher Funktion oder gleiche Elemente mit denselben Bezugszeichen versehen sind, und dass auf eine wiederholte Beschreibung dieser Elemente verzichtet wird. Beschreibungen von Elementen mit denselben Bezugszeichen sind daher untereinander austauschbar.
  • Bevor im Folgenden die Ausführungsbeispiele der vorliegenden Erfindung detailliert beschrieben werden, sollen im Folgenden zum besseren Verständnis der Erfindung einige grundlegende Prinzipien bei der Dynamikverarbeitung von Audiosignalen erläutert werden.
  • Einige Ausführungsbeispiele der vorliegenden Erfindung basieren auf psychoakustischen Gehörmodellen, in denen eine Lautheit eines Audiosignals bzw. der Abtastwerte des Audiosignals bestimmt wird und basierend auf dieser eine Zielvorgabe ermittelt wird.
  • Es sei im Folgenden genauer auf diesen Begriff der Lautheit eingegangen werden.
  • Nicht zuletzt im Rahmen von Lärmmessungen stellt sich immer wieder die Frage nach der tatsächlich empfundenen Lautheit und weniger des physikalischen Schalldrucks. Die meisten Methoden sind ursprünglich für statische Quellen wie Rauschen oder Sinusschwingungen entwickelt worden und später teilweise für dynamische Vorgänge erweitert worden. Einer der Kernpunkte ist dabei die lautheitsabhängige Gewichtung der Schalldrücke sowie die Beurteilung des Einflusses der Bandbreite des Signals. Die in 1a gezeigten Kurven gleicher Lautheit geben an, wie laut ein statischer Ton beliebiger Frequenz sein muss, um genauso laut wie ein entsprechender Ton bei 1 kHz wahrgenommen zu werden. Die Einheit ist Phon. 1 Phon entspricht jeweils 1 dB bei 1 kHz. Eine der einfachsten Messmethoden ist die RMS-Mittelung des Schalldrucks über lange Zeit. Um eine ungefähr korrekte Gewichtung der Frequenzen zu erhalten, wird ein Bewertungsfilter entsprechend der ungefähren Lautheitskategorie vorgeschaltet. Beispiel hierfür ist die im IEC 61672-Standard für Lautheitsmessungen definierte A-Gewichtung (40 Phon) oder die RLB-Gewichtung.
  • Zwicker entwickelte bereits in den sechziger Jahren des vorigen Jahrhunderts ein bis heute in Abwandlungen verwendetes Lautheitsmodell, das die Frequenzgewichtung, die nichtlineare Skalierung der Lautheit und die Bandbreitenbewertung der Signale bereits beinhaltet.
  • Zu Beginn wird das Signal durch eine Filterbank (alternative Implementierungen benutzen FFTs mit Summierung der jeweiligen Bänder, „Warped”-FFTs etc.) in die gehörrichtigen Frequenzgruppen („Barkbänder” wie in 1b gezeigt) unterteilt. Diese werden aus dem Konzept der kritischen Bandbreite abgeleitet, das gewissermaßen die frequenzielle Auflösungsfähigkeit des Gehörs beschreibt. Ein Effekt ist zum Beispiel, dass ein amplitudenmoduliertes Schmalbandrauschen lauter wahrgenommen wird, wenn es durch die Modulation spektral breiter als die kritische Bandbreite von einem Bark wird. Innerhalb der kritischen Bandbreite bleibt die Lautheitswahrnehmung in etwa gleich. Genau definiert ergibt sich dieser Effekt um die zentrale Frequenz des Signals. Die Breite der Filter erweitert sich bei hohen Lautheiten. Dies ist zum Beispiel mit den sogenannten Gammachirp-Filtern modellierbar. Interessant ist in diesem Zusammenhang, dass jedes Barkband einem etwa 1,3 mm langen Abschnitt auf der Basilarmembran und damit etwa 150 Inneren Haarzellen entspricht. Mit Hilfe des quadratischen Mittels („Root Mean Square-RMS”) und anschließender Quadrierung wird die durchschnittliche Anregung (Schallintensität) in den einzelnen Bändern während des Beobachtungszeitraumes geschätzt. Mit folgender Formel wird die Anregung in spezifische Lautheit N' umgerechnet (Originalformel von Zwicker):
    Figure DE102012204193B4_0002
  • ETQ:
    Wahrnehmungsschwelle im jeweiligen Barkband
    E0:
    Referenzintensität 0 dB@1 kHz
    E:
    Aktuelle Anregung im jeweiligen Barkband
  • 1c zeigt dazu ein Diagramm des Verhältnisses von Anregung (LE oder E) zur spezifischen Lautheit (N') für verschiedene Barkbänder.
  • Mit der abschließenden Summierung über alle Bänder ergibt sich die Lautheit in Sone. Eine Verdopplung des Sone-Wertes entspricht auch einer Verdoppelung der empfundenen Lautheit. Ein Sinuston von 40 dB bei 1 kHz entspricht 1 Sone.
  • Um das Modell auch auf Signale mit nicht statischer Lautheit anwendbar zu machen erfolgt die Schätzung der Lautheit laufend in möglichst kurzen Fenstern (10–50 ms). Diese Ergebnisse werden abschließend mit einem Tiefpass über die Zeit integriert. Eine Daumenregel nach Zwicker dafür ist, dass die Lautheit in Phon nach dem Signalbeginn linear mit etwa 10 Phon pro Dekade Zeit (= 3 Phon pro Verdoppelung) ansteigt. Dies berücksichtigt natürlich nicht die tatsächlichen Sättigungserscheinungen nach gewisser Zeit. Für das exakte Zeitverhalten ist es besser, die Zunahme der Nachverdeckung mit der Masterlänge als Referenz zu nehmen.
  • Für die Dauer des Lautheitseindruckes gibt es zwei verschiedene Größen: die kurzfristige („shortterm”) und langfristige („longterm”) Lautheit. Erstere bezieht sich auf die empfundene Lautheit einzelner Ereignisse wie etwa Silben, letztere auf die Lautheit größerer Strukturen wie etwa ganzen Sätzen und bezieht somit auch ein gewisses Gedächtnis mit ein. Die kurzfristige Lautheitsempfindung korreliert eng mit dem Verdeckungseffekt, weswegen Erkenntnisse über die Länge und Stärke der Verdeckung auf den Verlauf der Lautheit übertragen werden können.
  • Ausführungsbeispiele der vorliegenden Erfindung werden im Folgenden beschrieben, wobei in 2 ein allgemeines Konzept von Ausführungsbeispielen der vorliegenden Erfindung gezeigt ist und anhand der 3a11d ein Dynamikprozessor oder Audioprozessor gemäß einem Ausführungsbeispiel detailliert beschrieben wird, welcher von den Erkenntnissen der vorliegenden Erfindung Gebrauch macht. Obwohl der in den 3a bis 11d beschriebene Dynamikprozessor hauptsächlich zur Audiokompression verwendet wird, so ist zu betonen, dass Ausführungsbeispiele der vorliegenden Erfindung für sämtliche Arten der dynamischen Audiobearbeitung Verwendung finden können, wie beispielsweise bei eben genannten Kompressoren, Expandern, Gates, Limitern, Enhancern, oder De-Essern. Die im Folgenden anhand der 3a11d beschriebenen Merkmale des vorgestellten Dynamikprozessors sind daher auch, wo möglich, für andere Arten der dynamischen Audiobearbeitung anwendbar.
  • 2 zeigt ein Blockschaltbild eines Audioprozessors 200 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Der Audioprozessor 200 weist einen Verstärker 201 und einen Zielvorgabebestimmer 203 auf.
  • Der Verstärker 201 ist ausgebildet, um ein empfangenes Audiosignal 205 zu verstärken oder zu dämpfen und um eine Verstärkung oder Dämpfung des empfangenen Audiosignals 205 basierend auf einer Zielvorgabe 207 zu variieren.
  • Der Zielvorgabebestimmer 203 ist ausgebildet, um die Zielvorgabe 207 basierend auf zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten des Audiosignals 205 zu bestimmen.
  • Ferner ist der Verstärker 201 ausgebildet, um die Verstärkung oder Dämpfung (des Audiosignals 205) basierend auf der Zielvorgabe 207, noch bevor die zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte (basierend auf denen der Zielvorgabebestimmer 203 die Zielvorgabe 207 bestimmt hat) verstärkt oder gedämpft werden, zu variieren.
  • Mit anderen Worten ist der Zielvorgabebestimmer 203 ausgebildet, um „in die Zukunft zu schauen”, um Abtastwerte des Audiosignals 205 zu analysieren, noch bevor diese von dem Verstärker 201 verstärkt werden, so dass die Zielvorgabe 207 für die Verstärkung oder Dämpfung dieser Abtastwerte bereits bestimmt ist, noch bevor der Verstärker 201 diese Abtastwerte verstärkt oder dämpft. Dadurch wird ein vorausschauendes Verstärken oder Dampfen des Audiosignals 205 ermöglicht, noch bevor die Abtastwerte, für die diese Verstärkung oder Dämpfung eigentlich gedacht ist, von dem Verstärker 201 verstärkt oder gedämpft werden.
  • Dadurch lässt sich, wie bereits eingangs erläutert, erreichen, dass Änderungen der Verstärkung oder Dämpfung des Audiosignals 205 in möglichst nicht hörbaren Bereichen (Abtastwerten, sowohl zeitlichen als auch frequenziellen) des Audiosignals 205 durchgeführt werden, um damit die Änderungen der Verstärkung oder Dämpfung für einen Hörer möglichst unhörbar zu gestalten.
  • So lassen sich beispielsweise, aufgrund dessen, dass die Zielvorgabe 207 aus den zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten bestimmt wird, psychoakustische Effekte, wie Vorverdeckung und Nachverdeckung optimal ausnutzen, um die Verstärkung oder Dämpfung während solcher Vorverdeckungsphasen und/oder Nachverdeckungsphasen zu variieren.
  • Gemäß einigen Ausführungsbeispielen kann, wie bereits eingangs erläutert, der Zielvorgabebestimmer 203 ausgebildet sein, um die Zielvorgabe 207 basierend auf einem psychoakustischen Gehörmodell zu bestimmen. Beispielsweise kann der Zielvorgabebestimmer 203 ausgebildet sein, um für jeden der noch zu verstärkenden oder zu dämpfenden Abtastwerte des Audiosignals 205 dessen (spezifische) Lautheit(en) zu bestimmen und um basierend auf dieser (diesen spezifischen) Lautheit(en) die Zielvorgabe 207 zu bestimmen. Die Zielvorgabe 207 kann sich damit mit jedem neuen Abtastwert, den der Zielvorgabebestimmer 203 analysiert, verändern. Gemäß weiteren Ausführungsbeispielen kann der Zielvorgabestimmer 203 ausgebildet sein, um die Zielvorgabe 207 im Allgemeinen basierend auf einem geschätzten Pegel zu bestimmen. So kann der Zielvorgabestimmer 203 beispielsweise ausgebildet sein, um die Zielvorgabe 207 basierend auf von Amplituden der Abtastwerte abgeleiteten Werten (wie beispielsweise den Amplituden selber oder quadrierten Amplituden) zu bestimmen.
  • Gemäß weiteren Ausführungsbeispielen der vorliegenden Erfindung kann der Zielvorgabebestimmer 203 auch für jeden der noch zu dämpfenden oder zu verstärkenden Abtastwerte die spezifische Lautheit für eine Mehrzahl von kritischen Bändern bestimmen und die Zielvorgabe 207 basierend auf den spezifischen Lautheiten für unterschiedliche Bänder unterschiedlich bereitstellen.
  • Damit kann der Tatsache Rechnung getragen werden, dass ein Gehör unterschiedlich auf verschiedene Frequenzen reagiert und damit eine spezifische Lautheit in einem ersten Band eines ersten Abtastwertes verschieden zu einer spezifischen Lautheit in einem zweiten Band des ersten Abtastwertes ist, obwohl die Amplituden in diesen beiden Bändern identisch sind. Ferner wird so natürlich auch ermöglicht, dass den unterschiedlichen Amplituden unterschiedlicher Frequenzbänder in dem Audiosignal 205 Rechnung getragen wird. So kann beispielsweise bei einem lauten tiefen Ton ein hohes Frequenzband trotzdem leise sein, so dass es Sinn macht, die tiefen Frequenzbänder zu dämpfen, während die hohen Frequenzbänder gleichzeitig verstärkt werden sollten.
  • Dies wird durch eben dieses frequenzselektive Bestimmen der Zielvorgabe 207 durch den Zielvorgabebestimmer 203 ermöglicht.
  • Mit anderen Worten kann der Zielvorgabebestimmer 203 gemäß einigen Ausführungsbeispielen der vorliegenden Erfindung ausgebildet sein, um die Zielvorgabe 207 für eine Mehrzahl von Frequenzbändern des Audiosignals 205 getrennt voneinander bereitzustellen.
  • Dementsprechend kann auch der Verstärker 201 ausgebildet sein, um die Verstärkung oder Dämpfung des Audiosignals 205 für unterschiedliche Frequenzbänder des Audiosignals 205 basierend auf der Zielvorgabe 207 getrennt voneinander zu variieren.
  • Wie bereits beschrieben, bestimmt der Zielvorgabebestimmer 203 die Zielvorgabe 207 basierend auf zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten und nicht auf den aktuell zu verstärkenden oder zu dämpfenden Abtastwerten, so dass beispielsweise eine Detektion von Vorverdeckung bzw. von vorverdeckten Abtastwerten ermöglicht wird.
  • Es ist eine Erkenntnis der vorliegenden Erfindung, dass sich eine Aussage darüber, ob ein Abtastwert vorverdeckt ist oder nicht nur treffen lässt, wenn zeitlich nach dem Abtastwert folgende weitere Abtastwerte des Audiosignals 205 ausgewertet werden. Genau dies wird von dem Zielvorgabebestimmer 203 durchgeführt, wodurch eben die Detektion von vorverdeckten Abtastwerten erst ermöglicht wird.
  • Mit anderen Worten kann der Zielvorgabebestimmer 203 ausgebildet sein, um eine Vorverdeckung in den zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten zu detektieren und um bei der Bestimmung der Zielvorgabe die detektierte Vorverdeckung zu berücksichtigen, so dass bei Vorliegen von Vorverdeckung der Verstärker 201 die Verstärkung oder Dämpfung zumindest teilweise während der Vorverdeckung bzw. während vorverdeckten Abtastwerten variiert. Mit anderen Worten kann der Zielvorgabebestimmer 203 die Zielvorgabe 207 so bereitstellen, dass (beispielsweise bei einem sogenannten Onset (Einsatz)) eine Reduktion der Verstärkung oder Erhöhung der Dämpfung nicht erst erfolgt, wenn der Onset in dem Audiosignal 205 an dem Verstärker 201 anliegt, sondern bereits während der vorhergehenden (aufgrund des Onsets) vorverdeckten Abtastwerte. Die Verstärkung bzw. die Dämpfung wird damit in einem für einen Hörer nicht hörbaren Bereich variiert.
  • Zusammenfassend können bei Ausführungsbeispielen der vorliegenden Erfindung psychoakustische Zusatzinformationen zur zeitlichen Steuerung der Verstärkung oder Dämpfung verwendet werden, um die Verstärkung oder Dämpfung während möglichst unhörbaren Zeitpunkten durchzuführen.
  • Im Folgenden soll das Konzept der vorliegenden Erfindung anhand eines detaillierten Ausführungsbeispiels beschrieben werden.
  • Obwohl im Folgenden das Konzept der vorliegenden Erfindung bei einem Audiokompressor angewandt wird, ist es gemäß weiteren Ausführungsbeispielen natürlich auch möglich, dieses auf andere Arten der dynamischen Audioverarbeitung anzuwenden, wie beispielsweise auf Expander, Gates, Limiter, Enhancer, De-Esser.
  • Insbesondere können weitere Ausführungsbeispiele der vorliegenden Erfindung alle oder auch nur einen Teil der im Folgenden vorgestellten und beschriebenen Merkmale des Audioprozessors aufweisen.
  • 3a zeigt eine mögliche Implementierung des Audioprozessor 200 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. In anderen Worten zeigt 3a eine Gesamtübersicht über eine Dynamikbearbeitungsumgebung 200 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • Der Audioprozessor 200 weist den Verstärker 201 und den Zielvorgabebestimmer 203 auf.
  • Hierbei sind in 3a mögliche Implementierungen für den Zielvorgabebestimmer 203 und den Verstärker 201 gezeigt.
  • Die einzelnen Elemente des Verstärkers 201 und des Zielvorgabebestimmers 203 sollen im Folgenden detailliert beschrieben werden.
  • Der Verstärker 201 weist ein FIR-Filter (FIR – finite impulse response, endliche Impulsantwort) 301 auf. Ferner weist der Verstärker 201 einen Filterkoeffizientenbestimmer 303 auf. Der Filterkoeffizientenbestimmer 303 ist ausgebildet, um basierend auf der Zielvorgabe 207 Filterkoeffizienten 305 (H ^(n)) für das FIR-Filter 301 zu bestimmen.
  • Der Verstärker 201 weist ferner ein Verzögerungsglied 307 auf, welches ausgebildet ist, um das Audiosignal 205 zu verzögern, um eine verzögerte Version 205' des Audiosignals 205 zu erhalten und diese dem FIR-Filter 301 bereitzustellen.
  • Das FIR-Filter 301 ist ausgebildet, um basierend auf den Filterkoeffizienten 305 und der verzögerten Version 205' des Audiosignals 205 eine verstärkte und/oder gedämpfte Version 205'' (y(n)) des Audiosignals 205 zu erhalten.
  • Die gedämpfte und/oder verstärkte Version 205'' des Audiosignals 205 ist gleichzeitig auch ein Ausgangssignal des Audioprozessors 200.
  • Der Zielvorgabebestimmer 203 weist ein (psychoakustisches) Gehörmodell 309 auf.
  • Ferner weist der Zielvorgabebestimmer 203 einen Bandverstärkungsbestimmer 311, einen Summenbilder 313, ein System einer statischen Kompressorkennlinie 315 und eine Einsatz-/Freilauf-Steuerung 317 (auch bezeichnet als Attack/Release-Steuerung 317) auf.
  • Das Gehörmodell 309 ist ausgebildet, um für jeden der Abtastwerte des Audiosignals 205 spezifische Lautheiten 319 (A1:M(n)) zu bestimmen. Das Gehörmodell 309 kann dabei für jedes definierte Frequenzband m jedes Abtastwerts x(n) eine eigene spezifische Lautheit Am(n) bestimmen, wie eingangs bereits beschrieben.
  • Ferner kann das Gehörmodell 309 ausgebildet sein, um für jeden Abtastwert x(n) des Audiosignals 205 für jedes der kritischen Frequenzbänder eine Klassifizierungsinformation 321 (Em(n) für ein vorgegebenes Frequenzband, E1 : M(n) für alle Frequenzbänder) zu bestimmen, welche angibt, ob der zugehörige Abtastwert x(n) in diesem Frequenzband vorverdeckt ist und Bestandteil eines Onsets oder Bestandteil eines Offsets ist.
  • Der Summenbilder 313 ist ausgebildet, um aus den spezifischen Lautheiten 319 eine (Gesamt-)Lautheit 323 (Ages(n)) über alle Frequenzbänder eines Abtastwerts x(n) zu ermitteln.
  • Das System der statischen Kompressorkennlinie 315 ist ausgebildet, um aus der Lautheit 323 eine Lautheitsabweichung 325 (ΔGges(n)) von der gegenwärtigen Lautheit zu einem vorgegebenen Ziel zu bestimmen.
  • Der Bandverstärkungsbestimmer 311 ist ausgebildet, um aus dieser Lautheitsabweichung 325 und den spezifischen Lautheiten 319 die zum jeweiligen Zeitpunkt nötige Steuer- und Korrekturverstärkung 327 (ΔG1:M(n)) für die einzelnen Frequenzbänder eines Abtastwerts x(n) zu bestimmen.
  • Die Einsatz-/Freilauf-Steuerung 317 ist ausgebildet, um aus der Steuer- und Korrekturverstärkung 327 und der Klassifizierungsinformation 321 die Zielvorgabe 207 (ΔGfin,1:M(n)) für die einzelnen Frequenzbänder eines Abtastwerts x(n) zu bestimmen.
  • Dem hier vorgestellten Lösungsweg liegt eine Parallelstruktur zu Grunde. Die Analyse und das Erzeugen der Veränderungen laufen in einem getrennten Pfad. Das Ergebnis wird erst am Schluss mittels dem dynamischen Filter 301 auf das Signal 205' angewandt. Hierdurch werden mögliche Signaldegradierungen, zum Beispiel durch das Hin- und Zurückwandeln des Signals in den Zeit-Frequenzbereich mittels einer „Kurzzeit-Fouriertransformation” (STFT) wie etwa beim Denoising vermieden. Außerdem ermöglicht dies das Heruntersetzen der Abtastfrequenz einzelner Analyseteile und spart so Rechenzeit. Gemäß weiterer Ausführungsbeispiele lässt sich die Filterung aber auch durch andere gängige Methoden, wie beispielsweise eine STFT oder anderer beliebiger Filterbänke (zum Beispiel QMF) durchführen.
  • Der erste Schritt im Parallelpfad ist die Ermittlung der spezifischen Lautheit Am(n) (wobei m das Frequenzband, n die Zeit in Abtastwerten bezeichnen) der einzelnen Frequenzgruppen nach der Barkskala in Sone. In diesem Ausführungsbeispiel werden aus später erläuterten Gründen 31 statt der üblichen 25 Bänder verwendet, die Auflösung ist also etwas größer. Werden diese addiert, so ergibt sich die kurzfristige Gesamtlautheit Ages(n) (ebenfalls in Sone) zum jeweiligen Zeitpunkt.
  • Mit Hilfe dem System der statischen Kompressorkennlinie 315 wird nun ermittelt, um welchen linearen Faktor die gegenwärtige Lautheit 323 vom vorgegebenen Ziel abweicht (ΔGGes(n)). Aus diesem Faktor bzw. der Lautheitsabweichung 325 und der spezifischen Lautheit 319 der einzelnen Bänder wird die zum jeweiligen Zeitpunkt nötige Steuer- und Korrekturverstärkung 327 (ΔG1:M(n))für die einzelnen Bänder in dB errechnet. Die Attack/Release-Steuerung 317 geht deutlich weiter als Standardkompressoren. Sie passt ihr Regelverhalten mit Hilfe der Klassifizierungsinformationen 321 (Em(n)) an die jeweilige Situation an.
  • Das Ergebnis (die Zielvorgabe 207) ΔGfin ,1:M(n) ist nun ein sich jedes Sample oder jeden Abtastwert aktualisierender Vektor mit den Verstärkungswerten in dB. Aus diesem Vektor 207 werden nun FIR-Filterkoeffizienten 305 generiert. Das zeitverzögerte Signal 205' wird mit diesen gefiltert und ergibt die Ausgabewerte 205'' (y(n)). Zwei alternative Filtervarianten sind bei Ausführungsbeispielen ausgeführt: ein Linear-Phase-Filter sowie ein sehr effizienter minimalphasiger Warped-Filter. Die Zeitverzögerung 307 ist vorhanden, um die teils großen Latenzen aus der Warped-FFT, der Glättung sowie der Attack/Release-Steuerung 317 zu kompensieren.
  • Anmerkung: In den weiteren Erläuterungen der einzelnen Komponenten wird auf eine detaillierte Beschreibung der Zeitkorrektur durch Verzögerung verzichtet. Stattdessen werden zum besseren Verständnis einzelne Elemente akausal eingeführt. Dies ist problemlos kausal implementierbar, da immer eine fixe maximale Voraussicht etwa durch einen FIR-Filter vorliegt.
  • Generell ist zu erwähnen, dass jedes zu bearbeitende Audiosignal auf eine Abspiellautheit normiert ist, da die Bearbeitung anhand dezidierter, absoluter Lautheitswerte stattfindet. Bei der Implementierung wird in Anlehnung an SMTPE-Richtlinien angenommen, dass 0 dBFS einem Spitzenwert von 105 dB entsprechen. Dies entspricht einer maximalen Lautheit von 85 dBSPL(C) mit 20 dB Headroom (Freiheit).
  • Alternativ zur Multiband-Analyse und -Bearbeitung kann auch noch ein einkanaliger („Single-Band”) Ansatz implementiert werden. Dieser benötigt natürlich keine Analyse-FFT und auch keinen Filter am Ende, da das gesamte Frequenzspektrum mit einem Verstärkungskoeffizienten geregelt wird. Die Einhüllende wird am Eingang durch die Amplitudenbestimmung des „Analytischen Signals” gewonnen. Dieses entsteht durch Hinzufügen eines durch eine Hilberttransformation gewonnenen komplexen Teils. Anschließend wird genau wie beim Multibandansatz mit dem von-Hann-Fenster geglättet. Ansonsten ist das System identisch, es handelt sich lediglich immer um M = 1 Frequenzband.
  • Gemäß weiteren Ausführungsbeispielen ist auch eine Multiband-Analyse und eine Singleband-Bearbeitung möglich. Ferner ist es aber auch möglich, dass die Analyse für eine Anzahl N von Frequenzbändern durchgerührt wird, während die Regelung für eine Anzahl von M Frequenzbändern durchgeführt wird. Dabei kann N < M sein, beispielsweise wenn eine bereits bekannte und vorhandene Filterbank mit der Anzahl von M Frequenzbändern verwendet wird. Ferner ist es auch möglich dass N > M, so dass multiple psychoakustische Zusatzinformationen pro Regelband vorliegen.
  • 3b zeigt eine weitere Darstellung des Audioprozessors 200, wobei die Attack/Release-Steuerung 317 detaillierter dargestellt ist und der FIR-Filter 301 und der Filterkoeffizientenbestimmer 303 zu einer gemeinsamen Filterbank 304 zusammen gefasst wurden.
  • Die Attack/Release-Steuerung 317 weist einen Steigungsbestimmer 329 und ein Glättungsfilter 331 auf. Der Steigungsbestimmer 329 ist ausgebildet, um basierend auf den Klassifizierungsinformationen 321 und der Steuer- und Korrekturverstärkung 327 eine Änderung der Verstärkung 333 dem Glättungsfilter 331 bereitzustellen. Das Glättungsfilter 331 filtert diese Änderung 333 basierend auf einer Zeitkonstante 335, die von dem Steigungsbestimmer 329 bereitgestellt wird. Das Glättungsfilter 331 kann damit seine Zeitkonstante 335 ständig (beispielsweise für jeden neuen Abtastwert x(n) des Audiosignals 205) ändern.
  • 3c zeigt eine vereinfachte Darstellung der in den 3a und 3b gezeigten Implementierungen des Audioprozessor 200, wobei wie in 3b die Konstruktion des FIR-Filters und das FIR-Filter zu einer Filterbank 304 zusammengezogen wurden und ferner das System der statischen Kennlinie, der Frequenzgewichter und der Addierer zu einem Gesamtmodul der statischen Kennlinie 316 vereint wurden. Wie aus 3c ersichtlich, lässt sich das Gehörmodell 309 vereinfacht als psychoakustisches Modell 309 bezeichnen und die Einsatz-/Freilaufsteuerung 317 lässt sich vereinfacht als zeitliche Steuerung 317 bezeichnen.
  • Am Beginn des Parallelpfades des in 3c gezeigten Audioprozessors 200 befindet sich das psychoakustische Modell 309. Dieses ermittelt die zusätzlichen psychoakustischen Informationen 321, die von der zeitlichen Steuerung 317 (es ist nun definitiv kein einfacher Glättungsfilter mehr) zur elaborierten zeitlichen Regelung benutzt werden können. Dadurch wird ermöglicht, dass das zeitliche Regelverhalten besser von der Zielvorgabe 327 aus der statischen Kennlinie 316 entkoppelt wird und dieses nun getrennt davon optimiert werden kann. Dies führt in der Praxis zu deutlichen Verbesserungen.
  • Wie in 3c angedeutet, kann wie bereits anfänglich beschrieben, es sich im besten Fall um ein im Frequenzbereich mehrkanaliges Modell handeln. Dies kann durch beliebige Filterbankansätze oder Frequenz-/Zeitbereichsumgebungen (z. B. eine STFT – short time Fourier transformation, Kurzzeit-Fourier-Transformation) implementiert sein. Für einfache, ressourcensparende Modelle kann auch eine Singleband-Version (Einzelbandversion) genügend sein. In diesem Fall wird in dem psychoakustischen Gehörmodell 309 ein Band analysiert und in der zeitlichen Steuerung nur ein Verstärkungsfaktor (ähnlich wie bei einem spannungsgesteuerten Verstärker) geregelt. Es sollen aber ausdrücklich auch beliebige Kombinationen, wie beispielsweise von Singleband und Multiband, sogar verschiedene Bänderanzahlen in Modell und Steuerung etc. möglich sein.
  • Gemäß weiteren Ausführungsbeispielen ist es nur eine (effiziente) Möglichkeit, den Ausgang des psychoakustischen Modells 309 zur Ermittlung der statischen Referenz (für die statische Kennlinie 316) einzusetzen.
  • Gemäß weiteren Ausführungsbeispielen kann dies auch durch ein oder mehrere autarke Pegelermittlungen geschehen.
  • Mit anderen Worten kann gemäß weiteren Ausführungsbeispielen als Eingangssignal für das System der statischen Kennlinie 316 auch eine andere Größe statt der spezifischen Lautheit 319 genutzt werden. So kann beispielsweise die nötige Steuer- und Korrekturverstärkung 327 für die einzelnen Bänder auch mittels der statischen Kennlinie 316 basierend auf autarken Pegelermittlungen (wie beispielsweise eine Amplitudenmessung, Hüllkurvendetektion, RMS-Mittelung oder ähnlichem) für Abtastwerte x(n) des Audiosignals 205 basieren.
  • Auch die in 3c gezeigte optimierte zeitliche Steuerung ist nicht nur für Audiokompressoren, sondern für sämtliche Arten der dynamischen Audiobearbeitung, wie z. B. Kompressor, Expander, Gate, Limiter, Enhancer, DE-Esser anwendbar.
  • Zusammenfassend verwenden Ausführungsbeispiele der vorliegenden Erfindung dynamische psychoakustische Informationen 321 zur Optimierung der zeitlichen Steuerung/Glättung 317, wodurch der Steuerprozess variiert wird.
  • Im Folgenden werden die einzelnen Bestandteile des Audioprozessors 200 detailliert beschrieben.
  • 4 zeigt in einem Blockschaltbild eine Übersicht über das (psychoakustische) Gehörmodell 309.
  • Das Gehörmodell 309 weist eine sogenannte Warped-FFT 401, ein Glättungsfilter 403, ein neuronales Rückkopplungsmodell 405, einen Klassifizierungsinformationsbestimmer 407 und einen Lautheitsbestimmer 409 auf.
  • Die Warped-FFT 401 ist ausgebildet, um das Audiosignal 205 in die einzelnen Frequenzgruppen oder Frequenzbänder aufzuteilen. Ein Ergebnis der Warped-FFT 401 sind damit Amplituden 411 der einzelnen Frequenzbänder jedes Abtastwerts x(n).
  • Diese Amplituden 411 werden von dem Glättungsfilter 403 geglättet um geglättete Amplituden 413 zu erhalten, die als Basis für das neuronale Rückkopplungsmodell 405 dienen, welches ausgebildet ist, um basierend auf den geglätteten Amplituden 413 für die einzelnen Frequenzbänder eine Grundklassifizierungsinformation 415 zu bestimmen. Die Grundklassifizierungsinformation 415 beschreibt für jedes Frequenzband für jeden Abtastwert x(n), ob für diesen Abtastwert x(n) in diesem Frequenzband ein Onset oder Offset vorliegt.
  • Ferner ist das neuronale Rückkopplungsmodell 405 ausgebildet, um eine Neuronenfeuerdichte 417 (FAST1 : M(n)) für jeden Abtastwert x(n) und jedes Frequenzband zu bestimmen.
  • Ferner ist das neuronale Rückkopplungsmodell 405 ausgebildet, um ein Integral 419 (SLOW1:M(n)) der Neuronenfeuerdichte für jeden Abtastwert x(n) für jedes Frequenzband zu bestimmen.
  • Der Lautheitsbestimmer 409 ist ausgebildet, um aus dem Integral 419 eine spezifische Lautheit 319 (A1:M(n)) für jeden Abtastwert x(n) in jedem Frequenzband zu bestimmen.
  • Der Klassifizierungsinformationsbestimmer 407 ist ausgebildet, um basierend auf der Grundklassifizierungsinformation 415, der Neuronenfeuerdichte 417 und dem Integral 419 die Klassifizierungsinformation 321 (E1:M(n)) zu bestimmen, welche für jeden Abtastwert x(n) in jedem Frequenzband beschreibt, ob dieser Abtastwert x(n) in diesem Frequenzband Bestandteil eines Onset, eines Offset ist und/oder vorverdeckt ist.
  • Die Klassifizierungsinformation 321 lässt sich daher auch als psychoakustische Zusatzinformation bezeichnen, welche bei der Attack/Release-Steuerung 317 zur Bestimmung der Zielvorgabe 207 verwendet wird.
  • Gemäß der weiteren Ausführungsbeispiele kann ein anderes Gehörmodell verwendet werden, das die spezifische Lautheit jedes Bandes als Ausgabe hat (entspricht SLOW) aus der sich FAST durch differenzieren erhalten lässt. Die Klassifizierungsinformation 321 kann dann wieder basierend auf FAST erhalten werden.
  • Das Gehörmodell 309 ist zentraler Bestandteil der Dynamikbearbeitung, da sowohl die zeitliche Klassifizierung und Steuerung 317, wie auch die Ermittlung 315 der statischen Zielvorgaben ihm nachgereiht sind.
  • Der erste Schritt ist die Aufteilung in Frequenzgruppen. Eine weit verbreitete Methode ist das Verwenden von Gammatonfiltern. Hier wird statt diesem Filterbandansatz die sogenannte „Warped FFT” 401 (warped – gekrümmt) verwendet. Der Grund ist folgender: Die direkte Analyse und Synthese durch Gammatonfilter bietet sich nicht an, da die hier vorkommenden Amplituden- und Phasenverzerrungen die Forderung nach einer fehlerfreien Rekonstruktion nicht erfüllen. Eine Parallelstruktur mit einer separaten Filterbank oder einem langem, zeitvarianten FIR-Filter zur Audiobearbeitung wäre somit nötig. Eine Polyphasen-Filterbank ist fürs Erste hier zu empfindlich für Aliasing. Die auftretenden Modulationen durch das Steuersignal können sehr hohe Frequenzen beinhalten und somit die Signale in den Bändern spektral deutlich über deren Grenzen verbreitern. In Kombination mit einem Warped-FIR Filter ist eine Warped-FFT deutlich effizienter, weil eine Zwischenstufe (der Inhalt der Warped-Delay-Line) sowohl in der Analyse wie auch im Filter verwendet werden können. Durch das Warping kann der Filter von 512 auf 64 Koeffizienten verkürzt werden.
  • Nach der Warped-FFT 401 und einer Glättung 403 werden die Frequenzbänder 413 zum Simulieren des zeitlichen Lautheitsverlauf durch das Modell der neuronalen Rückkopplung 405 geschickt. Dieses wurde in Karjalainen, M.: A binaural auditory model for sound quality measurements and spatial hearing studies. In: Proc. IEEE International Conference an Acoustics, Speech, and Signal Processing ICASSP-96 Bd. 2, 1996, S. 985–988 Bd. 2 erstmals vorgestellt und bildet die aktiven Prozesse der Cochlea nach. Als Ausgabegröße steht in jedem Band die spezifische Lautheit 319 in Sone zur Verfügung. Das transiente Verhalten (Verdeckung, Lautheitsverlauf) lasst sich nun sehr gut dem aus Hörtests bekannten angleichen. Die für die transiente Steuerung wichtige Onset/Offset-Klassifizierung (die Grundklassifizierung 415) wird zuletzt noch um die Information, ob Vorverdeckung vorliegt, ergänzt, um die Klassifizierungsinformation 321 zu erhalten.
  • Die Warped-FFT 401 weist statt der gleichmäßigen Frequenzbreite der Bänder eine unregelmäßige Bandbreite auf. Hier nimmt sie entsprechend dem menschlichen Gehör von hohen zu tiefen Frequenzen hin ab. Erreicht wird dies durch das Ersetzen der normalen Verzögerungsglieder in der Speicherkette vor der Fensterung („Hann”) und der FFT durch Allpassglieder. Diese haben zwar einen linearen Amplitudengang, aber dafür eine nichtlineare Phase und Gruppenlaufzeit – tiefe Frequenzen werden mehr verzögert als hohe. Da dieser Effekt zwischen jeder Speicherstelle auftritt, werden die Signalkomponenten mit niedriger Frequenz in größeren Zeitabständen als hohe abgetastet und erscheinen dadurch im anschließenden FFT-Spektrum bei höheren Bins.
  • 5a zeigt dazu eine konventionelle „Warped”-Verzögerungslinie vor einer FFT mit einer Mehrzahl von Verzögerungsgliedern D(z). Bei Ausführungsbeispielen der vorliegenden Erfindung werden, wie beschrieben, statt diesen Verzögerungsgliedern in der Speicherkette vor der Fensterung und der FFT Allpassglieder verwendet.
  • Mit anderen Worten weist die Warped-FFT eine Mehrzahl von Allpassgliedern auf.
  • Als Ergebnis der FFT wird ein sogenanntes „frequency warped spectrum” oder in Deutsch frequenzgekrümmtes Spektrum erhalten.
  • Wie aus 5b erkennbar, lässt sich die Frequenzaufteilung mit Allpässen erster Ordnung sehr nah an die von Zwicker empfohlenen Barkbänder annähern. Die etwas höhere Auflösung von 31 (entspricht einer 64-Punkte FFT) statt 25 Bändern sorgt entsprechend den Erkenntnissen von Moore (ERB-Bänder) für eine etwas höhere Auflösung im Bassbereich. Die nicht mehr lineare Gruppenlaufzeit bei der Analyse entspricht ebenfalls relativ gut den Gruppenlaufzeiten in der Cochlea. Diese bandabhängige Verzögerung wird gleich im Anschluss an die FFT mit einer jeweils bandspezifischen Verzögerung kompensiert.
  • 6a zeigt ein Blockschaltbild des neuronalen Rückkopplungsmodells 405 für ein vorbestimmtes Frequenzband m. Wie bereits erwähnt, wird dieses neuronale Rückkopplungsmodell 405 auf jedes Frequenzband für jeden Abtastwert x(n) des Audiosignals 205 angewandt.
  • Das neuronale Rückkopplungsmodell 405 erhält als Eingangssignal die geglätteten Amplitudenwerte 413 der Abtastwerte x(n) des Audiosignals 205.
  • Das neuronale Rückkopplungsmodell 405 weist einen ersten Multiplizierer 601, ein erstes Tiefpassfilter 603, einen Summierer 605, ein zweites Tiefpassfilter 607, einen zweiten Multiplizierer 609, ein erstes Verzögerungsglied 611, ein zweites Verzögerungsglied 613, einen dritten Multiplizierer 615, einen Potenzierer 617, einen vierten Multiplizierer 619 und einen Onset-Detektierer 621 auf.
  • Wie aus 6a ersichtlich, kann das neuronale Rückkopplungsmodell 405 ausgebildet sein, um einen Einsatz und ein Ausklingen (Onset und Offset) in dem empfangenen Audiosignal 205 zu bestimmen (mittels des Onset-Detektierers 621).
  • Mit anderen Worten kann der Zielvorgabebestimmer 203 (welcher das neuronale Rückkopplungsmodell 405 aufweist) ausgebildet sein, um für jeden Abtastwert (und damit auch für die zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte) zu bestimmen, ob dieser Abtastwert Bestandteil eines Onset oder eines Offset ist und um diese Information als Bestandteil der Klassifizierungsinformation 415 auszugeben. Ferner kann der Zielvorgabebestimmer 203 nicht nur ausgebildet sein, um diese Klassifizierungsinformation 415 für jeden Abtastwert x(n), sondern getrennt für jedes Frequenzband jedes Abtastwerts bereitzustellen, so dass beispielsweise ein Abtastwert x(n) in einem Frequenzband m1 Bestandteil eines Onsets ist, während dieser Abtastwert in einem anderen Frequenzband m2 Bestandteil eines Offsets ist. Mit anderen Worten kann der Zielvorgabebestimmer 203 ausgebildet sein, um Klassifizierungsinformationen für einen Abtastwert x(n) für verschiedene Frequenzbänder des Abtastwerts x(n) getrennt bzw. unabhängig voneinander bereitzustellen.
  • Ferner wird aus 6a ersichtlich, dass das neuronale Rückkopplungsmodell 405 ausgebildet sein kann, um eine erste Ausgabegröße 417 (die Neuronenfeuerdichte 417, FASTm(n)) und eine zweite Ausgabegröße 419 (das Integral 419 über die Neuronenfeuerdichte 417, SLOWm(n)) jeweils in einer sogenannten Anregungsdomäne bereitzustellen. Diese beiden Ausgabegrößen 417, 419 werden von dem neuronalen Rückkopplungsmodell 405 für jeden Abtastwert x(n) für jedes Frequenzband getrennt bereitgestellt.
  • Das neuronale Rückkopplungsmodell 405 ist daher ausgebildet, um basierend auf einer Amplitude Ampm(n) der zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte x(n) (beispielsweise in Form der geglätteten Amplitude 413), die erste Ausgabegröße 417 zu bestimmen, die eine Anzahl von generierten Neuronenimpulsen in Reaktion auf einen zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte beschreibt und um die zweite Ausgabegröße 419 basierend auf einem Integral der ersten Ausgabegröße 417 zu bestimmen.
  • Der Onset-Detektor 621 ist dabei ausgebildet, um basierend auf einem Vergleich der ersten Ausgabegröße 417 mit der zweiten Ausgabegröße 419 zu entscheiden, ob ein Abtastwert x(n) Bestandteil eines Einsatzes oder eines Ausklingens (eines Onsets oder eines Offsets) in dem empfangenen Audiosignal 205 ist. Wie bereits beschrieben, kann das neuronale Rückkopplungsmodell 405 für jeden Abtastwert bestimmen, in welchen Frequenzbändern der Abtastwert Bestandteil eines Onets ist und in welchen Frequenzbändern der Abtastwert Bestandteil eines Offsets.
  • Wie aus 6a ersichtlich, kann das neuronale Rückkopplungsmodell 405 ausgebildet sein, um die zweite Ausgabegröße 419 (das Integral 419) basierend auf einer Tiefpassfilterung der Neuronenfeuerdichte 417 (mit den beiden Tiefpässen 603, 607) zu bestimmen. Filterkoeffizienten bei der Tiefpassfilterung bzw. der Tiefpässe 603, 607 kann das neuronale Rückkopplungsmodell 405 dabei in Abhängigkeit davon wählen, ob der jeweilige Abtastwert Bestandteil eines Onsets oder eines Offsets (in dem jeweiligen Frequenzband) in dem empfangenen Audiosignal 205 ist. Mit anderen Worten können für einen Onset und einen Offset in dem empfangenen Audiosignal 205 verschiedene Filterkoeffizienten in den Tiefpassfiltern 603, 607 angewandt werden.
  • Ferner ist das neuronale Rückkopplungsmodell 405 ausgebildet, um die zweite Ausgabegröße 419 so zu bestimmen, dass diese eine (spezifische) Lautheit der Abtastwerte x(n) beschreibt. Wie bereits beschrieben, kann die spezifische Lautheit für einen Abtastwert x(n) für unterschiedliche Frequenzbänder unterschiedlich sein (insbesondere in Abhängigkeit von der Amplitude Ampm(n) des Abtastwerts x(n) in dem jeweiligen Frequenzband).
  • Der in 4 gezeigte Lautheitsbestimmer 409 kann dann basierend auf dieser zweiten Ausgabegröße 419 die spezifische Lautheit 319 jedes Abtastwerts x(n) für jedes Frequenzband ermitteln.
  • Im Folgenden soll das neuronale Rückkopplungsmodell 405 noch detaillierter beschrieben werden.
  • Das „neuronale Rückkopplungsmodell” von Karjalainen modelliert, wie bereits erwähnt, die aktiven Prozesse in der Cochlea. Es handelt sich im Wesentlichen um eine automatische Verstärkungsregelung („Automatic Gain Control”, „AGC”), die das sehr dynamische Eingangssignal 413 in dem deutlich kleineren Dynamikbereich der Neuronen festhält. Die erste Ausgabegröße 417 (FAST) entspricht dabei der Überlagerung aller Neuronenimpulse in einem kritischen Filterband m und wird deshalb auch Neuronenfeuerdichte 417 genannt. Das Synchronisieren der Neuronenfeuerrate auf die Signalfrequenz wird nicht berücksichtigt, da der Akzent der Umgebung auf transienten Vorgängen liegt. Die zweite Ausgabegröße 419 (SLOW) wird durch die beiden Tiefpassfilter 603, 607 aus FAST integriert. Sie ist eine Zwischengröße auf dem Weg zur empfundenen spezifischen Lautheit 319. Beide Größen 417, 419 werden zusammen zur „Onset/Offset”-Detektion 621 (Einsatz/Ausklingen) verwendet. Ist FAST(n) größer als SLOW(n – 1), so steigt SLOW(n), ein Onset liegt an. Im umgekehrten Fall wird der Zustand als Offset klassifiziert. Um die Detektion robuster gegen kleine Schwankungen zu machen, ist beim Umschalten eine Hysterese eingebaut. Für einen Wechsel der Zustände muss FAST(n) das Integral SLOW(n – 1) deutlicher über- oder unterschreiten. Diese Information wird auch benutzt, um in den beiden Tiefpassen 603, 607 zwischen den zwei verschiedenen Koeffizientensätzen für Onset oder Offset umzuschalten. Damit kann das Aufschwingen und Abschwingen durch die unterschiedlichen Zeitkonstantenpaare beschleunigt (Onset) oder verlangsamt (Offset) werden.
  • Der zeitliche Verlauf ähnelt stark den Nachverdeckungskurven: zuerst ein deutlicher exponentieller Abfall zum Nullpunkt, anschließend ein bemerkbares Abflauen des Gefälles zur statischen Ziellautheit.
  • Wie beschrieben und wie auch aus 6a ersichtlich ist die zweite Ausgabegröße 419 mittels des ersten Verzögerungsglieds 611 um einen Abtastwert verzögert bevor es dem Onset-Detektor 621 zugeführt wird. Mit anderen Worten wird die Neuronenfeuerdichte 417 für einen aktuellen Abtastwert x(n) mit einem Integral 419 über die Neuronenfeuerdichte 417 einer Mehrzahl einer vorbestimmten Anzahl von vorhergehenden Abtastwerten verglichen und falls die aktuelle Neuronenfeuerdichte 417 größer ist als das Integral 419 über die Neuronenfeuerdichte der vorbestimmten Anzahl von vorhergehenden Abtastwerten, so ist der aktuelle Abtastwert x(n) (zumindest in diesem Frequenzband) Bestandteil eines Onsets in dem Audiosignal 205.
  • Sehr vorteilhaft ist, dass sich das System statisch unabhängig von den dynamischen Eigenschaften optimieren lässt. Das Ziel ist es, die beiden Verstärkungskoeffizienten F1 und F2 so zu bestimmen, dass das Verhältnis von Eingang Ampm(n) zur ausgegebenen SLOW-Größe 419 dem Ergebnis von Zwickers Formel für die spezifische Lautheit entspricht. Hierfür wird zuerst eine Beziehung zwischen der konstanten linearen Eingangsamplitude 413 (Ampm(n)) und dem Ausgang 419 (SLOWm(n)) berechnet. Diese Möglichkeit ist in der ursprünglichen Formulierung und der daran anknüpfenden Implementierung von Härmä in der HUT-Ear-Toolbox nicht ausgeführt. Dies wird hier nachgeholt:
    Figure DE102012204193B4_0003
  • Aus den obigen Formeln sowie aus 6a geht hervor, dass das erste Ausgabesignal 417, also die Neuronenfeuerdichte 417, für einen aktuellen Abtastwert x(n) sowohl auf der aktuellen (geglätteten) Amplitude 413 für den Abtastwert x(n) in dem aktuellen Frequenzband m als auch auf einer rückgekoppelten Version des Integrals 419 über die Neuronenfeuerdichte 417 basiert. So ist das zweite Verzögerungsglied 613 ausgebildet, um das Integral 419 um einen Abtastwert zu verzögern, um als Ergebnis dieser Verzögerung eine verzögerte Version 623 des Integrals 419 zu erhalten. Der dritte Multiplizierer 615 ist ausgebildet, um die verzögerte Version 623 des Integrals 419 mit einem ersten Verstärkungsfaktor F1 zu multiplizieren und um ein Ergebnis 625 dieser ersten Multiplikation 615 dem Potenzierer 617 bereitzustellen. Der Potenzierer 617 ist ausgebildet, um das Ergebnis 625 dieser dritten Multiplikation 615 als eine negative Potenz einer E-Funktion zu setzen und um ein Ergebnis 627 dieser E-Funktion 617 dem vierten Multiplizierer 619 bereitzustellen. Der vierte Multiplizierer 619 ist ausgebildet, um das Ergebnis 627 der E-Funktion 617 mit einem zweiten Verstärkungsfaktor F2 zu multiplizieren und um ein Ergebnis 629 dieser vierten Multiplikation 619 dem ersten Multiplizierer 601 bereitzustellen. Der erste Multiplizierer 601 ist ausgebildet, um die (geglättete) Amplitude 413 mit dem Ergebnis 629 der vierten Multiplikation 619 zu multiplizieren, um als Ergebnis dieser ersten Multiplikation 601 die Neuronenfeuerdichte 417 zu erhalten.
  • Die beiden Tiefpassfilter 603, 607 sind jeweils ausgebildet, um die Neuronenfeuerdichte 417 Tiefpass zu filtern, wobei Filterkoeffizienten dieser beiden Tiefpassfilter 603, 607 von dem Onset-Detektor 621 in Abhängigkeit davon gewählt werden, ob für den aktuellen Abtastwert x(n) ein Onset vorliegt oder nicht, bzw. ob der aktuelle Abtastwert Bestandteil eines Onsets oder Offsets in dem Audiosignal 205 ist. Der Summierer 605 ist ausgebildet, um Ergebnisse der beiden Tiefpassfilterungen 603, 607 zu addieren und um diese dem zweiten Multiplizierer 609 bereitzustellen. Der zweite Multiplizierer 609 ist ausgebildet, um ein Ergebnis 631 der von dem Summierer 605 durchgeführten Addition mit 0,5 zu multiplizieren, um als Ergebnis das Integral 419 über die Neuronenfeuerdichte 417 zu erhalten.
  • Mit anderen Worten ist das neuronale Rückkopplungsmodell 405 ausgebildet, um basierend auf einer Amplitude 413 (Ampm(n)) eines ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerts x(n) die erste Ausgabegröße 417 (FASTm(n)) zu bestimmen, welche eine Anzahl von generierten Neuronenimpulsen in Reaktion auf den ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert x(n) beschreibt.
  • Ferner ist das neuronale Rückkopplungsmodell 405 ausgebildet ist, um für den ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert x(n) die zweite Ausgabegröße 419 (SLOWm(n) basierend auf dem Integral (durch die beiden Tiefpassfilterungen 603, 607) über die erste Ausgabegröße 417 (FASTm(n)) zu bestimmen.
  • Ferner ist das neuronale Rückkopplungsmodell 405 ausgebildet ist, um basierend auf einem Vergleich der ersten Ausgabegröße 417 (FASTm(n)) mit einer weiteren zweiten Ausgabegröße 624 (SLOWm(n – 1)) für einen, dem ersten noch zu verstärkenden oder zu dämpfenden Abtastwert x(n) vorhergehenden Abtastwert x(n – 1) zu bestimmen, ob der erste noch zu verstärkende oder zu dämpfende Abtastwert x(n) Bestandteil eines Einsatzes oder eines Ausklingens in dem empfangenen Audiosignal 205 ist.
  • Ferner ist das neuronale Rückkopplungsmodell 405 ausgebildet ist, um die zweite Ausgabegröße 419 (SLOWm(n)) für den ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert x(n) basierend auf den Tiefpassfilterungen 603, 607 der ersten Ausgabegröße 417 (FASTm(n)) zu erhalten und um die Filterkoeffizienten αm,up, αm,down bei diesen Tiefpassfilterungen 603, 607 in Abhängigkeit davon zu wählen, ob der erste zukünftig noch zu verstärkende oder zu dämpfende Abtastwert x(n) Bestandteil eines Einsatzes oder eines Ausklingens in dem Audiosignal 205 ist.
  • Wie aus Formel 6 ersichtlich, tauchen die beiden Verstärkungsfaktoren F1, F2 getrennt voneinander in einzelnen Summanden auf. F1 und F2 lassen sich nun mit der Methode der kleinsten Fehlerquadrate so bestimmen, dass der Verlauf von Amp zu SLOW (also von der geglätteten Amplitude 413 zu dem Integral 419 über die Neuronenfeuerdichte 417) – mit einer kleinen Nachbearbeitung – dem Verlauf von A zur spezifischen Lautheit nach Formel 1 gleicht.
  • Eine numerisch sehr stabile Umrechnung (wie sie von dem Lautheitsbestimmer 409) durchgeführt werden kann, bei der sich entsprechend Karjalainens Entwurf die Rückkopplungsverstärkung F2 in etwa im Bereich von 1 befindet, ist folgende:
    Figure DE102012204193B4_0004
  • ETQ:
    Wahrnehmungsschwelle
    E0:
    Referenzintensität 0 dB@1 kHz
  • 6b zeigt das Zeitverhalten des neuronalen Rückkopplungsmodells 405 für einen Sinus von 4 kHz und einer Reaktion auf einen Sprung von 35 dB auf 56 dB und zurück.
  • Ferner zeigt 6c den Vergleich der Lautheit nach dem neuronalen Rückkopplungsmodell 405 und gemäß Zwicker-Formel. Es wird deutlich, dass insbesondere für höhere Pegel die Lautheit nach dem neuronalen Rückkopplungsmodell 405 sich stark an das Ergebnis nach Zwickers Formel annähert.
  • Das dynamische Verhalten oder auch die Trägheit des Systems wird von den beiden integrierenden Tiefpassfiltern (1. Ordnung) 603, 607 bestimmt. Für das Aus- und Einschwingen stehen jeweils 2 eigene Zeitkonstanten (αm,up für Onset, αm,down für Offset) zur Verfügung, die benutzt werden, um das Ein- und Ausschwingverhalten an die in Fast1, Hugo: Temporal Masking Effects: II. Critical Band Noise Masker. In: ACUSTICA 36 (1977), Nr. 5, S. 317–331 ermittelten Nachverdeckungskurven anzugleichen.
  • Ferner zeigt 6d ein Diagramm zur Darstellung des Offsets bzw. des Ausschwingens des neuronalen Rückkopplungsmodells 405 im Vergleich zu den psychoakustischen Messdaten aus Fast1, Hugo: Temporal Masking Effects: II. Critical Band Noise Masker. In: ACUSTICA 36 (1977), Nr. 5, S. 317–331.
  • Es wird deutlich, dass das Verhalten des neuronalen Rückkopplungsmodells 405 den psychoakustischen Messdaten sehr nahekommt.
  • Nachdem im Vorherigen das neuronale Rückkopplungsmodell 405 sowie der Lautheitsbestimmer 409 beschrieben wurden, soll im Folgenden die Funktion des Vorverdeckungsbestimmers 407 beschrieben werden.
  • Um die exakte Erklärung der Vorverdeckung werden durchaus noch einige Kontroversen geführt. In der hier benutzten konservativen Abschätzung berechnet sich die Vorverdeckung V(n) aus der Differenz des aktuellen Zustandes der Neuronenfeuerdichte FAST(n) und eines gewichteten Mittels Vfut(n) über die kommende Neuronenaktivität. Gewissermaßen also eine Beurteilung der Bedeutung eines einzelnen Samples im Vergleich zu den zukünftigen. Überschreitet das Ergebnis nun das Integral SLOW, so ist dieser Bereich vorverdeckt. Zur Feineinstellung ist noch ein Gewichtungsfaktor α beigefügt, um die Detektionshäufigkeit zu erhöhen oder abzusenken. Standard ist α = 1.
    Figure DE102012204193B4_0005
    V(n) = Vfut(n) – FAST(n) (9) V(n) > α·SLOW(n) ⇒ Sample verdeckt (10)
  • V(n):
    Vorverdeckung [Anregungsdomäne]
    Vfut(n):
    Neuronenfeuerdichte Zukunft [Anregungsdomäne]
    NV:
    Länge Vorverdeckung in Samples
    α:
    Gewichtungsfaktor für Verdeckungshäufigkeit
  • Mit anderen Worten ist der Zielvorgabebestimmer 203 ausgebildet, um eine Vorverdeckung in den zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten x(n) zu detektieren und um bei der Bestimmung der Zielvorgabe 207 die detektierte Vorverdeckung zu berücksichtigen. So wird ermöglicht, dass der Verstärker 201 bei Vorliegen von Vorverstärkung die Verstärkung oder Dämpfung zumindest teilweise während der Vorverdeckung variiert. Mit anderen Worten ist der Vorverdeckungsbestimmer 407 ausgebildet, um zu bestimmen, ob ein zukünftig noch zu verstärkender oder zu dämpfender Abtastwert x(n) vorverdeckt ist, und falls dies der Fall ist, dies in der Klassifizierungsinformation 321 für diesen Abtastwert (und dieses Frequenzband) zu vermerken.
  • Die Attack/Release-Steuerung 317 kann dann die Zielvorgabe 207 so bereitstellen, dass der Verstärker 201 die Verstärkung oder Dämpfung während dieser vorverdeckten Abtastwerte x(n) variiert.
  • Ferner wird aus den Formel 8 bis 10 ersichtlich, dass der Vorverdeckungsbestimmer 407 und damit der Zielvorgabebestimmer 203 ausgebildet ist, um für jeden Abtastwert der zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte (und für jedes Frequenzband dieses Abtastwertes) zu bestimmen, ob dieser Abtastwert durch einen oder mehrere nachfolgende Abtastwerte in dem Audiosignal 205 verdeckt ist.
  • Ferner kann der Vorverdeckungsbestimmer 407 ausgebildet sein, um die Entscheidung, ob ein erster Abtastwert vorverdeckt ist, basierend auf einer Neuronenaktivitätsdifferenz zwischen einem gewichteten Mittel (Vfut(n)) über eine kommende Neuronenaktivität in Reaktion auf eine vorbestimmte Anzahl (Nv) von dem ersten Abtastwert folgende noch zu verstärkende oder zu dämpfende Abtastwerte und einer Neuronenaktivität FAST(n) in Reaktion auf den ersten Abtastwert, zu treffen. Mit anderen Worten ist der Vorverdeckungsbestimmer 407 ausgebildet, um diese Neuronenaktivitätsdifferenz Vfut(n) für jeden Abtastwert x(n) und für jedes Frequenzband dieses Abtastwerts getrennt voneinander zu bestimmen, um in jedem Frequenzband zu bestimmen, ob der jeweilige Abtastwert x(n) in diesem jeweiligen Frequenzband vorverdeckt ist oder nicht.
  • Ferner wird aus Formel 10 ersichtlich, dass der Vorverdeckungsbestimmer 407 ausgebildet ist, um zu entscheiden, dass der erste Abtastwert vorverdeckt ist, wenn seine Neuronenaktivitätsdifferenz V(n) größer ist als ein gewichtetes Integral (α·SLOW(n)) über Neuronenaktivitäten in Reaktion auf den ersten Abtastwert vorhergehende Abtastwerte.
  • Mit anderen Worten ist der Vorverdeckungsbestimmer 407 ausgebildet, um die zweite Ausgabegröße 419 (das Integral 419) über die Neuronenfeuerdichte 417 mit dem Gewichtungsfaktor α zu gewichten und um dieses gewichtete Integral mit der Neuronenaktivitätsdifferenz V(n) zu vergleichen, um eine Aussage treffen zu können, ob der aktuelle Abtastwert x(n) in dem aktuellen Frequenzband vorverdeckt ist oder nicht.
  • 6e zeigt in zwei Diagrammen die Funktion des Vorverdeckungsfilters. In dem oberen Diagramm von 6e ist ein Bespiel für Vorverdeckung gezeigt. Eine Kurve 652 zeigt dazu den Verlauf der Neuronenfeuerdichte 417 (FAST), eine Kurve 654 zeigt den Verlauf des Integrals 419 (SLOW) über die Neuronenfeuerdichte 417 (FAST) und eine Kurve 650 zeigt die Vorverdeckung.
  • Deutlich zu sehen ist, wie zwischen 0,44 und 0,45 Sekunden die Neuronenfeuerdichte FAST deutlich über dem Integral SLOW liegt, so dass Abtastwerte, welche in einem Zeitfenster zeitlich vor dem Abtastwert liegen, der den in 6e gezeigten Transienten in der Neuronenfeuerdichte 417 erzeugt, vorverdeckt sind, wie es in 6e anhand der Kurve 650 gezeigt ist.
  • In dem in 6e gezeigten unteren Diagramm ist bei t = 0 s ein Einsatz eines aktuellen Abtastwerts dargestellt (Kurve 656), welcher vorhergehende Abtastwerte vorverdeckt, was anhand einer Filterkurve 658 für die Vorverdeckung gezeigt ist.
  • Nachdem das verwendete Gehörmodell 309 oben detailliert beschrieben wurde, soll im Folgenden das (Gesamt-)System 315 der statischen Kompressorkennlinie detailliert beschrieben werden.
  • Dazu zeigt 7a in einem Blockschaltbild eine mögliche Implementierung des Gesamtsystems 315 der statischen Kompressorkennlinie.
  • Das Gesamtsystem 315 der statischen Kompressorkennlinie weist eine statische Kompressorkennlinie 701, einen Logarithmierer 703, ein Tiefpassfilter 705, einen Gewichter 707, einen Subtrahierer 709 und einen Potenzierer 711 auf.
  • Der Lograrithmierer 703 ist ausgebildet, um die von dem Summierer 313 (aus 3a) bestimmte (Gesamt-)Lautheit 323 über alle Frequenzbänder eines Abtastwerts x(n) in die logarithmische Domäne zu überführen, um als Ergebnis dieser Logarithmierung eine kurzfristige Lautheit 713 (Ages,st) in dB(Sone)) zu erhalten.
  • Das Tiefpassfilter 705 ist ausgebildet, um die kurzfristige Lautheit 713 Tiefpass zu filtern, um als Ergebnis dieser Tiefpassfilterung eine langfristige Lautheit 715 (Ages,lt(n)) in dB (Sone) zu erhalten.
  • Der Gewichter 707 ist ausgebildet, um die kurzfristige Lautheit 713 und die langfristige Lautheit 715 zu kombinieren, um als Ergebnis eine kombinierte Lautheit 717 (Ages,ov(n)) in dB (Sone) zu erhalten.
  • Die kombinierte Lautheit 717 dient als Eingangsgröße für die statische Kennlinie 701 basierend auf deren die statische Kennlinie 701 einen Sollwert 719 (Ages,ref(n)) für die kombinierte Lautheit 717 in dB (Sone) vorgibt.
  • Der Subtrahierer 709 ist ausgebildet, um die kombinierte Lautheit 717 von dem Sollwert 719 für die kombinierte Lautheit abzuziehen, um als Ergebnis einen zur Korrektur des Audiosignals verwendeten Verstärkungsfaktor 721 (ΔGges(n)) in dB (Sone) zu erhalten. Der Verstärkungsfaktor beschreibt damit eine Abweichung der kombinierten Lautheit 717 von dem Sollwert 719 für die kombinierte Lautheit 717.
  • Der Potenzierer 711 ist ausgebildet, um den Verstärkungsfaktor 721 von der logarithmischen Domäne zurück zu transformieren, um als Ergebnis dieser Transformation das vorgegebene Lautheitsziel bzw. die Lautheitsabweichung 325 (ΔGges(n)) in Sone zu erhalten.
  • Wie aus 7a ersichtlich wird bei dem Gesamtsystem 315 der statischen Kennlinie nicht die spezifische Lautheit verwendet, sondern die Gesamtlautheit 323 und damit wird auch die Lautheitsabweichung 325 nicht getrennt für die einzelnen Frequenzbänder, sondern immer gesamt über alle Frequenzbänder für einen einzelnen Abtastwert x(n) bestimmt.
  • Mit anderen Worten erfolgt die Bestimmung der Lautheitsabweichung 325 für alle Frequenzbänder eines Abtastwerts gemeinsam.
  • Das die statische Kompressorkennlinie enthaltene System 315 ist im Vergleich zu den bekannten Geräten noch etwas erweitert worden.
  • Wie üblich werden hier die internen Berechnungen in der logarithmischen Domäne ausgeführt. Da die Ausgangsgröße das zur Lautheitsempfindung lineare Sone-Maß ist, wird die Einheit fortan also dB(Sone) bezeichnet. 6 dB Erhöhung bedeuten nun eine Verdoppelung der Lautheit und nicht des Schalldrucks des physischen Signals. Da im Großteil des dynamischen Bereichs des Ohres bei einer Schalldrucksteigerung von 10 dB eine Lautheitsverdoppelung erfolgt, ist das Verhältnis der Ratio r des neuen Kompressors zu der Ratio klassischer Prozessoren in etwa 10:6. Die Steigung ist hier also geringer. Die statische Kennlinie 701 selbst ist prinzipiell in der vorliegenden Implementation durchaus konventionell. Sie kalkuliert aus den tatsächlichen Lautheitswerten („In”/Ages,ov) die gewünschten Sollwerte („Out”/Ages,ref) in dB. Es existieren zwei Thresholds (Grenzwerte) ThresExp, ThresComp mit jeweils einer zugehörigen Ratio (rExp, rComp). Üblicherweise sollen die Ausgangswerte unterhalb des ThresExp im Vergleich zu den Eingangswerten kleiner sein, da es sich in diesem Bereich größtenteils um statisches Hintergrundrauschen handelt.
  • In der statischen Kompressorkurve äußert sich dies mit einer mit der Steigung rExp stärker abfallenden Kurve. Je leiser ein Eingangswert, desto weiter entfernt ist er von ThresEXP, desto kleiner wird auch sein Ausgabewert. Bei Eingangswerten, die größer sind als der obere Threshold ThresComp verhält es sich ähnlich. Auch hier sollen die Ausgabewerte kleiner werden als die Eingabewerte, der Anstieg der Lautheit in der Ausgabe kleiner sein als in der Eingabe. Der Abstand zwischen beiden Werten wird umso größer, je weiter der Eingabewert von ThresComp entfernt ist, desto größer er also im Vergleich zu diesem ist. Durch das Subtrahieren der ursprünglichen Lautheitswerte 717 (Ages,ov) von den Sollwerten 719 (Ages,ref) ergibt sich der zur Korrektur des Audiosignals verwendete Verstärkungsfaktor 721 (ΔGGes). falls AGes,ov > ThresComp AGes,ref = ThresComp(1 – rComp) + rCompAGes,ov + GainMakeUp (11) falls ThresComp > AGes,ov > ThresExp AGes,ref = AGes,ov + GainMakeUp (12) falls AGes,st < ThresExp AGes,ref = ThresExp(1 – rExp) + rExpAGes,ov + GainMakeup (13) ΔGGes = AGes,ref – AGes,ov (14)
  • Die obigen Formeln 11–13 basieren auf der in 7b gezeigten statischen Kompressorlinie 701.
  • Die Berechnung in der Formel 14 wird von dem Subtrahierer 709 durchgeführt.
  • Wie aus 7a ersichtlich, wird vor der eigentlichen Zielfindung in der statischen Kennlinie 701 noch eine Ermittlung der langfristigen Lautheit 715 aus der kurzfristigen Lautheit 713 (mittels des Tiefpassfilters 705) sowie eine Gewichtung (mittels des Gewichters 707) der beiden eingefügt.
  • Damit ist es möglich, den Akzent von einer Regelung (und damit auch Lautheitsangleichung) einzelner Ereignisse – etwa isolierter Buchstaben – auf größere Gruppen wie etwa Wörter oder Sätze zu lenken. Die langfristige Lautheit 715 wird durch den Tiefpass bzw. Tiefpassintegrator 705 mit umschaltbarer Zeitkonstante aus der kurzfristigen Lautheit 713 berechnet. Die Zeitkonstante im Falle einer Steigung (Onset) beträgt hierbei jedoch 0, die langfristige Lautheit entspricht also in diesem Fall exakt der eingehenden kurzfristigen Lautheit. Im Falle eines Abfalls (Offset) beträgt die Zeitkonstante sinnvollerweise 0.4 bis 5 Sekunden, die Lautheit bleibt länger in Erinnerung und klingt deutlich langsamer ab.
  • Mit anderen Worten ist der Tiefpassfilter 705 ausgebildet, um eine Zeitkonstante bei der Tiefpassfilterung der kurzfristigen Lautheit 713 in Abhängigkeit davon, ob eine Steigung (Onset) oder ein Abfall (Offset) in der Gesamtlautheit 323 vorliegt, zu variieren. Insbesondere ist der Tiefpassfilter 705 ausgebildet, um in dem Fall, in dem eine Steigung in der Gesamtlautheit 323 vorliegt, diese Zeitkonstante auf 0 zu setzen, so dass in dem Fall, in dem diese Steigung in der Gesamtlautheit 323 vorliegt, die langfristige Lautheit 715 gleich der kurzfristigen Lautheit 713 ist. Hier ist zu betonen, dass in diesem Gesamtsystem 315 der statischen Kennlinie nicht ein Onset oder Offset in der spezifischen Lautheit beachtet wird, sondern ein Onset oder Offset in der Gesamtlautheit 323 eines Abtastwerts x(n).
  • Bei manchen Systemen wird, um aus diesen beiden Größen (kurzfristige Lautheit 713 und langfristige Lautheit 715) wieder eine Referenz zu bilden, ein Min-Max-Vergleich oder eine RMS-Addition mit einem einstellbaren Bias auf einer Größe, um die Betonungen zu ändern, durchgeführt.
  • Die hier verwendete Lösung funktioniert etwas anders: Die langsam abklingende Erinnerung rückt um so mehr in den Vordergrund, je weniger prominent, also leiser alle nachfolgenden Ereignisse im Verhältnis zu diesem sind. Für die Implementation bedeutet dies: Die langfristige Lautheit ist der relative Nullpunkt, die Bewegungen der kurzfristigen Lautheit werden auf einer Geraden mit einer Steigung < 1 von dieser aus komprimiert. Je weiter die kurzfristige Lautheit von der langfristigen entfernt ist, desto weniger fallt deren Veränderung und Verlauf ins Gewicht.
  • 7c zeigt dazu in einem Diagramm die Gewichtung der kurz/langfristigen Lautheit, wobei eine dynamische Kompression der kurzfristigen Lautheit 713 mit der langfristigen Lautheit 715 als Referenz erfolgt.
  • Ferner zeigt 7d in einem Diagramm als Beispiel die Lautheitsverläufe eines männlichen Sprechers. Eine Kurve 731 zeigt dabei den Verlauf der kurzfristigen Lautheit 713 (AGes,st) für das gewählte Beispiel, eine Kurve 732 zeigt den Verlauf der langfristigen Lautheit 715 (AGes,lt) für das gewählte Beispiel, und eine Kurve 733 zeigt den Verlauf der kombinierten Lautheit 717 (AGes,ov) für das gewählte Beispiel, wie sie von dem Gewichter 707 basierend auf der kurzfristigen Lautheit 713 und der langfristigen Lautheit 715 anhand der in 7c gezeigten Kurve bestimmt wird.
  • Die Aufteilung in zwei verschiedene Steigungen r1 und r2 am ThresDyn1 dient zur Feinjustierung. Der ThresDyn2 wird auf den unteren Threshold ThresExp der statischen Kurve aufgeschlagen. Ab hier beginnt die Rückkehr zur kurzfristigen Lautheit um weiterhin eine effiziente und schnelle Unterdrückung des Rauschens ab dem ThresExp zu gewährleisten.
  • Der Gewichter 707 ist ausgebildet, um bei jedem eingehenden Abtastwert x(n) folgende Arbeitsschritte zu berechnen:
  • 1. Überprüfung
    • falls AGes,lt – (ThresExp – ThresDyn1) < 2·ThresDyn2: AGes,ov = AGes,st (15) sonst: Berechnung von 2. + 3.
  • 2. Berechnung der Kurveneckpunkte
    • Pin = AGes,lt (16) Pout = AGes,lt (17) Sin = ThresExp (18) Sout = ThresExp (19) Qin = AGes,lt + ThresDyn1 (20) Qout = AGes,lt + r1·ThresDyn1 (21) Rin = Qin + ThresDyn2 (22) Rout = (Rin – Qin)r2 + Qout (23)
  • 3. Berechnung der Ausgabewerte
    • falls Ages,st > Qin Ages,ov = Qin(1 – r1) + r1Ages,st (24) falls Qin > AGes,st > Rin AGes,ov = (AGes,st – Qin)r2 + Qout (25) falls Rin > AGes,st > Sin
      Figure DE102012204193B4_0006
      falls AGes,st < Sin AGes,ov = AGes,st (27)
  • Mit anderen Worten ist der Gewichter 707 ausgebildet, um die kombinierte Lautheit 717 basierend auf einer Gewichtung der kurzfristigen Lautheit 713 und der langfristigen Lautheit 715 zu bestimmen. Insbesondere ist der Gewichter 707 ausgebildet, um bei einem Unterschreiten der langfristigen Lautheit 715 unter einen vorgegebenen Grenzwert die kombinierte Lautheit 717 gleich der kurzfristigen Lautheit 713 (vergleiche Formel 15) zu setzen, um eine effiziente und schnelle Unterdrückung des Rauschens zu gewährleisten.
  • Nachdem das globale Regelziel bzw. die Lautheitsabweichung 325 (ΔGges(n)) in Sone bestimmt ist, fehlt noch die Übersetzung dieses globalen Regelziels bzw. der Lautheitsabweichung 325 auf die einzelnen globalen Bänder, um die Steuer- und Korrekturverstärkung 327 für die einzelnen Bänder (ΔG1:M(n)) zu erhalten. Dies wird von dem Bandverstärkungsbestimmer 311 bzw. dem Frequenzgewichter der Verstärkung 311 durchgeführt. 8 zeigt dazu in einem Blockdiagramm schematisch die Funktionsweise des Bandverstärkungsbestimmers 311.
  • Es wird deutlich, dass der Bandverstärkungsbestimmer 311 ausgebildet ist, um die spezifische Lautheit 319 von Sone in dB umzurechnen, um einen sogenannten Ist-Zustand 801 zu erhalten. Ferner ist der Bandverstärkungsbestimmer 311 ausgebildet, um das globale Regelziel 325 auf die spezifische Lautheit 319 zu geben und um ein Ergebnis davon von Sone in den Schalldruck in dB umzurechnen, um einen sogenannten Soll-Zustand 803 zu erhalten. Ferner ist der Bandverstärkungsbestimmer 311 ausgebildet, um den Ist-Zustand 801 von dem Soll-Zustand 803 abzuziehen, um als Ergebnis die Steuer- und Korrekturverstärkung 327 für die einzelnen lokalen Bänder zu erhalten. Wie bereits erläutert, kann diese Steuer- und Korrekturverstärkung 327 für verschiedene Frequenzbänder (1:M) ein und desselben Abtastwerts x(n) verschieden sein.
  • In dem Bandverstärkungsbestimmer 311 entsteht das gewünschte frequenzabhängige Regelverhalten.
  • Jedes Band besitzt wegen der Kurven gleicher Lautheit eine eigene Funktion zur Rücktransformation von Lautheit [Sone] in Schalldruck [dB] (vgl. 6c). Da diese Funktion auch in sich deutlich nichtlinear ist, ist das dB-Äquivalent einer Pegeländerung in Sone abhängig vom Ausgangspegel. Je lauter ein Signal, desto weniger dB entsprechen einer Lautheitsänderung um einen konstanten Faktor.
  • Auch hier wird ein Soll ermittelt, in diesem Fall durch die Multiplikation des globalen Regelzieles 325 mit der spezifischen Lautheit 319 des Bandes. Sowohl der Ist-Zustand (spezifische Lautheit 319) wie auch der eben kalkulierte Soll-Zustand (Produkt aus spezifischer Lautheit 319 und globalem Regelziel 325) werden in ihre entsprechenden Schalldruckpegel in dB transformiert. Durch die Subtraktion des Ist-Pegels 801 vom Soll-Pegel 803 wird die nötige Korrektur ΔGm(n) für ein Band bzw. die Steuer- und Korrekturverstärkung 327 für jedes einzelne Band ermittelt. Die Formel für die Umrechnung von Sone in dB für das jeweilige Band m ergibt sich aus der Optimierung des Hörmodells wie folgt:
    Figure DE102012204193B4_0007
  • ETQ:
    Wahrnehmungsschwelle
    E0:
    Referenzintensität 0 dB@1 kHz
    Sfm:
    Skalierungsfaktor
  • Nachdem im Obigen beschrieben wurde, wie die Klassifizierungsinformation 321 sowie die nötige Steuer- und Korrekturverstärkung 327 für die einzelnen Bänder bestimmt werden können, soll im Folgenden die Einsatz-/Freilaufsteuerung 317 (bzw. Attack/Release-Steuerung 317) detailliert beschrieben werden.
  • 9a zeigt dazu schematisch die Funktionsweise der Einsatz-/Freilaufsteuerung 317, die ausgebildet ist, um basierend auf der nötigen Steuer- und Korrekturverstärkung 327 für die einzelnen Bänder und der Klassifizierungsinformation 321 für die einzelnen Bänder die Zielvorgabe 207 zu bestimmen.
  • Es sei nochmals erwähnt, dass die nötige Steuer- und Korrekturverstärkung 327 für verschiedene Frequenzbänder eines einzelnen Abtastwerts x(n) verschieden sein kann, genauso wie die Klassifizierungsinformation 321.
  • Die Klassifizierungsinformation 321 enthält dabei Informationen, ob der aktuelle Abtastwert x(n) in dem jeweiligen Frequenzband m Bestandteil eines Onsets oder eines Offsets ist und/oder ob dieser Abtastwert x(n) in diesem Frequenzband m vorverdeckt ist oder nicht.
  • In Abhängigkeit davon, ob der Abtastwert x(n) in dem aktuellen Frequenzband m Bestandteil eines Onsets oder eines Offsets ist und ob dieser Abtastwert x(n) in diesem Frequenzband m vorverdeckt ist, bestimmt die Einsatz-/Freilaufsteuerung 317, die Zielvorgabe 207 für diesen Abtastwert x(n) in dem Frequenzband m.
  • 9b zeigt das konkrete Regelverhalten der Einsatz-/Freilaufsteuerung 317 oder mit anderen Worten des vorausschauenden adaptiven Attack-/Release-Mechanismus 317 anhand eines Sprachbeispiels für einen Single-Band-Kompressor bzw. am Beispiel eines einzelnen Bandes.
  • Die Einsatz-/Freilaufsteuerung 317 weist, wie in 9a gezeigt, einen Zielbestimmer 901, einen Vorverdeckungshinzufüger 903 und einen Glättungsfilter 905 auf. Der Zielbestimmer 901 ist ausgebildet, um innerhalb vorgegebener Regelzeiten vorausschauend den nächsten Wechsel zwischen Onset und Offset zu suchen und den Wert zu diesem Zeitpunkt als Zielbestimmungsausgangswert 907 (ΔGtarget1:M(n)) setzt. Die vorgegebenen Regelzeiten hängen davon ab, ob der aktuelle Abtastwert x(n) in dem jeweiligen Frequenzband Bestandteil eines Onsets oder Offsets ist und sind für Onset und Offset verschieden. Die nötige Information, ob der aktuelle Abtastwert x(n) in dem jeweiligen Band m Bestandteil eines Onsets oder Offsets ist, erhält der Zielbestimmer 901 aus der Klassifizierungsinformation 321. Die Regelzeit für einen Onset kann auch als Attack-Zeit und die Regelzeit für ein Offset kann auch als Release-Zeit bezeichnet werden. Der Zielbestimmer 901 ist ferner ausgebildet, um, falls sich innerhalb der Attack-/ oder Release-Zeit kein Wechsel findet, den Wert des sich um diese Zeitkonstante in der Zukunft befindlichen Abtastwerts (x(n + (Attack-/ oder Release-Zeit)/Abtastintervall)) als Zielbestimmungausgangswert 907 zu wählen. Auf diese Weise tastet sich die Vorschau abtastwertweise nach vorne und gibt Werte in der Zukunft als Zielbestimmungsausgangswert 907 an. Trifft der Zielbestimmer 901 auf einen Statusumschwung (beispielsweise von Offset zu Onset oder von Onset zu Offset), so bleibt die Zielsetzung ΔGtarget,m(n) (für ein jeweiliges Frequenzband m) bzw. der Zielbestimmungsausgangswert 907 auf dem Wert zu diesem Zeitpunkt stehen.
  • Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung kann die Attack-Zeit typischerweise in einem Bereich ≥ 1 ms und ≤ 200 ms liegen. Die Release-Zeit kann gemäß einem weiteren Ausführungsbeispiel in einem Bereich ≥ 5 ms und ≤ 5 s liegen. In einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung kann die Attack-Zeit 20 ms betragen und die Release-Zeit 130 ms betragen.
  • Mit anderen Worten ist der Zielbestimmmer 901 ausgebildet um, falls ein Wechsel von Offset zu Onset oder umgekehrt stattfindet, innerhalb der vorgegebenen Regelzeiten (welche abhängig davon sind, ob zu einem Offset oder einem Onset gewechselt wurde) vorausschauend den nächsten Wechsel zu suchen und den Wert zu diesem Zeitpunkt als Zielbestimmungsausgangswert 907 zu setzen. Ferner ist der Zielbestimmer 901 ausgebildet, um die Zeit Tm(n) einer Onsetphase oder Offsetphase also der Dauer eines Zustandes vor dem Kippen in einen Neuen Zustand festzuhalten. Diese Zeit Tm(n) wird später als Zeitkonstante Tm(n) (für ein vorgegebenes Frequenzband m) für den nachgeschalteten Glättungsfilter 905 verwendet.
  • Die Zeitkonstante dient in dieser Anwendung zur Berechnung des/der Filterkoeffizienten des Glättungsfilters 905. Legt man am Eingang des Glättungsfilters 905 nach einem definierten Ausgangszustand ΔGtarget,start sprunghaft die neue Zielverstärkung ΔGtarget,end an, so legt der Ausgangswert ΔGfin nach der Zeit Tm(n) einen fixen Prozentsatz (hier 90%) des Weges (der Differenz) von ΔGtarget,start nach ΔGtarget,end zurück. Die Zeitkonstante kann aber auch für andere (Interpolations-)Arten verwendet werden, diesen Weg in einer bestimmten Zeit zurückzulegen.
  • Der Zielbestimmer 901 stellt dem Glättungsfilter 905 oder allgemein der endgültigen Verstärkungswertsteuerung also zwei Dinge zur Verfügung: das Regelziel ΔGtarget,end, dass am Ende eines Ereignisses erreicht werden soll und der Zeitpunkt in der Zukunft, wann dieses Ziel erreicht werden soll. In diesem Fall ist dieser Zeitpunkt identisch mit dem Ende des Ereignisses. Zusätzlich kann der Zielbestimmer 901 dem Glättungsfilter 905 auch die Art vorgeben wie das Ziel erreicht werden soll (beispielsweise in Form eines Regelwegs, hier zum Beispiel linear oder logarithmisch).
  • Gemäß einiger Ausführungsbeispiele kann die Berechnung des Regelweges mit einem Glättungsfilter erster Ordnung erfolgen. Gemäß weiteren Ausführungsbeispielen kann der Verlauf aber auch auf eine andere Art und Weise berechnet werden und auch durch weitere zusätzliche psychoakustische Informationen optimaler (im Sinne von einer unauffälligen Regelung) gestaltet werden. Ein Beispiel für beides ist die hier mit hinein genommene Vorverdeckung. Aber auch viele andere Informationen wie Simultanverdeckung oder aus der spezifischen Lautheit abgeleiteten Größen (z. B. FAST) sind möglich.
  • Zusammenfassend ist der Zielbestimmer 901 ausgebildet, um Regelzeiten, die der Zielbestimmer 901 in „die Zukunft schaut” in Abhängigkeit davon zu wählen, ob der aktuell betrachtete Abtastwert x(n) in dem aktuellen Frequenzband m Bestandteil eines Onsets oder eines Offsets ist. Ferner ist zu beachten, dass die Länge der Regelzeiten direkt mit der Anzahl der in der Vorschau betrachteten Abtastwerte korreliert. Mit anderen Worten ist der Zielbestimmer 901 ausgebildet, um in dem Fall, in dem ein aktuell betrachteter Abtastwert x(n) in einem aktuell betrachteten Frequenzband m Bestandteil eines Onsets ist eine erste Anzahl NOnset von dem aktuell betrachteten Abtastwert x(n) folgenden Abtastwerten: x(n + 1)... x(n + NOnset) daraufhin zu prüfen, ob ein Wechsel von einem Onset zu einem Offset in dem jeweiligen Frequenzband m vorliegt. Ferner ist der Zielbestimmer 901 ausgebildet, um in dem Fall, in dem ein aktuell betrachteter Abtastwert x(n) in einem aktuell betrachteten Frequenzband m Bestandteil eines Offsets ist, eine zweite Anzahl NOffset von dem aktuell betrachteten Abtastwert x(n) folgenden Abtastwerten: x(n +1).... x(n + NOffset) daraufhin zu prüfen, ob ein Wechsel von einem Offset zu einem Onset in dem jeweiligen Frequenzband m vorliegt
  • Gemäß einigen Ausführungsbeispielen ist dabei die erste Anzahl NOnset der betrachteten Abtastwerte für den Fall, dass der aktuell betrachtete Abtastwert x(n) in dem aktuell betrachteten Frequenzband m Bestandteil eines Onsets ist, kleiner gewählt als die zweite Anzahl NOffset von betrachteten Abtastwerten für den Fall, dass der aktuell betrachtete Abtastwert x(n) in dem aktuell betrachteten Frequenzband m Bestandteil eines Offsets ist.
  • Wie bereits erwähnt, können bei Ausführungsbeispielen der vorliegenden Erfindung die akustischen Phänomene effizient genutzt werden, um Variierungen der Dämpfung bzw. der Verstärkung möglichst in einem unhörbaren Bereich bzw. auf eine unauffällige Art durchzuführen. Aus diesem Grund weist die Einsatz-/Freilaufsteuerung 317 den Vorverdeckungshinzufüger 903 auf. Der Vorverdeckungshinzufüger 903 ist ausgebildet um, falls in der Klassifizierungsinformation 321 für den aktuell betrachteten Abtastwert x(n) angegeben ist, dass dieser in dem aktuell betrachteten Frequenzband m vorverdeckt ist, die Vorverdeckung hinzuzufügen, d. h. die Regelung so anzupassen, dass die Verstärkung oder Dämpfung hauptsächlich während vorverdeckten Abtastwerten variiert wird.
  • Als Ergebnis stellt der Vorverdeckungshinzufüger 903 einen Vorverdeckungsausgabewert 909 (ΔGtargetMask,1:M(n)) dem Glättungsfilter 905 zur Glättung bereit. Die in 9a gezeigte Einsatz-/Freilaufsteuerung 317 ermöglicht damit einen exakten Beginn und ein vorausschauendes Regeln von Verstärkung und Dämpfung. Zusätzlich wird die Vorverdeckung, falls sie auftritt, zur Verstärkungsreduktion benutzt.
  • Wie in 9a gezeigt, ist hinter dem Vorverdeckungshinzufüger 903 das Glättungsfilter 905 geschaltet. Gemäß weiterer Ausführungsbeispiele sind auch andere Implementierungen denkbar.
  • Wie bereits erwähnt, wird die Zeitkonstante Tm(n) für diesen nachgeschalteten Glättungsfilter 905 verwendet.
  • Aus Tm(n) wird der Filterkoeffizient des Glättungsfilters 905 derart berechnet, dass bei einem Abschwingen das Filter nach Tm(n) Sekunden seinen Zielwert am Eingang zu 90% erreicht hat. Der vorgegebene Zielwert hier ist ΔGtarget,m, der so geglättete Ausgang die Zielvorgabe 207 (ΔGfin,m(n)). Falls kein neues Ereignis gefunden wurde, gleicht die Zeitkonstante Tm(n) der Vorschau (Attack-/Release-Zeit). Das ist gewünscht, in einem solchen Fall ohne neuen Onset/Offset ist das Signal statisch und der Filter unterdrückt störende Modulationen.
  • Zu erwähnen wäre noch die leichte Verspätung der Onsets und Offsets (zum Beispiel bei 2.4 Sekunden in 9b). Diese stammt von der in der Detektion inkludierten Hysterese. Diese Verzögerung ist aber unabhängig von den statischen Vorgaben, vergleichsweise gering und gleicht den Verschmierungseffekt des symmetrischen von-Hann-Fensters vor dem neuronalen Rückkopplungsmodell aus.
  • Bei dem deutlichen Einsatz bei 2.25 Sekunden (in 9b) lässt sich die Ausnutzung der Vorverdeckung begutachten. Statt wie übliche Kompressoren den sehr großen Regelweg von 8 dB hörbar nach dem Einsatz/Onset zurückzulegen („wegdrücken”), wird die Lautheitskorrektur hier vor den Einsatz gelegt. Der Weg selbst wird auf einer Geraden zurückgelegt, statt wie bei der sonstigen Regelung auf einer e-Funktion. Grund ist, dass bei letzterer der größte Teil des Regelweges in den ersten Momenten zurückgelegt wird, die Vorverdeckung dagegen anfangs flach verläuft und zum Onset hin immer steiler wird. Diese lineare Kurvenform wird erreicht, indem im Glättungsfilter 905 zusätzlich eine Beschränkung der Steigung von einem Abtastzeitpunkt zum nächsten eingebaut wird. Wird die Steigung auf einen konstanten Maximalwert beschränkt und die Zeitkonstante kurz gewählt, so verläuft die Kurve linear. Da der Start und Endzeitpunkt der Vorverdeckung ebenso bekannt ist wie der zurückzulegende Weg, lässt sich diese Steigung leicht bestimmen:
    Figure DE102012204193B4_0008
  • Mit anderen Worten ist der Zielvorgabebestimmer 203 (oder in dem gezeigten Ausführungsbeispiel genauer die Einsatz-/Freilaufsteuerung 317) ausgebildet, um die Zielvorgabe 207 dem Verstärker 201 so bereitzustellen, dass ein erster Regelweg zwischen einem ersten Verstärkungswert und einem zweiten Verstärkungswert in einem ersten Fall in dem Vorverdeckung vorliegt (wie beispielsweise in dem in 9b gezeigten Beispiel zwischen dem ersten Offset und dem ersten Onset) verschieden ist zu einem zweiten Regelweg zwischen dem ersten Verstärkungswert und dem zweiten Verstärkungswert in einem zweiten Fall, in dem keine Vorverdeckung vorliegt. Wie in 9b gezeigt, ist der Zielvorgabebestimmer 203 so ausgebildet, um in dem Fall bei dem Vorverdeckung vorliegt, die Verstärkung und/oder Dämpfung während der Vorverdeckung entlang einem linearen Regelweg (in der logarithmischen Domäne) zu variieren und in einem Fall, in dem keine Vorverdeckung vorliegt, die Verstärkung und/oder Dämpfung entlang einer e-Funktion (in der logarithmischen Domäne) zu variieren. Gemäß weiteren Ausführungsbeispielen sind auch andere Varianten der Regelung denkbar.
  • Mit anderen Worten kann der Zielvorgabebestimmer 203 ausgebildet sind, um die Zielvorgabe 207 so bereitzustellen, dass der erste Regelweg zumindest während vorverdeckten Abtastwerten linear verläuft und der zweite Regelweg auf einer e-Funktion basiert.
  • Eine Steigung des ersten Regelwegs während der Vorverdeckung kann dabei, wie oben beschrieben, beschränkt sein bzw. fest vorgegeben sein.
  • Der Glättungsfilter 1. Ordnung 905 ist nach dem üblichen Schema aufgebaut, besitzt jedoch mindestens einen zeitvariablen Koeffizienten αm(n). Abweichend von der Norm (63%) bezieht sich die Zeitkonstante auf die Zeit, nach der der Filter 90% des Endwertes erreicht (vergleiche Formel 33).
  • Das Glättungsfilter 905 bestimmt die Zielvorgabe 207 (ΔGfin,m(n)) für ein vorgegebenes Frequenzband m wie folgt: ΔGfin,m(n) = αm(n)ΔGfin,m(n – 1) + (1 – αm(n))ΔGtargetMask,m(n) (32)
    Figure DE102012204193B4_0009
  • Hinsichtlich der praktischen Implementierung lässt sich sagen, dass in diesem Modul die meiste Verzögerung anfällt. Die oben beschriebene Vorschau ist natürlich nichts anderes als eine Verzögerung des gerade zu bearbeitenden Abtastwerts. Die Vorschau für die kurze Attack-Zeit beträgt etwa 20 ms, für die längere Release-Zeit dagegen sinnvollerweise mindestens 20 ms bis zu etwa 200 ms. Die Vorverdeckungdetektion und Regelung schlägt noch einmal mit etwa 20 ms zusätzlich zu Buche. Die gesamte Verzögerungszeit des Systems beträgt also mindestens 40 ms bis 220 ms zuzüglich der durch die Implementierung bedingten Verzögerungen (Buffering).
  • Mit anderen Worten weist der Zielvorgabebestimmer 203 (oder genauer die Einsatz-/Freilaufsteuerung 317) das Glättungsfilter 905 auf, um die Zielvorgabe 207 vor Bereitstellung dieser an dem Verstärker 201 einer Glättung zu unterziehen. Das Glättungsfilter 905 weist dabei mindestens einen zeitlich variablen Filterkoeffizienten αm(n) auf. Wie aus Formel 33 ersichtlich, basiert dieser zeitlich variable Filterkoeffizient αm(n) auf der Zeitkonstante Tm(n) und ist damit abhängig von den psychoakustischen Zusatzinformationen bzw. der Klassifizierungsinformation 321 für den aktuellen Abtastwert x(n) in dem aktuell betrachteten Frequenzband m.
  • Mit anderen Worten ist der Zielvorgabebestimmer 203 ausgebildet, um die Zeitkonstante Tm(n) des Glättungsfilters 905 in Abhängigkeit von Onsets und Offsets oder Einsatz- und Ausklingphasen in dem empfangenen Audiosignal 205 zu wählen.
  • Ferner ist der Zielvorgabebestimmer 203 (oder genauer die Einsatz-/Freilaufsteuerung 317) ausgebildet, um, falls in einer vorbestimmten Anzahl von zukünftigen Abtastwerten kein neuer Onset oder Offset auftritt, die Zeitkonstante Tm(n) konstant zu halten und, um andernfalls die Zeit zwischen einem Statusumschwung als die Zeitkonstante Tm(n) für das Glättungsfilter 905 zu setzen.
  • Anschließend soll noch ein Beispiel zur unabhängigen zeitlichen Steuerung der einzelnen Frequenzbänder anhand der 10a10d gegeben werden.
  • 10a zeigt dazu in einem Diagramm eine Aufnahme eines Basssolo-Audiosignals in Zeitdarstellung.
  • Bei dem Beispiel handelt es sich um zwei gezupfte Bassnoten mit einem anschließenden Snareschlag.
  • In dem ausgewählten Beispiel wurden in den 10b10d drei Frequenzbänder exemplarisch herausgegriffen: ein erstes Band bei 388 Hz, ein zweites Band bei 1594 Hz und ein drittes Band bei 4541 Hz.
  • 10b zeigt den Verlauf der spezifische Lautheit 319 (Am), wobei m = 1 (für das erste Band bei 388 Hz), 2 (für das zweite Band bei 1594 Hz) und 3 (für das dritte Band bei 4541 Hz) über die Zeit dargestellt.
  • In 10b sind drei Kurven 319-1, 319-2, 319-3 gezeigt. Die erste Kurve 319-1 zeigt die spezifische Lautheit A1 des Audiosignals 205 in dem ersten Band bei 388 Hz, die zweite Kurve 319-2 zeigt die spezifische Lautheit A2 des Audiosignals 205 in dem zweiten Band bei 1594 Hz, und die dritte Kurve 319-3 zeigt die spezifische Lautheit A3 des Audiosignals 205 in dem dritten Band bei 4541 Hz. Aus 10b wird deutlich, dass die Verläufe der spezifischen Lautheiten (A1, A2, A3) für die unterschiedlichen Bänder deutlich voneinander variieren.
  • Die spezifischen Lautheiten A1, A2, A3 werden von dem Gehörmodell des Zielvorgabebestimmers 203 ermittelt.
  • Ferner zeigt 10c in drei Kurven 907-1, 907-2, 907-3 Zielbestimmungsausgabewerte ΔGtarget,m, wobei m = 1 (für das erste Band bei 388 Hz), 2 (für das zweite Band bei 1594 Hz) und 3 (für das dritte Band bei 4541 Hz). Diese Zielbestimmungsausgabewerte (oder Zielvorgaben) werden von dem Zielbestimmer 901 basierend auf den Steuer- und Korrekturverstärkungen 327 für die einzelnen Bänder sowie basierend auf den Klassifizierungsinformationen 321 für die einzelnen Bänder bestimmt.
  • 10c zeigt dazu in einer ersten Kurve 907-1 den Verlauf des Zielbestimmungsausgabewerts ΔGtarget,1 für das erste Band, in einer zweiten Kurve 907-2 den Zielbestimmungsausgabewert ΔGtarget,2 für das zweite Band, und in einer dritten Kurve 907-3 den Zielbestimmungsausgabewert ΔGtarge1,3 für das dritte Frequenzband.
  • Basierend auf den in den 10c gezeigten Zielbestimmungsausgabewerten ΔGtarget,1 ΔGtarget,2, ΔGtarget,3 wird dann in der Einsatz-/Freilaufsteuerung 317 mittels dem Vorverdeckungshinzufüger 903 und dem Glättungsfilter 905 die Zielvorgabe 207 (ΔGfin,m), wobei m = 1 (für das erste Band bei 388 Hz), 2 (für das zweite Band bei 1594 Hz) und 3 (für das dritte Band bei 4541 Hz) bestimmt.
  • 10d zeigt dazu in einer ersten Kurve 207-1 den Verlauf der Zielvorgabe ΔGfin,1 für das erste Band, in einer zweiten Kurve 207-2 den Verlauf der Zielvorgabe ΔGfin,2 für das zweite Band und in einer dritten Kurve 207-3 den Verlauf der Zielvorgabe ΔGfin,3 für das dritte Band.
  • Aus 10d wird deutlich, dass die Zielvorgaben ΔGfin,1, ΔGfin,2, ΔGfin,3 bei identischen Zeitpunkten (und damit bei identischen Abtastwerten) für die verschiedenen Filterbänder m = 1, 2, 3 teilweise deutlich voneinander abweichen können.
  • Nachdem im Obigen der Aufbau des Zielvorgabebestimmers 203 detailliert beschrieben wurde, soll im Folgenden die Implementation des Verstärkers 201 genauer beschrieben werden.
  • Wie aus 3a ersichtlich, kann der Verstärker 201 ausgebildet sein, um die verzögerte Version 205' des Audiosignals 205 mittels eines geeigneten dynamischen FIR-Filters 301 zu bearbeiten (also zu verstärken oder zu dämpfen). Das kontinuierliche Berechnen der FIR-Koeffizienten erfolgt dabei basierend auf der von dem Zielvorgabebestimmer 203 bereitgestellten dynamischen Zielvorgabe 207.
  • Die Bearbeitung (Verstärkung und/oder Dämpfung) des Audiosignals 205 erfolgt nun abschließend mit diesem noch zu konstruierenden FIR-Filter 301. Hier sind zwei Varianten möglich: eine linearphasige Variante mit 512 Koeffizienten bei 44,1 kHz Samplefrequenz sowie eine minimalphasige Variante mit lediglich 64 Koeffizienten. Dieser besitzt bei tiefen Frequenzen in etwa die gleiche Auflösung wie der bedeutend längere und damit rechenaufwändigere Linear-Phase-Filter.
  • Der Grund, wieso hier auf die Verwendung einer Polyphasen-Filterbank verzichtet wird, sind die unbedingt zu vermeidenden Aliasing-Artefakte. In dieser Implementierung soll erst einmal eine klanglich optimale Referenz aufgestellt werden, bevor weitere Effizienzbestrebungen vorgenommen werden können. Gängige Fullband-Kompressoren sind anfällig für Aliasing-Artefakte. In einer Polyphasen-Filterbank verschärft sich dies weiter: schon bei einer statischen Bearbeitung der Bandsignale zwischen Analyse und Synthese wird die Aliasing-Auslöschungsbedingung der Filterbank ungültig. Selbst bei einem großzügigen, nicht kritischen Downsampling der Filterbank besteht hier eine gewisse Gefahr, dass dies geschieht. Stattdessen wird der FIR-Filter am Ausgang hier noch für jedes Sample neu berechnet, man könnte diese Operation also als dynamischen Filter bezeichnen. Bei der Verwendung des Warped-Filters lässt sich außerdem der Inhalt der Warped-Delay-Line der Analyse-FFT im Gehörmodell benutzen, es fallen also keine weiteren Rechenzyklen für das Warping an.
  • Im Folgenden soll zunächst angenommen werden, dass für den FIR-Filter 301 ein minimalphasiger Warped-Filter genutzt wird.
  • Mit anderen Worten kann gemäß dem nachfolgenden Ausführungsbeispiel der FIR-Filter 301 als minimalphasiger Warped-Filter ausgebildet sein, wie im Folgenden beschrieben wird.
  • 11a zeigt dazu schematisch die Konstruktion des minimalphasigen Warped-Filter aus den Steuerfaktoren der Bänder (bzw. aus den Zielvorgaben 207 der Bänder).
  • 11c zeigt anhand verschiedener Diagramme ein Beispiel eines konstruierten Warped-Minimum-Phase-Filters für M = 15 Filterbänder, N = 32 Abtastwerte-Länge, wobei die in
  • 11c gezeigte Analyse durch Messens der Impulsantwort am Systemausgang entstanden ist.
  • Ferner zeigt 11b einen Vergleich der Amplitudenspektra einer generierten Impulsantwort ohne zusätzliche Interpolation (in einem linken Diagramm) und mit zusätzlicher Interpolation (in einem rechten Diagramm). Die Interpolation garantiert deutlich weniger „Welligkeit” im Spektrum. Zu Demonstationszwecken sind in der 11b die Amplitudenspektra jeweils mit der endgültigen Länge von 32 Abtastwerten nach der letzten Fensterung mit dem Hanning-Halbfenster (ωHalbHann) dargestellt.
  • Beim Warped FIR-Filter wird der Filter zuerst als ganz normaler Minimum-Phase-FIR-Filter mit einer Länge von 64 Abtastwerten erzeugt. Als Vorlage dienen hier die Steuerfaktoren der einzelnen Barkbänder in dB. Dieser kurze Filter kann nun nicht direkt mit den verzögerten Eingangsabtastwerten gefaltet werden, da ja in diesem Fall die Frequenzen im Gegensatz zur Analyse weiterhin gleichmäßig über π verteilt und nicht gewarpt (gekrümmt) wären. Er wird stattdessen mit dem ebenfalls verzögerten Inhalt der Warped-Delay-Line der FFT-Analyse gespeist. Diese wird jeden Abtastwert rekursiv neu berechnen, es werden also immer alle 64 Stellen des Inhalts gespeichert. Abgesehen von diesem Speicherbedarf benötigt diese Vorgehensweise aber deutlich weniger Rechenzyklen als ein ungewarpter Filter gleicher Auflösung im Bassbereich.
  • Um im Zustand eines spektral flachen Filters (alle Frequenzen sind auf 0 dB) keine Phasenverzerrungen beim Warped-FIR-Filter zu erhalten, ist der erste Koeffizient der einzige „gesetzte”. Alle anderen werden von mit Allpassfiltern verzögerten Werten gespeist, es entsteht gezwungenermaßen eine Dispersion sobald diese zum Ergebnis beitragen. Diese Bedingung erfüllt definitiv kein Linear-Phase-Filter mit Verzögerung, aber auf jeden Fall ein minimalphasiger Filter. Auch in Verbindung mit dem Warping bleibt der Filter minimalphasig (siehe 11c).
  • Um den Filter hierfür zu konstruieren, wird das in Pei, S. C.; Lin, H. S.: Minimum-Phase FIR Filter Design Using Real Cepstrum. In: IEEE Trans. Circuits Syst. II 53 (2006), Nr. 10, S. 1113–1117. http://dx.doi.org/10.1109/TCSII.2006.882193. – DOI 10.1109/TCSII.2006.882193. – ISSN 1549–7747 beschriebene Verfahren mit Hilfe des Cepstrums verwendet.
  • 11a skizziert die Schritte:
    Zuerst werden die M = 31 Filterbänder wieder zu den n = 64 FFT-Bändern ergänzt. Die Werte 0 und N/2 sind dabei 0 dB zu setzen, dazwischen stehen die Filterbänder. Die Werte von N/2 + 1 bis N – 1 werden mit den spiegelverkehrt angeordneten Filterbändern aufgefüllt. Der nun ideal vorgegebene Frequenzverlauf kann mit dem vorhandenen Fenster von 64 Bins aber nicht perfekt approximiert werden. Es tritt das Gibbssche Phänomen auf. Die Impulsantwort wird mit dem Rechteck-Fenster im Zeitbereich multipliziert. Im Frequenzbereich bedeutet dies eine Faltung des gewünschten Frequenzverlaufs dem des Rechteckfensters. Vor allem bei starken Änderungen (wie etwa einem perfekten Tiefpass- oder Notchfilter) von einem Bin zum nächsten ergibt sich eine deutliche Welligkeit im Spektrum. Dies ist hier sehr ungünstig, besser wäre ein glatterer Verlauf mit eventuell geringerer Trennschärfe. Das übliche Verfahren bei vorgegebener idealer Impulsantwort wäre eine Fensterung mit einem längeren und glatterem Fenster (z. B. von-Hann). Da der Frequenzverlauf direkt eingegeben wird, wird dieser Vorgang durch das Interpolieren zusätzlicher Stützpunkte simuliert. Hier genügte eine lineare Interpolation um den Faktor 2. Es wird also immer ein Zwischenwert zwischen den Bins errechnet werden. Anschließend folgt die Umrechnung von dB zum natürlichen Logarithmus gemäß:
    Figure DE102012204193B4_0010
  • Mit einer anschließenden iFFT erfolgt die Transformation in das reale Cepstrum. Das Cepstrum g ^ wird nun mit diesem Fenster multipliziert:
    Figure DE102012204193B4_0011
  • Die minimalphasige Impulsantwort kann anschließend direkt aus dem Cepstrum in den Zeitbereich rekursiv berechnet werden gemäß:
    Figure DE102012204193B4_0012
  • g ^:
    Cepstrum der Impulsantwort, Ausgangsgröße
    h:
    Impulsantwort, Zielgröße
  • Um Artefakte wegen des abrupten Endes zu vermeiden wird die Impulsantwort zuletzt noch mit einem halbierten (nur der rechte, fallende Teil) von-Hann-Fenster multipliziert. Andere Fenster, wie etwa das Tukey-Fenster wären auch möglich.
  • Gemäß weiteren Ausführungsbeispielen kann für den FIR-Filter auch ein linearphasiger Filter verwendet werden, oder mit anderen Worten, gemäß weiteren Ausführungsbeispielen kann der FIR-Filter 301 als linearphasiger Filter ausgebildet sein.
  • 11d zeigt dazu schematisch die Konstruktion des linearphasigen Filters aus den Steuerfaktoren der Bänder (bzw. aus den Zielvorgaben 207).
  • Der linearphasige Filter ist wegen der höheren Koeffizientenzahl rechenaufwendiger in der Erstellung und auch in der Anwendung. Als Vorteile schlagen bei ihm die bessere Impulstreue zu Buche.
  • Die Erstellung linearphasiger Filter im Frequenzbereich ist relativ trivial. Zuerst werden wie im minimalphasigen Fall die 31 Filterbänder in ein FFT-Amplitudenspektrum umgestellt und ergänzt. Anschließend werden die nichtlinear aufgeteilten Barkbänder mittels Interpolation in die gleichmäßig frequenzdiskretisierte „normale” Frequenzdomäane übertragen. Um die gleiche Auflösung im Tiefbassbereich zu erhalten, sind nun deutlich mehr Koeffizienten (512 statt 64) nötig. Die Amplitudenkurve wird anschließend potenziert ([dB] zu [linear]) und mit der richtigen Phase versehen:
    Figure DE102012204193B4_0013
  • Dann wird die iFFT ausgeführt und damit die Impulsantwort erzeugt. Eine abschließende Fensterung mit einem hier nun vollständigen von-Hann-Fenster verringert auch hier Welligkeit der Impulsantwort im Frequenzbereich in Folge des Gibbsschen Phänomens.
  • 12 zeigt ein Flussdiagramm eines Verfahrens 1200 zum Verstärken oder Dämpfen eines empfangenen Audiosignals gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung.
  • Das Verfahren 1200 umfasst einen Schritt 201 des Bestimmens einer Zielvorgabe basierend auf zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten des Audiosignals.
  • Ferner umfasst das Verfahren 1200 einen Schritt 1203 des Variierens der Verstärkung oder Dämpfung basierend auf der Zielvorgabe, noch bevor die zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte, basierend auf denen die Zielvorgabe bestimmt wurde, verstärkt oder variiert werden.
  • Das Verfahren 1200 kann beispielsweise von einem Audioprozessor gemäß einem Ausführungsbeispiel der vorliegenden Erfindung (wie beispielsweise von dem Audioprozessor 200) ausgeführt werden und kann gemäß weiteren Ausführungsbeispielen um einige oder sämtliche Merkmale eines solchen Audioprozessors erweitert werden.
  • Zusammenfassend können bei Ausführungsbeispielen der vorliegenden Erfindung pro kritischem Gehörband (dies ist die nichtlineare Unterteilung des Frequenzbands in einzelne Bänder, optimiert anhand der Auflösungsfähigkeit des Gehörs) die Information Onset/Offset sowie ob Vorverdeckung vorliegt in den psychoakustischen Zusatzinformationen 321 bzw. den Klassifizierungsinformationen 321 verwendet werden. Diese Klassifizierungsinformationen 321 ermöglichen der daraufhin optimierten Steuerung 317 (bzw. der Einsatz-/Freilaufsteuerung 317) eine gezielte Steuerung auf ein beliebig vorgegebenes Ziel hin. Gemäß weiteren Ausführungsbeispielen sind aber prinzipiell noch weitere lokale Zusatzinformationsgrößen (pro kritisches Frequenzband/Verarbeitungsband) oder globale Zusatzinformationsgrößen verwendbar.
  • Obwohl in den gezeigten Ausführungsbeispielen ein psychoakustisches Modell von Karjalainen verwendet wird, so kann gemäß weiteren Ausführungsbeispielen auch ein anderes psychoakustisches Modell verwendet werden.
  • Im Folgenden sollen noch einige Aspekte von Ausführungsbeispielen der vorliegenden Erfindung erläutert werden.
  • Bei Ausführungsbeispielen der vorliegenden Erfindung findet bei der zeitlichen Steuerung 317 bzw. bei der Einsatz-/Freilaufsteuerung 317 nicht nur die Steuer- und Korrekturverstärkung 327 Beachtung, sondern auch die zusätzlichen psychoakustischen Zusatzinformationen 321 bzw. die Klassifizierungsinformationen 321. Im Gegensatz dazu wird bei konventionellen Audiokompressoren, wie beispielsweise in 13b gezeigt, bei der zeitlichen Glättung 1314 nur das Korrekturdifferenzsignal verwendet, anhand dessen die zeitliche Glättung 1314 dann arbeitet. Generelle Eigenschaften des Signals, die z. B. in der Pegelmessung oder dem psychoakustischen Modell (wie beispielsweise dem psychoakustischen Modell 309) ermittelt werden könnten, werden nicht verwendet. Das macht die Glättung bei den bereits bekannten Kompressoren einerseits stark abhängig von der Mittlung der Zieldifferenz (die statische Vorgabe ändert damit das zeitlich/dynamische Verhalten), andererseits können Aussagen zur absoluten Lautheit und damit auch zur Wahrnehmbarkeit aufgrund von Verdeckungseffekten nicht getroffen werden. Ausführungsbeispiele der vorliegenden Erfindung korrigieren dies.
  • Gemäß weiteren Ausführungsbeispielen können auch die Zeitpunkte, wann ein Regelziel erreicht werden soll variabel sein. Diese zeitliche Steuerung kann bestimmt werden durch die gewonnenen psychoakustischen Zusatzinformationen (wie beispielsweise Onset/Offset). Dadurch wird ermöglicht große Sprünge lange vorher zu erkennen und schon sehr früh unhörbare Maßnahmen zu deren Meisterung auszuführen und dann stark zu regeln, wenn das Ohr am unempfindlichsten ist.
  • Ausführungsbeispiele schaffen einen Audioprozessor, der eine psychoakustisch optimierte dynamische Verarbeitung von Audio ermöglicht. Weitere Ausführungsbeispiele schaffen ein Verfahren, das eine psychoakustisch optimierte dynamische Verarbeitung von Audio ermöglicht.
  • Ausführungsbeispiele der vorliegenden Erfindung sind für sämtliche Arten der dynamischen Audiobearbeitung (und damit für sämtliche Arten einer verwendeten Kompressorkennlinie) verwendbar, wie z. B. für Kompressoren, Expander, Gates, Limiter, Enhancer, De-Esser.
  • Einige Ausführungsbeispiele der vorliegenden Erfindung verwenden ein zeitliches Integral der Neuronenfeuerdichte (welches einer Lautheit entspricht) über alle Bänder als Referenzsignal. Ferner benutzen Ausführungsbeispiele der vorliegenden Erfindung psychoakustische Zusatzinformationen 321 zur Steuerung der zeitlichen Glättung 317 in den einzelnen Filterbändern.
  • Weitere Ausführungsbeispiele der vorliegenden Erfindung verwenden ein Modell einer aktiven Cochlea (das Gehörmodell 309, welches ein besonders authentisches dynamisches Statusverhalten bei hoher Effizienz ermöglicht).
  • Weitere Ausführungsbeispiele der vorliegenden Erfindung benutzen eine flexible Gewichtung von lang- und kurzfristiger Lautheit bevor der statischen Kennlinie 701.
  • Weitere Ausführungsbeispiele der vorliegenden Erfindung verwenden psychoakustische Informationen (Onset/Offset kritische Bänder) zur optimalen zeitlichen Glättung, ferner nutzen weitere Ausführungsbeispiele der vorliegenden Erfindung Vor- und Nachverdeckungseffekte.
  • Weitere Ausführungsbeispiele der vorliegenden Erfindung nutzen eine Steuerung der einzelnen kritischen Bänder mittels der Lautheitsgesamtreferenz 323. Mit anderen Worten wird aus dem zeitlichen Integral der Neuronenfeuerdichte über das gesamte Hörspektrum (entspricht der Lautheit) als Referenz ein Verstärkungsfaktor kalkuliert, der hier auf die einzelnen Frequenzbänder umgelegt wird, damit die Neuronenfeuerdichte in den Bändern auch um den gleichen Faktor reduziert wird. Mit anderen Worten führen einige Ausführungsbeispiele der vorliegenden Erfindung eine Verarbeitung in der neuronalen Domäne durch.
  • Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar.
  • Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-Ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein. Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
  • Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
  • Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.
  • Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft. Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
  • Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
  • Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
  • Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
  • Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
  • Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.

Claims (25)

  1. Audioprozessor (200) mit folgenden Merkmalen: einem Verstärker (201), der ausgebildet ist, um ein empfangenes Audiosignal (205) zu verstärken oder zu dämpfen, und um eine Verstärkung oder Dämpfung des Audiosignals (205) basierend auf einer Zielvorgabe (207, ΔGfin,1:M(n)) zu variieren; und einem Zielvorgabebestimmer (203), der ausgebildet ist, um die Zielvorgabe (207, ΔGfin,1:M(n)) basierend auf zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten x(n) des Audiosignals (205) zu bestimmen; und wobei der Verstärker (201) ausgebildet ist, um die Verstärkung oder Dämpfung basierend auf der Zielvorgabe (207, ΔGfin,1:M(n)), noch bevor die zukünftigen noch zu verstärkenden oder zu dämpfenden Abtastwerte x(n), basierend auf denen der Zielvorgabebestimmer (203) die Zielvorgabe (207, ΔGfin,1:M(n)) bestimmt hat, verstärkt oder gedämpft werden, zu variieren, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um eine Vorverdeckung in den zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten (x(n)) zu detektieren und um bei der Bestimmung der Zielvorgabe (207, ΔGfin,1:M(n)) die detektierte Vorverdeckung zu berücksichtigen, so dass bei Vorliegen der Vorverdeckung der Verstärker (201) die Verstärkung oder Dämpfung zumindest teilweise während einer Vorverdeckungsphase variiert.
  2. Audioprozessor (200) gemäß Anspruch 1, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um die Zielvorgabe (207, ΔGfin,1:M(n)) in Abhängigkeit von einer Lautheit (319, A1:M(n), 323, Ages(n)) oder in Abhängigkeit von von Amplituden abgeleiteten Werten der noch zu verstärkenden oder zu dämpfenden Abtastwerte (x(n)) zu bestimmen.
  3. Audioprozessor (200) gemäß einem der Ansprüche 1 oder 2, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um bei einem Einsatz in dem empfangenen Audiosignal (205) die Zielvorgabe (207, ΔGfin,1:M(n)) so dem Verstärker (201) bereitzustellen, dass der Verstärker (201) basierend auf der Zielvorgabe (207 ΔGfin,1:M(n)) die Verstärkung reduziert oder die Dämpfung erhöht und bei einem Ausklingen in dem empfangenen Audiosignal (205) die Zielvorgabe (207, ΔGfin,1:M(n)) so dem Verstärker (201) bereitzustellen, dass der Verstärker (201) basierend auf der Zielvorgabe (207 ΔGfin,1:M(n)) die Verstärkung erhöht oder die Dämpfung reduziert.
  4. Audioprozessor (200) gemäß einem der Ansprüche 1 bis 3, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um für jeden der zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte x(n) des Audiosignals (205) die Zielvorgabe (207, ΔGfin,1:M(n)) neu zu bestimmen.
  5. Audioprozessor (200) gemäß einem der Ansprüche 1 bis 4, wobei der Zielvorgabebestimmer (203) ausgewählt ist, um die Zielvorgabe (207, ΔGfin,1:M(n)) für einen ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) des Audiosignals (205) basierend auf einer vorgegebenen Anzahl von diesem ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) in dem Audiosignal (205) zeitlich folgenden noch zu verstärkenden oder zu dämpfenden Abtastwerten zu bestimmen.
  6. Audioprozessor (200) gemäß einem der Ansprüche 1 bis 5, wobei der Zielvorgabebestimmer (203) ausgebildet ist, die zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte in einzelne Frequenzbänder (1:M, m) zu zerlegen, und um für jedes der Frequenzbänder (m) eine eigene Zielvorgabe (207, ΔGfin,m(n)) zu bestimmen.
  7. Audioprozessor (200) gemäß Anspruch 5 oder Anspruch 6, wenn dieser auf den Anspruch 5 zurückbezogen ist, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um die vorgegebene Anzahl der dem ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) folgenden zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte x(n), basierend auf denen der Zielvorgabebestimmer (203) die Zielvorgabe (207, ΔGfin,1:M(n)) für den ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) bestimmt, in Abhängigkeit davon zu wählen, ob der erste zukünftig noch zu verstärkende oder zu dämpfende Abtastwert x(n) Bestandteil eines Einsatzes oder eines Ausklingens in dem Audiosignal (205) ist.
  8. Audioprozessor (200) gemäß einem der Ansprüche 1 bis 7, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um die Zielvorgabe (207, ΔGfin,1:M(n)) basierend auf einem psychoakustischen Gehörmodell (309) zu bestimmen.
  9. Audioprozessor (200) gemäß einem der Ansprüche 1 bis 8, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um basierend auf einem neuronalen Rückkopplungsmodell (405) zu bestimmen, ob ein erster zukünftig noch zu verstärkender oder zu dämpfender Abtastwert (x(n) Bestandteil eines Einsatzes oder eines Ausklingens in dem Audiosignal (205) ist.
  10. Audioprozessor (200) gemäß Anspruch 9, wobei das neuronale Rückkopplungsmodell (405) ausgebildet ist, um basierend auf einer Amplitude (413, Ampm(n)) jedes zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerts (x(n)) eine erste Ausgabegröße (417, FASTm(n)) zu bestimmen, welche eine Anzahl von generierten Neuronenimpulsen in Reaktion auf den zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) beschreibt; wobei das neuronale Rückkopplungsmodell (405) ferner ausgebildet ist, um für jeden zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) eine zweite Ausgabegröße (419, SLOWm(n)) basierend auf einem Integral über dessen erste Ausgabegröße (417, FASTm(n)) zu bestimmen; und wobei das neuronale Rückkopplungsmodell (405) ferner ausgebildet ist, um basierend auf einem Vergleich der ersten Ausgabegröße (417, FASTm(n)) für den ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n) mit einer weiteren zweiten Ausgabegröße (624, SLOWm(n – 1)) für einen, dem ersten noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) vorhergehenden Abtastwert zu bestimmen, ob der erste noch zu verstärkende oder zu dämpfende Abtastwert (x(n)) Bestandteil eines Einsatzes oder eines Ausklingens in dem empfangenen Audiosignal (205) ist.
  11. Audioprozessor (200) gemäß Anspruch 10, wobei das neuronale Rückkopplungsmodell (405) ausgebildet ist, um die zweite Ausgabegröße (419, SLOWm(n)) für den ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) basierend auf mindestens einer Tiefpassfilterung (603, 607) der ersten Ausgabegröße (417, FASTm(n)) des ersten zukünftig noch zu verstärkende oder zu dämpfenden Abtastwerts (x(n)) zu erhalten; wobei das neuronale Rückkopplungsmodell (405) ausgebildet ist, um einen Filterkoeffizienten bei dieser mindestens einen Tiefpassfilterung (603, 607) in Abhängigkeit davon zu wählen, ob der erste zukünftig noch zu verstärkende oder zu dämpfende Abtastwert (x(n)) Bestandteil eines Einsatzes oder eines Ausklingens in dem Audiosignal (205) ist.
  12. Audioprozessor (200) gemäß einem der Ansprüche 10 oder 11, wobei das neuronale Rückkopplungsmodell (405) ausgebildet ist, um die zweite Ausgabegröße (419, SLOWm(n)) für einen zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert x(n) derart zu bestimmen, dass die zweite Ausgabegröße (419, SLOWm(n)) eine Lautheit dieses zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerts x(n) beschreibt.
  13. Audioprozessor (200) gemäß Anspruch 1, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um die Zielvorgabe (207, ΔGfin,1:M(n)) so dem Verstärker (201) bereitzustellen, dass ein erster Regelweg zwischen einem ersten Verstärkungswert und einem zweiten Verstärkungswert in einem ersten Fall, in dem Vorverdeckung vorliegt, verschieden ist zu einem zweiten Regelweg zwischen dem ersten Verstärkungswert und dem zweiten Verstärkungswert, in einem zweiten Fall, in dem keine Vorverdeckung vorliegt.
  14. Audioprozessor (200) gemäß Anspruch 13, wobei der Zielvorgabebestimmer (203) so ausgebildet ist, dass der erste Regelweg, zumindest während Vorverdeckung besteht, in der logarithmischen Domäne linear verläuft.
  15. Audioprozessor (200) gemäß einem der Ansprüche 1 bis 14, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um für jeden Abtastwert (x(n)) der zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte (x(n)) zu bestimmen, ob dieser Abtastwert (x(n)) durch einen nachfolgenden Abtastwert vorverdeckt ist; und wobei der Zielvorgabebestimmer (203) ausgebildet ist, um eine Entscheidung, ob ein erster zukünftig noch zu verstärkender oder zu dämpfender Abtastwert (x(n)) vorverdeckt ist, basierend auf einer Neuronenaktivitätsdifferenz zwischen einem gewichteten Mittel über eine kommende Neuronenaktivität in Reaktion auf eine vorbestimmte Anzahl von dem ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert (x(n)) folgende zukünftig noch zu verstärkende oder zu dämpfende Abtastwerte und eine Neuronenaktivität in Reaktion auf den ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert zu treffen.
  16. Audioprozessor (200) gemäß Anspruch 15, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um zu entscheiden, dass der erste Abtastwert vorverdeckt ist, wenn dessen Neuronenaktivitätsdifferenz größer ist als ein gewichtetes Integral über Neuronenaktivitäten in Reaktion auf den ersten Abtastwert vorhergehende Abtastwerte.
  17. Audioprozessor (200) gemäß einem der Ansprüche 15 oder 16, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um jeden Abtastwert der zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte in einzelne Frequenzbänder zu zerlegen, und für jedes Frequenzband eine Entscheidung zu treffen, ob der jeweilige Abtastwert in diesem Frequenzband vorverdeckt ist oder nicht.
  18. Audioprozessor (200) gemäß einem der Ansprüche 1 bis 17, wobei der Zielvorgabebestimmer (203) ein Glättungsfilter (905) aufweist, welches ausgebildet ist, um die Zielvorgabe (207, ΔGfin,1:M(n)) vor Bereitstellung dieser an den Verstärker (201) einer Filterung zu unterziehen; und wobei das Glättungsfilter (905) mindestens einen zeitlich variablen Filterkoeffizienten aufweist.
  19. Audioprozessor (200) gemäß Anspruch 18, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um eine Zeitkonstante (T1:M (n)) des Glättungsfilters (905) für die Filterung einer Zielvorgabe (207, ΔGfin,1:M(n)) zur Verstärkung oder Dämpfung eines ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert x(n) in Abhängigkeit davon zu wählen, ob der erste zukünftig noch zu verstärkende oder zu dämpfende Abtastwert (x(n)) Bestandteil eines Einsatzes oder eines Ausklingens in dem empfangenen Audiosignal (205) ist.
  20. Audioprozessor (200) gemäß Anspruch 19, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um die Zeitkonstante (T1:M(n)) konstant zu halten, wenn in einer vorbestimmten Anzahl von dem ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert x(n) folgenden Abtastwerten kein Statusumschwung von einem Einsatz zu einem Ausklingen oder von einem Ausklingen zu einem Einsatz auftritt und um andernfalls die Zeit zwischen einem solchen Statusumschwung als Zeitkonstante (T1:M(n)) zu setzen.
  21. Audioprozessor (200) gemäß Anspruch 20, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um die vorbestimmte Anzahl von dem ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwert x(n) folgenden Abtastwerten, die auf einen Statusumschwung überprüft werden, in Abhängigkeit davon zu wählen, ob der erste zukünftig noch zu verstärkende oder zu dämpfende Abtastwert x(n) Bestandteil eines Einsatzes oder eines Ausklingens in dem empfangenen Audiosignal (205) ist.
  22. Audioprozessor (200) gemäß einem der Ansprüche 1 bis 21, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um jeden der zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte in eine Mehrzahl von verschiedenen Frequenzbändern zu zerlegen, und für jedes dieser Frequenzbänder jeweils eine Zielvorgabe (207, ΔGfin,m(n)) zu bestimmen; und wobei der Verstärker (201) ausgebildet ist, um die Verstärkung oder die Dämpfung basierend auf den Zielvorgaben (207, ΔGfin,m(n)) für die Mehrzahl von verschiedenen Frequenzbändern verschieden zu variieren.
  23. Audioprozessor (200) gemäß Anspruch 22, wobei der Zielvorgabebestimmer (203) ausgebildet ist, um für jedes Frequenzband (m) eines ersten zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerts (x(n)) eine spezifische Lautheit (319, Am(n)) zu bestimmen und um die Zielvorgabe (207, ΔGfin,m(n)) für die Mehrzahl von Frequenzbändern basierend auf den bestimmten spezifischen Lautheiten (319, Am(n)) der jeweiligen Frequenzbänder (m) zu bestimmen.
  24. Verfahren (1200) zum Verstärken oder Dampfen eines empfangenen Audiosignals mit folgenden Schritten: Bestimmen (1201) einer Zielvorgabe, basierend auf zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten des Audiosignals; und Variieren (1203) der Verstärkung oder Dämpfung des Audiosignals basierend auf der Zielvorgabe, noch bevor die zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerte, basierend auf denen die Zielvorgabe bestimmt wurde, verstärkt oder gedämpft werden, wobei das Bestimmen der Zielvorgabe das Detektieren einer Vorverdeckung in den zukünftig noch zu verstärkenden oder zu dämpfenden Abtastwerten (x(n)) und das Berücksichtigen der detektierten Vorverdeckung aufweist, so dass bei Vorliegen der Vorverdeckung die Verstärkung oder Dämpfung zumindest teilweise während einer Vorverdeckungsphase variiert wird.
  25. Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch 24, wenn das Programm auf einem Computer abläuft.
DE102012204193.1A 2012-03-16 2012-03-16 Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals Active DE102012204193B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102012204193.1A DE102012204193B4 (de) 2012-03-16 2012-03-16 Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102012204193.1A DE102012204193B4 (de) 2012-03-16 2012-03-16 Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals

Publications (2)

Publication Number Publication Date
DE102012204193A1 DE102012204193A1 (de) 2013-09-19
DE102012204193B4 true DE102012204193B4 (de) 2015-10-22

Family

ID=49043970

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102012204193.1A Active DE102012204193B4 (de) 2012-03-16 2012-03-16 Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals

Country Status (1)

Country Link
DE (1) DE102012204193B4 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101981575B1 (ko) * 2018-10-29 2019-05-23 캐치플로우(주) 초지향성 초음파 스피커 장치의 음질개선 방법 및 이를 구비한 초음파 스피커 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69223701T2 (de) * 1991-03-20 1998-04-30 British Broadcasting Corp Dynamische bereichskompression
EP1542359A1 (de) * 2003-12-09 2005-06-15 Nec Corporation Gerät zur Dynamikbegrenzung/-dehnung und mobiles Kommunikationsgerät
WO2009086174A1 (en) * 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69223701T2 (de) * 1991-03-20 1998-04-30 British Broadcasting Corp Dynamische bereichskompression
EP1542359A1 (de) * 2003-12-09 2005-06-15 Nec Corporation Gerät zur Dynamikbegrenzung/-dehnung und mobiles Kommunikationsgerät
WO2009086174A1 (en) * 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals

Also Published As

Publication number Publication date
DE102012204193A1 (de) 2013-09-19

Similar Documents

Publication Publication Date Title
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE602004008455T2 (de) Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE69933141T2 (de) Tonprozessor zur adaptiven dynamikbereichsverbesserung
DE102007031677B4 (de) Verfahren und Vorrichtung zum Ermitteln einer raumakustischen Impulsantwort in der Zeitdomäne
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE4328620C1 (de) Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
DE4326746A1 (de) Lautstärkeregelgerät
DE10260657B4 (de) Audioverstärker mit Spannungsbegrenzung in Reaktion auf den Spektralgehalt
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
EP3588498B1 (de) Verfahren zur unterdrückung eines akustischen nachhalls in einem audiosignal
EP1369994A2 (de) Verfahren zur zugehörrichtigen Basspegelanhebung und zugeordnetes Wiedergabesystem
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
DE102006001730A1 (de) Beschallungsanlage, Verfahren zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen sowie Computerprogramm
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
DE102012204193B4 (de) Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals
EP1453355B1 (de) Signalverarbeitung in einem Hörgerät
EP1351550B1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät
DE102007011436B4 (de) Vorrichtung und Verfahren zum Formen eines digitalen Audiosignals
DE102012014310A1 (de) Verfahren und Vorrichtung zur Einstellung der Lautheit eines Audiosignals
EP4134954B1 (de) Verfahren und vorrichtung zur audiosignalverbesserung
EP3190700B1 (de) Verfahren und vorrichtung zur verarbeitung von audio-signalen
DE102018131687B4 (de) Verfahren und vorrichtungen zur reduzierung von ploppgeräuschen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final