DE4335739A1 - Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen - Google Patents
Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten TonaufnahmenInfo
- Publication number
- DE4335739A1 DE4335739A1 DE19934335739 DE4335739A DE4335739A1 DE 4335739 A1 DE4335739 A1 DE 4335739A1 DE 19934335739 DE19934335739 DE 19934335739 DE 4335739 A DE4335739 A DE 4335739A DE 4335739 A1 DE4335739 A1 DE 4335739A1
- Authority
- DE
- Germany
- Prior art keywords
- peaks
- loudness
- tonal
- noisy
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/24—Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
Die Erfindung betrifft ein Verfahren zur automatischen Steuerung des Signal-
/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen.
Es ist bekannt, das Hintergrund- und/oder Modulationsrauschen bei histori
schen Aufnahmen ebenso wie bei aktuellen Aufnahmen automatisch zu verrin
gern, indem der Signal-/Rauschabstand rauschbehafteter Tonaufnahmen ge
steuert wird. Bekannt ist es dabei auch, daß man mit bestimmten elektro
nischen bzw. datenverarbeitungstechnischen Verfahren einerseits spektrale
Komponenten auf der Basis eines sogenannten Maskierungsspektrums auswählen
kann, andererseits auf der Basis einer Analyse des Frequenz-, Amplituden-
und/oder Phasenverlaufs zwischen tonalen und rauschhaften Peaks unterschei
den kann (siehe die beigefügte Literaturliste mit Deutsch Eckel Noll (1992)
und Brandenburg/Johnston (1990) bzw. McAulay/Quatieri (1986)). Hat man zu
nächst einmal zwischen tonalen und rauschhaften Peaks eine Unterscheidung
vornehmen können, so kann man die Amplitude der rauschhaften Peaks gegen
über den Amplituden der tonalen Peaks absenken, um so das Signal-/Rausch
verhältnis zu verbessern. Bekannt ist es dabei, mit einer im Grundsatz kon
stanten Absenkung von beispielsweise -10 dB zu arbeiten. Außerdem ist es
bekannt, das Gesamtband hörbarer Frequenzen in eine Mehrzahl von Teilbändern
aufzuteilen und jedem Teilband spezifisch, aber immer jeweils wieder konstant
(Equalizer-Prinzip) abzusenken.
Der Erfindung liegt die Aufgabe zugrunde, ein gattungsgemäßes Verfahren so
auszugestalten, daß eine weiter verbesserte und vorzugsweise auch dem mensch
lichen Gehör angepaßtere Steuerung des Signal-/Rausch-Abstandes erfolgt.
Das erfindungsgemäße Verfahren ist gekennzeichnet durch folgende Verfah
rensschritte:
- a) Die Amplitudenspitzen - Peaks - des Gesamt-Tonsignals werden nach ihrem Frequenz-, Amplituden- und/oder Phasenverlauf analysiert und darauf ba sierend in einem Auswahlschritt in eine von zwei Klassen klassifiziert, nämlich in die Klasse der tonalen Peaks, die vom menschlichen Gehör als klanghaft und "absichtsvoll" empfunden werden und in die Klasse der rauschhaften Peaks, die vom menschlichen Gehör als nicht klanghaft und "störend" empfunden werden,
- b) in parallelem Verlauf zum Verfahrensschritt a) wird eine akustische Meß größe - Loudness Indicator - des Gesamt-Tonsignals erfaßt, der in einer bekannten Relation zur Lautheitsempfindung des menschlichen Gehörs steht,
- c) die Amplituden der rauschhaften Peaks werden gegenüber den Amplituden der tonalen Peaks dynamisch abgesenkt, nämlich desto stärker abgesenkt, je geringer die durch den parallel erfaßten Loudness Indicator indizierte Lautheit des Gesamt-Tonsignals ist.
Erfindungsgemäß ist erkannt worden, daß eine konstante Absenkung, wie sie
bisher im Stand der Technik ausschließlich praktiziert wird, bei der Steue
rung des Signal-/Rauschabstandes rauschbehafteter Tonaufnahmen als nicht
optimal empfunden wird. Insbesondere werden laute Passagen mit hohen Ampli
tudenspitzen als zu dumpf gegenüber dem Original-Klang empfunden. Bei hohen
Signalpegeln des Gesamt-Tonsignals erwartet das menschliche Gehör nämlich
ein helleres Klangbild als bei geringerer Lautheit. Die Lösung des zuvor
erläuterten akustischen Problems bringt die erfindungsgemäße dynamische
Absenkung des Pegels der als rauschhaft klassifizierten Peaks in Abhängig
keit von der für den jeweiligen Peak zeitgleich ermittelten Lautheit des Ge
samt-Tonsignals.
Als Loudness Indicator eignen sich verschiedene in der akustischen Meßtech
nik übliche Meßgrößen, beispielsweise die Lautheit nach 150 532 B (sone).
Der Lautstärkepegel (in dB, dB(a), dB(b) etc.) als solcher ist meßtechnisch
einfacher zu handhaben als die Lautheit und erlaubt eine einfache Auswertung.
Die nichtlineare, d. h. signalabhängige und insbesondere frequenzabhängige
Lautstärkeempfindung des menschlichen Gehörs wird bei der Lautheit berück
sichtigt, die deshalb als Steuergröße dem Pegel vorzuziehen ist. Dennoch
ergibt sich auch mit dem normalen Lautstärkepegel als Loudness Indicator
eine wesentlich bessere, weil nämlich natürlicher empfundene
Steuerung des Signal-/Rauschabstandes als bei der aus dem Stand der Technik
bekannten konstanten Pegelabsenkung der als rauschhaft klassifizierten Peaks.
Für die Erfindung ist wesentlich eine dynamisch geregelte tonale Kontrastver
stärkung (DTCE - Dynamic Tonal Contrast Enhancement), die die Rauschanteile
des Gesamt-Tonsignals bei großer Lautheit weniger stark im Pegel absenkt als
bei geringer Lautheit. Damit wird ein extrem natürliches, insbesondere auch
bei lauten Passagen wie gewünscht helles Klangbild erreicht.
Bevorzugte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen Ver
fahrens sind Gegenstand der Unteransprüche.
Eine auswertungstechnische Vereinfachung bringt Anspruch 2, indem die Klassi
fizierung der rauschhaften Peaks lediglich über Differenzbildung zu den schon
klassifizierten tonalen Peaks erfolgt.
Eine weitere Vereinfachung bringt Anspruch 3 und bringt entsprechend Anspruch
4, wobei die hier vorgeschlagenen Techniken für die Rechnerauswertung vor
teilhaft sind und in der Praxis völlig ausreichen.
Die tonale Kontrastverstärkung (DTCE) wird weiter optimiert, wenn der Signal-
/Rauschabstand nicht nur dadurch verbessert wird, daß die als rauschhaft
klassifizierten Peaks in ihren Amplituden dynamisch abgesenkt werden, sondern
wenn gleichzeitig eine Anhebung der Amplituden der tonalen Peaks erfolgt. Wäh
rend also im ersten Verfahrensschritt nur der Rauschboden dynamisch abgesenkt
wird, ohne die tonalen Peaks zu beeinträchtigen, werden nach dem zuvor er
läuterten Verfahrensschritt gemäß Anspruch 5 außerdem noch die tonalen Peaks
angehoben. Dadurch erhält man gleichzeitig eine Verstärkung der harmonischen
Komponenten und insbesondere der Obertöne, die für das gesamte Klangbild von
ebenfalls wesentlicher Bedeutung sind.
Für die Anhebung der tonalen Peaks reicht normalerweise im Gegensatz zur
Absenkung der rauschhaften Peaks eine konstante Anhebung. Grundsätzlich wäre
es aber auch möglich, die tonalen Peaks dynamisch anzuheben, wie das im An
spruch 7 beschrieben ist. Für die Pegelanhebung gelten dann entsprechende
Überlegungen wie bei der Pegelabsenkung für die rauschhaften Peaks.
Im übrigen gilt auch im vorliegenden Rahmen, daß man Verzerrungen durch zu
starke tonale Peaks auch gezielt durch Absenkung eliminieren kann. Das ist
dann ähnlich den im Stand der Technik praktizierten Filterverfahren.
Auch im Rahmen des erfindungsgemäßen Verfahrens empfiehlt es sich, das Gesamt
band hörbarer Frequenzen in eine Mehrzahl von Teilbändern aufzuteilen und die
erfindungsgemäße Steuerung des Signal-/Rauschabstandes bezogen auf jedes Teil
band gesondert vorzunehmen. Das ist besonders dann sehr wirkungsvoll, wenn
die Aufteilung in ungleich breite Teilbänder entsprechend den Barkbereichen
erfolgt. Beispielsweise kann so der hörbare Frequenzbereich zwischen 1 und
22 000 Hz in 24 Teilbänder nach Bark aufgeteilt werden (siehe Zwicker & Fastl
(1990) in der Literaturliste), die mit den kritischen Bändern im cortischen
Organ des menschlichen Ohrs korrespondieren. Durch diese Aufteilung wird die
Frequenzselektivität des menschlichen Innenohrs nachgebildet. Eine Anpassung
der Steuerung des Signal-/Rauschabstandes unter Berücksichtigung dieser Teil
bänder bringt eine nochmals ganz erheblich natürlicher empfundene Steuerung
des Signal-/Rauschabstandes.
Die weitere Erläuterung der Erfindung erfolgt anhand der beigefügten Zeich
nung und der nachfolgenden Erläuterung. In der Zeichnung zeigt
Abb. 1 in einem Blockschaltbild den schematischen Rechenweg der spektra
len Subtraktion,
Abb. 2 das Spektrum eines Tonsignals mit einem darüber gelagerten
Maskierungsspektrum,
Abb. 3 das Schema des spektralen Remodellierungsverfahrens,
Abb. 4 das Schema eines Parallelrechners zur Remodellierung von Audio
signalen,
Abb. 5 das dreidimensional gezeichnete Amplitudenspektrum zweier Gitarren
anschläge, und zwar a) rauschbehaftetes Original, b) nach Remodel
lierung,
Abb. 6 ein Abb. 5 entsprechendes Amplitudenspektrum, jedoch nicht mit
Fouriertransformation erzielt.
Abb. 7 den zeitlichen Verlauf des Loudness Indicators "Pegel" ober
halb von 3 kHz bei einer Musikpassage,
Abb. 8 eine bevorzugte Kennlinie für eine Pegelabsenkung der als rausch
haft klassifizierten Peaks in Abhängigkeit vom Loudness Indica
tor (Pegel) innerhalb eines Frequenzbandes für das Gesamt-Ton
signal,
Abb. 9 eine Übersicht der bei dem erfindungsgemäßen Verfahren im bevorzug
ten Ausführungsbeispiel eingeteilten Barkbereiche,
Abb. 10 den zeitlichen Verlauf des Loudness Indicators "Lautstärkepegel"
in zwei ausgewählten, besonders rauschempfindlichen Barkbereichen
in drei Steuerungsstufen,
Abb. 11 in einer Abb. 10 entsprechenden Darstellung den entsprechenden zeit
lichen Verlauf des Loudness Indicators "Lautheit".
Um den Hintergrund des erfindungsgemäßen Verfahrens besser nachvollziehen
zu können, wird nachfolgend erläutert, in welchem Zusammenhang eine Steue
rung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen beson
dere Bedeutung hat und welche Verfahren hierzu eingesetzt werden können und,
nach der Lehre der Erfindung, eingesetzt werden. Besondere Bedeutung kommt
dabei der Remodellierung historischer Aufnahmen zu, die eine immer größere
Bedeutung gewinnt. Mit Hilfe von umfangreichen Computer-Programmen wird eine
vorhandene Tonaufnahme dabei zerlegt, auf wesentliche Kernbestandteile redu
ziert, um Rechenaufwand zu sparen, und dann wieder neu so zusammengesetzt, daß
am Ende ein wesentlich verbessertes, dem der Tonaufnahme zugrundeliegende Ori
ginal-Musikstück wesentlich näher kommendes Klangbild entsteht.
Die gegenwärtigen, am Markt erhältlichen Verfahren zur Verminderung des Rauschpegels
("Denoising") bei Musik- und Sprachaufnahmen basieren im wesentlichen auf der Methode der
spektralen Subtraktion (siehe Lim & Oppenheim, 1983). Dem Verfahren liegt die Überlegung
zugrunde, daß die rauschbehaftete Zeitfunktion x(n) additiv aus einem erwünschten, rausch
freien Signalanteil s(n) und einem Rauschanteil r(n) besteht:
x(n) = s(n) + r(n)
Unter der Voraussetzung, daß s(n) und r(n) unkorreliert sind, ergibt die Berechnung des
Leistungsspektrums mit Hilfe der FFT:
| X(k) | 2 = | S(k) | 2 + | R(k) | 2
wobei:
N = Anzahl der Signalwerte
k = Ordnungszahl der Frequenzen: 0, 1, . . ., N-1
n = Ordnungszahl der Signalwerte: 0, 1, . . ., N-1
π = Kreiszahl
j = imaginäre Zahl
k = Ordnungszahl der Frequenzen: 0, 1, . . ., N-1
n = Ordnungszahl der Signalwerte: 0, 1, . . ., N-1
π = Kreiszahl
j = imaginäre Zahl
X(k) ist eine komplexe Zahl der Form a(k) ± j b(k). Die Koeffizienten a(k) und b(k) werden als
Fourierkoeffizienten bezeichnet (siehe Brigham, 1976).
Das Quadrat von X(k) ist die spektrale Leistung:
| X(k) |² = a(k)² + b(k)²
Die Amplitude von X(k) ergibt sich als:
Die Phase wird berechnet durch:
ϕ = tan-1(b(k)/a(k)).
Durch die Rücktransformation in den Zeitbereich mit der inversen Fouriertransformation
IFFT) wird die ursprüngliche Zeitfunktion rekonstituiert. Die IFFT gehorcht folgendem
Algorithmus.
Die theoretische Annahme, daß sich Signal und Rauschen additiv zueinander verhalten, impli
ziert, daß Signal und Rauschen lineare, d. h. voneinander unabhängige Prozesse sind. Diese An
nahme gilt aber z. B. beim Modulationsrauschen nicht, da hier der Störpegel vom Signalpegel
abhängt und somit nicht-lineare Verhältnisse vorliegen.
Die Schätzung des Rauschspektrums erfolgt bei der spektralen Subtraktionsmethode dadurch,
daß ein mittleres Rauschspektrum durch Auswertung signalfreier Abschnitte der Musikauf
nahme, z. B. zu Beginn oder am Ende der Aufnahme, bestimmt wird. Dies führt zu folgendem
Ansatz:
| X(k) |² = | S(k) |² + E [ | R(k) |²] ,
wobei E[|R(k)2|] den Erwartungswert des Rauschspektrums darstellt.
Bei dieser Vorgehensweise wird vorausgesetzt, daß die Bestimmung des gemittelten
Rauschspektrums auf der Basis der verfügbaren Rauschpassagen (üblicherweise Zeitsequenzen
von weniger als einer Sekunde Dauer) tatsächlich eine Abschätzung des Erwartungswerts des
Rauschspektrums (das sog. "wahre" Rauschspektrum) ermöglicht. Weiterhin wird angenom
men, daß der geschätzte Erwartungswert repräsentativ für das individuelle Rauschspektrum zu
einem beliebigen Zeitpunkt ist. In der Praxis sind diese Annahmen jedoch nicht immer erfüllt,
da sich die statistischen Eigenschaften des Rauschens während einer Aufnahme ändern können.
Eine Schätzung des gewünschten Signalspektrums erfolgt durch Subtraktion des Erwartungs
werts des Rauschspektrums vom Originalspektrum:
| (k) |2 = | X(k) |2 - E[ | R(k) |2]
Verallgemeinert kann man schreiben:
| (k) |a = | X(k) |a - bE [ | R(k) |a]
Wird a = 2 und b = 1 gesetzt entspricht dies der Methode nach Abb. 1. Durch Gewich
tung des Rauschspektrums mit b kann der Grad der Entrauschung vom Anwender bestimmt
werden. Bei der Rücktransformation in den Zeitbereich wird die ursprüngliche Phase beibe
halten, d. h. die Phase unterliegt keiner weiteren Manipulation. Dies entspricht der Beobach
tung, daß die Phase für die Klangwahrnehmung des menschlichen Ohrs nur von untergeord
neter Bedeutung ist von Helmholtz, 1863; Plomb, 1970; siehe Rossing), 1989).
Die bisherigen Überlegungen zeigen, daß die spektrale Subtraktionsmethode nur globale und
zeitlich invariante Signaleigenschaften berücksichtigt (siehe Lim & Oppenheim, 1983). Dies
bedeutet für die praktische Anwendung dieses Verfahrens, daß nur stationäres Hintergrund
rauschen reduziert und damit der Störpegelabstand insgesamt nur in gewissen Grenzen ver
bessert werden kann. Eine zu starke Rauschminderung führt leicht zu tonalen Artefakten bzw.
zu einer klanglichen Verschlechterung des Gesamtergebnisses, sobald sich durch zeitliche
Schwankungen die akustischen Signaleigenschaften ändern (siehe Goeres-Petry & Dell, 1990;
Houpert, 1991). Störeinflüsse wie Modulationsrauschen oder harmonische Verzerrungen
können mit dieser Methode nicht beseitigt werden, da ihre Behandlung einen Eingriff in die
spektrale Struktur des Signals voraussetzt. Aus diesem Grunde wurde der Ansatz einer
Remodellierung isolierter Komponenten des Spektrums gewählt. Unter den in der Literatur
beschriebenen Verfahren bietet die Prony Spektralanalyse hierfür besonders weitreichende
Möglichkeiten (siehe Kay & Marple, 1981; Marple, 1987).
Ein wesentliches Problem stellt die Auswahl der zu modellierenden spektralen Komponenten
dar. Dies geschieht in zwei Schritten. Im ersten Schritt wird auf der Basis eines FFT-Spek
trums ein Maskierungsspektrum berechnet und nur diejenigen Komponenten ausgewählt, die
oberhalb der Maskierungsschwellen liegen. Der wesentliche Zweck dieser Maßnahme ist die
Reduktion der spektralen Komponenten, um bei der späteren Remodellierung nur die hörbaren
Komponenten zu berücksichtigen. Im zweiten Schritt wird das Zeitverhalten der ausgewählten
Komponenten analysiert, um tonale Komponenten von nicht-tonalen unterscheiden zu können.
Bei der nachfolgenden Remodellierung des Spektrums werden die tonalen Anteile dann gezielt
gegenüber den Rauschanteilen verstärkt (tonale Kontrastverstärkung).
Maskierung bedeutet, daß bestimmte Töne vom Ohr auf Grund des Vorhandenseins anderer
Töne nicht mehr wahrgenommen werden, obwohl sie vom Pegel her oberhalb der Hörschwelle
liegen. Liegt ein leiser Ton frequenzmäßig in der Nachbarschaft eines lauten Tons, wird er von
diesem verdeckt, da die Maskierungsschwelle in diesem Frequenzbereich über den Pegel des
leisen Tons angehoben wird. Neben der Simultanverdeckung bei zeitgleichen Tönen wird in der
Psychoakustik außerdem zwischen Vor- und Nachverdeckung unterschieden, je nachdem ob
der maskierende (laute) Ton zeitlich vor oder nach dem maskierten (leisen) Ton liegt (siehe
Zwicker & Fastl, 1990).
Bei der Berechnung der Maskierungsschwellen wird der hörbare Frequenzbereich in 24 Teil
bänder aufgeteilt, die mit den kritischen Bändern im Cortischen Organ korrespondieren.
Dadurch wird die Frequenzselektivität des Innenohrs nachgebildet. Die kritischen Bandbreiten
werden auch Frequenzgruppen genannt. Ihre Maßeinheit ist Bark. Unterhalb von 500 Hz
beträgt die Breiie einer Frequenzgruppe konstant 100 Hz, oberhalb von 500 Hz nimmt ihre
Breite mit wachsender Frequenz zu und beträgt im Mittel ca. 20% ihrer jeweiligen Mitten
frequenz. Für die Berechnung der Maskierungsschwellen ist weiterhin wichtig, daß Sinustöne
beim Hören frequenzmäßig benachbarte Sinustöne in geringerem Maße verdecken als dies
Rauschbänder mit gleicher Mittenfrequenz tun. Rauschen übertönt demzufolge ein Nutzsignal
sehr viel effizienter als ein Sinuston. Ist der Pegel innerhalb einer kritischen Bandbreite bekannt
und ist weiter bekannt, ob es sich hierbei um einen tonalen oder einen rauschhaften Prozeß
handelt, kann daraus ein Rückschluß auf die Maskierungsschwelle für die betreffende kritische
Bandbreite gezogen werden. Eine Beschreibung der Berechnungsmethode findet sich bei
Johnston (1988). Die Abb. 2 zeigt, daß ein Teil der spektralen Komponenten unterhalb
der Maskierungsschwellen liegen. Der prozentuale Anteil dieser vernachlässigbaren Kompo
nenten beträgt im Mittel ca. 70-80%. Eine weitergehende Reduktionsmöglichkeit liegt in der
Berechnung ein es Übermaskierungsspektrums, bei dem die Maskierungsschwellen innerhalb
der kritischen Bandbreiten zusätzlich gewichtet werden, um auch nicht-maskierte Störkompo
nenten ausschließen zu können (siehe Deutsch, Eckel und Noll, 1992). Ein noch ungelöstes
Problem ist jedoch hierbei die Festlegung von Kriterien zur Regelung des Grades der Über
maskierung.
Tonale Komponenten verhalten sich in ihrem Frequenz Amplituden und Phasenverlauf zeitlich
stabiler als rauschhafte Komponenten (wesentlich kürzere Abklingzeiten). Dies kann die Bestimmung der Tonalität ausgenutzt
werden. Brandenburg & Johnston (1990) schlagen einen zeitlichen Prädiktor vor, der von
kombinierten Amplituden und Phaseninformationen ausgeht. Eine andere Möglichkeit bietet
die Methode von McAulay & Quatieri (1986), die den zeitlichen Zusammenhang spektraler
Komponenten mit Hilfe einer "peak-matching" Technik erfaßt Rauschhafte Komponenten
erweisen sich dabei als wesentlich kurzlebiger als tonale Komponenten. Die
Methode ist
vergleichsweise rechenintensiv, hat sich aber auf Grund vergleichender Analysen in unserem
Labor als robustes und zuverlässiges Verfahren erwiesen.
Prony′s Methode (de Prony, 1795) geht davon aus, daß eine beliebige Zeitfunktion xn durch
eine Summe exponentiell gedämpfter Zeitfunktionen darstellbar ist:
bm = Am exp(jRm)
zm = exp((παm + j2πfm)T)
Am = |bm| ist die Amplitude
Rm = tan-1 (Im(bm) / Re(bm)) ist die Phase
αm = |zm| ist die Bandbreite
fm = tan-1 (Im(zm) / Re)zm)) / 2πT ist die Frequenz
T = ist die Zeitdauer der Abtastung
zm = exp((παm + j2πfm)T)
Am = |bm| ist die Amplitude
Rm = tan-1 (Im(bm) / Re(bm)) ist die Phase
αm = |zm| ist die Bandbreite
fm = tan-1 (Im(zm) / Re)zm)) / 2πT ist die Frequenz
T = ist die Zeitdauer der Abtastung
Anders als die Fourier Transformation, deren Schätzung mittels der FFT nur eine Bestimmung
der Amplitude und der Phase einer spektralen Komponente erlaubt, werden hier zusätzlich die
Bandbreite und die Frequenz einer Komponente berechnet. Diese Parameter können beim FFT-
Spektrum nur auf indirektem Wege und nur ungenau bestimmt werden. Die Bandbreite
bestimmt den Grad der exponentiellen Dämpfung des Signals im Zeitbereich und damit den
Grad der Impulshaftigkeit eines Schallereignisses: breite Peaks fuhren zu stark exponentiell
gedämpften, d. h. impulsartigen Zeitfunktionen, schmale Peaks entsprechen im Zeitbereich
sinusförmigen Signalen. Zwischen der subjektiven Einschätzung der Impulshaftigkeit eines
Signals und dem Grad der spektralen Verbreiterung besteht ein enger statistischer
Zusammenhang (Bisping, 1989, Berry und Bisping, 1988).
Die Bestimmung der vier Prony Parameter ist numerisch ein nicht-lineares Problem
(Hildebrand, 1956), das sich jedoch folgendermaßen linearisieren läßt (siehe Marple, 1987):
Die Zeitfunktion xn wird in einem ersten Schritt als autoregressiver Prozeß der Ordnung p
aufgefaßt:
am; m = 1, 2, . . ., p sind die autoregressiven Filterkoeffizienten
en; n = 0, 1, 2, . . ., N-1 ist die Fehlerfunktion.
en; n = 0, 1, 2, . . ., N-1 ist die Fehlerfunktion.
Zur Berechnung der Filterkoeffizienten stehen eine Reihe von effizienten Verfahren zur
Verfügung. Ein robustes Schätzverfahren ist die Maximum-Entropie Methode von Barrodale
& Erickson (1980).
Im Zweiten Schritt werden die komplexen Nullstellen des Filterpolynoms
am, m = 0, 1, . . ., p, a0 = 1; bestimmt. Dies führt zur Bestimmung der Frequenz und
Bandbreite durch Auswertung der komplexen Nullstelle zl = Re(zl) + j Im(zl) in der z-
Ebene. Im dritten Schritt wird eine diskrete Fourier Transformation (DFT) zur Bestimmung
der Amplituden und Phasen bei denjenigen Frequenzen durchgeführt, die im zweiten Schritt
ermittelt wurden. Das Prony-Amplitudenspektrum wird wie folgt berechnet:
Die Formel zeigt, daß durch Kenntnis der Bandbreiten, Amplituden und Frequenzen eine
vollständige Remodellierung des Amplitudenspektrums möglich ist. Durch Änderung der Parameter auf Grund bestimmter Vorgaben, z. B. Gewichtung der Bandbreiten, sind deshalb
weitreichende Manipulationen des Spektrums und damit der Klangfarbe möglich.
Es ist bekannt, daß die numerische Stabilität der Prony Methode stark vom Signal-Rauschstand
des Signals abhängt, d. h. bei geringem Signal-Rauschabstand besteht die Gefahr, daß spektrale
Artefakte auftreten. Kumaresan & Feng (1991) schlagen aus diesem Grunde vor, die Prony
Methode mit einer schrittweisen Bandpaßfilterung mittels einer Hamminggewichtung zu
koppeln, um vor der Berechnung der Prony Parameter prominente Signalanteile gegenüber
Rauschanteilen hervorzuheben. Systematische Analysen in unserem Labor ergaben daß dieses
Verfahren die Zuverlässigkeit der Prony Methode deutlich verbessert.
Die Abbildung zeigt, daß nach der Isolierung der tonalen Peaks aus dem Spektrum eine Re
modellierung jedes einzelnen Peaks durch Filterung und Prony Analyse erfolgt. Je nach
Zielvorstellung können die Frequenzen, Bandbreiien oder Pegel individuell manipuliert werden.
Durch Frequenzvariation können z. B. "pitch shifting" Effekte erzielt werden. Durch
Veränderung der Bandbreiten kann eine Beeinflussung des Klangeindrucks in Hinsicht auf den
Grad der Impulshaftigkeit erzielt werden. Durch Pegelabsenkungen können harmonische
Verzerrungen verringert werden (Dies setzt jedoch eine Kenntnis der Grundfrequenz und der harmonischen Struktur des Signals voraus).
Durch Pegelanhebung werden die tonalen Komponenten
relativ zu den rauschhaften Komponenten verstärkt (tonale Kontrastverstärkung). Dadurch
wird nicht nur eine Unterdrückung des breitbandigen Hintergrundrauschens sondern auch des
lokalen Modulationsrauschens erzielt. Dieses ist zwar auf Grund seiner nicht-linearen Ver
knüpfung frequenz- und pegelmäßig mit den tonalen Peaks assoziiert, wird aber durch die
Remodellierung eines Peaks unterdrückt. Nach Erstellung des gewichteten Prony-Spektrums
wird dieses mit den unbehandelt gebliebenen Residualanteilen des Spektrums kombiniert und
der Gesamtpegel um den Betrag abgesenkt, um den die tonalen Anteile angehoben wurden.
Dadurch ergibt sich eine Neuschätzung des Spektrums. Unter Beibehaltung der ursprünglichen
Phase wird das Signal schließlich in den Zeitbereich zurücktransformiert.
Der bisher beschriebene Algorithmus reicht in seinen theoretischen und im Labor praktisch
erprobten Manipulationsmöglichkeiten wesentlich weiter als klassische, lineare Verfahren. Der
rechnerische Aufwand ist jedoch hoch und in der Praxis mit üblichen Audio-Workstations nicht
mehr zu bewältigen. Aus diesem Grund wurde von S.A.S. Systems einen Parallelrechner auf
Transputer- und Signalprozessorbasis entwickelt, mit dem eine Remodellierung von Audiosignalen
in Studioqualität innerhalb eines akzeptablen Zeitrahmens erfolgen kann (Bisping & Malaka,
1990). Durch die Koppelung von Signalprozessor und Transputer wurden zwei Ziele gleichzeitig
erreicht: a) der Signalprozessor sorgt für die notwendige Rechengeschwindigkeit und b) der
Transputer ermöglicht eine additive Erweiterbarkeit des Systems, je nach Bedarf (Die additive Erweiterbarkeit ist ein großes Problem bei üblichen
Rechnerkonfigurationen, z. B. auf PC-Basis und ist in der Regel nicht ohne
weiteres möglich).
Abb. 4 zeigt das Schema des Systems. Audiosignale, die via Analogband oder DAT-
Recorder in das Systems eingespeist werden (Abtastrate 44.1 kHz, 16 bit) werden zunächst auf
Hard Disk gespeichert. Die Versorgung des Systems mit Audiodaten geschieht mit einem I/O
Prozessor (I/O Node), ebenfalls auf Transputerbasis, der mit anderen I/O Prozessoren zu
beliebig großen Netzwerken zusammengeschaltet werden kann. Für die Berechnungen wird
das Signal in das Netzwerk von Transputer-Signalprozessor Knoten (T-DSP Node) vom I/O
Prozessor eingeschleust. Die Steuerung des Datenverkehrs und dem T-DSP Netzwerk erfolgt
durch einen T-DSP Masterknoten. Er stellt ebenfalls die Verbindung mit dem Hostrechner
(IBM PC) her, auf dem die graphische Bedienungsoberfläche läuft. Die beiden rechts bzw.
unterhalb des T-DSP Masterknotens verlaufenden Ketten sind T-DSP Knoten sind jeweils für
die beiden Stereokanäle zuständig.
Ergebnisse mit der beschriebenen Technik liegen bereits für das Problem der Rauschminderung
bei historischen Aufnahmen vor: Abb. 5a) zeigt das 3-D FFT-Amplitudenspektrum einer
rauschbehafteten Passage eines Gitarrensolos. Abb. 5b) zeigt die gleiche Passage nach
erfolgter Remodellierung. Abb. 6a, b) zeigt ein 3-D Zoom-Prony Amplitudenspektrum
der entsprechenden Passagen wie in Abb. 5 a,b) für den Frequenzbereich von 1.6-4.4 kHz.
Die Abbildungen machen deutlich, daß nicht nur die spektrale Struktur des Gitarrenklangs über
den gesamten Spektralbereich völlig erhalten geblieben ist, sondern auch eine substantielle
Reduktion der Rauschanteile stattgefunden hat. Die für die dargestellten Ergebnisse
benötigten Rechenzeiten liegen bei einem Verhältnis von 1 : 7 gegenüber Echtzeit.
Wesentlich für die Erfindung ist ein Verfahren zur automatischen Steuerung
des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen, gekenn
zeichnet durch folgende Verfahrensschritte:
- a) Die Amplitudenspitzen - Peaks - des Gesamt-Tonsignals werden nach ihrem Frequenz-, Amplituden- und/oder Phasenverlauf analysiert und darauf ba sierend in einem Auswahlschritt in eine von zwei Klassen klassifiziert, nämlich in die Klasse der tonalen Peaks, die vom menschlichen Gehör als klanghaft und "absichtsvoll" empfunden werden und in die Klasse der rauschhaften Peaks, die vom menschlichen Gehör als nicht klanghaft und "störend" empfunden werden,
- b) in parallelem Verlauf zum Verfahrensschritt a) wird eine akustische Meß größe - Loudness Indicator - des Gesamt-Tonsignals erfaßt, der in einer bekannten Relation zur Lautheitsempfindung des menschlichen Gehörs steht,
- c) die Amplituden der rauschhaften Peaks werden gegenüber den Amplituden der tonalen Peaks dynamisch abgesenkt, nämlich desto stärker abgesenkt, je geringer die durch den parallel erfaßten Loudness Indicator indizierte Lautheit des Gesamt-Tonsignals ist.
Abb. 7 zeigt den zeitlichen Verlauf eines Loudness Indicators, hier des RMS-
Pegels, oberhalb von 3 kHz bei einer Passage von beispielsweise Rockmusik.
Das Gesamt-Tonsignal wird wie zuvor ausführlich erläutert worden ist, klassi
fiziert nach tonalen und rauschhaften Peaks. Der im Verfahrensschritt b) er
mittelte Verlauf des Loudness Indicators - Abb. 7 - wird nun im Verfahrens
schritt c) benutzt, um eine Pegelabsenkung der rauschhaften Peaks dynamisch
zu realisieren.
Abb. 8 zeigt die Kennlinie für die Pegelsenkung der rauschhaften Komponenten
in Abhängigkeit vom Pegel, hier repräsentiert durch den Loudness Indicator
"Pegel", innerhalb eines Frequenzbandes. Man erkennt, daß die Pegelabsenkung
bei lauten Passagen (rechts in Abb. 8) wesentlich geringer ist, nämlich im
Extremfall "null" beträgt, als bei leisen Passagen (in Abb. 8 links). Man
könnte beispielsweise das untere Limit zu - 12 dB und das obere Limit zu 0 dB
legen. Im Grundsatz kann aber oberes und unteres Limit der Pegelabsenkung vom
Benutzer beliebig eingestellt werden, was seiner persönlichen Musikempfindung
besonders gut zu entsprechen vermag.
Abb. 8 zeigt die Pegelabsenkung in linearer Abhängigkeit vom Loudness Indi
cator, auch nichtlineare Verläufe sind hier möglich.
Die Wirkung des erfindungsgemäßen Verfahrens besteht für den Zuhörer darin,
daß leise Musikpassagen, bei denen das Rauschen besonders störend wirkt,
stärker entrauscht werden als laute Musikpassagen, bei denen das Rauschen
aufgrund der Maskierungseigenschaften des menschlichen Gehörs nicht so stö
rend wirkt. Das beschriebene Rauschminderungsverfahrens greift in die Signal
struktur also nur da ein, wo es unbedingt notwendig ist. Dort, wo es nicht
unbedingt notwendig ist, greift das erfindungsgemäße Rauschminderungsver
fahren nicht ein. Dadurch werden unerwünschte klangliche Verzerrungen, die
gerade bei lauten Passagen nicht zu verhindern sind, insbesondere der Ein
druck fehlender Höhen (zu dumpfes Klangbild) verhindert. Geschulte Zuhörer
empfinden den Effekt der erfindungsgemäßen Steuerung des Signal-/Rauschab
standes unmittelbar als besonders angenehm.
Abb. 9 zeigt eine Übersicht über die 24 beim erfindungsgemäßen Verfahren in
der vorliegenden Ausführungsform gebildeten Frequenz-Teilbänder (Barkbereiche),
die zuvor schon in ihrer Bedeutung für die Nachbildung der Frequenzselektivi
tät des Innenohres erläutert worden sind. Hierzu darf insbesondere auf die
Ausführungen auf den Seiten 9 und 10 verwiesen werden.
Anhand der Abb. 10 und 11 soll unter unterschiedlichen Betrachtungswinkeln
hinsichtlich der Loudness Indicators eine weiter bevorzugte Ausgestaltung
des erfindungsgemäßen Verfahrens erläutert werden, die Gegenstand der An
sprüche 5 ff. ist. Die Abb. 10 und 11 zeigen ein und denselben Teil eines
Musikstücks in zwei relativ hochfrequenten Barkbereichen, die für Rausch
einflüsse besonders empfindlich sind. Abb. 10 hat als Loudness Indicator
für das Gesamt-Tonsignal den einfachen physikalischen Lautstärkepegel (Meß
größe Dezibel, dB), während Abb. 11 dasselbe Musikstück unter dem Eindruck
des menschlichen Gehörs, nämlich mit dem Loudness Indicator "Lautheit" nach
ISO 532 B analysiert.
In beiden Abbildungen erkennt man einen ersten Musikabschnitt, der überhaupt
nicht mit dem erfindungsgemäßen Verfahren verarbeitet worden ist (8.499,98
bis 8.510,04 s). Daran schließt sich ein zweiter Teil der Darstellung an
(8.510,04 bis 8.520,11 s), bei dem nur das Verfahren nach Anspruch 1 ange
wendet worden ist. Hier ist also nur der Rauschboden nach dem erfindungsge
mäßen Verfahren dynamisch abgesenkt worden (mit welchen weiteren zusätz
lichen Funktionen der Unteransprüche das durchgeführt worden ist, interessiert
für die vorliegende Betrachtungsweise nicht). Man erkennt, daß die tonalen
Komponenten in ihrer Amplitude nicht oder praktisch nicht beeinflußt worden
sind (hier handelt es sich um Gitarrenanschläge). Im dritten Teil zwischen
8.520,11 und 8.530,17 s ist die tonale Kontrastverstärkung nach Anspruch 5
hinzugetreten, und zwar hier mit konstantem Maß gemäß Anspruch 6. Dadurch
werden einerseits die tonalen Peaks, die die Gitarrenanschläge definieren,
verstärkt, werden andererseits die harmonischen Komponenten in dem tonalen
Hauptfeld verstärkt und es werden vor allem neue Obertöne erzeugt und dem
Spektrum hinzugefügt. Dadurch stellt man in der Darstellung scheinbar eine
Erhöhung des Rauschbodens fest. Dieser Eindruck trifft aber nicht zu, der
Grund für die scheinbare Erhöhung des Rauschbodens liegt lediglich in der
insgesamt höheren Energie im Gesamt-Tonsignal, die aber primär aus den
höheren Energiewerten der tonalen Komponenten stammt.
Den im Prinzip gleichen Verlauf erkennt man aus dem Lautheitsverlauf in
Abb. 11, wobei dort die tonalen Peaks noch deutlicher aus dem Rauschboden
herausgearbeitet werden.
Würde man statt wie hier eine konstante Anhebung der tonalen Peaks eine dyna
mische Anhebung entsprechend Anspruch 7 realisieren, so käme dort eine Kenn
linie ähnlich Abb. 8 in Frage, wobei dann die Pegelwerte auf der Ordinate
nicht abgesenkt, sondern angehoben würden.
Die Beurteilung der Wirkung des DTCE-Verfahrens gelingt besonders gut mit
einer kombinierten Analyse aus Loudness Indicator "Lautstärkepegel" und Loud
ness Indicator "Lautheit".
Insbesondere in Verbindung mit einem Remodellierungsverfahren erlangt das
erfindungsgemäße Verfahren zur Steuerung des Signal-/Rausch-Abstandes große
Bedeutung. Durch das erfindungsgemäße Verfahren lassen sich ungewöhnliche
Effekte erzielen, die einer historischen Aufnahme durch Verminderung von
Hintergrund- und Modulationsrauschen den Charakter fast einer Neuproduktion
geben.
Aures, W. (1984). Berechnungsverfahren für den Wohlklang beliebiger Schallsignale. Ein
Beitrag zur gehörbezogenen Schallanalyse. Unveröffentl. Dissertation am Institut für
Elektroakustik der Techn. Universität München.
Barrodale, I., & Erickson, R. E. (1980). Algorithms for Least Square Linear Prediction and Maximum Entropy Spectral Analysis - Part I & II. Geophysics, 45, 420-446.
Berry, B.F., & Bisping, R. (1988). CEC Joint Project on Impulse Noise: Physical Quantifcation Methods. In: Berglund, B., Berglund, U., Karlsson, J., & Lindvall, T. (Eds.), Noise as a Public Health Problem (Vol. 3, pp. 153-158). Stockholm: Swedish Council of Building Research.
Bisping, R. (1989). Steady Versus Impulsive Noise: Spectral Parameters and Subjective Ratings. In: Pravica, P. , Drakulic, G. & Totic, B. (Eds.), 13th international Congress on Acoustics (Vol. 3, pp. 143-146). Sabac: Dragan Srnic Press.
Bisping, R., & Malaka, J. (1990). Echtzeitverarbeitung von Audiosignalen mit einem Transputer-Signalprozessor-Netzwerk. In: Bildungswerk des Verbandes Deutscher Tonmeister (Hrsg.), Bericht über die 16. Tonmeistertagung (pp. 138-145). München etc.: Verlag K. G. Saur.
Brandenburg, K., & Johnston, J. D. (1990). Second Generation Perceptual Audio Coding: The Hybrid Coder. 88th AES Convention. Montreux. Preprint 2937.
Brigham, E. O. (1974). The Fast Fourier Transform. London etc.: Prentice-Hall.
Deutsch, W. A., Eckel, G., & Noll, A. (1992). The Perception of Audio Signals Reduced by Overmasking to the Most Prominent Spectral Amplitudes (Peaks). 92nd AES Convention, Vienna, Preprint 3331.
Goeres-Petry, J. & Dell, J. (1990). Erfahrungen der Überarbeitung von Archivmaterial unter Einsatz von "Denoise", "Declick", und "Decrackle". In: Bildunswerk des Verbandes Deutscher Tonmeister (Hrsg.). München. Verlag K. G. Saur.
Helmholtz, H. L. F. von (1863). Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik. Braunschweig: F. Vieweg Verlag.
Hildebrand, F. B. (1956). Introduction to Numerical Analysis. New York: McGraw-Hill.
Houpert, J. (1991). NoNoise von Sonic Solution. Partner 3, 30-35.
Johnston, J. D. (1988). Transform Coding of Audio Signals Using Perceptual Noise Criteria. IEEE Journal on Selected Areas in Communication, 6, 314-323.
Kay, S. M., & Marple, S. L. (1981). Spectrum Analysis - a Modern Perspective. Proceedings of the IEEE, 69, 1380-1419.
Kumaresan, R., & Feng, Y. (1991). FIR Prefiltering Improves Prony′s Method IEEE Transactions on Signal Processing, 39, 736-741.
McAulay, R. J., & Quatieri, T. F. (1986). Speech Analysis / Synthesis Based on a Sinusoidal Representation. IEEE Transactions on Acoustics, Speech and Signal Processing, 34, 744-754.
Lim, J. S., & Oppenheim, A. V. (1983). Enhancement and Bandwidth Compression of Noisy Speech. In: J. S. Lim (Ed.), Speech Enhancernent Englewood Cliffs: Prentice Hall.
Marple, S. L. (1987). Digital Spektral Analysis. Englewood Cliffs: Prentice Hall.
Plomp, R. (1970). Timbre as a Multidimensional Artribute of Complex Tones. In: R. Plomp & G. Smoorenburg (Eds.), Frequency Analysis and Periodiciy Detection in Hearing. Leiden: Sÿthoff.
de Prony, Baron, G. R. (1795). Essai experimental et analytique: sur les lois de la dilatabilit´ des fluides ´lastiques et sur celles de la force expansive de la vapeur de l′eau et de la vapeur de làlkool à different temp´ratures. Journal de L′Ecole Polytechnique, 1, 24-76.
Rossing, T. H. (1989). The Science of Sound. Reading etc.: Addison-Wesley Publishing Company.
Zwicker, E., & Fastl, H. (1990). Psychoacoustics. Berlin etc.: Springer
Barrodale, I., & Erickson, R. E. (1980). Algorithms for Least Square Linear Prediction and Maximum Entropy Spectral Analysis - Part I & II. Geophysics, 45, 420-446.
Berry, B.F., & Bisping, R. (1988). CEC Joint Project on Impulse Noise: Physical Quantifcation Methods. In: Berglund, B., Berglund, U., Karlsson, J., & Lindvall, T. (Eds.), Noise as a Public Health Problem (Vol. 3, pp. 153-158). Stockholm: Swedish Council of Building Research.
Bisping, R. (1989). Steady Versus Impulsive Noise: Spectral Parameters and Subjective Ratings. In: Pravica, P. , Drakulic, G. & Totic, B. (Eds.), 13th international Congress on Acoustics (Vol. 3, pp. 143-146). Sabac: Dragan Srnic Press.
Bisping, R., & Malaka, J. (1990). Echtzeitverarbeitung von Audiosignalen mit einem Transputer-Signalprozessor-Netzwerk. In: Bildungswerk des Verbandes Deutscher Tonmeister (Hrsg.), Bericht über die 16. Tonmeistertagung (pp. 138-145). München etc.: Verlag K. G. Saur.
Brandenburg, K., & Johnston, J. D. (1990). Second Generation Perceptual Audio Coding: The Hybrid Coder. 88th AES Convention. Montreux. Preprint 2937.
Brigham, E. O. (1974). The Fast Fourier Transform. London etc.: Prentice-Hall.
Deutsch, W. A., Eckel, G., & Noll, A. (1992). The Perception of Audio Signals Reduced by Overmasking to the Most Prominent Spectral Amplitudes (Peaks). 92nd AES Convention, Vienna, Preprint 3331.
Goeres-Petry, J. & Dell, J. (1990). Erfahrungen der Überarbeitung von Archivmaterial unter Einsatz von "Denoise", "Declick", und "Decrackle". In: Bildunswerk des Verbandes Deutscher Tonmeister (Hrsg.). München. Verlag K. G. Saur.
Helmholtz, H. L. F. von (1863). Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik. Braunschweig: F. Vieweg Verlag.
Hildebrand, F. B. (1956). Introduction to Numerical Analysis. New York: McGraw-Hill.
Houpert, J. (1991). NoNoise von Sonic Solution. Partner 3, 30-35.
Johnston, J. D. (1988). Transform Coding of Audio Signals Using Perceptual Noise Criteria. IEEE Journal on Selected Areas in Communication, 6, 314-323.
Kay, S. M., & Marple, S. L. (1981). Spectrum Analysis - a Modern Perspective. Proceedings of the IEEE, 69, 1380-1419.
Kumaresan, R., & Feng, Y. (1991). FIR Prefiltering Improves Prony′s Method IEEE Transactions on Signal Processing, 39, 736-741.
McAulay, R. J., & Quatieri, T. F. (1986). Speech Analysis / Synthesis Based on a Sinusoidal Representation. IEEE Transactions on Acoustics, Speech and Signal Processing, 34, 744-754.
Lim, J. S., & Oppenheim, A. V. (1983). Enhancement and Bandwidth Compression of Noisy Speech. In: J. S. Lim (Ed.), Speech Enhancernent Englewood Cliffs: Prentice Hall.
Marple, S. L. (1987). Digital Spektral Analysis. Englewood Cliffs: Prentice Hall.
Plomp, R. (1970). Timbre as a Multidimensional Artribute of Complex Tones. In: R. Plomp & G. Smoorenburg (Eds.), Frequency Analysis and Periodiciy Detection in Hearing. Leiden: Sÿthoff.
de Prony, Baron, G. R. (1795). Essai experimental et analytique: sur les lois de la dilatabilit´ des fluides ´lastiques et sur celles de la force expansive de la vapeur de l′eau et de la vapeur de làlkool à different temp´ratures. Journal de L′Ecole Polytechnique, 1, 24-76.
Rossing, T. H. (1989). The Science of Sound. Reading etc.: Addison-Wesley Publishing Company.
Zwicker, E., & Fastl, H. (1990). Psychoacoustics. Berlin etc.: Springer
Claims (14)
1. Verfahren zur automatischen Steuerung des Signal-/Rausch-Abstandes bei
rauschbehafteten Tonaufnahmen, gekennzeichnet durch folgende Verfahrens
schritte:
- a) Die Amplitudenspitzen - Peaks - des Gesamt-Tonsignals werden nach ihrem Frequenz-, Amplituden- und/oder Phasenverlauf analysiert und darauf ba sierend in einem Auswahlschritt in eine von zwei Klassen klassifiziert, nämlich in die Klasse der tonalen Peaks, die vom menschlichen Gehör als klanghaft und "absichtsvoll" empfunden werden und in die Klasse der rausch haften Peaks, die vom menschlichen Gehör als nicht klanghaft und "störend" empfunden werden,
- b) in parallelem Verlauf zum Verfahrensschritt a) wird eine akustische Meß größe - Loudness Indicator - des Gesamt-Tonsignals erfaßt, der in einer bekannten Relation zur Lautheitsempfindung des menschlichen Gehörs steht,
- c) die Amplituden der rauschhaften Peaks werden gegenüber den Amplituden der tonalen Peaks dynamisch abgesenkt, nämlich desto stärker abgesenkt, je geringer die durch den parallel erfaßten Loudness Indicator indizierte Lautheit des Gesamt-Tonsignals ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Klassifizierung
im Auswahlschritt a) durch Differenzbildung erfolgt, nämlich nur eine Klassi
fizierung in die Klasse der tonalen Peaks erfolgt und alle nicht dort hinein
klassifizierten Peaks als rauschhafte Peaks behandelt werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Pegel
absenkung nach Verfahrensschritt c) vom Loudness Indicator linear abhängig ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß
die Pegelabsenkung zwischen einer festen unteren und einer festen oberen Grenze
erfolgt.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß
die Amplituden der tonalen Peaks angehoben werden.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Anhebung der
tonalen Peaks mit konstantem Maß erfolgt.
7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Anhebung der
tonalen Peaks dynamisch erfolgt, nämlich desto stärker ist, je größer die
durch den parallel erfaßten Loudness Indicator indizierte Lautheit des Ge
samt-Tonsignals ist.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Pegelanhebung
der tonalen Peaks vom Loudness Indicator linear abhängig ist.
9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, daß die Pegel
anhebung zwischen einer festen unteren und einer festen oberen Grenze er
folgt.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß
im Rahmen des Verfahrens das Gesamtband hörbarer Frequenzen in eine Mehrzahl
von Teilbändern aufgeteilt und die dynamische Rauschabsenkung und ggf. auch
die Anhebung der tonalen Peaks in jedem Teilband nach einer eigenen Kennlinie
erfolgt.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Aufteilung in
ungleich breite Teilbänder entsprechend den Barkbereichen erfolgt.
12. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Aufteilung
in gleich breite Teilbänder erfolgt.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß
als Loudness Indicator die Lautheit (sone) herangezogen wird (psychoakustisches
Verfahren).
14. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß
als Loudness Indicator der Lautstärkepegel (dB) herangezogen wird (akustisches
Verfahren).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19934335739 DE4335739A1 (de) | 1992-11-17 | 1993-10-20 | Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4238698 | 1992-11-17 | ||
DE19934335739 DE4335739A1 (de) | 1992-11-17 | 1993-10-20 | Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4335739A1 true DE4335739A1 (de) | 1994-05-19 |
Family
ID=25920504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19934335739 Ceased DE4335739A1 (de) | 1992-11-17 | 1993-10-20 | Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4335739A1 (de) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006047600A1 (en) * | 2004-10-26 | 2006-05-04 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8019095B2 (en) | 2006-04-04 | 2011-09-13 | Dolby Laboratories Licensing Corporation | Loudness modification of multichannel audio signals |
US8144881B2 (en) | 2006-04-27 | 2012-03-27 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8315398B2 (en) | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
US8396574B2 (en) | 2007-07-13 | 2013-03-12 | Dolby Laboratories Licensing Corporation | Audio processing using auditory scene analysis and spectral skewness |
US8437482B2 (en) | 2003-05-28 | 2013-05-07 | Dolby Laboratories Licensing Corporation | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |
US8504181B2 (en) | 2006-04-04 | 2013-08-06 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the MDCT domain |
US8521314B2 (en) | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8849433B2 (en) | 2006-10-20 | 2014-09-30 | Dolby Laboratories Licensing Corporation | Audio dynamics processing using a reset |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4135590A (en) * | 1976-07-26 | 1979-01-23 | Gaulder Clifford F | Noise suppressor system |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
-
1993
- 1993-10-20 DE DE19934335739 patent/DE4335739A1/de not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4135590A (en) * | 1976-07-26 | 1979-01-23 | Gaulder Clifford F | Noise suppressor system |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
Non-Patent Citations (5)
Title |
---|
AURES, W.: Berechnungsverfahren für den Wohlklang beliebiger Schallsignale. Ein Beitrag zur gehörbe-zogenen Schallanalyse. Dissertation am Institut für Elektroakustik der Technischen Universität München 1984 * |
BARRODALE, I., ERICKSON, R.E.: Algorithms for least-squares linear prediction and maximum entro-py spectral analysis - Part I: Theory. In: Geo- physics, Vol. 45, Nr. 3 (1980), S. 420-425 * |
BERRY, B.F., BISPING, R.: CEC Joint Project on Impulse Noise: Physical Quantification Methods. In: Noise as a Public Health Problem, Vol. 3, S. 153-158, Stockholm: Swedish Council of Buil- ding Research, 1988 * |
BISPING, R., MALAKA, J.: Echtzeitverarbeitung von Audiosignalen mit einem Transputer-Singalprozessor * |
BISPING, R.: Steady versus Impulsive Noises: Spectral Parameters and Subjective Ratings. In: 13th International Congress on Acoustics, Yugslavia, 1989, Vol. 3, S. 143-146 * |
Cited By (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8437482B2 (en) | 2003-05-28 | 2013-05-07 | Dolby Laboratories Licensing Corporation | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |
US10411668B2 (en) | 2004-10-26 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US9979366B2 (en) | 2004-10-26 | 2018-05-22 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US9960743B2 (en) | 2004-10-26 | 2018-05-01 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US11296668B2 (en) | 2004-10-26 | 2022-04-05 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US10720898B2 (en) | 2004-10-26 | 2020-07-21 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US10476459B2 (en) | 2004-10-26 | 2019-11-12 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US10454439B2 (en) | 2004-10-26 | 2019-10-22 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
EP2262108A1 (de) * | 2004-10-26 | 2010-12-15 | Dolby Laboratories Licensing Corporation | Berechung und Einstellung der wahrgenommenen Lautstärke/Lautheit eines Audiosignals |
US10396739B2 (en) | 2004-10-26 | 2019-08-27 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US8090120B2 (en) | 2004-10-26 | 2012-01-03 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US9954506B2 (en) | 2004-10-26 | 2018-04-24 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8488809B2 (en) | 2004-10-26 | 2013-07-16 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
WO2006047600A1 (en) * | 2004-10-26 | 2006-05-04 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US10396738B2 (en) | 2004-10-26 | 2019-08-27 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US10389320B2 (en) | 2004-10-26 | 2019-08-20 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US10389319B2 (en) | 2004-10-26 | 2019-08-20 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US9350311B2 (en) | 2004-10-26 | 2016-05-24 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US10389321B2 (en) | 2004-10-26 | 2019-08-20 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US10374565B2 (en) | 2004-10-26 | 2019-08-06 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US9966916B2 (en) | 2004-10-26 | 2018-05-08 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US10361671B2 (en) | 2004-10-26 | 2019-07-23 | Dolby Laboratories Licensing Corporation | Methods and apparatus for adjusting a level of an audio signal |
US9705461B1 (en) | 2004-10-26 | 2017-07-11 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8600074B2 (en) | 2006-04-04 | 2013-12-03 | Dolby Laboratories Licensing Corporation | Loudness modification of multichannel audio signals |
US9584083B2 (en) | 2006-04-04 | 2017-02-28 | Dolby Laboratories Licensing Corporation | Loudness modification of multichannel audio signals |
US8504181B2 (en) | 2006-04-04 | 2013-08-06 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the MDCT domain |
US8019095B2 (en) | 2006-04-04 | 2011-09-13 | Dolby Laboratories Licensing Corporation | Loudness modification of multichannel audio signals |
US9768750B2 (en) | 2006-04-27 | 2017-09-19 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US8428270B2 (en) | 2006-04-27 | 2013-04-23 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US9780751B2 (en) | 2006-04-27 | 2017-10-03 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9787268B2 (en) | 2006-04-27 | 2017-10-10 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9787269B2 (en) | 2006-04-27 | 2017-10-10 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US11962279B2 (en) | 2006-04-27 | 2024-04-16 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9866191B2 (en) | 2006-04-27 | 2018-01-09 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9768749B2 (en) | 2006-04-27 | 2017-09-19 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9762196B2 (en) | 2006-04-27 | 2017-09-12 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9742372B2 (en) | 2006-04-27 | 2017-08-22 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9698744B1 (en) | 2006-04-27 | 2017-07-04 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US10103700B2 (en) | 2006-04-27 | 2018-10-16 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US10284159B2 (en) | 2006-04-27 | 2019-05-07 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US11711060B2 (en) | 2006-04-27 | 2023-07-25 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9685924B2 (en) | 2006-04-27 | 2017-06-20 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US11362631B2 (en) | 2006-04-27 | 2022-06-14 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9450551B2 (en) | 2006-04-27 | 2016-09-20 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US8144881B2 (en) | 2006-04-27 | 2012-03-27 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US9136810B2 (en) | 2006-04-27 | 2015-09-15 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US10833644B2 (en) | 2006-04-27 | 2020-11-10 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US10523169B2 (en) | 2006-04-27 | 2019-12-31 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US9774309B2 (en) | 2006-04-27 | 2017-09-26 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
US8849433B2 (en) | 2006-10-20 | 2014-09-30 | Dolby Laboratories Licensing Corporation | Audio dynamics processing using a reset |
US8521314B2 (en) | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
US8396574B2 (en) | 2007-07-13 | 2013-03-12 | Dolby Laboratories Licensing Corporation | Audio processing using auditory scene analysis and spectral skewness |
US8315398B2 (en) | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US10299040B2 (en) | 2009-08-11 | 2019-05-21 | Dts, Inc. | System for increasing perceived loudness of speakers |
US9820044B2 (en) | 2009-08-11 | 2017-11-14 | Dts Llc | System for increasing perceived loudness of speakers |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9559656B2 (en) | 2012-04-12 | 2017-01-31 | Dts Llc | System for adjusting loudness of audio signals in real time |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2005421B1 (de) | Vorrichtung und verfahren zum erzeugen eines umgebungssignals | |
EP2206113B1 (de) | Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung | |
DE102006050068B4 (de) | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm | |
DE69401514T2 (de) | Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung | |
DE69804478T2 (de) | Verfahren und vorrichtung zur codierung und decodierung mehrere tonkanäle mit geringer bitrate | |
DE69832595T2 (de) | Mehrweg-audiodekoder | |
DE69509555T2 (de) | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation | |
DE602005006385T2 (de) | Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals | |
DE10017646A1 (de) | Geräuschunterdrückung im Zeitbereich | |
DE19629132A1 (de) | Verfahren zur Verringerung von Störungen eines Sprachsignals | |
EP1825461A1 (de) | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen | |
DE102005010057A1 (de) | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms | |
US5377277A (en) | Process for controlling the signal-to-noise ratio in noisy sound recordings | |
EP2919652B1 (de) | Bearbeiten von audiosignalen für eine tinnitustherapie | |
DE4335739A1 (de) | Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen | |
EP0938831A1 (de) | Gehörangepasste qualitätsbeurteilung von audiosignalen | |
EP1239455A2 (de) | Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung | |
DE102015204253B4 (de) | Verfahren zur frequenzabhängigen Rauschunterdrückung eines Eingangssignals sowie Hörgerät | |
WO2001047335A2 (de) | Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät | |
DE60033039T2 (de) | Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen | |
WO1993002508A1 (de) | Verfahren zum ermitteln der globalen mithörschwelle bei einer bitratenreduzierenden quellcodierung | |
DE10356063B4 (de) | Verfahren zur Entstörung von Audiosignalen | |
DE102019126509A1 (de) | Verbesserung der subjektiven bass-wahrnehmung eines audiosignals mit hilfe höherer harmonischer | |
EP1380028A2 (de) | Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8125 | Change of the main classification |
Ipc: G10L 7/02 |
|
8131 | Rejection |