DE4335739A1

DE4335739A1 - Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen

Info

Publication number: DE4335739A1
Application number: DE19934335739
Authority: DE
Inventors: Rudolf Prof Dr Bisping
Original assignee: Individual
Current assignee: Individual
Priority date: 1992-11-17
Filing date: 1993-10-20
Publication date: 1994-05-19

Description

Die Erfindung betrifft ein Verfahren zur automatischen Steuerung des Signal- /Rausch-Abstandes bei rauschbehafteten Tonaufnahmen.

Es ist bekannt, das Hintergrund- und/oder Modulationsrauschen bei histori schen Aufnahmen ebenso wie bei aktuellen Aufnahmen automatisch zu verrin gern, indem der Signal-/Rauschabstand rauschbehafteter Tonaufnahmen ge steuert wird. Bekannt ist es dabei auch, daß man mit bestimmten elektro nischen bzw. datenverarbeitungstechnischen Verfahren einerseits spektrale Komponenten auf der Basis eines sogenannten Maskierungsspektrums auswählen kann, andererseits auf der Basis einer Analyse des Frequenz-, Amplituden- und/oder Phasenverlaufs zwischen tonalen und rauschhaften Peaks unterschei den kann (siehe die beigefügte Literaturliste mit Deutsch Eckel Noll (1992) und Brandenburg/Johnston (1990) bzw. McAulay/Quatieri (1986)). Hat man zu nächst einmal zwischen tonalen und rauschhaften Peaks eine Unterscheidung vornehmen können, so kann man die Amplitude der rauschhaften Peaks gegen über den Amplituden der tonalen Peaks absenken, um so das Signal-/Rausch verhältnis zu verbessern. Bekannt ist es dabei, mit einer im Grundsatz kon stanten Absenkung von beispielsweise -10 dB zu arbeiten. Außerdem ist es bekannt, das Gesamtband hörbarer Frequenzen in eine Mehrzahl von Teilbändern aufzuteilen und jedem Teilband spezifisch, aber immer jeweils wieder konstant (Equalizer-Prinzip) abzusenken.

Der Erfindung liegt die Aufgabe zugrunde, ein gattungsgemäßes Verfahren so auszugestalten, daß eine weiter verbesserte und vorzugsweise auch dem mensch lichen Gehör angepaßtere Steuerung des Signal-/Rausch-Abstandes erfolgt.

Das erfindungsgemäße Verfahren ist gekennzeichnet durch folgende Verfah rensschritte:

a) Die Amplitudenspitzen - Peaks - des Gesamt-Tonsignals werden nach ihrem Frequenz-, Amplituden- und/oder Phasenverlauf analysiert und darauf ba sierend in einem Auswahlschritt in eine von zwei Klassen klassifiziert, nämlich in die Klasse der tonalen Peaks, die vom menschlichen Gehör als klanghaft und "absichtsvoll" empfunden werden und in die Klasse der rauschhaften Peaks, die vom menschlichen Gehör als nicht klanghaft und "störend" empfunden werden,
b) in parallelem Verlauf zum Verfahrensschritt a) wird eine akustische Meß größe - Loudness Indicator - des Gesamt-Tonsignals erfaßt, der in einer bekannten Relation zur Lautheitsempfindung des menschlichen Gehörs steht,
c) die Amplituden der rauschhaften Peaks werden gegenüber den Amplituden der tonalen Peaks dynamisch abgesenkt, nämlich desto stärker abgesenkt, je geringer die durch den parallel erfaßten Loudness Indicator indizierte Lautheit des Gesamt-Tonsignals ist.

Erfindungsgemäß ist erkannt worden, daß eine konstante Absenkung, wie sie bisher im Stand der Technik ausschließlich praktiziert wird, bei der Steue rung des Signal-/Rauschabstandes rauschbehafteter Tonaufnahmen als nicht optimal empfunden wird. Insbesondere werden laute Passagen mit hohen Ampli tudenspitzen als zu dumpf gegenüber dem Original-Klang empfunden. Bei hohen Signalpegeln des Gesamt-Tonsignals erwartet das menschliche Gehör nämlich ein helleres Klangbild als bei geringerer Lautheit. Die Lösung des zuvor erläuterten akustischen Problems bringt die erfindungsgemäße dynamische Absenkung des Pegels der als rauschhaft klassifizierten Peaks in Abhängig keit von der für den jeweiligen Peak zeitgleich ermittelten Lautheit des Ge samt-Tonsignals.

Als Loudness Indicator eignen sich verschiedene in der akustischen Meßtech nik übliche Meßgrößen, beispielsweise die Lautheit nach 150 532 B (sone). Der Lautstärkepegel (in dB, dB(a), dB(b) etc.) als solcher ist meßtechnisch einfacher zu handhaben als die Lautheit und erlaubt eine einfache Auswertung. Die nichtlineare, d. h. signalabhängige und insbesondere frequenzabhängige Lautstärkeempfindung des menschlichen Gehörs wird bei der Lautheit berück sichtigt, die deshalb als Steuergröße dem Pegel vorzuziehen ist. Dennoch ergibt sich auch mit dem normalen Lautstärkepegel als Loudness Indicator eine wesentlich bessere, weil nämlich natürlicher empfundene Steuerung des Signal-/Rauschabstandes als bei der aus dem Stand der Technik bekannten konstanten Pegelabsenkung der als rauschhaft klassifizierten Peaks.

Für die Erfindung ist wesentlich eine dynamisch geregelte tonale Kontrastver stärkung (DTCE - Dynamic Tonal Contrast Enhancement), die die Rauschanteile des Gesamt-Tonsignals bei großer Lautheit weniger stark im Pegel absenkt als bei geringer Lautheit. Damit wird ein extrem natürliches, insbesondere auch bei lauten Passagen wie gewünscht helles Klangbild erreicht.

Bevorzugte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen Ver fahrens sind Gegenstand der Unteransprüche.

Eine auswertungstechnische Vereinfachung bringt Anspruch 2, indem die Klassi fizierung der rauschhaften Peaks lediglich über Differenzbildung zu den schon klassifizierten tonalen Peaks erfolgt.

Eine weitere Vereinfachung bringt Anspruch 3 und bringt entsprechend Anspruch 4, wobei die hier vorgeschlagenen Techniken für die Rechnerauswertung vor teilhaft sind und in der Praxis völlig ausreichen.

Die tonale Kontrastverstärkung (DTCE) wird weiter optimiert, wenn der Signal- /Rauschabstand nicht nur dadurch verbessert wird, daß die als rauschhaft klassifizierten Peaks in ihren Amplituden dynamisch abgesenkt werden, sondern wenn gleichzeitig eine Anhebung der Amplituden der tonalen Peaks erfolgt. Wäh rend also im ersten Verfahrensschritt nur der Rauschboden dynamisch abgesenkt wird, ohne die tonalen Peaks zu beeinträchtigen, werden nach dem zuvor er läuterten Verfahrensschritt gemäß Anspruch 5 außerdem noch die tonalen Peaks angehoben. Dadurch erhält man gleichzeitig eine Verstärkung der harmonischen Komponenten und insbesondere der Obertöne, die für das gesamte Klangbild von ebenfalls wesentlicher Bedeutung sind.

Für die Anhebung der tonalen Peaks reicht normalerweise im Gegensatz zur Absenkung der rauschhaften Peaks eine konstante Anhebung. Grundsätzlich wäre es aber auch möglich, die tonalen Peaks dynamisch anzuheben, wie das im An spruch 7 beschrieben ist. Für die Pegelanhebung gelten dann entsprechende Überlegungen wie bei der Pegelabsenkung für die rauschhaften Peaks.

Im übrigen gilt auch im vorliegenden Rahmen, daß man Verzerrungen durch zu starke tonale Peaks auch gezielt durch Absenkung eliminieren kann. Das ist dann ähnlich den im Stand der Technik praktizierten Filterverfahren.

Auch im Rahmen des erfindungsgemäßen Verfahrens empfiehlt es sich, das Gesamt band hörbarer Frequenzen in eine Mehrzahl von Teilbändern aufzuteilen und die erfindungsgemäße Steuerung des Signal-/Rauschabstandes bezogen auf jedes Teil band gesondert vorzunehmen. Das ist besonders dann sehr wirkungsvoll, wenn die Aufteilung in ungleich breite Teilbänder entsprechend den Barkbereichen erfolgt. Beispielsweise kann so der hörbare Frequenzbereich zwischen 1 und 22 000 Hz in 24 Teilbänder nach Bark aufgeteilt werden (siehe Zwicker & Fastl (1990) in der Literaturliste), die mit den kritischen Bändern im cortischen Organ des menschlichen Ohrs korrespondieren. Durch diese Aufteilung wird die Frequenzselektivität des menschlichen Innenohrs nachgebildet. Eine Anpassung der Steuerung des Signal-/Rauschabstandes unter Berücksichtigung dieser Teil bänder bringt eine nochmals ganz erheblich natürlicher empfundene Steuerung des Signal-/Rauschabstandes.

Die weitere Erläuterung der Erfindung erfolgt anhand der beigefügten Zeich nung und der nachfolgenden Erläuterung. In der Zeichnung zeigt

Abb. 1 in einem Blockschaltbild den schematischen Rechenweg der spektra len Subtraktion,

Abb. 2 das Spektrum eines Tonsignals mit einem darüber gelagerten Maskierungsspektrum,

Abb. 3 das Schema des spektralen Remodellierungsverfahrens,

Abb. 4 das Schema eines Parallelrechners zur Remodellierung von Audio signalen,

Abb. 5 das dreidimensional gezeichnete Amplitudenspektrum zweier Gitarren anschläge, und zwar a) rauschbehaftetes Original, b) nach Remodel lierung,

Abb. 6 ein Abb. 5 entsprechendes Amplitudenspektrum, jedoch nicht mit Fouriertransformation erzielt.

Abb. 7 den zeitlichen Verlauf des Loudness Indicators "Pegel" ober halb von 3 kHz bei einer Musikpassage,

Abb. 8 eine bevorzugte Kennlinie für eine Pegelabsenkung der als rausch haft klassifizierten Peaks in Abhängigkeit vom Loudness Indica tor (Pegel) innerhalb eines Frequenzbandes für das Gesamt-Ton signal,

Abb. 9 eine Übersicht der bei dem erfindungsgemäßen Verfahren im bevorzug ten Ausführungsbeispiel eingeteilten Barkbereiche,

Abb. 10 den zeitlichen Verlauf des Loudness Indicators "Lautstärkepegel" in zwei ausgewählten, besonders rauschempfindlichen Barkbereichen in drei Steuerungsstufen,

Abb. 11 in einer Abb. 10 entsprechenden Darstellung den entsprechenden zeit lichen Verlauf des Loudness Indicators "Lautheit".

Um den Hintergrund des erfindungsgemäßen Verfahrens besser nachvollziehen zu können, wird nachfolgend erläutert, in welchem Zusammenhang eine Steue rung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen beson dere Bedeutung hat und welche Verfahren hierzu eingesetzt werden können und, nach der Lehre der Erfindung, eingesetzt werden. Besondere Bedeutung kommt dabei der Remodellierung historischer Aufnahmen zu, die eine immer größere Bedeutung gewinnt. Mit Hilfe von umfangreichen Computer-Programmen wird eine vorhandene Tonaufnahme dabei zerlegt, auf wesentliche Kernbestandteile redu ziert, um Rechenaufwand zu sparen, und dann wieder neu so zusammengesetzt, daß am Ende ein wesentlich verbessertes, dem der Tonaufnahme zugrundeliegende Ori ginal-Musikstück wesentlich näher kommendes Klangbild entsteht.

Die gegenwärtigen, am Markt erhältlichen Verfahren zur Verminderung des Rauschpegels ("Denoising") bei Musik- und Sprachaufnahmen basieren im wesentlichen auf der Methode der spektralen Subtraktion (siehe Lim & Oppenheim, 1983). Dem Verfahren liegt die Überlegung zugrunde, daß die rauschbehaftete Zeitfunktion x(n) additiv aus einem erwünschten, rausch freien Signalanteil s(n) und einem Rauschanteil r(n) besteht:

x(n) = s(n) + r(n)

Unter der Voraussetzung, daß s(n) und r(n) unkorreliert sind, ergibt die Berechnung des Leistungsspektrums mit Hilfe der FFT:

| X(k) | ² = | S(k) | ² + | R(k) | ²

wobei:

N = Anzahl der Signalwerte
k = Ordnungszahl der Frequenzen: 0, 1, . . ., N-1
n = Ordnungszahl der Signalwerte: 0, 1, . . ., N-1
π = Kreiszahl
j = imaginäre Zahl

X(k) ist eine komplexe Zahl der Form a(k) ± j b(k). Die Koeffizienten a(k) und b(k) werden als Fourierkoeffizienten bezeichnet (siehe Brigham, 1976).

Das Quadrat von X(k) ist die spektrale Leistung:

| X(k) |² = a(k)² + b(k)²

Die Amplitude von X(k) ergibt sich als:

Die Phase wird berechnet durch:

ϕ = tan^-1(b(k)/a(k)).

Durch die Rücktransformation in den Zeitbereich mit der inversen Fouriertransformation IFFT) wird die ursprüngliche Zeitfunktion rekonstituiert. Die IFFT gehorcht folgendem Algorithmus.

Die theoretische Annahme, daß sich Signal und Rauschen additiv zueinander verhalten, impli ziert, daß Signal und Rauschen lineare, d. h. voneinander unabhängige Prozesse sind. Diese An nahme gilt aber z. B. beim Modulationsrauschen nicht, da hier der Störpegel vom Signalpegel abhängt und somit nicht-lineare Verhältnisse vorliegen.

Die Schätzung des Rauschspektrums erfolgt bei der spektralen Subtraktionsmethode dadurch, daß ein mittleres Rauschspektrum durch Auswertung signalfreier Abschnitte der Musikauf nahme, z. B. zu Beginn oder am Ende der Aufnahme, bestimmt wird. Dies führt zu folgendem Ansatz:

| X(k) |² = | S(k) |² + E [ | R(k) |²] ,

wobei E[|R(k)²|] den Erwartungswert des Rauschspektrums darstellt.

Bei dieser Vorgehensweise wird vorausgesetzt, daß die Bestimmung des gemittelten Rauschspektrums auf der Basis der verfügbaren Rauschpassagen (üblicherweise Zeitsequenzen von weniger als einer Sekunde Dauer) tatsächlich eine Abschätzung des Erwartungswerts des Rauschspektrums (das sog. "wahre" Rauschspektrum) ermöglicht. Weiterhin wird angenom men, daß der geschätzte Erwartungswert repräsentativ für das individuelle Rauschspektrum zu einem beliebigen Zeitpunkt ist. In der Praxis sind diese Annahmen jedoch nicht immer erfüllt, da sich die statistischen Eigenschaften des Rauschens während einer Aufnahme ändern können.

Eine Schätzung des gewünschten Signalspektrums erfolgt durch Subtraktion des Erwartungs werts des Rauschspektrums vom Originalspektrum:

| (k) |² = | X(k) |² - E[ | R(k) |²]

Verallgemeinert kann man schreiben:

| (k) |a = | X(k) |a - bE [ | R(k) |a]

Wird a = 2 und b = 1 gesetzt entspricht dies der Methode nach Abb. 1. Durch Gewich tung des Rauschspektrums mit b kann der Grad der Entrauschung vom Anwender bestimmt werden. Bei der Rücktransformation in den Zeitbereich wird die ursprüngliche Phase beibe halten, d. h. die Phase unterliegt keiner weiteren Manipulation. Dies entspricht der Beobach tung, daß die Phase für die Klangwahrnehmung des menschlichen Ohrs nur von untergeord neter Bedeutung ist von Helmholtz, 1863; Plomb, 1970; siehe Rossing), 1989).

Die bisherigen Überlegungen zeigen, daß die spektrale Subtraktionsmethode nur globale und zeitlich invariante Signaleigenschaften berücksichtigt (siehe Lim & Oppenheim, 1983). Dies bedeutet für die praktische Anwendung dieses Verfahrens, daß nur stationäres Hintergrund rauschen reduziert und damit der Störpegelabstand insgesamt nur in gewissen Grenzen ver bessert werden kann. Eine zu starke Rauschminderung führt leicht zu tonalen Artefakten bzw. zu einer klanglichen Verschlechterung des Gesamtergebnisses, sobald sich durch zeitliche Schwankungen die akustischen Signaleigenschaften ändern (siehe Goeres-Petry & Dell, 1990; Houpert, 1991). Störeinflüsse wie Modulationsrauschen oder harmonische Verzerrungen können mit dieser Methode nicht beseitigt werden, da ihre Behandlung einen Eingriff in die spektrale Struktur des Signals voraussetzt. Aus diesem Grunde wurde der Ansatz einer Remodellierung isolierter Komponenten des Spektrums gewählt. Unter den in der Literatur beschriebenen Verfahren bietet die Prony Spektralanalyse hierfür besonders weitreichende Möglichkeiten (siehe Kay & Marple, 1981; Marple, 1987).

Ein wesentliches Problem stellt die Auswahl der zu modellierenden spektralen Komponenten dar. Dies geschieht in zwei Schritten. Im ersten Schritt wird auf der Basis eines FFT-Spek trums ein Maskierungsspektrum berechnet und nur diejenigen Komponenten ausgewählt, die oberhalb der Maskierungsschwellen liegen. Der wesentliche Zweck dieser Maßnahme ist die Reduktion der spektralen Komponenten, um bei der späteren Remodellierung nur die hörbaren Komponenten zu berücksichtigen. Im zweiten Schritt wird das Zeitverhalten der ausgewählten Komponenten analysiert, um tonale Komponenten von nicht-tonalen unterscheiden zu können. Bei der nachfolgenden Remodellierung des Spektrums werden die tonalen Anteile dann gezielt gegenüber den Rauschanteilen verstärkt (tonale Kontrastverstärkung).

Auswahl spektraler Komponenten Auswahl auf Grund von Maskierungseffekten

Maskierung bedeutet, daß bestimmte Töne vom Ohr auf Grund des Vorhandenseins anderer Töne nicht mehr wahrgenommen werden, obwohl sie vom Pegel her oberhalb der Hörschwelle liegen. Liegt ein leiser Ton frequenzmäßig in der Nachbarschaft eines lauten Tons, wird er von diesem verdeckt, da die Maskierungsschwelle in diesem Frequenzbereich über den Pegel des leisen Tons angehoben wird. Neben der Simultanverdeckung bei zeitgleichen Tönen wird in der Psychoakustik außerdem zwischen Vor- und Nachverdeckung unterschieden, je nachdem ob der maskierende (laute) Ton zeitlich vor oder nach dem maskierten (leisen) Ton liegt (siehe Zwicker & Fastl, 1990).

Bei der Berechnung der Maskierungsschwellen wird der hörbare Frequenzbereich in 24 Teil bänder aufgeteilt, die mit den kritischen Bändern im Cortischen Organ korrespondieren. Dadurch wird die Frequenzselektivität des Innenohrs nachgebildet. Die kritischen Bandbreiten werden auch Frequenzgruppen genannt. Ihre Maßeinheit ist Bark. Unterhalb von 500 Hz beträgt die Breiie einer Frequenzgruppe konstant 100 Hz, oberhalb von 500 Hz nimmt ihre Breite mit wachsender Frequenz zu und beträgt im Mittel ca. 20% ihrer jeweiligen Mitten frequenz. Für die Berechnung der Maskierungsschwellen ist weiterhin wichtig, daß Sinustöne beim Hören frequenzmäßig benachbarte Sinustöne in geringerem Maße verdecken als dies Rauschbänder mit gleicher Mittenfrequenz tun. Rauschen übertönt demzufolge ein Nutzsignal sehr viel effizienter als ein Sinuston. Ist der Pegel innerhalb einer kritischen Bandbreite bekannt und ist weiter bekannt, ob es sich hierbei um einen tonalen oder einen rauschhaften Prozeß handelt, kann daraus ein Rückschluß auf die Maskierungsschwelle für die betreffende kritische Bandbreite gezogen werden. Eine Beschreibung der Berechnungsmethode findet sich bei Johnston (1988). Die Abb. 2 zeigt, daß ein Teil der spektralen Komponenten unterhalb der Maskierungsschwellen liegen. Der prozentuale Anteil dieser vernachlässigbaren Kompo nenten beträgt im Mittel ca. 70-80%. Eine weitergehende Reduktionsmöglichkeit liegt in der Berechnung ein es Übermaskierungsspektrums, bei dem die Maskierungsschwellen innerhalb der kritischen Bandbreiten zusätzlich gewichtet werden, um auch nicht-maskierte Störkompo nenten ausschließen zu können (siehe Deutsch, Eckel und Noll, 1992). Ein noch ungelöstes Problem ist jedoch hierbei die Festlegung von Kriterien zur Regelung des Grades der Über maskierung.

Auswahl auf Grund zeitlicher Stabilität

Tonale Komponenten verhalten sich in ihrem Frequenz Amplituden und Phasenverlauf zeitlich stabiler als rauschhafte Komponenten (wesentlich kürzere Abklingzeiten). Dies kann die Bestimmung der Tonalität ausgenutzt werden. Brandenburg & Johnston (1990) schlagen einen zeitlichen Prädiktor vor, der von kombinierten Amplituden und Phaseninformationen ausgeht. Eine andere Möglichkeit bietet die Methode von McAulay & Quatieri (1986), die den zeitlichen Zusammenhang spektraler Komponenten mit Hilfe einer "peak-matching" Technik erfaßt Rauschhafte Komponenten erweisen sich dabei als wesentlich kurzlebiger als tonale Komponenten. Die Methode ist vergleichsweise rechenintensiv, hat sich aber auf Grund vergleichender Analysen in unserem Labor als robustes und zuverlässiges Verfahren erwiesen.

Remodellierung spektraler Komponenten

Prony′s Methode (de Prony, 1795) geht davon aus, daß eine beliebige Zeitfunktion x_n durch eine Summe exponentiell gedämpfter Zeitfunktionen darstellbar ist:

b_m = A_m exp(jR_m)
z_m = exp((πα_m + j2πf_m)T)
A_m = |b_m| ist die Amplitude
R_m = tan^-1 (Im(b_m) / Re(b_m)) ist die Phase
α_m = |z_m| ist die Bandbreite
f_m = tan^-1 (Im(z_m) / Re)z_m)) / 2πT ist die Frequenz
T = ist die Zeitdauer der Abtastung

Anders als die Fourier Transformation, deren Schätzung mittels der FFT nur eine Bestimmung der Amplitude und der Phase einer spektralen Komponente erlaubt, werden hier zusätzlich die Bandbreite und die Frequenz einer Komponente berechnet. Diese Parameter können beim FFT- Spektrum nur auf indirektem Wege und nur ungenau bestimmt werden. Die Bandbreite bestimmt den Grad der exponentiellen Dämpfung des Signals im Zeitbereich und damit den Grad der Impulshaftigkeit eines Schallereignisses: breite Peaks fuhren zu stark exponentiell gedämpften, d. h. impulsartigen Zeitfunktionen, schmale Peaks entsprechen im Zeitbereich sinusförmigen Signalen. Zwischen der subjektiven Einschätzung der Impulshaftigkeit eines Signals und dem Grad der spektralen Verbreiterung besteht ein enger statistischer Zusammenhang (Bisping, 1989, Berry und Bisping, 1988).

Die Bestimmung der vier Prony Parameter ist numerisch ein nicht-lineares Problem (Hildebrand, 1956), das sich jedoch folgendermaßen linearisieren läßt (siehe Marple, 1987):

Die Zeitfunktion x_n wird in einem ersten Schritt als autoregressiver Prozeß der Ordnung p aufgefaßt:

a_m; m = 1, 2, . . ., p sind die autoregressiven Filterkoeffizienten
e_n; n = 0, 1, 2, . . ., N-1 ist die Fehlerfunktion.

Zur Berechnung der Filterkoeffizienten stehen eine Reihe von effizienten Verfahren zur Verfügung. Ein robustes Schätzverfahren ist die Maximum-Entropie Methode von Barrodale & Erickson (1980).

Im Zweiten Schritt werden die komplexen Nullstellen des Filterpolynoms a_m, m = 0, 1, . . ., p, a₀ = 1; bestimmt. Dies führt zur Bestimmung der Frequenz und Bandbreite durch Auswertung der komplexen Nullstelle z_l = Re(z_l) + j Im(z_l) in der z- Ebene. Im dritten Schritt wird eine diskrete Fourier Transformation (DFT) zur Bestimmung der Amplituden und Phasen bei denjenigen Frequenzen durchgeführt, die im zweiten Schritt ermittelt wurden. Das Prony-Amplitudenspektrum wird wie folgt berechnet:

Die Formel zeigt, daß durch Kenntnis der Bandbreiten, Amplituden und Frequenzen eine vollständige Remodellierung des Amplitudenspektrums möglich ist. Durch Änderung der Parameter auf Grund bestimmter Vorgaben, z. B. Gewichtung der Bandbreiten, sind deshalb weitreichende Manipulationen des Spektrums und damit der Klangfarbe möglich.

Es ist bekannt, daß die numerische Stabilität der Prony Methode stark vom Signal-Rauschstand des Signals abhängt, d. h. bei geringem Signal-Rauschabstand besteht die Gefahr, daß spektrale Artefakte auftreten. Kumaresan & Feng (1991) schlagen aus diesem Grunde vor, die Prony Methode mit einer schrittweisen Bandpaßfilterung mittels einer Hamminggewichtung zu koppeln, um vor der Berechnung der Prony Parameter prominente Signalanteile gegenüber Rauschanteilen hervorzuheben. Systematische Analysen in unserem Labor ergaben daß dieses Verfahren die Zuverlässigkeit der Prony Methode deutlich verbessert.

Abb. 3 faßt das Remodellierungsverfahren auf der Basis der bisherigen Überlegungen schematisch zusammen

Die Abbildung zeigt, daß nach der Isolierung der tonalen Peaks aus dem Spektrum eine Re modellierung jedes einzelnen Peaks durch Filterung und Prony Analyse erfolgt. Je nach Zielvorstellung können die Frequenzen, Bandbreiien oder Pegel individuell manipuliert werden. Durch Frequenzvariation können z. B. "pitch shifting" Effekte erzielt werden. Durch Veränderung der Bandbreiten kann eine Beeinflussung des Klangeindrucks in Hinsicht auf den Grad der Impulshaftigkeit erzielt werden. Durch Pegelabsenkungen können harmonische Verzerrungen verringert werden (Dies setzt jedoch eine Kenntnis der Grundfrequenz und der harmonischen Struktur des Signals voraus). Durch Pegelanhebung werden die tonalen Komponenten relativ zu den rauschhaften Komponenten verstärkt (tonale Kontrastverstärkung). Dadurch wird nicht nur eine Unterdrückung des breitbandigen Hintergrundrauschens sondern auch des lokalen Modulationsrauschens erzielt. Dieses ist zwar auf Grund seiner nicht-linearen Ver knüpfung frequenz- und pegelmäßig mit den tonalen Peaks assoziiert, wird aber durch die Remodellierung eines Peaks unterdrückt. Nach Erstellung des gewichteten Prony-Spektrums wird dieses mit den unbehandelt gebliebenen Residualanteilen des Spektrums kombiniert und der Gesamtpegel um den Betrag abgesenkt, um den die tonalen Anteile angehoben wurden. Dadurch ergibt sich eine Neuschätzung des Spektrums. Unter Beibehaltung der ursprünglichen Phase wird das Signal schließlich in den Zeitbereich zurücktransformiert.

Implementierung des Algorithmus auf einem Transputer-Signalprozessor-Netz

Der bisher beschriebene Algorithmus reicht in seinen theoretischen und im Labor praktisch erprobten Manipulationsmöglichkeiten wesentlich weiter als klassische, lineare Verfahren. Der rechnerische Aufwand ist jedoch hoch und in der Praxis mit üblichen Audio-Workstations nicht mehr zu bewältigen. Aus diesem Grund wurde von S.A.S. Systems einen Parallelrechner auf Transputer- und Signalprozessorbasis entwickelt, mit dem eine Remodellierung von Audiosignalen in Studioqualität innerhalb eines akzeptablen Zeitrahmens erfolgen kann (Bisping & Malaka, 1990). Durch die Koppelung von Signalprozessor und Transputer wurden zwei Ziele gleichzeitig erreicht: a) der Signalprozessor sorgt für die notwendige Rechengeschwindigkeit und b) der Transputer ermöglicht eine additive Erweiterbarkeit des Systems, je nach Bedarf (Die additive Erweiterbarkeit ist ein großes Problem bei üblichen Rechnerkonfigurationen, z. B. auf PC-Basis und ist in der Regel nicht ohne weiteres möglich).

Abb. 4 zeigt das Schema des Systems. Audiosignale, die via Analogband oder DAT- Recorder in das Systems eingespeist werden (Abtastrate 44.1 kHz, 16 bit) werden zunächst auf Hard Disk gespeichert. Die Versorgung des Systems mit Audiodaten geschieht mit einem I/O Prozessor (I/O Node), ebenfalls auf Transputerbasis, der mit anderen I/O Prozessoren zu beliebig großen Netzwerken zusammengeschaltet werden kann. Für die Berechnungen wird das Signal in das Netzwerk von Transputer-Signalprozessor Knoten (T-DSP Node) vom I/O Prozessor eingeschleust. Die Steuerung des Datenverkehrs und dem T-DSP Netzwerk erfolgt durch einen T-DSP Masterknoten. Er stellt ebenfalls die Verbindung mit dem Hostrechner (IBM PC) her, auf dem die graphische Bedienungsoberfläche läuft. Die beiden rechts bzw. unterhalb des T-DSP Masterknotens verlaufenden Ketten sind T-DSP Knoten sind jeweils für die beiden Stereokanäle zuständig.

Ergebnisse

Ergebnisse mit der beschriebenen Technik liegen bereits für das Problem der Rauschminderung bei historischen Aufnahmen vor: Abb. 5a) zeigt das 3-D FFT-Amplitudenspektrum einer rauschbehafteten Passage eines Gitarrensolos. Abb. 5b) zeigt die gleiche Passage nach erfolgter Remodellierung. Abb. 6a, b) zeigt ein 3-D Zoom-Prony Amplitudenspektrum der entsprechenden Passagen wie in Abb. 5 a,b) für den Frequenzbereich von 1.6-4.4 kHz. Die Abbildungen machen deutlich, daß nicht nur die spektrale Struktur des Gitarrenklangs über den gesamten Spektralbereich völlig erhalten geblieben ist, sondern auch eine substantielle Reduktion der Rauschanteile stattgefunden hat. Die für die dargestellten Ergebnisse benötigten Rechenzeiten liegen bei einem Verhältnis von 1 : 7 gegenüber Echtzeit.

Wesentlich für die Erfindung ist ein Verfahren zur automatischen Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen, gekenn zeichnet durch folgende Verfahrensschritte:

Abb. 7 zeigt den zeitlichen Verlauf eines Loudness Indicators, hier des RMS- Pegels, oberhalb von 3 kHz bei einer Passage von beispielsweise Rockmusik. Das Gesamt-Tonsignal wird wie zuvor ausführlich erläutert worden ist, klassi fiziert nach tonalen und rauschhaften Peaks. Der im Verfahrensschritt b) er mittelte Verlauf des Loudness Indicators - Abb. 7 - wird nun im Verfahrens schritt c) benutzt, um eine Pegelabsenkung der rauschhaften Peaks dynamisch zu realisieren.

Abb. 8 zeigt die Kennlinie für die Pegelsenkung der rauschhaften Komponenten in Abhängigkeit vom Pegel, hier repräsentiert durch den Loudness Indicator "Pegel", innerhalb eines Frequenzbandes. Man erkennt, daß die Pegelabsenkung bei lauten Passagen (rechts in Abb. 8) wesentlich geringer ist, nämlich im Extremfall "null" beträgt, als bei leisen Passagen (in Abb. 8 links). Man könnte beispielsweise das untere Limit zu - 12 dB und das obere Limit zu 0 dB legen. Im Grundsatz kann aber oberes und unteres Limit der Pegelabsenkung vom Benutzer beliebig eingestellt werden, was seiner persönlichen Musikempfindung besonders gut zu entsprechen vermag.

Abb. 8 zeigt die Pegelabsenkung in linearer Abhängigkeit vom Loudness Indi cator, auch nichtlineare Verläufe sind hier möglich.

Die Wirkung des erfindungsgemäßen Verfahrens besteht für den Zuhörer darin, daß leise Musikpassagen, bei denen das Rauschen besonders störend wirkt, stärker entrauscht werden als laute Musikpassagen, bei denen das Rauschen aufgrund der Maskierungseigenschaften des menschlichen Gehörs nicht so stö rend wirkt. Das beschriebene Rauschminderungsverfahrens greift in die Signal struktur also nur da ein, wo es unbedingt notwendig ist. Dort, wo es nicht unbedingt notwendig ist, greift das erfindungsgemäße Rauschminderungsver fahren nicht ein. Dadurch werden unerwünschte klangliche Verzerrungen, die gerade bei lauten Passagen nicht zu verhindern sind, insbesondere der Ein druck fehlender Höhen (zu dumpfes Klangbild) verhindert. Geschulte Zuhörer empfinden den Effekt der erfindungsgemäßen Steuerung des Signal-/Rauschab standes unmittelbar als besonders angenehm.

Abb. 9 zeigt eine Übersicht über die 24 beim erfindungsgemäßen Verfahren in der vorliegenden Ausführungsform gebildeten Frequenz-Teilbänder (Barkbereiche), die zuvor schon in ihrer Bedeutung für die Nachbildung der Frequenzselektivi tät des Innenohres erläutert worden sind. Hierzu darf insbesondere auf die Ausführungen auf den Seiten 9 und 10 verwiesen werden.

Anhand der Abb. 10 und 11 soll unter unterschiedlichen Betrachtungswinkeln hinsichtlich der Loudness Indicators eine weiter bevorzugte Ausgestaltung des erfindungsgemäßen Verfahrens erläutert werden, die Gegenstand der An sprüche 5 ff. ist. Die Abb. 10 und 11 zeigen ein und denselben Teil eines Musikstücks in zwei relativ hochfrequenten Barkbereichen, die für Rausch einflüsse besonders empfindlich sind. Abb. 10 hat als Loudness Indicator für das Gesamt-Tonsignal den einfachen physikalischen Lautstärkepegel (Meß größe Dezibel, dB), während Abb. 11 dasselbe Musikstück unter dem Eindruck des menschlichen Gehörs, nämlich mit dem Loudness Indicator "Lautheit" nach ISO 532 B analysiert.

In beiden Abbildungen erkennt man einen ersten Musikabschnitt, der überhaupt nicht mit dem erfindungsgemäßen Verfahren verarbeitet worden ist (8.499,98 bis 8.510,04 s). Daran schließt sich ein zweiter Teil der Darstellung an (8.510,04 bis 8.520,11 s), bei dem nur das Verfahren nach Anspruch 1 ange wendet worden ist. Hier ist also nur der Rauschboden nach dem erfindungsge mäßen Verfahren dynamisch abgesenkt worden (mit welchen weiteren zusätz lichen Funktionen der Unteransprüche das durchgeführt worden ist, interessiert für die vorliegende Betrachtungsweise nicht). Man erkennt, daß die tonalen Komponenten in ihrer Amplitude nicht oder praktisch nicht beeinflußt worden sind (hier handelt es sich um Gitarrenanschläge). Im dritten Teil zwischen 8.520,11 und 8.530,17 s ist die tonale Kontrastverstärkung nach Anspruch 5 hinzugetreten, und zwar hier mit konstantem Maß gemäß Anspruch 6. Dadurch werden einerseits die tonalen Peaks, die die Gitarrenanschläge definieren, verstärkt, werden andererseits die harmonischen Komponenten in dem tonalen Hauptfeld verstärkt und es werden vor allem neue Obertöne erzeugt und dem Spektrum hinzugefügt. Dadurch stellt man in der Darstellung scheinbar eine Erhöhung des Rauschbodens fest. Dieser Eindruck trifft aber nicht zu, der Grund für die scheinbare Erhöhung des Rauschbodens liegt lediglich in der insgesamt höheren Energie im Gesamt-Tonsignal, die aber primär aus den höheren Energiewerten der tonalen Komponenten stammt.

Den im Prinzip gleichen Verlauf erkennt man aus dem Lautheitsverlauf in Abb. 11, wobei dort die tonalen Peaks noch deutlicher aus dem Rauschboden herausgearbeitet werden.

Würde man statt wie hier eine konstante Anhebung der tonalen Peaks eine dyna mische Anhebung entsprechend Anspruch 7 realisieren, so käme dort eine Kenn linie ähnlich Abb. 8 in Frage, wobei dann die Pegelwerte auf der Ordinate nicht abgesenkt, sondern angehoben würden.

Die Beurteilung der Wirkung des DTCE-Verfahrens gelingt besonders gut mit einer kombinierten Analyse aus Loudness Indicator "Lautstärkepegel" und Loud ness Indicator "Lautheit".

Insbesondere in Verbindung mit einem Remodellierungsverfahren erlangt das erfindungsgemäße Verfahren zur Steuerung des Signal-/Rausch-Abstandes große Bedeutung. Durch das erfindungsgemäße Verfahren lassen sich ungewöhnliche Effekte erzielen, die einer historischen Aufnahme durch Verminderung von Hintergrund- und Modulationsrauschen den Charakter fast einer Neuproduktion geben.

Literatur

Aures, W. (1984). Berechnungsverfahren für den Wohlklang beliebiger Schallsignale. Ein Beitrag zur gehörbezogenen Schallanalyse. Unveröffentl. Dissertation am Institut für Elektroakustik der Techn. Universität München.
Barrodale, I., & Erickson, R. E. (1980). Algorithms for Least Square Linear Prediction and Maximum Entropy Spectral Analysis - Part I & II. Geophysics, 45, 420-446.
Berry, B.F., & Bisping, R. (1988). CEC Joint Project on Impulse Noise: Physical Quantifcation Methods. In: Berglund, B., Berglund, U., Karlsson, J., & Lindvall, T. (Eds.), Noise as a Public Health Problem (Vol. 3, pp. 153-158). Stockholm: Swedish Council of Building Research.
Bisping, R. (1989). Steady Versus Impulsive Noise: Spectral Parameters and Subjective Ratings. In: Pravica, P. , Drakulic, G. & Totic, B. (Eds.), 13th international Congress on Acoustics (Vol. 3, pp. 143-146). Sabac: Dragan Srnic Press.
Bisping, R., & Malaka, J. (1990). Echtzeitverarbeitung von Audiosignalen mit einem Transputer-Signalprozessor-Netzwerk. In: Bildungswerk des Verbandes Deutscher Tonmeister (Hrsg.), Bericht über die 16. Tonmeistertagung (pp. 138-145). München etc.: Verlag K. G. Saur.
Brandenburg, K., & Johnston, J. D. (1990). Second Generation Perceptual Audio Coding: The Hybrid Coder. 88th AES Convention. Montreux. Preprint 2937.
Brigham, E. O. (1974). The Fast Fourier Transform. London etc.: Prentice-Hall.
Deutsch, W. A., Eckel, G., & Noll, A. (1992). The Perception of Audio Signals Reduced by Overmasking to the Most Prominent Spectral Amplitudes (Peaks). 92nd AES Convention, Vienna, Preprint 3331.
Goeres-Petry, J. & Dell, J. (1990). Erfahrungen der Überarbeitung von Archivmaterial unter Einsatz von "Denoise", "Declick", und "Decrackle". In: Bildunswerk des Verbandes Deutscher Tonmeister (Hrsg.). München. Verlag K. G. Saur.
Helmholtz, H. L. F. von (1863). Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik. Braunschweig: F. Vieweg Verlag.
Hildebrand, F. B. (1956). Introduction to Numerical Analysis. New York: McGraw-Hill.
Houpert, J. (1991). NoNoise von Sonic Solution. Partner 3, 30-35.
Johnston, J. D. (1988). Transform Coding of Audio Signals Using Perceptual Noise Criteria. IEEE Journal on Selected Areas in Communication, 6, 314-323.
Kay, S. M., & Marple, S. L. (1981). Spectrum Analysis - a Modern Perspective. Proceedings of the IEEE, 69, 1380-1419.
Kumaresan, R., & Feng, Y. (1991). FIR Prefiltering Improves Prony′s Method IEEE Transactions on Signal Processing, 39, 736-741.
McAulay, R. J., & Quatieri, T. F. (1986). Speech Analysis / Synthesis Based on a Sinusoidal Representation. IEEE Transactions on Acoustics, Speech and Signal Processing, 34, 744-754.
Lim, J. S., & Oppenheim, A. V. (1983). Enhancement and Bandwidth Compression of Noisy Speech. In: J. S. Lim (Ed.), Speech Enhancernent Englewood Cliffs: Prentice Hall.
Marple, S. L. (1987). Digital Spektral Analysis. Englewood Cliffs: Prentice Hall.
Plomp, R. (1970). Timbre as a Multidimensional Artribute of Complex Tones. In: R. Plomp & G. Smoorenburg (Eds.), Frequency Analysis and Periodiciy Detection in Hearing. Leiden: Sÿthoff.
de Prony, Baron, G. R. (1795). Essai experimental et analytique: sur les lois de la dilatabilit´ des fluides ´lastiques et sur celles de la force expansive de la vapeur de l′eau et de la vapeur de làlkool à different temp´ratures. Journal de L′Ecole Polytechnique, 1, 24-76.
Rossing, T. H. (1989). The Science of Sound. Reading etc.: Addison-Wesley Publishing Company.
Zwicker, E., & Fastl, H. (1990). Psychoacoustics. Berlin etc.: Springer

Claims

1. Verfahren zur automatischen Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen, gekennzeichnet durch folgende Verfahrens schritte:

a) Die Amplitudenspitzen - Peaks - des Gesamt-Tonsignals werden nach ihrem Frequenz-, Amplituden- und/oder Phasenverlauf analysiert und darauf ba sierend in einem Auswahlschritt in eine von zwei Klassen klassifiziert, nämlich in die Klasse der tonalen Peaks, die vom menschlichen Gehör als klanghaft und "absichtsvoll" empfunden werden und in die Klasse der rausch haften Peaks, die vom menschlichen Gehör als nicht klanghaft und "störend" empfunden werden,
b) in parallelem Verlauf zum Verfahrensschritt a) wird eine akustische Meß größe - Loudness Indicator - des Gesamt-Tonsignals erfaßt, der in einer bekannten Relation zur Lautheitsempfindung des menschlichen Gehörs steht,
c) die Amplituden der rauschhaften Peaks werden gegenüber den Amplituden der tonalen Peaks dynamisch abgesenkt, nämlich desto stärker abgesenkt, je geringer die durch den parallel erfaßten Loudness Indicator indizierte Lautheit des Gesamt-Tonsignals ist.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Klassifizierung im Auswahlschritt a) durch Differenzbildung erfolgt, nämlich nur eine Klassi fizierung in die Klasse der tonalen Peaks erfolgt und alle nicht dort hinein klassifizierten Peaks als rauschhafte Peaks behandelt werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Pegel absenkung nach Verfahrensschritt c) vom Loudness Indicator linear abhängig ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Pegelabsenkung zwischen einer festen unteren und einer festen oberen Grenze erfolgt.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Amplituden der tonalen Peaks angehoben werden.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Anhebung der tonalen Peaks mit konstantem Maß erfolgt.

7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Anhebung der tonalen Peaks dynamisch erfolgt, nämlich desto stärker ist, je größer die durch den parallel erfaßten Loudness Indicator indizierte Lautheit des Ge samt-Tonsignals ist.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Pegelanhebung der tonalen Peaks vom Loudness Indicator linear abhängig ist.

9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, daß die Pegel anhebung zwischen einer festen unteren und einer festen oberen Grenze er folgt.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß im Rahmen des Verfahrens das Gesamtband hörbarer Frequenzen in eine Mehrzahl von Teilbändern aufgeteilt und die dynamische Rauschabsenkung und ggf. auch die Anhebung der tonalen Peaks in jedem Teilband nach einer eigenen Kennlinie erfolgt.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Aufteilung in ungleich breite Teilbänder entsprechend den Barkbereichen erfolgt.

12. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Aufteilung in gleich breite Teilbänder erfolgt.

13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß als Loudness Indicator die Lautheit (sone) herangezogen wird (psychoakustisches Verfahren).

14. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß als Loudness Indicator der Lautstärkepegel (dB) herangezogen wird (akustisches Verfahren).