DE19509149A1

DE19509149A1 - Codierverfahren

Info

Publication number: DE19509149A1
Application number: DE1995109149
Authority: DE
Inventors: Donald Dipl Ing Schulz
Original assignee: Individual
Current assignee: Individual
Priority date: 1995-03-14
Filing date: 1995-03-14
Publication date: 1996-09-19

Description

Es wird ein Verfahren vorgestellt, das eine gehörgerechte Extraktion rausch- und impulshafter Anteile in Teilbändern durchführt. Die sich daraus ergebenden Vorteile in bezug auf die Rechenzeit, die Genauigkeit der Gehörmodellbildung sowie Anwendungsmöglichkeiten zur Datenkompression werden diskutiert.

Rauschextraktion im Gesamtband

Durch adaptive Filterung mit anschließender Diskreter-Fourier-Transformation läßt sich eine gehörgerechte Extraktion rausch- und impulshafter Anteile erreichen [11]. Dabei wird das Audiosignal auf einen Prädiktor (basierend auf dem NLMS-Algorithmus) gegeben, welcher rauschhafte Signalanteile im Pegel reduziert. Diese Reduktion wird anschließend durch Vergleich der Kurzzeitspektren des Originalsignals und des rauschgeminderten Signals detektiert. Ist die relative Pegelabsenkung hinreichend groß, so wird dem zugehörigen Spektralwert ein rauschhafter Charakter zugewiesen. Eine Anwendungsmöglichkeit stellt beispielsweise die Datenkompression von Audiosignalen dar. Dazu werden benachbarte und als rauschhaft erkannte Spektralwerte zu Gruppen zusammengefaßt übertragen, welches zu einer starken Datenreduktion führt, da nicht die Abtastwerte, sondern lediglich die Frequenzbereichsgrenzen und der mittlere Pegel übermittelt werden.

Ein wesentliches Problem des Gesamtbandverfahrens stellt das Verhalten des Prädiktors dar, welcher sich auf signalstärkere Frequenzanteile schneller als auf signalschwache Frequenzanteile einstellt. Als Folge können pegelschwache tonale Komponenten vom Prädiktor nicht erfaßt werden und damit evtl. als rauschhaft erkannt werden. Dieses Problem einer begrenzten Dynamik kann kompensiert werden, indem das Restsignal (Originalsignal abzgl. rauschgemindertem Signal) nochmals einem Prädiktor zugeführt wird. In diesem Restsignal sind die signalstarken Anteile bereits bedämpft, so daß sich der Prädiktor auf die schwächeren Spektralanteile einstellen kann. Bei einer dreifachen Rekursion dieses Verfahrens kann eine für das menschliche Gehör ausreichende Dynamik der Prädiktion erzielt werden. Allerdings verringert sich bei dieser Vorgehensweise auch der Anteil der als rauschhaft erkannten Spektralwerte.

Rauschminderung in Teilbändern

Bei der Rauschminderung in Teilbändern wird das Audiosignal auf eine Teilbandfilterbank gegeben. Jedes einzelne Teilband wird anschließend einem eigenen Prädiktor zugeführt. Nach der Prädiktion werden die einzelnen Teilbänder wieder zu einem Gesamtband zusammengefaßt. Dieses Prinzip wird in Bild 1 veranschaulicht.

Als Teilbandfilterbank hat sich dabei eine Polyphasenfilterbank nach Rothweiler [12] als sinnvoll erwiesen. Bei äußerst geringem Berechnungsaufwand ist eine maximale Unterabtastung möglich. Mit dem Prototypfilter der Länge 511 und 32 Teilbändern liegt der Rekonstruktionsfehler ca. 110 Dezibel unter dem Maximalpegel und ist damit deutlich geringer als der Quantisierungsfehler eines mit 16 Bit abgetasteten Audiosignales.

Für das Gesamtbandverfahren wurde eine optimale Filterlänge von über 100 Koeffizienten ermittelt. Im Teilbandverfahren hingegen zeigten Filterlängen von etwa 8 Koeffizienten optimale Ergebnisse. Eine Rekursion durch Fehlerrückkopplung kann aufgrund der Aufspaltung in Teilbänder unterbleiben. Daher kann bei maximaler Unterabtastung der für die Prädiktion nötige Rechen aufwand mindestens um den Faktor

reduziert werden.

Rauschextraktion in Teilbändern

Zur Rauschextraktion nach der in [11] vorgestellten Methode kann direkt das Signal verwendet werden, welches durch die Rauschminderung in den Teilbändern erzeugt wurde. Wird auf die-feine spektrale Auflösung der FFT beim Gesamtbandverfahren verzichtet und nur jeweils ganzen Teilbändern rauschhafter oder tonaler Charakter zugewiesen, kann der Berechnungsaufwand deutlich reduziert werden. Der Verzicht auf die feine spektrale Auflösung stellt im Hinblick auf eine Datenkompression keinen Nachteil dar, da auch beim FFT-Verfahren immer Gruppen von Spektralwerten zusammengefaßt werden müssen und durch feste Grenzfrequenzen die Kodierung wesentlich vereinfacht wird.

Das allgemeine Prinzip der Rauschextraktion in Teilbändern wird in Bild 2 dargestellt.

Zur Bestimmung, ob ein Teilband rauschhafter oder tonaler Natur ist, wird das Teilband sowohl original als auch rauschgemindert einem Analyzer zugeführt. Jeweils 12 aufeinanderfolgende Abtast werte werden im Analyzer zu einer Gruppe zusammengefaßt. Für jedes Teilband und jede dieser Gruppen wird ein Rauschmaß berechnet, welches das Verhältnis von mittlerer Fehlersignalamplitude zu mittlerer Originalsignalamplitude darstellt. Seien

der i-te originale und

der i-te prädizierte Abtastwert einer Gruppe eines Teilbandes, so berechnet sich das Rauschmaß Ψ zu:

Übersteigt Ψ einen vorgegebenen Wert, so wird dem Teilband für diese Gruppe rauschhafter Charakter zugewiesen.

Grenzen des Verfahrens

Eine Grenze ergibt sich durch die (notwendige) Trägheit der Prädiktoren. Tritt ein Signalsprung auf, so benötigt der Prädiktor eine gewisse Zeit, um sich auf dieses Signal einzustellen. Innerhalb dieser Zeitspanne wird das Signal bedämpft und vom Analyzer als rauschhaft interpretiert. Um dies zu vermeiden, werden Signalsprünge in den Teilbändern detektiert und gegebenenfalls für eine gewisse Zeitspanne nach dem Sprung auf eine rauschhafte Kodierung des jeweiligen Teilbands verzichtet (Signalsprungdetektion, siehe Bild 4).

Werden zu viele Abtastwerte eines Teilbandes zu einer Rauschgruppe zusammengefaßt, so kann eine hörbare Rauschverschmierung eintreten. Theoretisch dürfte die Länge einer Gruppe die Zeitauflösungsgrenze des menschlichen Gehöres, die bei etwa 2 ins liegt, nicht überschreiten. Dann ließen sich jedoch nur etwa 3 Abtastwerte eines Teilbandes zu einer Gruppe zusammenfassen. Daher werden größere Gruppen gebildet, die aber nur dann auch als rauschhaft akzeptiert werden, wenn innerhalb der Originalgruppe keine größeren Pegelschwankungen zu detektieren sind (Homogenitätskontrolle, siehe Bild 4).

Weiterhin wird von jeder Gruppe eine FFT berechnet, und im Spektrum nach ausgeprägten Maxima gesucht. Sind diese vorhanden, so wird auf eine rauschhafte Verarbeitung zu verzichten (FFT- Kontrolle, siehe Bild 4).

Um eine Übersteuerung zu vermeiden, wird eine Pegelberechnung durchgeführt. Liegt der Pegel des Audiosignales nahe dem Vollaussteuerungspegel, so wird auf eine rauschhafte Verarbeitung verzichtet (Übersteuerungskontrolle, siehe Bild 4).

Das gesamte Verfahren zur Aufspaltung in rauschhafte und tonale Komponenten wird in Bild 4 veranschaulicht.

Gesamtbetrachtung

Die Vorteile des Teilbandverfahrens sind:

1. Die Parameter jedes Prädiktors können individuell gewählt werden, d. h. eine Anpassung an die frequenzabhängigen Eigenschaften des Gehörs wird möglich.
2. Bei Signalsprüngen müssen nur noch die betroffenen Teilbänder von einer Verarbeitung durch den Rauschextraktionsalgorithmus ausgeschlossen werden. Dies erhöht die Zahl der als rauschhaft erkannten Abtastwerte beträchtlich gegenüber dem Gesamtbandverfahren.
3. Die für das Gesamtbandverfahren vorhandene notwendige Rekursion zur Erhöhung der Dynamik kann beim Teilbandverfahren entfallen.
4. Durch die Reduktion der Filterlänge kann der Berechnungsaufwand im Teilbandverfahren gesenkt werden.
5. Der Rauschverschmierungseffekt, der beim Gesamtbandverfahren eine Übertragung der Einhüllenden erforderlich machte, kann durch Ausschluß einzelner Teilbandgruppen gelöst werden. Im Gesamtbandverfahren führt eine solche Realisierung zu einem deutlichen Rückgang des Anteils der als rauschhaft erkannten Spektralwerte.

Ergebnisse

Mit dem beschriebenen Verfahren konnte gezeigt werden, daß eine automatische gehörgerechte Rauschextraktion in Teilbändern möglich ist. Dazu wurde ein Testprogramm implementiert, welches die als rauschhaft erkannten Teilbandabtastwerte durch Zufallswerte ersetzte. Dabei konnten je nach Audiomaterial zwischen 20 und 50 Prozent der Teilbandabtastwerte als rauschhaft interpretiert und ersetzt werden, ohne daß vom Gehör ein Unterschied wahrgenommen werden konnte.

Dieses Verfahren wurde weiterhin in ein Verfahren zur Datenkompression von Audiosignalen integriert. Dazu wurde ein Teilbandverfahren gewählt, so daß zur Kodierung als auch zur Dekodierung jeweils nur eine Filterbank realisiert werden mußte. Der durch die Rauschextraktion bedingte zusätzliche Rechenaufwand beschränkt sich demzufolge lediglich auf die Prädiktoren und die Analyzer. Da die als rauschhaft erkannten Teilbänder von der weiteren Bearbeitung durch die Datenkompression ausgeschlossen werden, kann dort Rechenzeit eingespart werden. Die als tonal erkannten Abtastwerte wurden mit dem MPEG-Verfahren codiert (siehe Bild 3). Der zusätzlich benötigte Rechenaufwand ist folglich gegenüber dem Gesamtaufwand gering. Mit dem so erzeugten Datenkompressionsverfahren wurde bei gleicher Datenrate eine bessere Qualität als bei dem MPEG- Verfahren ohne Rauschextraktion erzielt.

Literatur

[1] R. Zelinski, P. Noll: Adaptive Transform Coding of Speech Signals, IEEE Trans. on Acoustics, Speech and Signal Processing, ASSP-25 1977, S. 299-309.
[2] E. Zwicker und H. Fastl, Psychoacoustics, Springer-Verlag.
[3] Detlef Krahe, Grundlagen eines Verfahrens zur Datenreduktion bei qualitativ hochwertigen, digitalen Audiosignalen auf Basis einer adaptiven Transformationscodierung unter Berücksichtigung psychoakustischer Phänomene, Dissertation 1988, Universität - Gesamthochschule - Duisburg.
[4] Donald Schulz, Implementierung eines Verfahrens zur Datenkompression von Audiosignalen, Studienarbeit 1991, Technische Hochschule Darmstadt, Fachgebiet Digitaltechnik.
[5] Karlheinz Brandenburg, Ein Beitrag zu den Verfahren und der Qualitätsbeurteilung für hoch wertige Musikcodierung, Dissertation 1989, Universität Erlangen-Nürnberg.
[6] Peter Wolf, Programmierung einer auf das Frequenzauflösungsvermögen des Gehöres angepaßten adaptiven Transformationscodierung für digitale Audiosignale, Diplomarbeit 1992, Technische Hochschule Darmstadt, Fachgebiet Digitaltechnik.
[7] Eberhard Hänsler, Statistische Signaie, Grundlagen und Anwendungen, Springer-Verlag.
[8] Varga, Imre, Adaptive Filtering for Noise Reduction in Audio Signals, Audio Engineering Society Preprint Nr. 3247.
[9] Xavier Serra, A system for so und analysis/transformation/synthesis based on a deterministic plus stochastic decomposition, Ph. D., Stanford University 1990.
[10] Ingo Schneider, Implementierung eines Verfahrens zur Datenkompression von akustischen Signalen unter spezieller Berücksichtigung rauschhafter Signalanteile, Studienarbeit THD 1994.
[11] Donald Schulz, Gehörgerechte Extraktion rausch- und impulshafter Anteile bei qualitativ hochwertigen Audiosignalen, Tagungsband der DAGA 1994, S. 1429-1432.
[12] Joseph H. Rothweiler, Polyphase Quadrature Filters- a new subband coding technique, Tagungsband der ICASSP 1983, S. 1280-1283.

Claims

1. Verfahren zur Codierung von Audiosignalen, insbesondere zur Steigerung des Datenkompressionsfaktors unter Verwendung von Filterbänken, Puffern, Prädiktoren, Codierern, ausgehend von einer Unterteilung des Audiosignals in Teilfilterbändern und unter Nutzung des MPEG-Audioverfahrens mit oder ohne Zeit-Frequenz-Transformationen, dadurch gekennzeichnet, daß durch einen Prädiktor die Teilbänder auf Rauschhaftigkeit hin untersucht werden, daß diejenigen Bänder, die vorzugsweise Rauschen enthalten, nicht durch ihre Zeitfunktionen, sondern nur durch ihren Mittelwert gekennzeichnet werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die tonalen (nicht rauschhaften) Teilbänder im Zeit- oder Frequenzbereich durch diskrete und quantisierte Werte codiert sind.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß jedes Teilband einem individuellen Prädiktor zugeführt wird, daß eine bestimmte Anzahl an Abtastwerten zu einer Gruppe zusammengefaßt wird, daß der Schätzfehler dieser Gruppe berechnet wird und daß diese Gruppe von Abtastwerten zu den rauschhaften Gruppen zugeordnet wird, falls dieser Schätzfehler im Verhältnis zum Pegel der Abtastwerte dieser Gruppe ein gewisses Maß überschreitet.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zusätzlich in jedem Teilband Signalsprünge und stärkere Pegelschwankungen detektiert werden und bei ihrem Auftreten auf eine Zuordnung zu den rauschhaften Gruppen verzichtet wird.

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Vermeidung von Übersteuerungen auf eine Zuordnung zu den rauschhaften Gruppen verzichtet wird, falls die Summe der Leistungen aller Abtastwerte sämtlicher Teilbandgruppen zu einem Zeitpunkt ein gewisses Maß überschreitet.

6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß auf eine Zuordnung zu den rauschhaften Gruppen verzichtet wird, falls in der Kurzzeittransformierten dieser Gruppe ein ausgeprägtes Maximum zu finden ist.

7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Rekonstruktion des Zeitverlaufs einer rauschhaften Gruppe deren Mittelwert verwendet wird, um einen Rauschgenerator so einzustellen, daß er denselben Mittelwert hat und daß dessen Zeitfunktion anstelle der ursprünglichen Zeitfunktion verwendet wird.