EP1979901B1

EP1979901B1 - Verfahren und anordnungen zur audiosignalkodierung

Info

Publication number: EP1979901B1
Application number: EP06706508.6A
Authority: EP
Inventors: Martin Gartner; Bernd Geiser; Peter Jax; Stefan Schandl; Herve Taddei; Peter Vary
Original assignee: Unify GmbH and Co KG
Current assignee: Unify GmbH and Co KG
Priority date: 2006-01-31
Filing date: 2006-01-31
Publication date: 2015-10-14
Anticipated expiration: 2026-01-31
Also published as: WO2007087824A1; CN101336451A; EP1979901A1; CN101336451B; US20090024399A1; US8612216B2

Description

Die Erfindung betrifft ein Verfahren und Anordnungen zur Audiosignalkodierung. Insbesondere betrifft die Erfindung ein Verfahren und einen Audiosignaldekoder zum Bilden eines Audiosignals sowie einen Audiosignalenkoder.
In vielen zeitgemäßen Kommunikationssystemen und insbesondere in mobilen Kommunikationssystemen stehen für Echtzeit-Audioübertragungen, wie z.B. Sprach- oder Musikübertragungen, nur begrenzte Übertragungsbandbreiten zur Verfügung. Um über eine Übertragungsstrecke mit begrenzter Bandbreite, wie z.B. über ein Funknetz, möglichst viele Audiokanäle in Echtzeit zu übertragen, ist deshalb häufig vorgesehen, die zu übertragenden Audiosignale durch echtzeit- oder quasiechtzeitfähige Audio-Kodierungsverfahren zu komprimieren und nach der Übertragung zu dekomprimieren. Im Folgenden sei unter dem Begriff Audio insbesondere auch Sprache verstanden.
Bei derartigen Audio-Kodierungsverfahren wird in der Regel angestrebt, die zu übertragende Datenmenge und damit die Übertragungsrate möglichst zu reduzieren ohne den subjektiven Höreindruck bzw. bei Sprachübertragungen die Verständlichkeit, zu sehr zu beinträchtigen.
Eine effiziente Komprimierung von Audiosignalen ist auch im Zusammenhang mit einer Speicherung oder Archivierung von Audiosignalen ein wesentlicher Gesichtspunkt.
Als besonders effizient erweisen sich Kodierungsverfahren, bei denen ein durch ein Audiosynthesefilter synthetisiertes Audiosignal zeitrahmenweise an ein zu übertragendes Audiosignal durch Optimierung von Filterparametern angeglichen wird. Eine derartige Verfahrensweise wird häufig auch als Analysisby-Synthesis bezeichnet. Das Audiosynthesefilter wird dabei durch ein vorzugsweise ebenfalls zu optimierendes Anregungssignal angeregt. Die Filterung wird häufig auch als Formant-Synthese bezeichnet. Als Filterparameter können z.B. sog. LPC-Koeffizienten (LPC: Linear Predictive Coding) und/oder Parameter, die eine spektrale und/oder zeitliche Einhüllende des Audiosignals spezifizieren, verwendet werden. Die optimierten Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann zeitrahmenweise zum Empfänger übertragen, um dort mittels eines empfängerseitig vorgesehenen Audiosignaldekoders ein synthetisches Audiosignal zu formen, das dem ursprünglichen Audiosignal hinsichtlich des subjektiven Höreindrucks möglichst ähnlich ist.
Ein derartiges Audio-Kodierungsverfahren ist aus der ITU-T-Empfehlung G.729 bekannt. Mittels des dort beschriebenen Audio-Kodierungsverfahrens kann ein Echtzeit-Audiosignal mit einer Bandbreite von 4 kHz auf eine Übertragungsrate von 8 kbit/s reduziert werden.
Darüber hinaus wird derzeit angestrebt, ein zu übertragendes Audiosignal zur Verbesserung des Höreindrucks mit höherer Bandbreite zu synthetisieren. Bei der gegenwärtig diskutierten Erweiterung G.729EV der G.792-Empfehlung wird versucht, die Audio-Bandbreite von 4 kHz auf 8 kHz zu erweitern.
Die erzielbare Übertragungsbandbreite und Audiosynthesequalität hängen wesentlich von der Erzeugung eines geeigneten Anregungssignals ab.
Im Falle einer Bandbreitenerweiterung, bei der ein Anregungssignal u_nb(k) in einem tiefen Subband, z.B. im Frequenzbereich von 50 Hz bis 3,4 kHz, bereits vorliegt, kann ein bandbreitenerweiterndes Anregungssignal u_hb(k) in einem hohen Subband, z.B. im Frequenzbereich von 3,4 - 7 kHz, als spektrale Kopie des schmalbandigen Anregungssignals u_nb(k) gebildet werden. (Durch den Index k seien hier und im Folgenden Abtastwerte des Anregungssignals oder anderer Signale indiziert.) Die Kopie kann hierbei durch spektrale Translation oder durch spektrale Spiegelung des schmalbandigen Anregungssignals u_nb(k)gebildet werden. Durch eine solche spektrale Translation oder Spiegelung wird jedoch das Spektrum des Anregungssignals unharmonisch verzerrt und/oder es wird ein erheblicher, hörbarer Phasenfehler im Spektrum verursacht. Dies führt jedoch zu einem hörbaren Qualitätsverlust des Audiosignals.
Das Dokument D1 ( EP 1 420 389 A1 ) offenbart eine Sprachbandbreitenerweiterungsvorrichtung und ein Sprachbandbreitenerweiterungsverfahren. Die Vorrichtung umfasst unter anderem einen Demultiplexer, der ein empfangenes Signal in multiplexe Parameter wie Sprachinformation, d. h. in einen Index, aufteilt. Dieser Index umfasst einen Verstärkungscodevektor, einen Index für die Verzögerung eines adaptiven Codebuchs, Informationen über ein Schallquellensignal und einen Index eines Schallquellencodevektors und einen Index eines Spektrumparameters und gibt diese aus. Ein Addierer benutzt ein Schallquellensignal, das in der Frequenzbandbreite erweitert wird, und addiert dieses Signal auf ein Signal aus der Umwandlung des Wiedergabesprachsignals mit einer Abtastfrequenz, die eine höhere Frequenzkomponente wiedergibt und ein um eine Frequenzbandbreite erweitertes Sprachsignal ausgibt.
Es ist Aufgabe der vorliegenden Erfindung ein Verfahren zum Bilden eines Audiosignals anzugeben, das eine Verbesserung der Hörqualität erlaubt, wobei die Übertragungsbandbreite nicht oder nur verhältnismäßig wenig erhöht wird. Es ist weiterhin Aufgabe der Erfindung, einen Audiosignaldekoder zur Durchführung des Verfahrens sowie einen Audiosignalenkoder anzugeben.
Gelöst wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1, durch einen Audiosignaldekoder mit den Merkmalen des Anspruchs 14 sowie durch einen Audiosignalenkoder mit den Merkmalen des Anspruchs 15.
Beim erfindungsgemäßen Verfahren zum Bilden eines Audiosignals werden auf ein erstes Subband entfallende Frequenzkomponenten des Audiosignals mittels eines Subband-Dekoders anhand von zugeführten, jeweils eine Grundperiode des Audiosignals angebenden Grundperiodenwerten gebildet. Auf ein zweites Subband entfallende Frequenzkomponenten des Audiosignals werden durch Anregen eines Audiosynthesefilters mittels eines für das zweite Subband spezifischen Anregungssignals gebildet. Zur Erzeugung des für das zweite Subband spezifischen Anregungssignals wird durch einen Anregungssignalgenerator ein Grundperiodenparameter aus den Grundperiodenwerten abgeleitet. Anhand des Grundperiodenparameters werden durch den Anregungssignalgenerator Impulse mit einer vom Grundperiodenparameter abhängigen Impulsform in einem durch den Grundperiodenparameter bestimmten Zeitabstand gebildet und mit einem Rauschsignal gemischt.
Mittels der Erfindung können auf ein weiteres, zweites Subband entfallende Frequenzkomponenten des Audiosignals anhand von Grundperiodenwerten synthetisiert werden, die bereits für einen für das erste Subband spezifischen Subband-Dekoder zur Verfügung gestellt werden. Da auch für die Erzeugung des Rauschsignals im Allgemeinen keine zusätzlichen Audioparameter benötigt werden, erfordert die Erzeugung des Anregungssignals im Allgemeinen keine zusätzliche Übertragungsbandbreite. Durch die Hinzufügung der Frequenzkomponenten des weiteren, zweiten Subbands kann die Hörqualität des Audiosignals indes erheblich verbessert werden, insbesondere da ein durch die Grundperiodewerte bestimmter, harmonischer Oberwellengehalt im zweiten Subband reproduziert werden kann.
Vorteilhafte Ausführungsformen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen angegeben.
Nach einer vorteilhaften Ausführungsform der Erfindung kann der Grundperiodenparameter die Grundperiode des Audiosignals bis auf einen Bruchteil eines ersten, dem Subband-Decoder zugeordneten Abtastabstandes angeben. Durch einen bis auf einen Bruchteil - vorzugsweise 1/N mit ganzzahligem N - des ersten Abtastabstandes genau angegebenen Grundperiodenparameter können die Impulse mit einer gegenüber dem Subband-Decoder höheren Genauigkeit beabstandet werden, wodurch sich ein Oberwellenspektrum des Audiosignals im zweiten Subband feiner modellieren lässt.
Weiterhin kann die Impulsform eines jeweiligen Impulses abhängig von einem in Einheiten des ersten Abtastabstandes nicht-ganzzahligen Anteil des Grundperiodenparameters aus unterschiedlichen, in einer Nachschlagetabelle gespeicherten Impulsformen ausgewählt werden. Aus der Nachschlagetabelle lassen sich ganz unterschiedliche Impulsformen durch einfachen Abruf mit geringem Schaltungs-, Verarbeitungs- oder Rechenaufwand in Echtzeit abrufen. Die abzuspeichernden Impulsformen können vorab hinsichtlich einer möglichst naturgetreuen Audiowiedergabe optimiert werden. Tatsächlich lassen sich die kumulierten Effekte oder die kumulierte Impulsantwort mehrerer Filter, Dezimatoren und/oder Modulatoren vorab berechnen und jeweils-als entsprechend geformter Impuls in der Nachschlagetabelle abspeichern. Als Dezimator wird in diesem Zusammenhang ein Umsetzer bezeichnet, der einen Abtastabstand eines Signals um einen Dezimierungsfaktor m vervielfacht, indem alle Abtastwerte bis auf jeden m-ten Abtastwert verworfen werden. Unter einem Modulator wird ein Filter verstanden, das einzelne Abtastwerte eines Signals mit vorgegebenen Einzelfaktoren multipliziert und das jeweilige Produkt ausgibt.
Ferner kann der Zeitabstand der Impulse durch einen in Einheiten des ersten Abtastabstandes ganzzahligen Anteil des Grundperiodenparameters bestimmt werden.
Nach einer weiteren vorteilhaften Ausführungsform der Erfindung können die Impulse aus einer vorgegebenen Impulsform, z.B. einem Rechteckimpuls, durch Abtastwerte gebildet werden, die einen zweiten Abtastabstand aufweisen, der um einen Bandbreitenerweiterungsfaktor geringer ist als der erste Abtastabstand. Der Zeitabstand der Impulse kann dann in Einheiten des zweiten Abtastabstandes durch den mit dem Bandbreitenerweiterungsfaktor multiplizierten Grundperiodenparameter bestimmt werden. Als Bandbreitenerweiterungsfaktor kann vorzugsweise das Inverse N desjenigen Bruchteils 1/N gewählt werden, der der Genauigkeit des Grundperiodenparameters in Einheiten des ersten Abtastabstandes entspricht.
Vorzugsweise können die Impulse durch ein Impulsformungsfilter mit im zweiten Abtastabstand vorgegebenen Filterkoeffizienten geformt werden.
Weiterhin können die Impulse vor oder nach Beimischung des Rauschsignals durch mindestens einen Hoch-, Tief- und/oder Bandpass gefiltert und/oder durch mindestens einen Dezimator dezimiert werden.
Nach einer weiteren vorteilhaften Ausführungsform der Erfindung kann der Grundperiodenparameter zeitrahmenweise aus einem oder mehreren Grundperiodenwerten abgeleitet werden.
Insbesondere kann der Grundperiodenparameter dabei aus schwankungsausgleichend, vorzugsweise nicht linear verknüpften Grundperiodenwerten mehrerer Zeitrahmen abgeleitet werden. Auf diese Weise kann vermieden werden, dass Schwankungen oder Sprünge der Grundperiodenwerte, die z.B. aus durch Störgeräusche verursachten Fehlmessungen einer Audiogrundfrequenz resultieren können, sich auf den Grundperiodenparameter nachteilig auswirken.
In diesem Zusammenhang kann eine relative Abweichung eines aktuellen Grundperiodenwertes von einem früheren Grundperiodenwert oder von einer daraus abgeleiteten Größe ermittelt werden und im Rahmen der Ableitung des Grundperiodenparameters abgedämpft werden.
Gemäß einer weiteren vorteilhaften Ausführungsform der Erfindung wird ein Mischungsverhältnis zwischen den Impulsen und dem Rauschsignal durch mindestens einen Mischungsparameter bestimmt. Dieser kann zeitrahmenweise aus einem im Subband-Decoder bestehenden Pegelverhältnis zwischen einem tonalen und atonalen Audiosignalanteil des ersten Subbandes abgeleitet werden. Auf diese Weise können im Subband-Dekoder vorliegende, ein Oberton-Rausch-Verhältnis im ersten Subband betreffende Pegelparameter zur Bildung der Audiosignalkomponenten im zweiten Subband genutzt werden.
Weiterhin kann im Rahmen der Ableitung des Mischungsparameters das Pegelverhältnis derart umgesetzt werden, dass bei Überwiegen des atonalen Audiosignalanteils der tonale Audiosignalanteil weiter abgesenkt wird. Da bei natürlichen Audioquellen ein atonaler Audiosignalanteil in höheren Frequenzbändern, insbesondere ab 6 kHz zunehmend überwiegt, kann durch eine solche Absenkung die Wiedergabequalität in der Regel verbessert werden.
Vorteilhafte Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnung näher erläutert.
Dabei zeigen jeweils in schematischer Darstellung:

Figur 1 einen Audiosignaldekoder,
Figur 2 eine erste Ausführungsvariante eines Anregungssignalgenerators,
Figur 3a Filterkoeffizienten eines Impulsformungsfilters,
Figur 3b ein Energiespektrum der Filterkoeffizienten,
Figur 4 eine zweite Ausführungsvariante eines Anregungssignalgenerators und
Figur 5 vorab berechnete Impulsformen.

Figur 1 zeigt in schematischer Darstellung einen Audiosignaldekoder, der aus einem zugeführten Datenstrom kodierter Audiodaten AD ein synthetisches Audiosignal SAS erzeugt. Die Erzeugung des synthetischen Audiosignals SAS ist auf verschiedene Subbänder aufgeteilt. So werden auf ein erstes, tiefes Subband entfallende Frequenzkomponenten des synthetischen Audiosignals SAS separat von auf ein zweites, hohes Subband entfallenden Frequenzkomponenten des synthetischen Audiosignals SAS erzeugt. Es sei in den nachfolgenden Ausführungsbeispielen beispielhaft angenommen, dass das tiefe Subband einen Frequenzbereich f = 0-4 kHz und das hohe Subband einen Frequenzbereich f = 4-8 kHz umfasst. Das tiefe Subband wird im Folgenden auch als schmalbandig bezeichnet.
Im tiefen Subband werden die zugeführten Audiodaten AD von einem für das tiefe Subband spezifischen Tiefband-Decoder LBD, d.h. einem Decoder mit einer im Wesentlichen nur das tiefe Subband umfassenden Bandbreite dekodiert. Hierfür werden insbesondere in den Audiodaten AD enthaltene, für das tiefe Subband spezifische Nebeninformationen, nämlich atonale Mischungsparameter g_FIX, tonale Mischungsparameter g_LTP sowie Grundperiodenwerte λ_LTP verwertet. Der Tiefband-Dekoder, z.B. ein Sprachcodec gemäß der ITU-Empfehlung G.729, erzeugt dabei ein schmalbandiges Audiosignal NAS im Frequenzbereich f = 0-4 kHz mit einer Abtastrate f_s = 8 kHz.
Im hohen Subband wird durch einen Hochband-Anregungssignalgenerator HBG anhand von den vom Tiefband-Dekoder LBD zeitrahmenweise extrahierten Nebeninformationen g_FIX, g_LTP und λ_LTP ein synthetisches Anregungssignal u(k) gebildet. Die Variable k bezeichnet hier und im Folgenden einen Index, durch den digitale Abtastwerte des Anregungssignals oder anderer Signale indiziert werden. Das Anregungssignal u(k) wird vom Anregungssignalgenerator HBG einem Audiosynthesefilter ASYN zugeführt, das dadurch zur Erzeugung eines synthetischen Hochband-Audiosignals HAS im Frequenzbereich f = 4-8 kHz angeregt wird. Das Hochband-Audiosignal HAS wird mit dem schmalbandigen Audiosignal NAS kombiniert, um schließlich das breitbandige synthetische Audiosignal SAS im Frequenzbereich f = 0-8 kHz zu erzeugen und auszugeben.
Mittels des Audiosignaldekoders kann auf einfache Weise auch ein Audiosignalenkoder realisiert werden. Zu diesem Zweck ist das synthetisierte Audiosignal SAS einer Vergleichseinrichtung (nicht dargestellt) zuzuleiten, die das synthetisierte Audiosignal SAS mit einem zu enkodierenden Audiosignal vergleicht. Durch Variation der Audiodaten AD und insbesondere der Nebeninformationen g_FIX, g_LTP und λ_LTP wird dann das synthetisierte Audiosignal SAS an das zu enkodierende Audiosignal angeglichen.
Die Erfindung kann vorteilhaft zur allgemeinen Audiokodierung, zur Subband-Audiosynthese sowie zur künstlichen Bandbreitenerweiterung von Audiosignalen verwendet werden. Letzteres kann hierbei als Spezialfall einer Subband-Audiosynthese interpretiert werden, bei der Information über ein bestimmtes Subband genutzt wird, um fehlende Frequenzkomponenten eines anderen Subbandes zu rekonstruieren oder zu schätzen.
Die vorstehend genannten Anwendungsmöglichkeiten basieren auf einem geeignet gebildeten Anregungssignal u(k). Das Anregungssignal u(k), das eine spektrale Feinstruktur eines Audiosignals repräsentiert, kann durch das Audiosynthesefilter ASYN auf unterschiedliche Weise, z.B. durch Formung seines Zeit- und/oder Frequenzverlaufs, umgesetzt werden.
Damit ein synthetisch gebildetes Anregungssignal u(k) möglichst genau mit einem ursprünglichen, von einem (Subband-) Audiosignalenkoder verwendeten Anregungssignal (nicht dargestellt) übereinstimmt, sollte das synthetische Anregungssignal u(k) vorzugsweise folgende Eigenschaften aufweisen:

Das synthetische Anregungssignal u(k) sollte im Allgemeinen ein flaches Spektrum aufweisen. Bei atonalen, d.h. stimmlosen Lauten kann das synthetische Anregungssignal u(k) dazu aus weißem Rauschen gebildet werden.
Für tonale, d.h. stimmhafte Laute sollte das synthetische Anregungssignal u(k) harmonische Signalkomponenten, d.h. spektrale Spitzen in ganzzahligen Vielfachen einer Audiogrundfrequenz F₀ aufweisen.

In der Praxis treten indes kaum reine tonale oder reine atonale Audiosignale auf. Stattdessen enthalten reale Audiosignale in der Regel eine Mischung aus tonalen und atonalen Komponenten. Das synthetische Anregungssignal u(k) ist vorzugsweise so zu erzeugen, dass ein Oberton-Rausch-Verhältnis, d.h. ein Energie- oder Intensitätsverhältnis der tonalen und atonalen Komponenten des ursprünglichen Audiosignals möglichst genau reproduziert wird.
Während tonaler Laute addiert sich zu den Harmonischen der Audiogrundfrequenz F₀ im Allgemeinen ein breitbandiger Geräuschanteil. Dieser Geräuschanteil wird bei höheren Frequenzen insbesondere ab 6 kHz häufig dominant.
Im Folgenden wird die Bildung eines zur Audiokodierung, zur Subband-Audiosynthese sowie zur künstlichen Bandbreitenerweiterung von Audiosignalen geeigneten Anregungssignals u(k) näher erläutert.
Das Anregungssignal u(k) wird als ein mit einer vorgegebenen Abtastrate von z.B. 16 kHz oder 8 kHz abgetastetes Subband-Signal erzeugt. Dieses Subband-Signal u(k) repräsentiert die Frequenzkomponenten des hohen Subbandes von 4-8 kHz, durch die die Bandbreite des schmalbandigen Audiosignals NAS zu erweitern ist. Das schmalbandige Audiosignal NAS erstreckt sich über einen Frequenzbereich von 0-4 kHz und wird mit einer Abtastrate von 8 kHz abgetastet.
Das gebildete Anregungssignal u(k) regt das Audiosynthesefilter ASYN an und wird dadurch zum Hochband-Audiosignal HAS geformt. Das synthetische, breitbandige Audiosignal SAS wird schließlich durch Kombination des geformten Hochband-Audiosignals HAS und des schmalbandigen Audiosignals NAS mit einer höheren Abtastrate von z.B. 16 kHz erzeugt.
Die Bildung des Anregungssignals u(k) basiert auf einem Audioerzeugungsmodell, bei dem tonale, d.h. stimmhafte Laute durch eine Sequenz von Impulsen und atonale, d.h. stimmlose Laute durch vorzugsweise weißes Rauschen angeregt werden. Verschiedene Modifikationen sind vorgesehen, um gemischte Anregungsformen zuzulassen, durch die sich ein verbesserter Höreindruck erzielen lässt.
Die Erzeugung der tonalen Komponenten des Anregungssignals u(k) basiert auf zwei Audioparametern des Audioerzeugungsmodells, nämlich der Audiogrundfrequenz F₀ und dem Energie- bzw. Intensitätsverhältnis γ zwischen den tonalen und den atonalen Audiokomponenten im tiefen Subband. Letzteres wird häufig auch als Oberton-Rausch-Verhältnis oder "Harmonics to Noise Ratio", kurz HNR bezeichnet. Die Audiogrundfrequenz F₀ wird in der Fachsprache auch "fundamental speech frequency" genannt.
Beide Audioparameter F₀ und γ können beim Empfänger eines übertragenen Audiosignals extrahiert werden; vorzugsweise (z.B. im Fall einer Bandbreitenerweiterung) direkt vom tiefen Frequenzband des Audiosignals oder (z.B. im Fall einer Subband-Audiosynthese) vom Tiefband-Decoder eines zugrunde liegenden Tiefband-Audiocodecs, bei dem solche Audioparameter in der Regel verfügbar sind.
Die Audiogrundfrequenz F₀ wird häufig durch einen Grundperiodenwert repräsentiert, der durch Abtastrate geteilt durch die Audiogrundfrequenz F₀ gegeben ist. Der Grundperiodenwert wird häufig auch als "pitch lag" bezeichnet. Der Grundperiodenwert ist ein Audioparameter, der im Allgemeinen bei Standard-Audiocodecs, wie z.B. gemäß G.729-Empfehlung, zu Zwecken einer so genannten "long-term prediction", kurz LTP, übermittelt wird. Falls ein solcher Standard-Audiocodec für das tiefe Subband verwendet wird, kann die Audiogrundfrequenz F₀ anhand der von diesem Audiocodec bereitgestellten LPT-Audioparameter ermittelt oder geschätzt werden.
Bei vielen Standard-Audiocodecs, wie z.B. gemäß G.729-Empfehlung, wird ein LTP-Grundperiodenwert mit einer zeitlichen Auflösung, d.h. Genauigkeit übermittelt, die einen Bruchteil 1/N des von diesem Audiocodec verwendeten Abtastabstandes beträgt. Bei einem Audiocodec gemäß der G.729-Empfehlung wird der LTP-Grundperiodenwert mit einer Genauigkeit von 1/3 des Abtastabstandes bereitgestellt. In Einheiten dieses Abtastabstandes kann der Grundperiodenwert also auch nicht-ganzzahlige Werte annehmen. Eine solche Genauigkeit kann von dem betreffenden Audioenkoder beispielsweise durch eine Abfolge von sog. "open-loop"- und "closed-loop"-Suchen erzielt werden. Der Audioenkoder versucht hierbei denjenigen Grundperiodenwert zu finden, bei dem die Intensität bzw. Energie eines LTP-Restsignals minimiert wird. Ein auf diese Weise ermittelter LTP-Grundperiodenwert kann jedoch insbesondere bei starken Nebengeräuschen von dem der tatsächlichen Audiogrundfrequenz F₀ der tonalen Audiokomponenten entsprechenden Grundperiodenwert abweichen und somit eine genaue Reproduktion dieser tonalen Audiokomponenten beeinträchtigen. Als typische Abweichungen treten Periodenverdoppelungsfehler und Periodenhalbierungsfehler auf. Das heißt, die dem abweichenden LPT-Grundperiodenwert entsprechende Frequenz ist die Hälfte bzw. das Doppelte der tatsächlichen Audiogrundfrequenz F₀ der tonalen Audiokomponenten.
Bei Verwendung solcher LTP-Grundperiodenwerte zur Synthese der tonalen Audiokomponenten im hohen Subband sollten derart große Frequenzabweichungen vermieden werden. Um die Auswirkungen von typischen Periodenverdoppelungs- und Periodenhalbierungsfehlern zu minimieren, kann im Rahmen der Erfindung die nachfolgend erläuterte Nachverarbeitungstechnik eingesetzt werden:

Mit λ_LTP(µ) sei ein aus dem Tiefband-Dekoder LBD aktuell extrahierter LTP-Grundperiodenwert bezeichnet, wobei µ einen Index eines jeweils verarbeiteten Zeitrahmens oder Subrahmens darstellt. Der Grundperiodenwert λ_LTP(µ) ist in Einheiten des Abtastabstandes des Tiefband-Dekoders LBD gegeben und kann auch nicht-ganzzahlige Werte annehmen.

Aus dem Verhältnis zwischen dem aktuellen Grundperiodenwert λ_LTP(µ) und einem gefilterten Grundperiodenwert λ_post(µ-1) des vorhergehenden Rahmens wird zunächst ein ganzzahliger Faktor f errechnet als $f = round (\frac{λ_{LTP} (μ)}{λ_{post} (μ - 1)}) .$
Die Funktion round bildet hierbei ihr Argument auf die nächstgelegene ganze Zahl ab.
Eine Entscheidung, ob der aktuelle Grundperiodenwert λ_LTP(µ) zu modifizieren ist, wird abhängig von einem relativen Fehler $e = 1 - \frac{λ_{LTP} (μ)}{f \cdot λ_{post} (μ - 1)}$

getroffen. Falls der relative Fehler e unterhalb einer vorgegebenen Schwelle ε von z.B. 1/10 liegt, wird angenommen, dass der aktuelle Grundperiodenwert λ_LTP(µ) das Ergebnis einer beginnenden Phase mit Periodenverdopplungs- oder -Vervielfachungsfehler ist. In einem solchen Fall wird der aktuelle Grundperiodenwert λ_LTP(µ) durch Division mit dem Faktor f dergestalt korrigiert bzw. gefiltert, dass sich die gefilterten Grundperiodenwerte λ_post(µ) über mehrere Zeitrahmen µ hinweg im Wesentlichen stetig verhalten. Es erweist sich als vorteilhaft den gefilterten Grundperiodenwert λ_post(µ) gemäß $λ_{post} (μ) = {\begin{matrix} \frac{1}{N} \cdot round (\frac{N}{f} \cdot λ_{LTP} (μ)) & falls f > 1 \lor |e| < ε \\ λ_{LTP} (μ) & sonst . \end{matrix}$

zu bestimmen. Durch die Multiplikation mit dem Faktor N, z.B. N=3, im Argument der round-Funktion ist der resultierende Grundperiodenwert λ_post(µ) wieder bis auf den Bruchteil 1/N des Abtastabstandes des Tiefband-Dekoders LBD genau.
Schließlich wird über die Grundperiodenwerte λ_post(µ) zur weiteren Glättung ein gleitender Durchschnitt gebildet. Der gleitende Durchschnitt entspricht einer Art Tiefpassfilterung. Mit einem gleitenden Durchschnitt über beispielsweise zwei aufeinander folgende Grundperiodenwerte λ_post(µ) ergibt sich ein Grundperiodeparameter $λ_{p} (μ) = \frac{1}{2} \cdot (λ_{post} (μ - 1) + λ_{post} (μ)),$

anhand dessen das Anregungssignal u(k) für das hohe Subband abgeleitet wird. Aufgrund der Durchschnittsbildung über zwei Werte weist der Grundperiodeparameter λ_p(µ) eine um den Faktor zwei höhere Auflösung auf, die einem Bruchteil 1/(2N) des Abtastabstandes des Tiefband-Dekoders LBD entspricht.
Durch die vorstehend erläuterte, nicht-lineare Filterungsprozedur können die meisten Periodenverdoppelungs- oder allgemein -Vervielfachungsfehler vermieden werden. Dies resultiert in einer erheblichen Verbesserung der Wiedergabequalität.
Im Folgenden wird erläutert, wie tonale Mischungsparameter g_v(µ) und atonale Mischungsparameter g_uv(µ) zur Mischung entsprechender tonaler und atonaler Komponenten des Anregungssignals u(k) im hohen Subband zeitrahmenweise aus für das tiefe Subband spezifischen Mischungsparametern g_LTP(µ) und g_FIX(µ) des Tiefband-Dekoders LBD abgeleitet werden. Es sei hierbei angenommen, dass der Tiefband-Dekoder LBD ein sog. CELP-Dekoder (CELP: Codebook Excited Linear Prediction) ist, der ein sog. adaptives oder LTP-Kodebuch und ein sog. fixes Kodebuch aufweist.
In realen Audiosignalen treten tonale Laute fast nie ohne Beiträge von atonalen Signalkomponenten auf. Zur Abschätzung eines Energie- oder Intensitätsverhältnisses zwischen tonalen und atonalen Signalbeiträgen sei modellhaft angenommen, dass das adaptive Kodebuch nur tonale Komponenten im tiefen Subband und das fixe Kodebuch nur atonale Komponenten im tiefen Subband beiträgt. Ferner sei angenommen, dass diese beiden Beiträge zueinander orthogonal sind.
Anhand dieser Annahmen kann aus den Mischungsparametern g_LTP und g_FIX des Tiefband-Dekoders LBD das Intensitätsverhältnis zwischen tonalen und atonalen Signalkomponenten rekonstruiert werden. Beide Mischungsparametern g_LTP, g_FIX können zeitrahmenweise aus dem Tiefband-Dekoder LBD extrahiert werden. Für jeden Zeitrahmen oder Subrahmen (indiziert durch (µ) kann ein momentanes Intensitätsverhältnis zwischen den Beiträgen des adaptiven und des fixen Kodebuchs, d.h. das Oberton-Rausch-Verhältnis γ durch Dividieren der Energiebeiträge des adaptiven und fixen Kodebuchs ermittelt werden.
Während der Mischungsparameter g_LTP(µ) einen Verstärkungsfaktor für die Signale des adaptiven Kodebuchs angibt, gibt der Mischungsparameter g_FIX(µ) einen Verstärkungsfaktor für die Signale des fixen Kodebuchs an. Werden aus dem adaptiven Kodebuch ausgegebene Kodebuchvektoren mit x_LTP(µ) und aus dem fixen Kodebuch ausgegebene Kodebuchvektoren mit x_FIX(µ) bezeichnet, ergibt sich das Oberton-Rausch-Verhältnis als $γ (μ) = \frac{{‖ g_{LTP} (μ) x_{LTP} (μ) ‖}^{2}}{‖ g_{FIX} (μ) x_{FIX} (μ) ‖} .$
Zur besseren Modellierung der atonalen Audiokomponenten im hohen Subband wird das aus dem tiefen Subband abgeleitete Oberton-Rausch-Verhältnis γ durch eine Art Wiener-Filter umgesetzt gemäß $γ_{post} (μ) = γ (μ) \cdot \frac{γ (μ)}{1 + γ (μ)} .$
Durch diese "Wiener"-Filterung wird ein kleines γ (atonales Audiosegment) weiter abgesenkt, während große Werte von γ (tonal dominiertes Audiosegment) kaum verändert werden. Durch eine solche Absenkung werden natürliche Audiosignale besser approximiert.
Aus dem gefilterten Oberton-Rausch-Verhältnis γ_post können schließlich Verstärkungsfaktoren, d.h. Mischungsparameter g_v und g_uv für tonale bzw. atonale Komponenten des Anregungssignals u(k) im hohen Subband bestimmt werden zu $g_{v} (μ) = \sqrt{\frac{γ_{post (μ)}}{1 + γ_{post (μ)}}} und g_{u v} (μ) = \sqrt{\frac{1}{1 + γ_{post (μ)}}} .$
Da in der Praxis kaum reine tonale oder reine atonale Audiosignale auftreten, haben beide Mischungsparameter g_v(µ) und g_uv(µ) in der Regel (gleichzeitig) einen nicht verschwindenden Wert. Durch die vorstehende Berechnungsvorschrift wird sichergestellt, dass die Summe der Quadrate der Mischungsparameter g_v und g_uv, d.h. eine Gesamtenergie des gemischten Anregungssignals u(k) im Wesentlichen konstant ist.
Im Folgenden wird die Erzeugung des Anregungssignals u(k) anhand der vom Tiefband-Dekoder LBD abgeleiteten Audioparameter g_v, g_uv und λ_p am Beispiel zweier Ausführungsvarianten des Anregungssignalgenerators HBG näher erläutert. Hierbei wird aus Gründen der Übersichtlichkeit angenommen, dass die Genauigkeit der Grundperiodewerte in Einheiten des Abtastabstandes des Tiefband-Dekoders LBD durch 1/N mit N=3 gegeben ist. Die nachfolgenden Ausführungen sind selbstverständlich ohne Weiteres auf beliebige Werte von N verallgemeinerbar.
Eine erste Ausführungsvariante des Anregungssignalgenerators HBG ist in Figur 2 schematisch dargestellt. Die in Figur 2 dargestellte Ausführungsvariante weist einen Impulsgenerator PG1, einen Rauschgenerator NOISE, einen Tiefpass LP mit Abschneidefrequenz f_c = 8 kHz, einen Dezimator D3 mit Dezimierungsfaktor m=3 (oder allgemein m=N), einen Hochpass HP mit Abschneidefrequenz f_c = 4 kHz sowie einen Dezimator D2 mit Dezimierungsfaktor m=2 auf. Der Rauschgenerator NOISE erzeugt vorzugsweise weißes Rauschen. Der Impulsgenerator PG1 umfasst seinerseits einen Rechteckimpulsgeber SPG und ein Impulsformungsfilter SF mit einem vorgegebenen Filterkoeffizientensatz p(k) endlicher Länge. Während der Rauschgenerator NOISE zur Erzeugung der atonalen Komponenten des Anregungssignals u(k) dient, trägt der Impulsgenerator PG1 zur Erzeugung der tonalen Komponenten des Anregungssignals u(k) bei.
Die Audioparameter g_v, g_uv und λ_p werden zeitrahmenweise in kontinuierlicher Folge aus Audioparametern des Tiefband-Dekoders LBD oder mittels eines geeigneten Audioparameter-Extraktionsblocks abgeleitet und angepasst. Die Filteroperationen sind für einen fraktionalen Grundperiodeparameter λ_p mit einer Genauigkeit von 1/(2N), hier gleich 1/6, in Einheiten der Abtastrate des Tiefband-Dekoders LBD und für eine Zielbandbreite, die der Bandbreite des Tiefband-Dekoders LBD entspricht, ausgelegt.
Da der Tiefband-Dekoder LBD entsprechend seiner Bandbreite von 0-4 kHz eine Abtastrate von 8 kHz verwendet, und mittels des Anregungssignals u(k) Audiokomponenten von 4-8 kHz, d.h. mit einer Bandbreite von 4 kHz erzeugt werden sollen, ist für den Impulsgenerator PG1 eine Abtastrate von mindestens 8 kHz vorzusehen. Entsprechend der im vorliegenden Ausführungsbeispiel um den Faktor 2N=6 höheren zeitlichen Auflösung des Grundperiodeparameters λ_p ist jedoch sowohl für den Impulsgenerator PG1 als auch für den Rauschgenerator NOISE eine Abtastrate von f_s = 2*N*8 kHz = 6*8 kHz = 48 kHz vorzusehen.
Zur Erzeugung des tonalen Anteils des Anregungssignals wird der Grundperiodeparameters λ_p mit dem Faktor 2N=6 multipliziert und das Produkt 6*λ_p dem Rechteckimpulsgeber SPG zugeführt. Der Rechteckimpulsgeber SPG erzeugt infolgedessen einzelne Rechteckimpulse in einem durch 6*λ_p in Einheiten des Abtastabstandes 1/48000 s des Rechteckimpulsgebers SPG gegebenen Zeitabstand. Die einzelnen Recheckimpulse haben eine Amplitude von $\sqrt{6 * λ_{p}},$
so dass die mittlere Energie einer langen Impulssequenz im Wesentlichen konstant gleich 1 ist.
Die vom Rechteckimpulsgeber SPG erzeugten Rechteckimpulse werden mit dem "tonalen" Mischungsparameter g_v multipliziert und dem Impulsformungsfilter SF zugeleitet. Im Impulsformungsfilter SF werden die Rechteckimpulse durch Faltung oder Korrelation mit den Filterkoeffizienten p(k) gewissermaßen zeitlich "verschmierte. Durch diese Filterung kann der sog. Crest-Faktor, d.h. ein Verhältnis von Spitzen- zu Durchschnittsabtastwerten erheblich verringert und die Hörqualität des synthetisierten Audiosignals SAS erheblich verbessert werden. Darüber hinaus können die Rechteckimpulse durch das Impulsformungsfilter SF in vorteilhafter Weise spektral geformt werden. Vorzugweise kann das Impulsformungsfilter SF dazu eine Bandpasscharakteristik aufweisen mit einer Übergangsregion um 4 kHz und einem im Wesentlichen gleichmäßigen Dämpfungsanstieg in Richtung höherer und niedrigerer Frequenzen. Auf diese Weise kann erreicht werden, dass höhere Frequenzen des Anregungssignals u(k) weniger harmonische Komponenten aufweisen und somit der Rauschanteil mit steigender Frequenz ansteigt.
Eine beispielhafte Wahl der Filterkoeffizienten p(k) ist in den Figuren 3a und 3b schematisch dargestellt. Während Figur 3a die gegen ihren Abtastwertindex k aufgetragenen Filterkoeffizienten p(k) zeigt, ist in Figur 3b das Energiespektrum der Filterkoeffizienten p(k) gegen die Frequenz aufgetragen. Für den im vorliegenden Ausführungsbeispiel maßgeblichen Zielfrequenzbereich ist bei den Filterkoeffizienten p(k) im Wesentlichen nur der spektrale Bereich von 4-8 kHz relevant. Dieser Frequenzbereich ist in Figur 3b durch eine verbreiterte Linie angedeutet.
Wie in Figur 2 veranschaulicht werden die durch das Impulsformungsfilter SF "verschmierten" Rechteckimpulse zu einem vom Rauschgenerator NOISE erzeugten, mit dem "atonalen" Mischuhgsparameter g_uv multiplizierten Rauschsignal addiert und das resultierende Summensignal dem Tiefpass LP zugeleitet. Bis zu diesem Verfahrensschritt wurde eine erhöhte Abtastrate von f_s = 48 kHz verwendet. Die verbleibenden der in Figur 2 dargestellten Verarbeitungsblöcke dienen nun dazu, die Frequenzbereiche außerhalb eines Zielfrequenzbereichs von 4-8 kHz wegzufiltern und das Anregungssignal u(k) in einer diesen Zielfrequenzbereich repräsentierenden Darstellung (mit einer Abtastrate von f_s = 8 kHz) zu erzeugen.
Zu diesem Zweck wird das Summensignal zunächst vom Tiefpass LP gefiltert und das gefilterte Signal dann durch den Dezimator D3 von 48 kHz Abtastrate auf eine Abtastrate von f_s = 16 kHz umgesetzt. Das umgesetzte Signal wird anschließend dem Hochpass HP zugeführt, der das hochpass-gefilterte Signal dem Dezimator D2 zuleitet, der aus dem zugeführten Signal mit 16 kHz Abtastrate schließlich das Anregungssignal u(k) mit der Zielabtastrate von f_s = 8 kHz erzeugt.
Das erzeugte Anregungssignal u(k) enthält die zur Bandbreitenerweiterung erforderlichen Frequenzkomponenten. Diese liegen jedoch als um die Frequenz 4 kHz gespiegeltes Spektrum vor. Um das Spektrum zu invertieren, kann das Anregungssignal u(k) mit Modulationsfaktoren (-1)^k moduliert werden.
Da die Komponenten des Audiosignaldekoders gemäß Figur 1 im Wesentlichen linear und zeitinvariant sind, können der tonale und der atonale Anteil des Anregungssignals u(k) unabhängig voneinander behandelt werden. Somit können die in der Ausführungsvariante gemäß Figur 2 vorgesehenen Filter- und Dezimierungsoperationen für die tonalen Audiokomponenten auch in einem einzigen Bearbeitungsblock zusammengefasst werden. Tatsächlich kann die Impulsantwort aller in Figur 2 vorgesehenen Filterungs-, Dezimierungs- und Modulierungsoperationen für die tonalen Audiokomponenten vorab berechnet und in einer Nachschlagetabelle in geeigneter Form abgespeichert werden.
Eine derartig ausgestaltete, zweite Ausführungsvariante des Anregungssignalgenerators HBG ist in Figur 4 schematisch dargestellt und wird im Folgenden erläutert. Die in Figur 4 dargestellte Ausführungsvariante weist einen Impulsgenerator PG2 sowie einen vorzugsweise weißes Rauschen erzeugenden Rauschgeneratör NOISE auf. Der Impulsgenerator PG2 umfasst seinerseits eine Impulspositioniereinrichtung PP sowie eine Nachschlagetabelle LOOKUP, in der vorgegebene Impulsformen v_j(k) gespeichert sind. Während der Rauschgenerator NOISE zur Erzeugung der atonalen Komponenten des Anregungssignals u(k) dient, trägt der Impulsgenerator PG2 zur Erzeugung der tonalen Komponenten des Anregungssignals u(k) bei. Sowohl der Rauschgenerator NOISE als auch der Impulsgenerator PG2 verwenden direkt die Zielabtastrate von f_s = 8 kHz.
Dem Anregungssignalgenerator werden die Audioparameter g_v, g_uv und λ_p zeitrahmenweise in kontinuierlicher Folge zugeleitet. Die Ableitung der Audioparameter g_v, g_uv und λ_p wurde bereits oben erläutert. Der fraktionale Grundperiodeparameter λ_p sei wie oben mit einer Genauigkeit von 1/(2N), hier gleich 1/6, in Einheiten der Abtastrate des Tiefband-Dekoders LBD gegeben.
Für die tonalen Komponenten des Anregungssignals u(k) kann die Impulsantwort aller durch Figur 2 veranschaulichten Filter-, Dezimierungs- und Modulationsoperationen vorab berechnet werden und in Form bestimmter Impulsformen v_j(k) in der Nachschlagetabelle LOOKUP abgespeichert werden. Sofern - wie im vorliegenden Ausführungsbeispiel - auch nicht-ganzzahlige Grundperiodeparameter λ_p berücksichtigt werden sollen, sind mehrere Impulsformen v_j(k) in der Nachschlagetabelle LOOKUP vorzuhalten. Die Anzahl der vorzuhaltenden Impulsformen v_j(k) ist dabei vorzugsweise durch das Inverse der Genauigkeit des Grundperiodeparameters λ_p, d.h. hier durch 2N gegeben. Der Index j läuft damit z.B. von 0 bis 2N-1. Im vorliegenden Fall sind entsprechend 6 vorab berechnete Impulsformen v_j(k), j=0,...,5 in der Nachschlagetabelle LOOKUP vorzuhalten.
Bei Betrieb des Impulsgenerators PG2 wird der Nachschlagetabelle LOOKUP der gebrochenzahlige Anteil λ_p-_└λ_p┘ des jeweiligen Grundperiodenparameters λ_p zügeführt. Die Klammer _{└ ┘} bezeichnet hierbei einen ganzzahligen Anteil einer rationalen oder reellen Zahl. Anhand des zugeführten gebrochenzahligen Anteils λ_p-_└λ_p┘ wird aus den gespeicherten Impulsformen v_j(k) eine Impulsform ausgewählt und ein entsprechend geformter Impuls von der Nachschlagetabelle LOOKUP ausgegeben. Im vorliegenden Ausführungsbeispiel kann λ_p-_└λ_p┘ die Werte 0, 1/6, 2/6, 3/6, 4/6 und 5/6 annehmen. Vorzugsweise wird diejenige Impulsform v_j(k) ausgewählt, deren Index j dem jeweiligen Zähler des betreffenden Bruches entspricht.
Jeder der abgespeicherten Impulsformen v_j(k) korrespondiert zu einer Impulsantwort der in Figur 2 dargestellten Kette aus den Filtern SF, LP, D3, HP und D2 (und gegebenenfalls einem Modulator) für einen bestimmten gebrochenzahligen Anteil λ_p-_└λ_p┘ des Grundperiodeparameters λ_p.
Figur 5 zeigt beispielhaft berechnete Impulsformen v_j(k) für j=0,...,5 in schematischer Darstellung. Die dargestellten Impulsformen v_j(k) sind für eine fraktionale Auflösung von λ_p von 1/6 (bei einer Abtastrate von 8 kHz) konstruiert und gegen ihren Abtastindex k aufgetragen. Eine Zuordnung einer jeweiligen Impulsform v_j(k) zum zugehörigen gebrochenzahligen Anteil λ_p-_└λ_p┘ ist der Legende von Figur 5 zu entnehmen.
Wie in Figur 4 veranschaulicht wird der von der Nachschlagetabelle LOOKUP ausgegebene Impuls, der eine anhand des gebrochenzahligen Anteils λp-_└λ_p┘ ausgewählte Impulsform aufweist, mit dem "tonalen" Mischungsparameter g_v multipliziert und der Impulspositionierungseinrichtung PP zugeleitet. Durch Letztere werden die zugeleiteten Impulse abhängig vom ganzzahligen Anteil _└λ_p┘ des Grundperiodeparameters λ_p zeitlich positioniert. Die Impulse werden hierbei von der Impulspositionierungseinrichtung PP in einem Zeitabstand ausgegeben, der dem ganzzahligen Anteil _└λ_p┘ des Grundperiodeparameters λp entspricht. Die Impulse können moduliert werden indem ein jeweiliges Vorzeichen der Impulsformen v_j(k) bzw. der betreffenden Impulse entweder für gerade Werte von _└λ_p┘ oder für ungerade Werte von _└λ_p┘ invertiert wird.
Zu den von der Impulspositionierungseinrichtung PP ausgegebenen Impulsen wird schließlich das mit dem "atonalen" Mischungsparameter g_uv multiplizierte Rauschsignal des Rauschgenerators NOISE addiert, um das Anregungssignal u(k) zu erhalten.
Die in Figur 4 dargestellte Ausführungsvariante lässt sich im Allgemeinen mit geringerem Aufwand als die in Figur 2 dargestellte Ausführungsvariante implementieren. Tatsächlich lassen sich mit einem Anregungssignalgenerator gemäß Figur 4 durch Vorgabe geeigneter Impulsformen v_j(k) effektiv gleiche Anregungssignale u(k) wie mit einem Anregungssignalgenerator gemäß Figur 2 generieren. Da die ausgegebenen Impulse einen verhältnismäßig großen Abstand (typischerweise 20-134 Abtastabstände) aufweisen, ist der rechnerische Aufwand für einen erfindungsgemäßen Anregungssignalgenerator gemäß Figur 4 verhältnismäßig gering. Die Erfindung kann infolgedessen mittels eines günstigen digitalen Signalprozessors mit verhältnismäßig geringen Anforderungen hinsichtlich Speicherbedarf und Rechenleistung implementiert werden.

Claims

Verfahren zum Bilden eines Audiosignals (SAS) aus einem Datenstrom kodierter Audiodaten (AD), wobei
a) auf ein erstes, tiefes Subband entfallende Frequenzkomponenten (NAS) des Audiosignals mittels eines Subband-Dekoders (LBD) anhand von in den Audiodaten (AD) enthaltenen, jeweils eine Grundperiode des Audiosignals (SAS) angebenden Grundperiodenwerten (λ_LTP) gebildet werden,

b) auf ein zweites, hohes Subband entfallende Frequenzkomponenten (HAS) des Audiosignals durch Anregen eines Audiosynthesefilters (ASYN) mittels eines für das zweite Subband spezifischen Anregungssignals (u(k)) gebildet werden, und

c) zur Erzeugung des Anregungssignals (u(k)) durch einen Anregungssignalgenerator (HBG)
- ein Grundperiodenparameter (λ_p) aus den Grundperiodenwerten (λ_LTP) abgeleitet wird sowie

- Impulse mit einer vom Grundperiodenparameter (λ_p) abhängigen Impulsform in einem durch den Grundperiodenparameter (λ_p) bestimmten Zeitabstand gebildet und mit einem Rauschsignal gemischt werden.
Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass dem Subband-Decoder (LBD) ein für das erste Subband spezifischer, erster Abtastabstand zugeordnet ist, und dass der Grundperiodenparameter (λ_p) die Grundperiode des Audiosignals (SAS) bis auf einen Bruchteil des ersten Abtastabstandes angibt.
Verfahren nach Anspruch 2,
dadurch gekennzeichnet,
dass die Impulsform (v_j(k)) eines jeweiligen Impulses abhängig von einem in Einheiten des ersten Abtastabstandes nicht-ganzzahligen Anteil (λ_p-_└λ_p┘) des Grundperiodenparameters (λ_p) aus unterschiedlichen, in einer Nachschlagetabelle gespeicherten, vorgegebenen Impulsformen (v_j(k)) ausgewählt wird.
Verfahren nach Anspruch 2 oder 3,
dadurch gekennzeichnet,
dass der Zeitabstand der Impulse durch einen in Einheiten des ersten Abtastabstandes ganzzahligen Anteil (_└λ_p┘) des Grundperiodenparameters (λ_p) bestimmt wird.
Verfahren nach Anspruch 2 oder 3,
dadurch gekennzeichnet,
dass die Impulse aus einer vorgegebenen Impulsform durch einen zweiten Abtastabstand aufweisende Abtastwerte gebildet werden, wobei der zweite Abtastabstand um einen Bändbreitenerweiterungsfaktor (N) geringer ist als der erste Abtastabstand, und
dass der Zeitabstand der Impulse in Einheiten des zweiten Abtastabstandes durch den mit dem Bandbreitenerweiterungsfaktor (N) multiplizierten Grundperiodenparameter (λ_p) bestimmt wird.
Verfahren nach Anspruch 5,
dadurch gekennzeichnet,
dass die Impulse durch ein Impulsformungsfilter (SF) mit im zweiten Abtastabstand vorgegebenen Filterkoeffizienten (p(k)) geformt werden.
Verfahren nach Anspruch 5 oder 6,
dadurch gekennzeichnet,
dass die Impulse vor oder nach Beimischung des Rauschsignals durch mindestens einen Dezimator (D2, D3) dezimiert werden.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
dass die Impulse vor oder nach Beimischung des Rauschsignals durch mindestens einen Hoch-, Tief- und/oder Bandpass gefiltert werden.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
dass der Grundperiodenparameter (λ_p) zeitrahmenweise aus einem oder mehreren Grundperiodenwerten (λ_LTP) abgeleitet wird.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
dass der Grundperiodenparameter (λ_p) aus schwankungsausgleichend verknüpften Grundperiodenwerten (λ_LTP) mehrerer Zeitrahmen abgeleitet wird.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
dass eine relative Abweichung (e) eines aktuellen Grundperiodenwertes (λ_LTP) von einem früheren Grundperiodenwert oder von einer daraus abgeleiteten Größe (λ_post) ermittelt und im Rahmen der Ableitung des Grundperiodenparameters (λ_p) abgedämpft wird.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
dass ein Mischungsverhältnis zwischen den Impulsen und dem Rauschsignal durch mindestens einen Mischungsparameter (g_v, g_uv) bestimmt wird, der zeitrahmenweise aus einem im Subband-Decoder (LBD) bestehenden Pegelverhältnis (γ) zwischen einem tonalen und atonalen Audiosignalanteil des ersten Subbandes abgeleitet wird.
Verfahren nach Anspruch 12,
dadurch gekennzeichnet,
dass im Rahmen der Ableitung des Mischungsparameters (g_v, g_uv) das Pegelverhältnis (γ) derart umgesetzt wird, dass bei Überwiegen des atonalen Audiosignalanteils der tonale Audiosignalanteil abgesenkt wird.
Audiosignaldekoder zum Bilden eines Audiosignals (SAS) aus einem Datenstrom kodierter Audiodaten (AD), mit
a) einem Subband-Dekoder (LBD) zum Bilden von auf ein erstes, tiefes Subband entfallenden Frequenzkomponenten (NAS) des Audiosignals anhand von in den Audiodaten (AD) enthaltenen, jeweils eine Grundperiode des Audiosignals (SAS) angebenden Grundperiodenwerten (λ_LTP),

b) einem Audiosynthesefilter (ASYN), und

c) einem Anregungssignalgenerator (HBG) zum Generieren eines Anregungssignals (u(k)) zum Bilden von auf ein zweites, hohes Subband entfallenden Frequenzkomponenten (HAS) des Audiosignals durch Anregen des Audiosynthesefilters, wobei der Anregungssignalgenerator (HBG)
- eine Ableitungseinrichtung zum Ableiten eines Grundperiodenparameters (λ_p) aus den Grundperiodenwerten (λ_LTP),

- einen Rauschgenerator (NOISE) zum Bilden eines Rauschsignals,

- einen Impulsgenerator (PG1, PG2) zum Bilden von Impulsen mit einer vom Grundperiodenparameter (λ_p) abhängigen Impulsform in einem durch den Grundperiodenparameter (λ_p) bestimmten Zeitabstand, sowie

- eine Mischeinrichtung zum Mischen der Impulse mit dem Rauschsignal aufweist.
Audiosignalenkoder mit einem Audiosignaldekoder nach Anspruch 14 sowie mit einer Vergleichseinrichtung zum Angleichen eines vom Audiosignaldekoder synthetisierten Audiosignals (SAS) an ein zu enkodierendes Audiosignal, wobei durch Variation der Audiodaten (AD), insbesondere der darin enthaltenen Nebeninformationen (g_FIX, g_LTP, λ_LTP), das synthetisierte Audiosignal (SAS) an das zu enkodierende Audiosignal angeglichen wird.