EP1825461B1

EP1825461B1 - Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen

Info

Publication number: EP1825461B1
Application number: EP06840370A
Authority: EP
Inventors: Bernd Geiser; Peter Jax; Stefan Schandl; Herve Taddei; Aulis Telle; Peter Vary
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2005-07-13
Filing date: 2006-06-30
Publication date: 2008-09-03
Anticipated expiration: 2026-06-30
Also published as: DE102005032724B4; ES2309969T3; CN101676993B; KR20070090143A; JP4740260B2; PL1825461T3; EP1825461A1; US8265940B2; CA2580622A1; ATE407424T1; US20080126081A1; DK1825461T3; CA2580622C; WO2007073949A1; CN101676993A; KR100915733B1; DE102005032724A1; CN100568345C; JP2008513848A; CN101061535A

Description

Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen.
Sprachsignale überstreichen einen breiten Frequenzbereich, der in etwa von der Sprachgrundfrequenz, die abhängig vom Sprecher im Bereich zwischen 80 bis 160 Hz liegt, bis zu den Frequenzen jenseits von 10 kHz reicht. Bei der Sprachkommunikation über bestimmte Übertragungsmedien, wie zum Beispiel Telefone, wird allerdings aus Gründen der Bandbreiteneffizienz nur ein eingeschränkter Ausschnitt übertragen, wobei eine Satzverständlichkeit von etwa 98 % gewährleistet wird.
Entsprechend der minimalen für das Telefonsystem spezifizierten Bandbreite von 300 Hz bis 3,4 kHz, kann ein Sprachsignal im Wesentlichen in drei Frequenzbereiche unterteilt werden. Jeder dieser Frequenzbereiche charakterisiert dabei spezifische Spracheigenschaften sowie subjektive Empfindungen. So entstehen tiefere Frequenzen unterhalb von etwa 300 Hz im Wesentlichen während stimmhafter Sprachabschnitte, wie dies beispielsweise Vokale sind. Dieser Frequenzbereich enthält in diesem Fall tonale Komponenten, d. h. insbesondere die Sprachgrundfrequenz sowie abhängig von der Stimmlage eventuell einige Harmonische.
Für das subjektive Empfinden von Volumen und Dynamik eines Sprachsignals sind diese Tiefenfrequenzen wesentlich. Die Sprachgrundfrequenz lässt sich demgegenüber von einem menschlichen Hörer aufgrund der psychoakustischen Eigenschaft der virtuellen Tonhöhenempfindung auch bei Fehlen der Tiefenfrequenzen aus der harmonischen Struktur in höheren Frequenzbereichen wahrnehmen. So sind mittlere Frequenzen im Bereich von etwa 300 Hz bis etwa 3,4 kHz bei Sprachaktivitäten grundsätzlich im Sprachsignal vorhanden. Ihre zeitvariante spektrale Färbung durch mehrere Formanten sowie die zeitliche und spektrale Feinstruktur charakterisieren den jeweils gesprochenen Laut bzw. Phonem. Auf eine derartige Weise transportieren die mittleren Frequenzen den Hauptteil der für die Verständlichkeit der Sprache relevanten Informationen.
Andererseits entstehen während stimmloser Laute, wie dies besonders stark bei scharfen Lauten wie beispielsweise "s" oder "f", der Fall ist, hohe Frequenzanteile oberhalb von etwa 3,4 kHz. Auch so genannte Plosivlaute wie "k" oder "t" weisen ein breites Spektrum mit starken hochfrequenten Anteilen auf. Deshalb hat das Signal in diesem oberen Frequenzbereich mehr einen rauschartigen denn einen tonalen Charakter. Die Struktur der auch in diesem Bereich vorhandenen Formanten ist verhältnismäßig zeitinvariant, unterscheidet sich jedoch für verschiedene Sprecher. Die hohen Frequenzanteile sind von wesentlicher Bedeutung für die Klarheit, die Präsenz und die Natürlichkeit eines Sprachsignals, da ohne diese hohen Frequenzanteile die Sprache dumpf wirkt. Darüber hinaus wird durch derartige hohe Frequenzanteile eine bessere Unterscheidung von Frikativen und Konsonanten ermöglicht, wobei diese hohen Frequenzanteile dadurch auch eine erhöhte Verständlichkeit der Sprache gewährleisten.
Bei einer Übertragung eines Sprachsignals über ein Sprachkommunikationssystem, welches einen Übertragungskanal mit eingeschränkter Bandbreite aufweist, ist es grundsätzlich erwünscht und stets das Ziel, das zu übertragende Sprachsignal mit einer bestmöglichen Qualität von einem Sender zu einem Empfänger übertragen zu können. Die Sprachqualität ist dabei jedoch eine subjektive Größe mit einer Mehrzahl an Komponenten, von denen die Verständlichkeit des Sprachsignals für ein derartiges Sprachkommunikationssystems die bedeutendste darstellt.
Bei modernen digitalen Übertragungssystemen kann bereits eine relativ hohe Sprachverständlichkeit erreicht werden. Dabei ist es bekannt, dass durch eine Erweiterung der Telefonbandbreite um hohe Frequenzen (größer als 3,4 kHz) als auch um tiefe Frequenzen (kleiner als 300 Hz) eine Verbesserung der subjektiven Beurteilung des Sprachsignals ermöglicht wird. Im Sinne einer subjektiven Qualitätsverbesserung ist somit eine gegenüber der üblichen Telefonbandbreite vergrößerte Bandbreite bei Systemen zur Sprachkommunikation anzustreben. Ein möglicher Ansatz dabei besteht darin, die Übertragung zu modifizieren und mittels Codierverfahren eine breitere übertragene Bandbreite zu bewirken oder alternativ eine künstliche Bandbreitenerweiterung durchzuführen. Durch eine derartige Erweiterung der Bandbreite wird empfangsseitig die Frequenzbandbreite auf den Bereich von 50 Hz bis 7 kHz aufgeweitet. Mittels geeigneten Signalverarbeitungsalgorithmen werden aus kurzen Segmenten eines schmalbandigen Sprachsignals mit Methoden der Mustererkennung Parameter des breitbandigen Modells ermittelt, die anschließend zu einer Schätzung der fehlenden Signalkomponenten der Sprache herangezogen werden. Bei dem Verfahren werden aus dem schmalbandigen Sprachsignal ein breitbandiges Pendant mit Frequenzkomponenten im Bereich 50 Hz bis 7 kHz erzeugt und eine Verbesserung der subjektiv empfundenen Sprachqualität bewirkt.
In aktuellen Sprachsignal- und Audiosignalcodierungsalgorithmen werden vermehrt Techniken der künstlichen Bandbreitenerweiterung verwendet. Beispielsweise werden im Breitbandbereich (akustische Bandbreite 50 Hz bis 7 kHz) Sprachcodierungsstandards wie der AMR-WB (Adaptive Multirate Wideband)-Codier-Decodieralgorithmus verwendet. Bei diesem AMR-WB-Standard werden obere Frequenzunterbänder (Frequenzbereich etwa 6,4 bis 7 kHz) aus niederfrequenten Komponenten extrapoliert. In derartigen Codierungs-Decodierungsverfahren wird die Bandbreitenerweiterung im Allgemeinen durch eine vergleichsweise kleine Anzahl an Nebeninformationen erzeugt. Diese Nebeninformationen können beispielsweise Filterkoeffizienten oder Verstärkungsfaktoren sein, wobei die Filterkoeffizienten beispielsweise durch ein LPC (Linear Prediction Filter)-Verfahren erzeugt werden können. Diese Nebeninformationen werden in einem codierten Bitstrom zu einem Empfänger übertragen. Weitere Standards, welche auf der Erweiterung der Bandweitentechnik basieren, sind gegenwärtig in den Standards AMR-WB+ und dem erweiterten aacPlus-Sprach-/Audiocodierungs-Decodierungsverfahren zu sehen. Verfahren, welche zum Codieren und Decodieren von Informationen ausgebildet sind, werden als Codecs bezeichnet und umfassen sowohl einen Codierer als auch einen Decodierer. Jedes digitale Telefon, unabhängig davon, ob es für ein Festnetz oder ein Mobilfunknetz gebaut ist, enthält einen derartigen Codec, der analoge in digitale Signale umwandelt und digitale in analoge. Ein derartiger Codec kann in Hardware oder in Software realisiert sein.
Ein Beispiel für eine künstliche Erweiterung der Bandbreite eines Sprachsignals, bei der Nebeninformationen in einem codierten Bitstrom zu einem Empfänger übertragen werden, ist in der Schrift Valin J. et al.: "Bandwidth extension of narrowband speech for low bit-rate wideband coding", PROCEEDINGS, IEEE WORKSHOP ON SPEECH CODING, SEPTEMBER 17-20, 2000, PISCATAWAY (USA), IEEE, 17. September 2000, Seiten 130-132, XP010520065 offenbart.
In gegenwärtigen Realisierungen von Sprach-/Audiosignalcodierungsalgorithmen, in denen die Technik der Bandbreitenerweiterung verwendet wird, werden Komponenten eines Erweiterungsbandes, beispielsweise im Frequenzbereich von 6,4 bis 7 kHz, mittels der bereits erwähnten LPC-Codierungstechnik codiert und decodiert. Dabei wird in einem Codierer eine LPC-Analyse des Erweiterungsbandes des Eingangssignals durchgeführt und die LPC-Koeffizienten sowie die Verstärkungsfaktoren von Unterrahmen eines Restsignals codiert. In einem Decodierer wird das Restsignal des Erweiterungsbandes erzeugt und die übertragenen Verstärkungsfaktoren und die LPC-Synthesefilter zum Generieren eines Ausgangssignals herangezogen. Die oben beschriebene Vorgehensweise kann entweder direkt auf das breitbandige Eingangssignal oder aber auch bei einem im Grenzbereich bzw. im kritischen Bereich downgesampleten Unterbandsignal des Erweiterungsbandes angewendet werden.
In dem erweiterten aacPlus-Codierungsstandard wird die SBR (Spectral Band Replication)-Technik verwendet. Dabei wird das breitbandige Audiosignal mittels einer 64-Kanal-QMF-Filterbank in Frequenzunterbänder aufgespalten. Für die hochfrequenten Filterbankkanäle wird eine ausgeklügelte und technisch hochentwickelte parametrische Codierung auf die Unterbänder der Signalkomponenten angewandt, wobei dazu eine große Anzahl an Detektoren und Schätzern benötigt und eingesetzt werden, um die Bitstrominhalte zu kontrollieren. Obwohl bei den bekannten Standards und Codierungs-Decodierungsverfahren bereits eine Verbesserung insbesondere der Sprachqualität von Sprachsignalen erreicht werden kann, ist dennoch eine weitere Verbesserung dieser Sprachqualität anzustreben. Darüber hinaus sind die oben erläuterten Standards und Codierungs-Decodierungsverfahren sehr aufwändig und weisen eine sehr komplexe Struktur auf.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen zu schaffen, mit dem bzw. mit der eine verbesserte Sprachqualität und eine verbesserte Sprachverständlichkeit erreicht werden kann. Dies soll darüber hinaus in relativ einfacher und aufwandsarmer Weise realisiert werden können.
Diese Aufgabe wird durch ein Verfahren, welches die Merkmale nach Patentanspruch 1 aufweist, und eine Vorrichtung, welche die Merkmale nach Patentanspruch 23 aufweist, gelöst.
Bei einem erfindungsgemäßen Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen werden nachfolgende Schritte durchgeführt:

a) Bereitstellen eines breitbandigen Eingangssprachsignals;
b) Bestimmen der zur Bandbreitenerweiterung erforderlichen Signalkomponenten des breitbandigen Eingangssprachsignals aus einem Erweiterungsband des breitbandigen Eingangssprachsignals;
c) Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten;
d) Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten;
e) Codieren der Informationen der zeitlichen Einhüllenden und der spektralen Einhüllenden und Bereitstellen der codierten Informationen zum Durchführen der Erweiterung der Bandbreite; und
f) Decodieren der codierten Informationen und Generieren der zeitlichen Einhüllenden und der spektralen Einhüllenden aus den codierten Informationen zum Erzeugen eines bandbreitenerweiterten Ausgangssprachsignals.

Durch das erfindungsgemäße Verfahren kann eine Verbesserung der Sprachverständlichkeit und der Sprachqualität bei der Übertragung von Sprachsignalen erreicht werden, wobei unter Sprachsignale auch Audiosignale verstanden werden. Darüber hinaus ist das erfindungsgemäße Verfahren auch sehr robust gegenüber Störungen bei der Übertragung.
In vorteilhafter Weise werden die zur Bandbreitenerweiterung erforderlichen Signalkomponenten durch eine Filterung, insbesondere eine Bandpass-Filterung, aus dem breitbandigen Eingangssprachsignal bestimmt, wodurch eine einfache und aufwandsarme Selektion der erforderlichen Signalkomponenten durchgeführt werden kann.
Das Bestimmen der zeitlichen Einhüllenden in Schritt c) wird bevorzugt unabhängig von dem Bestimmen der spektralen Einhüllenden in Schritt d) durchgeführt. Dadurch erfolgt das Bestimmen der Einhüllenden in präziser Weise, wodurch eine gegenseitige Beeinflussung vermieden werden kann.
In bevorzugter Weise wird vor dem Codieren der zeitlichen Einhüllenden und der spektralen Einhüllenden in Schritt e) eine Quantisierung der zeitlichen Einhüllenden und der spektralen Einhüllenden durchgeführt. In vorteilhafter Weise werden in Schritt d) zum Bestimmen der spektralen Einhüllenden die Signalleistungen von spektralen Unterbändern der zur Bandbreitenerweiterung bestimmten Signalkomponenten bestimmt. Die Bestimmung der für die Charakterisierung der zeitlichen und der spektralen Einhüllenden kann dadurch sehr exakt durchgeführt werden.
Zum Bestimmen der Signalleistungen der spektralen Unterbänder werden in bevorzugter Weise Signalsegmente der zur Bandbreitenerweiterung bestimmten Signalkomponenten erzeugt, wobei diese Signalsegmente insbesondere transformiert, insbesondere FF (Fast Fourier)-transformiert, werden. Des Weiteren werden in vorteilhafter Weise in Schritt c) zum Bestimmen der zeitlichen Einhüllenden die Signalleistungen von zeitlichen Signalsegmenten der zur Bandbreitenerweiterung bestimmten Signalkomponenten bestimmt. In aufwandsarmer Weise kann dadurch das Bestimmen der erforderlichen Parameter durchgeführt werden.
In vorteilhafter Weise werden in Schritt f) die codierten Informationen zum rekonstruierenden Formen der zeitlichen Einhüllenden und der spektralen Einhüllenden decodiert.
Ein Anregungssignal wird in vorteilhafter Weise in einem Decodierer aus einem an den Decodierer übertragenen Signal erzeugt, wobei das übertragene Signal eine derartige Signalleistung in dem Frequenzbereich, welcher demjenigen des Erweiterungssignals des breitbandigen Eingangssprachsignals entspricht, aufweist, welche eine Erzeugung eines Anregungssignals ermöglicht. An den Decodierer wird bevorzugt ein moduliertes schmalbandiges Signal mit einem Bandbereich mit Frequenzen unterhalb der Frequenzen des Bandbereichs des Erweiterungsbandes des breitbandigen Eingangssprachsignals zum Erzeugen des Anregungssignals übertragen. Das Anregungssignal weist bevorzugt Harmonische der Grundfrequenz des an den Decodierer übertragenen Signals auf.
Aus den decodierten Informationen der zeitlichen Einhüllenden und dem Anregungssignal wird in vorteilhafter Weise ein erster Korrekturfaktor bestimmt. Des Weiteren wird aus dem ersten Korrekturfaktor und dem Anregungssignal eine rekonstruierende Formung der zeitlichen Einhüllenden, insbesondere durch eine Multiplikation des ersten Korrekturfaktors mit dem Anregungssignal, durchgeführt. Darüber hinaus wird in vorteilhafter Weise die rekonstruierte Formung der zeitlichen Einhüllenden gefiltert und beim Filtern werden Impulsantworten erzeugt. Aus den Impulsantworten und der rekonstruierten Formung der zeitlichen Einhüllenden wird eine rekonstruierende Formung der spektralen Einhüllenden durchgeführt. Des Weiteren werden aus der rekonstruierten Formung der spektralen Einhüllenden die Signalkomponenten des Erweiterungsbandes des breitbandigen Eingangssprachsignals rekonstruiert. Die Rekonstruierung der zeitlichen und der spektralen Einhüllenden kann dadurch sehr zuverlässig und sehr genau durchgeführt werden.
An den Decodierer wird in einer vorteilhaften Ausführung ein schmalbandiges Signal mit einem Bandbereich mit Frequenzen unterhalb den Frequenzen des Erweiterungsbandes des breitbandigen Eingangssignals übertragen.
Das bandbreitenerweiterte Ausgangssprachsignal wird in vorteilhafter Weise aus dem an den Decodierer übertragenen schmalbandigen Signal und der rekonstruierten Formung der spektralen Einhüllenden, insbesondere aus einer Summation dieser beiden Signale, bestimmt und wird als Ausgangssignal des Decodierers bereitgestellt. Dadurch kann ein Ausgangssignal erzeugt und bereitgestellt werden, welches eine hohe Sprachverständlichkeit und Sprachqualität gewährleistet.
Die Schritte a) bis e) werden in bevorzugter Weise in einem Codierer durchgeführt, welcher bevorzugt in einem Sender angeordnet sein ist. Die in Schritt e) erzeugten codierten Informationen werden in vorteilhafter Weise als digitales Signal an den Decodierer übertragen. Zumindest der Schritt f) wird in bevorzugter Weise in einem Empfänger durchgeführt, wobei der Decodierer in dem Empfänger angeordnet ist. Es kann jedoch auch vorgesehen sein, dass alle Schritte a) bis f) des erfindungsgemäßen Verfahrens in einem Empfänger durchgeführt werden. In diesem Fall werden die Schritte a) bis e) im Empfänger durch ein (anders zu realisierendes) Schätzverfahren ersetzt. Die Schritte a) bis e) können auch separat in einem Sender durchgeführt werden.
Das breitbandige Eingangssprachsignal umfasst in vorteilhafter Weise eine Bandbreite zwischen etwa 50Hz und etwa 7 kHz. Das Erweiterungsband des breitbandigen Eingangssprachsignals umfasst bevorzugt den Frequenzbereich von etwa 3,4 kHz bis etwa 7 kHz. Ferner umfasst das schmalbandige Signal einen Signalbereich des breitbandigen Eingangssprachsignals von etwa 50 Hz bis etwa 3,4 kHz.
Eine erfindungsgemäße Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen, an welche ein breitbandiges Eingangssprachsignal anlegbar ist, umfasst zumindest folgende Komponenten:

a) Mittel zum Bestimmen der zur Bandbreitenerweiterung erforderlichen Signalkomponenten des breitbandigen Eingangssprachsignals aus einem Erweiterungsband des breitbandigen Eingangssprachsignals;
b) Mittel zum Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten;
c) Mittel zum Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten;
d) einen Codierer zum Codieren der zeitlichen Einhüllenden und der spektralen Einhüllenden und Bereitstellen der codierten Informationen zum Durchführen der Erweiterung der Bandbreite; und
e) einen Decodierer zum Decodieren der codierten Informationen und Generieren der zeitlichen Einhüllenden und der spektralen Einhüllenden aus den codierten Informationen zum Erzeugen eines bandbreitenerweiterten Ausgangssprachsignals.

Die erfindungsgemäße Vorrichtung ermöglicht eine verbesserte Sprachqualität und eine verbesserte Sprachverständlichkeit von Sprachsignalen bei der Übertragung in Kommunikationsgeräten, wie beispielweise Mobilfunkendgeräten oder ISDN-Geräten.
Die Mittel in a) bis d) sind in vorteilhafter Weise als Codierer ausgebildet. Der Codierer kann in einem Sender oder in einem Empfänger angeordnet sein, wobei der Decodierer in einem Empfänger angeordnet ist.
Vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens können, soweit übertragbar, auch als vorteilhafte Ausgestaltungen der erfindungsgemäßen Vorrichtung angesehen werden.
Nachfolgend wird ein Ausführungsbeispiel der Erfindung anhand schematischer Zeichnungen näher erläutert. Es zeigen:

FIG 1: einen Codierer einer erfindungsgemäßen Vorrichtung; und
FIG 2: einen Decodierer einer erfindungsgemäßen Vorrichtung.

Bei der nachfolgend näher erläuterten Erfindung werden mit dem Begriff Sprachsignale auch Audiosignale umfasst. In den FIG 1 und FIG 2 werden gleiche oder funktionsgleiche Elemente mit gleichen Bezugszeichen versehen.
In FIG 1 ist eine schematische Blockschaltbilddarstellung eines Codierers 1 einer erfindungsgemäßen Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen gezeigt. Der Codierer 1 kann sowohl in Hardware als auch in Software als Algorithmus realisiert sein. Der Codierer 1 umfasst im Ausführungsbeispiel einen Block 11, welcher zur Bandpassfilterung eines breitbandigen Eingangssprachsignals $s_{wb}^{i} (k)$
ausgebildet ist. Des Weiteren umfasst der Codierer 1 einen Block 12 und einen Block 13, welche mit dem Block 11 verbunden sind. Der Block 12 ist dabei zum Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten, welche aus einem Erweiterungsband des breitbandigen Eingangssprachsignals bestimmt werden, ausgebildet. In entsprechender Weise ist der Block 13 zum Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten, welche aus dem Erweiterungsband des breitbandigen Eingangssprachsignals bestimmt werden, ausgebildet.
Darüber hinaus ist aus der Darstellung in FIG 1 zu erkennen, dass der Block 12 und der Block 13 mit einem Block 14 verbunden sind, wobei der Block 14 zur Quantisierung der zeitlichen Einhüllenden sowie der spektralen Einhüllenden, welche durch die Blöcke 12 bzw. 13 generiert werden, ausgebildet ist.
In FIG 1 ist des Weiteren ein Block 2 gezeigt, welcher als Bandpassfilter ausgebildet ist, und an welchen das breitbandige Eingangssprachsignal $s_{wb}^{i} (k)$
angelegt ist. Der Block 2 ist ferner mit einem weiteren Block 3 verbunden, wobei der Block 3 als weiterer Codierer ausgebildet ist.
Im Ausführungsbeispiel ist der Codierer 1 sowie die Blöcke 2 und 3 in einem ersten Telefongerät angeordnet. Das breitbandige Eingangssprachsignal weist im Ausführungsbeispiel eine Bandbreite von etwa 50 Hz bis etwa 7 kHz auf. Gemäß der Erfindung wird, wie aus der Darstellung in FIG 1 zu erkennen ist, dieses breitbandige Eingangssprachsignal $s_{wb}^{i} (k)$
an den Bandpassfilter bzw. den Block 11 des Codierers 1 angelegt. Mittels diesem Block 11 werden die zur Bandbreitenerweiterung erforderlichen Signalkomponenten aus dem Erweiterungsband, welches im Ausführungsbeispiel eine Bandbreite von etwa 3,4 kHz bis etwa 7 kHz umfasst, bestimmt. Die zur Bandbreitenerweiterung erforderlichen Signalkomponenten werden durch das Signal s_eb (k) charakterisiert und werden als Ausgangssignal des Blocks 11 an die beiden Blöcke 12 und 13 übertragen. Im Block 12 wird dabei aus diesem Signal s_eb (k) die zeitliche Einhüllende bestimmt. In entsprechender Weise wird im Block 13 die spektrale Einhüllende der Signalkomponenten, welche durch das Signal s_eb (k) charakterisiert sind, bestimmt.
Nachfolgend wird diese Bestimmung der zeitlichen Einhüllenden sowie der spektralen Einhüllenden näher erläutert. Dabei wird zunächst das die zur Bandbreitenerweiterung erforderlichen Signalkomponenten charakterisierende Signal s_eb (k) segmentiert und diese gefensterten Signalsegmente transformiert. Die Segmentierung des Signals s_eb (k) erfolgt in Rahmen mit einer Länge von jeweils k-Abtastwerten. Sämtliche nachfolgende Schritte und Teilalgorithmen werden durchweg rahmenbezogen durchgeführt. Jeder Sprachrahmen (z. B. mit 10 ms oder 20 ms oder 30 ms Dauer) kann in vorteilhafter Weise in mehrere Unterrahmen (Dauer beispielsweise 2,5 oder 5 ms) unterteilt werden.
Die gefensterten Signalsegmente werden dann transformiert. Im Ausführungsbeispiel wird dabei eine Transformation in den Frequenzraum mittels einer FFT (Fast Fourier Transform) durchgeführt. Die FFT-transformierten Signalsegmente werden dabei gemäß nachfolgender Formel 1) bestimmt: $S_{wf} (i) = \sum_{κ = 0}^{N_{f} - 1} s_{eb} (μ • M_{f} + κ) • w_{f} (κ) • e^{- jiκ \frac{2 π}{N_{f}}}$
In dieser Formel 1) bezeichnet N_f die FFT-Länge bzw. die Rahmengröße, p bezeichnet den Rahmenindex und M_f bezeichnet die Überlappung der Rahmen der gefensterten Signalsegmente. Des Weiteren bezeichnet w_f (κ) die Fensterfunktion. Nachfolgend wird dann im Frequenzraum die Signalleistung in Unterbändern des Frequenzbereichs des Erweiterungsbandes berechnet. Diese Berechnung der Signalstärke bzw. der Signalleistung erfolgt gemäß nachfolgender Formel 2) : ${P_{f} (μ λ) = \sum_{i \in {EB}_{λ}} w_{λ} (i) • |S_{wf} (i)|}^{2}$
In dieser Formel 2) bezeichnet λ den Index des entsprechenden Unterbandes, wobei EB_λ diejenige Menge charakterisiert, welche alle FFT-Intervallbereiche i mit Nicht-Nullkoeffizienten im λ-ten Frequenzraumfenster w _λ(i) enthält. Die Signalleistungen P_f (µ,λ) der Unterbänder gemäß Formel 2) charakterisieren die Informationen der spektralen Einhüllenden, welche an einen Decodierer übertragen werden.
Die Bestimmung der zeitlichen Einhüllenden im Zeitraum wird in ähnlicher Weise wie die Bestimmung der spektralen Einhüllenden durchgeführt und basiert auf kurzzeitigen gefensterten Segmenten des bandpassgefilterten breitbandigen Eingangssprachsignals $s_{wb}^{i} (k) .$
Es werden somit auch bei der Bestimmung der zeitlichen Einhüllenden Signalsegmente des Signals s_eb (k) berücksichtigt. Für jedes gefensterte Segment wird die Signalleistung gemäß nachstehender Formel 3) berechnet: $P_{t} (v) = \sum_{κ = 0}^{N_{t} - 1} {(s_{eb} (ν • M_{t} + κ) • w_{t} (κ))}^{2}$
In dieser Formel 3) bezeichnen N_t die Rahmenlänge, ν bezeichnet den Rahmenindex und M_t wiederum die Überlappung der Rahmen der Signalsegmente. Es ist anzumerken, dass im Allgemeinen die Rahmenlänge N_t und die Überlappung der Rahmen M_t, welche zum Extrahieren der zeitlichen Einhüllenden verwendet werden, kleiner bzw. viel kleiner als die entsprechenden Größen N_f und M_f sind, welche für die Bestimmung für die spektrale Einhüllenden herangezogen werden.
Eine Alternative für das Extrahieren der Parameter der zeitlichen Einhüllenden aus dem Signal s_eb (k) ist darin zu sehen, dass eine Hilbert-Transformation (90° Phasenverschiebungsfilter) des Signals s_eb (k) durchgeführt wird. Eine Summation der Kurzsegment-Signalleistungen der gefilterten Teile und der ursprünglichen Teile des Signals s_eb (k) ergibt die kurzzeitige zeitliche Einhüllenden, welche downgesampled wird, um die Signalleistungen P_t (v) zu bestimmen. Die Signalleistungen P_t (v) der Signalsegmente charakterisieren dann die Informationen der zeitlichen Einhüllenden.
Die die zeitliche Einhüllende und die spektrale Einhüllende kennzeichnenden Signale s _{p _t (v)} bzw. s _{p _f (µ,λ)}, welche die extrahierten Parameter der Signalleistungen gemäß Formel 2) und 3) charakterisieren, werden im Block 14 quantisiert und codiert. Das Ausgangssignal des Blocks 14 ist ein digitales Signal BWE, welches einen Bitstrom charakterisiert, welcher in codierter Form Informationen der zeitlichen Einhüllenden und der spektralen Einhüllenden enthält.
Dieses digitale Signal BWE wird an einen Decodierer übertragen, welcher im Nachfolgenden noch näher erläutert wird. Anzumerken ist, dass bei einer Redundanz zwischen den extrahierten Parametern der Signalstärken gemäß den Formeln 2) und 3) eine gemeinsame bzw. verbindende Codierung, wie sie beispielsweise durch eine Vektorquantisierung ermöglicht werden kann, durchgeführt werden kann.
Wie des Weiteren aus der Darstellung in FIG 1 zu erkennen ist, wird das breitbandige Eingangssprachsignal $s_{wb}^{i} (k)$
auch an den Block 2 übertragen. Mittels diesem als Bandpassfilter ausgebildeten Block 2 werden die Signalkomponenten eines schmalbandigen Bereichs des breitbandigen Eingangssprachsignals $s_{wb}^{i} (k)$
gefiltert. Der schmalbandige Bereich liegt im Ausführungsbeispiel zwischen 50 Hz und 3,4 kHz. Das Ausgangssignal des Blocks 2 ist ein schmalbandiges Signal s_nb (k) und wird an den Block 3, welcher im Ausführungsbeispiel als weiterer Codierer ausgebildet ist, übertragen. In diesem Block 3 wird das schmalbandige Signal s_nb (k) codiert und als digitales Signal BWN als Bitstrom an den nachfolgend erläuterten Decodierer übertragen.
In FIG 2 ist eine schematische Blockschaltbilddarstellung eines derartigen Decodierers 5 einer erfindungsgemäßen Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen gezeigt. Wie in der FIG 2 zu erkennen ist, wird das digitale Signal BWN zunächst an einen weiteren Decodierer 4 übertragen, welcher die in dem digitalen Signal BWN enthaltenen Informationen decodiert und daraus wiederum das schmalbandige Signal s_nb (k) erzeugt. Des Weiteren generiert der Decodierer 4 ein weiteres Signal s_si (k), welches Nebeninformationen enthält. Diese Nebeninformationen können beispielsweise Verstärkungsfaktoren oder Filterkoeffizienten sein. Dieses Signal s_si (k) wird an einen Block 51 des Decodierers 5 übertragen. Der Block 51 ist im Ausführungsbeispiel zum Generieren eines Anregungssignals im Frequenzbereich des Erweiterungsbandes ausgebildet, wobei dazu die Informationen des Signals s_si (k) berücksichtigt werden.
Darüber hinaus weist der Decodierer 5, welcher im Ausführungsbeispiel in einem Empfänger angeordnet ist, einen Block 52 auf, welcher zum Decodieren des über eine Übertragungsstrecke zwischen dem Codierer 1 und dem Decodierer 2 übertragenen Signals BWE ausgebildet ist. Es sei angemerkt, dass auch das digitale Signal BWN über diese Übertragungsstrecke zwischen dem Codierer 1 und dem Decodierer 5 übertragen wird. Wie aus der Darstellung in FIG 2 zu erkennen ist, ist sowohl der Block 51 als auch der Block 52 mit Decodiererbereichen 53 bis 55 verbunden. Das Funktionsprinzip des Decodierers 5 bzw. die in dem Decodierer 5 durchgeführten Teilschritte des erfindungsgemäßen Verfahrens werden nachfolgend näher erläutert.
Wie bereits oben angesprochen, werden die in dem codierten digitalen Signal BWE enthaltenen Informationen in dem Block 52 decodiert und die Signalleistungen, welche gemäß den Formeln 2) und 3) berechnet werden und welche die zeitliche Einhüllende und die spektrale Einhüllende charakterisieren, rekonstruiert. Wie aus der Darstellung in FIG 2 zu entnehmen ist, ist das im Block 51 erzeugte Anregungssignal s_exc (k) das Eingangssignal zur rekonstruierenden Formung der zeitlichen Einhüllenden und der spektralen Einhüllenden. Dieses Anregungssignal s_exc (k) kann dabei im Wesentlichen ein beliebiges Signal sein, wobei als wesentliche Voraussetzung für dieses Signal gelten muss, dass es eine ausreichende Signalleistung im Frequenzbereich des Erweiterungsbandes des breitbandigen Eingangsspektralsignals $s_{wb}^{i} (k)$
aufweist. Beispielsweise kann als Anregungssignal s_exc (k) eine modulierte Version des schmalbandigen Signals s_nb (k) oder aber ein beliebiges Rauschen verwendet werden. Wie bereits erwähnt, ist dieses Anregungssignal s_exc (k) für die Feinstrukturierung der spektralen Einhüllenden und der zeitlichen Einhüllenden in den Signalkomponenten des Erweiterungsbandes eines breitbandigen Ausgangssprachsignals $s_{wb}^{°} (k)$
verantwortlich. Aus diesem Grunde ist es vorteilhaft, dass dieses Anregungssignal s_exc (k) in einer derartigen Weise erzeugt wird, dass es die Harmonischen der Grundfrequenz des schmalbandigen Signals s_nb (k) aufweist.
Im Falle von hierarchischen Sprachcodierungen besteht eine Möglichkeit dies zu erreichen darin, Parameter des weiteren Decodierers 4 zu verwenden. Ist beispielsweise Δ _k eine anteilige oder realwertige Verschiebung der Grundfrequenz und b der LTB-Verstärkungsfaktor eines adaptiven Codebuchs in einem CELP-Schmalbanddecodierer, dann ist beispielsweise eine Anregung mit harmonischen Frequenzen bei einem ganzzahligen Vielfachen der momentanen Grundfrequenz durch eine LTP-Synthesefilterung eines Bandpassfilters (Frequenzbereich des Erweiterungsbandes) aus einem willkürlichen Signal n_eb (k), möglich.
Das Anregungssignal ergibt sich dabei gemäß nachfolgender Formel 4): $s_{exc} (k) = n_{eb} (k) + f (b) • s_{exc} (k - Δ_{k})$
Der LTP-Verstärkungsfaktor kann dabei durch die Funktion f(b) reduziert oder limitiert werden, um eine Überstimmhaftigkeit der erzeugten Signalkomponeneten des Erweiterungsbandes verhindern zu können. Es sei angemerkt, dass eine Mehrzahl weiterer Alternativen durchgeführt werden können, um eine synthetische Breitbandanregung mittels Parametern eines schmalbandigen Codecs durchführen zu können.
Eine weitere Möglichkeit, um ein Anregungssignal erzeugen zu können besteht darin, dass eine Modulation des schmalbandigen Signals s_nb (k) mit einer Sinusfunktion mit einer festen Frequenz oder durch eine direkte Verwendung eines willkürlichen Signals n_eb (k), wie dies bereits oben definiert wurde, durchgeführt wird. Es sei betont, dass das Verfahren, welches für die Erzeugung des Anregungssignals s_exc (k) verwendet wird, völlig unabhängig von der Generierung des digitalen Signals BWE sowie dem Format dieses digitalen Signals BWE und sowie der Decodierung dieses digitalen Signals BWE ist. Daher kann diesbezüglich eine unabhängige Einstellung durchgeführt werden.
Im Nachfolgenden wird die rekonstruierende Formung der zeitlichen Einhüllenden näher erläutert. Das digitale Signal BWE wird, wie bereits angesprochen, in dem Block 52 decodiert und die die zeitliche Einhüllenden und die spektrale Einhüllenden charakterisierenden Parameter der Signalleistung, welche gemäß den Formeln 2) und 3) berechnet werden, werden entsprechend der Signale s _{p_t (v)} und s _{p _f (µ,λ)} bereitgestellt. Wie dazu aus der Darstellung in FIG 2 zu erkennen ist, wird im Ausführungsbeispiel zunächst eine rekonstruierende Formung der zeitlichen Einhüllenden durchgeführt. Dies wird im Decodiererbereich 53 durchgeführt. Dazu wird das Anregungssignal s_exc (k) sowie das Signal s _{p _t (v)} an diesen Decodiererbereich 53 übertragen. Wie in FIG 2 gezeigt, wird das Anregungssignal s_exc (k) sowohl an einen Block 531 als auch an einen Multiplizierer 532 übertragen. An den Block 531 wird auch das Signal s _{p _t (v)} übertragen. Aus diesen an den Block 531 übertragenen Signalen wird ein skalarer Korrekturfaktor g₁(k) erzeugt. Dieser skalare Korrekturfaktor g₁(k) wird von dem Block 531 an den Multiplizierer 532 übertragen. In dem Multiplizierer 532 wird dann das Anregungssignal s_exc (k) mit diesem skalaren Korrekturfaktor g₁(k) multipliziert und ein Ausgangssignal $s_{exc}^{ʹ} (k)$
erzeugt, welches die rekonstruierte Formung der zeitlichen Einhüllenden charakterisiert. Dieses Ausgangssignal $s_{exc}^{ʹ} (k)$
weist die annähernd richtige zeitliche Einhüllenden auf, ist jedoch im Hinblick auf die korrekte Frequenz noch ungenau bzw. unpräzise, wodurch in einem nachfolgenden Schritt das Durchführen einer rekonstruierenden Formung der spektralen Einhüllenden erforderlich ist, um diese unpräzise Frequenz an die erforderliche Frequenz anpassen zu können.
Wie dabei in FIG 2 zu erkennen ist, wird das Ausgangssignal $s_{exc}^{ʹ} (k)$
an einen zweiten Decodiererbereich 54 des Decodierers 5 übertragen, an den auch das Signal s _{p_t (µ,λ)} übertragen wird. Der zweite Decodiererbereich 54 weist einen Block 541 und einen Block 542 auf, wobei der Block 541 zur Filterung des Ausgangssignals $s_{exc}^{ʹ} (k)$
ausgelegt ist. Aus dem Ausgangssignal $s_{exc}^{ʹ} (k)$
und dem Signal s _{p_t (µ,λ)} wird eine Impulsantwort h (k) erzeugt, welche von dem Block 541 zum Block 542 übertragen wird. In diesem Block 542 wird dann aus dem Ausgangssignal $s_{exc}^{ʹ} (k)$
und der Impulsantwort h(k) die rekonstruierende Formung der spektralen Einhüllenden durchgeführt. Diese rekonstruierte spektrale Einhüllende wird dann durch das Ausgangssignal $s_{exc}^{"} (k)$
des Blocks 542 charakterisiert.
Im gezeigten Ausführungsbeispiel gemäß FIG 2 wird nachfolgend auf die Erzeugung des Ausgangssignals $s_{exc}^{"} (k)$
des zweiten Decodiererbereichs 54 nochmals eine rekonstruierende Formung der zeitlichen Einhüllenden in einem dritten Decodiererbereich 55 des Decodierers 5 durchgeführt. Diese rekonstruierende Formung der zeitlichen Einhüllenden erfolgt analog wie sie im ersten Decodiererbereich 53 durchgeführt wird. Dabei wird in diesem dritten Decodiererbereich 55 aus dem Ausgangssignal $s_{exc}^{"} (k)$
und dem Signal s _{p_t (v)} durch den Block 551 ein zweiter skalarer Korrekturfaktor g₂(k) generiert, welcher an einen Multiplizierer 552 übertragen wird. Als Ausgangssignal des dritten Decodiererbereichs 55 des Decodierers 5 wird dann das die zur Bandbreitenerweiterung erforderlichen Signalkomponenten charakterisierende Signal s_eb (k) bereitgestellt. Dieses Signal s_eb (k) wird an einen Summierer 56 übertragen, an den auch das schmalbandige Signal s_nb (k) übertragen wird. Durch die Summation des schmalbandigen Signals s_nb (k) und des Signals s_eb (k) wird das bandbreitenerweiterte Ausgangssignal $s_{wb}^{°} (k)$
erzeugt und als Ausgangssignal des Decodierers 5 bereitgestellt.
Es sei angemerkt, dass die in FIG 2 gezeigte Ausführung lediglich beispielhaft ist und für die Erfindung bereits eine einzige rekonstruierende Formung der zeitlichen Einhüllenden, wie dies im ersten Decodiererbereich 53 durchgeführt wird, und eine einzige rekonstruierende Formung der spektralen Einhüllenden, wie dies im zweiten Decodiererbereich 54 durchgeführt wird, ausreichend ist. Ebenso sei angemerkt, dass auch vorgesehen sein kann, dass die rekonstruierende Formung der spektralen Einhüllenden in dem zweiten Decodiererbereich 54 vor dem rekonstruierenden Formen der zeitlichen Einhüllenden in dem ersten Decodiererbereich 53 durchgeführt wird. Dies bedeutet, dass der zweite Decodiererbereich 54 bei einer derartigen Ausführung vor dem ersten Decodiererbereich 53 angeordnet ist. Ebenso kann jedoch auch vorgesehen sein, dass das alternierende Durchführen einer rekonstruierenden Formung der zeitlichen Einhüllenden und einer rekonstruierenden Formung der spektralen Einhüllenden nochmals fortgesetzt wird und beispielsweise in der in FIG 2 gezeigten Ausführung anschließend an den dritten Decodiererbereich 55 ein weiterer Decodiererbereich angeordnet ist, in dem wiederum eine rekonstruierende Formung der spektralen Einhüllenden durchgeführt wird.
Wie bereits oben angegeben, wird die Erfindung im Ausführungsbeispiel in vorteilhafter Weise für ein breitbandiges Eingangssprachsignal mit einem Frequenzbereich von etwa 50 Hz bis 7 kHz verwendet. Ebenso ist die Erfindung im Ausführungsbeispiel zur künstlichen Erweiterung der Bandbreite von Sprachsignalen vorgesehen, wobei dabei das Erweiterungsband durch den Frequenzbereich von etwa 3,4 kHz bis etwa 7 kHz vorgegeben ist. Es kann jedoch auch vorgesehen sein, dass die Erfindung für ein Erweiterungsband herangezogen wird, welches in einem niederfrequenten Frequenzbereich angesiedelt ist. Beispielsweise kann das Erweiterungsband dabei einen Frequenzbereich von etwa 50 Hz oder aber auch niedrigere Frequenzen, bis zu einem Frequenzbereich von etwa 3,4 kHz umfassen. Es sei explizit betont, dass das erfindungsgemäße Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen auch derart eingesetzt werden kann, dass das Erweiterungsband einen Frequenzbereich umfasst, der zumindest teilweise oberhalb einer Frequenz von etwa 7 kHz liegt und beispielsweise bis zu 8 kHz, insbesondere 10 kHz, oder noch höher reicht.
Wie bereits erläutert, wird eine rekonstruierende Formung der zeitlichen Einhüllenden in dem ersten Decodiererbereich 53 gemäß FIG 2 durch eine Multiplikation des skalaren ersten Korrekturfaktors g₁(k) und dem Anregungssignal s_exc (k) generiert. Dabei ist zu beachten, dass eine Multiplikation im Zeitraum korrespondierend zu einer Faltungsoperation im Frequenzraum ist, wodurch sich nachfolgende Formel 5) ergeben: $s_{exc}^{ʹ} (k) = g (k) • s_{exc} (k);$
$S_{exc}^{ʹ} (z) = G (z) * S_{exc} (z)$
Solange die spektrale Einhüllenden im Prinzip durch den ersten Decodiererbereich 53 nicht verändert wird, sollte der erste skalare Korrekturfaktor bzw. Verstärkungsfaktor g₁(k) strikte Tiefpassfrequenzcharakteristiken aufweisen.
Zur Berechnung dieser Verstärkungsfaktoren bzw. dieses ersten Korrekturfaktors g₁(k) wird das Anregungssignal s_exc (k) in einer Weise segmentiert und analysiert, welche bereits oben für die Segmentierung und die Analyse der Extrahierung der zeitlichen Einhüllenden bzw. der Erzeugung des Signals s _{p_t (v)} aus dem Signal s_eb (k) in dem Codierer 1 mittels dem Block 12 durchgeführt wird. Das Verhältnis zwischen der decodierten Signalleistung, wie sie durch die Formel 3) berechnet wird, und dem analysierten Ergebnis der Signalstärke $P_{t}^{exc} (ν)$
führt zu einem erwünschten Verstärkungsfaktor γ(v) für das ν-te Signalsegment. Dieser Verstärkungsfaktor des v-ten Signalsegments berechnet sich gemäß nachstehender Formel 6): $γ (ν) = \sqrt{\frac{P_{t} (ν)}{P_{t}^{exc} (ν)}}$
Aus diesem Verstärkungsfaktor γ(v) wird der Verstärkungsfaktor bzw. erste Korrekturfaktor g₁(k) durch eine Interpolation und eine Tiefpassfilterung berechnet. Die Tiefpassfilterung ist dabei von entscheidender Bedeutung, um den Einfluss dieses Verstärkungsfaktors bzw. dieses ersten Korrekturfaktors g₁(k) auf die spektrale Einhüllende zu begrenzen.
Die rekonstruierende Formung der spektralen Einhüllenden der erforderlichen Signalkomponenten des Erweiterungsbandes wird durch eine Filterung des Ausgangssignals $s_{exc}^{ʹ} (k),$
welches die rekonstruierte Formung der zeitlichen Einhüllenden charakterisiert, bestimmt. Die Filteroperation kann dabei im Zeitraum oder im Frequenzraum implementiert werden. Um eine große Zeitstreuung bzw. Zeitaufweitung der Impulsantwort h(k) vermeiden zu können, kann die korrespondierende Frequenzcharakteristik H(z) geglättet werden. Um die erwünschten Frequenzcharakteristiken bestimmen zu können, wird das Ausgangssignal $s_{exc}^{ʹ} (k)$
des ersten Decodiererbereichs 53 analysiert, um die Signalleistungen der $P_{f}^{exc} (μ λ)$
auffinden zu können. Der erwünschte Verstärkungsfaktor Φ(µ,λ) eines entsprechenden Unterbandes des Frequenzbereichs des Erweiterungsbandes wird gemäß nachstehender Formel 7) berechnet: $Φ (μ λ) = \sqrt{\frac{P_{f} (μ, λ)}{P_{f}^{exc} (μ λ)}}$
Die Frequenzcharakteristik H(p,i) der Formfilter der spektralen Einhüllenden kann durch eine Interpolation des Verstärkungsfaktors Φ(µ,λ) und mit einer Glättung unter Berücksichtigung der Frequenz berechnet werden. Falls der Formungsfilter der spektralen Einhüllenden im Zeitraum verwendet werden soll, beispielsweise durch einen linearen Phasen-FIR-Filter, können die Filterkoeffizienten durch eine inverse FF-Transformation der Frequenzcharakteristik H(µ,i) und einer nachfolgenden Fensterung berechnet werden.
Wie durch die obigen Ausführungen erläutert und gezeigt wurde, beeinflusst die rekonstruierende Formung der zeitlichen Einhüllenden die rekonstruierende Formung der spektralen Einhüllenden und umgekehrt. Deshalb ist es vorteilhaft, dass, wie im Ausführungsbeispiel erläutert und in FIG 2 dargestellt, eine alternierende Durchführung einer rekonstruierenden Formung einer zeitlichen Einhüllenden und einer spektralen Einhüllenden in einem iterativen Prozess durchgeführt wird. Dadurch kann eine wesentlich verbesserte Übereinstimmung der zeitlichen und der spektralen Einhüllenden der Signalkomponenten des Erweiterungsbandes, welche in dem Decodierer rekonstruiert werden und den entsprechenden im Codierer erzeugten zeitlichen und spektralen Einhüllenden erreicht werden.
Im beschriebenen Ausführungsbeispiel gemäß FIG 2 wird eine eineinhalbfache Iteration (Rekonstruierung der zeitlichen Einhüllenden, Rekonstruierung der spektralen Einhüllenden und nochmalige Rekonstruierung der zeitlichen Einhüllenden) durchgeführt. Eine Bandbreitenerweiterung, wie sie durch die Erfindung ermöglicht wird, erleichtert die Generierung eines Anregungssignals mit Harmonischen bei der richtigen Frequenz, beispielsweise bei einem ganzzahligen Vielfachen der Grundfrequenz des momentanen Lauts. Anzumerken ist, dass die Erfindung auch bei downgesampleten Unterbandsignalkomponenten des breitbandigen Eingangssignals angewendet werden kann. Dies ist dann vorteilhaft, wenn ein geringer Rechenaufwand gefordert ist.
In vorteilhafter Weise werden der Codierer 1 sowie die Blöcke 2 und 3 in einem Sender angeordnet, wobei logischerweise auch die in den Blöcken 2 und 3 sowie dem Codierer 1 durchgeführten Verfahrensschritte dann auch in dem Sender durchgeführt werden. Der Block 4 sowie der Decodierer 5 können in vorteilhafter Weise in einem Empfänger angeordnet sein, wodurch auch dadurch klar ist, dass die in dem Decodierer 5 und in dem Block 4 durchgeführten Vorschritte in dem Empfänger abgearbeitet werden. Anzumerken ist, dass die Erfindung auch derart realisiert werden kann, dass die in dem Codierer 1 durchgeführten Verfahrensschritte im Decodierer 5 durchgeführt werden und somit ausschließlich im Empfänger durchgeführt werden. Dabei kann vorgesehen sein, dass die Signalleistungen, welche gemäß den Formeln 2) und 3) berechnet werden, im Decodierer 5 geschätzt werden. Insbesondere ist dabei der Block 52 zum Schätzen dieser Parameter der Signalleistungen ausgebildet. Diese Ausführung ermöglicht das Verbergen von potenziellen Übertragungsfehlern der in dem digitalen Signal BWE übertragenen Nebeninformationen. Durch eine vorübergehende Schätzung von verloren gegangenen Parametern einer Einhüllenden, beispielsweise durch einen Datenverlust, kann ein lästiges Umschalten der Signalbandbreite verhindert werden.
Im Unterschied zu den bekannten Verfahren zum künstlichen Erweitern der Bandbreite von Sprachsignalen wird bei der Erfindung kein Übertragen von bereits verwendeten Verstärkungsfaktoren und Filterkoeffizienten als Nebeninformationen durchgeführt, sondern lediglich die erwünschten zeitlichen und spektralen Einhüllenden als Nebeninformationen an einen Decodierer übertragen. Verstärkungsfaktoren und Filterkoeffizienten werden erst dann im Decodierer, welcher in einem Empfänger angeordnet ist, berechnet. Dadurch kann erreicht werden, dass in aufwandsarmer Weise die künstliche Erweiterung der Bandbreite im Empfänger analysiert und gegebenenfalls korrigiert werden kann. Darüber hinaus ist das erfindungsgemäße Verfahren sowie die erfindungsgemäße Vorrichtung sehr robust gegen Störungen des Anregungssignals, wobei beispielsweise eine derartige Störung eines empfangenen schmalbandigen Signals durch Übertragungsfehler hervorgerufen werden kann.
Durch ein separates Durchführen der Analyse, des Übertragens und der rekonstruierenden Formgebung der zeitlichen und spektralen Einhüllenden wird erreicht, dass sowohl im Zeitraum als auch im Frequenzraum eine sehr gute Auflösung bzw. Aufspaltung im Zeitraum und im Frequenzraum erreicht werden kann. Dies führt zu einer sehr guten Reproduzierbarkeit sowohl von stationären Lauten und Klängen als auch von vorübergehenden bzw. kurzzeitigen Signalen. Für Sprachsignale profitiert insbesondere die Reproduktion von Stoppkonsonanten und Plosiven von der wesentlich verbesserten Zeitauflösung.
Im Gegensatz zu herkömmlichen Bandbreitenerweiterungen kann durch die Erfindung die Frequenzformung durch Linearphasen-FIR-Filter anstatt von LPC-Synthesefiltern durchgeführt werden. Dadurch kann auch erreicht werden, dass typische Artefakte ("filter ringing") reduziert werden können. Darüber hinaus ermöglicht die Erfindung eine sehr flexible und modulare Aufbauweise, welche es darüber hinaus ermöglicht, dass die einzelnen Blöcke im Empfänger bzw. im Decodierer 5 in einfacher Weise ausgetauscht oder eingestellt werden können. In vorteilhafter Weise ist für eine derartige Änderung oder Einstellung keine Änderung des Senders bzw. des Codierers 1 oder des Formats des Übertragungssignals, mit dem die codierten Informationen an den Decodierer 5 bzw. den Empfänger übertragen werden, erforderlich. Darüber hinaus können mit dem erfindungsgemäßen Verfahren unterschiedliche Decodierer betrieben werden, wodurch eine Wiederherstellung des breitbandigen Eingangssignals mit unterschiedlicher Präzision in Abhängigkeit von der verfügbaren Rechenleistung durchgeführt werden kann.
Anzumerken ist auch, dass die empfangenen Parameter, welche die spektrale und die zeitliche Einhüllenden charakterisieren, nicht nur für eine Erweiterung der Bandbreite herangezogen werden können, sondern darüber hinaus auch zur Unterstützung von nachfolgenden Signalverarbeitungsblöcken, wie beispielsweise eine Nachfilterung, oder zusätzlichen Codierungsstufen wie Transformierungscodierer, verwendet werden können.
Das resultierende schmalbandige Sprachsignal s_nb (k), wie es dem Algorithmus zur Bandbreitenerweiterung zur Verfügung steht, kann beispielsweise nach einer Reduktion der Abtastfrequenz um einen Faktor 2 mit einer Abtastrate von 8 kHz vorliegen.
Mit der Erfindung und dem zugrunde gelegten Prinzip der Bandbreitenerweiterung ist es möglich, eine breitbandige Anregung von Informationen des G.729A+-Standards zu generieren. Die Datenrate der in dem digitalen Signal BWE übertragenen Nebeninformationen kann etwa 2 kbit/s betragen. Darüber hinaus wird bei der Erfindung ein relativ niedrig komplexes Berechnungssystem bzw. ein relativ niedriger komplexer Rechenaufwand benötigt, welcher weniger als 3 WMOPS beträgt. Darüber hinaus ist das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung sehr robust gegen Basisbandstörungen des G.729A+-Standards. Die Erfindung kann auch in vorteilhafter Weise für den Einsatz bei Voice-over-IP verwendet werden. Darüber hinaus ist das erfindungsgemäße Verfahren sowie die erfindungsgemäße Vorrichtung kompatibel zu TDAC-Einhüllenden. Nicht zuletzt weist die Erfindung auch einen sehr modularen und flexiblen Aufbau und eine modulare und flexible Konzeptionierung auf.

Claims

Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen, gekennzeichnet durch folgende Schritte:
a) Bereitstellen eines breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k));$

b) Bestimmen der zur Bandbreitenerweiterung erforderlichen Signalkomponenten (s_eb (k)) des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k))$
aus einem Erweiterungsband des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k));$

c) Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten (s_eb (k));

d) Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten (s_eb (k)) ;

e) Codieren der Informationen der zeitlichen Einhüllenden und der spektralen Einhüllenden und Bereitstellen der codierten Informationen zum Durchführen der Erweiterung der Bandbreite;

f) Decodieren der codierten Informationen und Generieren der zeitlichen Einhüllenden und der spektralen Einhüllenden aus den codierten Informationen zum Erzeugen eines bandbreitenerweiterten Ausgangssprachsignals $(s_{wb}^{°} (k)) .$
Verfahren nach Anspruch 1,
dadurch gekennzeichnet, dass
die zur Bandbreitenerweiterung erforderlichen Signalkomponenten (s _eb (k)) durch eine Filterung, insbesondere eine Bandpass-Filterung, aus dem breitbandigen Eingangssprachsignal $(s_{wb}^{i} (k)$
bestimmt werden.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
das Bestimmen der zeitlichen Einhüllenden in Schritt c) unabhängig von dem Bestimmen der spektralen Einhüllenden in Schritt d) durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
vor dem Codieren der zeitlichen Einhüllenden und der spektralen Einhüllenden in Schritt e) eine Quantisierung der zeitlichen Einhüllenden und der spektralen Einhüllenden durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
in Schritt d) zum Bestimmen der spektralen Einhüllenden die Signalleistungen (P_f (µ,λ)) von spektralen Unterbändern der zur Bandbreitenerweiterung bestimmten Signalkomponenten (s_eb (k)) bestimmt werden.
Verfahren nach Anspruch 5,
dadurch gekennzeichnet, dass
zum Bestimmen der Signalleistungen (P_f (µ,λ)) der spektralen Unterbänder Signalsegmente der zur Bandbreitenerweiterung bestimmten Signalkomponenten (s_eb (k)) erzeugt werden, wobei diese Signalsegmente insbesondere transformiert, insbesondere FF-transformiert, werden.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
in Schritt c) zum Bestimmen der zeitlichen Einhüllenden die Signalstärken (P_t (v)) von zeitlichen Signalsegmenten der zur Bandbreitenerweiterung bestimmten Signalkomponenten (s_eb (k)) bestimmt werden.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
in Schritt f) die codierten Informationen zum rekonstruierenden Formen der zeitlichen Einhüllenden und der spektralen Einhüllenden decodiert werden.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
ein Anregungssignal (s_exc (k)) in einem Decodierer (5) aus einem an den Decodierer (5) übertragenen Signal (s_si (k)) erzeugt wird, wobei das übertragene Signal (s_si (k)) eine derartige Signalstärke in dem Frequenzbereich, welcher demjenigen des Erweiterungsbandes des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k))$
entspricht, aufweist, welche eine Erzeugung eines Anregungssignals (s_exc (k)) ermöglicht.
Verfahren nach Anspruch 9,
dadurch gekennzeichnet, dass
an den Decodierer (5) ein moduliertes schmalbandiges Signal mit einem Bandbereich unterhalb dem Bandbereich des Erweiterungsbands des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k))$
zum Erzeugen des Anregungssignals (s_exc (k)) übertragen wird.
Verfahren nach Anspruch 9 oder 10,
dadurch gekennzeichnet, dass
das Anregungssignal (s_exc (k)) Harmonische der Grundfrequenz des an den Decodierer (5) übertragenen Signals (s_si (k)) aufweist.
Verfahren nach Anspruch 8 und 11,
dadurch gekennzeichnet, dass
aus den decodierten Informationen der zeitlichen Einhüllenden und dem Anregungssignal (s_exc (k)) ein erster Korrekturfaktor (g ₁(k)) bestimmt wird.
Verfahren nach Anspruch 12,
dadurch gekennzeichnet, dass
aus dem ersten Korrekturfaktor (g ₁(k)) und dem Anregungssignal (s_exc (k)) eine rekonstruierende Formung der zeitlichen Einhüllenden, insbesondere durch eine Multiplikation des ersten Korrekturfaktors (g ₁(k)) mit dem Anregungssignal (s_exc (k)), durchgeführt wird.
Verfahren nach Anspruch 13,
dadurch gekennzeichnet, dass
die rekonstruierte Formung der zeitlichen Einhüllenden gefiltert wird und bei dem Filtern Impulsantworten (h(k)) erzeugt werden.
Verfahren nach Anspruch 14,
dadurch gekennzeichnet, dass
aus den Impulsantworten (h(k)) und der rekonstruierten Formung der zeitlichen Einhüllenden eine rekonstruierende Formung der spektralen Einhüllenden durchgeführt wird.
Verfahren nach Anspruch 15,
dadurch gekennzeichnet, dass
aus der rekonstruierten Formung der spektralen Einhüllenden die Signalkomponenten (s_eb (k)) des Erweiterungsbands des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k))$
rekonstruiert werden.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
an einen Decodierer (5) ein schmalbandiges Signal (s _nb (k)) mit einem Bandbereich unterhalb dem Erweiterungsband des breitbandigen Eingangssignals $(s_{wb}^{i} (k))$
übertragen wird.
Verfahren nach Anspruch 16 und 17,
dadurch gekennzeichnet, dass
das bandbreitenerweiterte Ausgangssprachsignal $(s_{wb}^{°} (k))$
aus dem an den Decodierer (5) übertragenen schmalbandigen Signal (s_nb (k)) und der rekonstruierten Formung der spektralen Einhüllenden, insbesondere aus einer Summation dieser beiden Signale, bestimmt wird und als Ausgangssignal des Decodierers (5) bereitgestellt wird.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
die Schritte a) bis e) in einem Codierer (1) durchgeführt werden und die in Schritt d) erzeugten codierten Informationen als digitales Signal (BWE) zum Decodieren übertragen werden.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
das breitbandige Eingangssprachsignal $(s_{wb}^{i} (k))$
eine Bandbreite zwischen etwa 50Hz und etwa 7 kHz umfasst.
Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
das Erweiterungsband des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k))$
den Frequenzbereich von etwa 3,4 kHz bis etwa 7 kHz umfasst.
Verfahren nach Anspruch 17,
dadurch gekennzeichnet, dass
das schmalbandige Signal (s_nb (k)) einen Signalbereich des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k))$
von etwa 50Hz bis etwa 3,4 kHz umfasst.
Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen, an welche ein breitbandiges Eingangssprachsignal $(s_{wb}^{i} (k))$
anlegbar ist, gekennzeichnet durch
a) Mittel zum Bestimmen der zur Bandbreitenerweiterung erforderlichen Signalkomponenten (s_eb (k)) des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k))$
aus einem Erweiterungsband des breitbandigen Eingangssprachsignals $(s_{wb}^{i} (k));$

b) Mittel zum Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten (s_eb (k)) ;

c) Mittel zum Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten (s_eb (k)) ;

d) einem Codierer (1) zum Codieren der zeitlichen Einhüllenden und der spektralen Einhüllenden und Bereitstellen der codierten Informationen zum Durchführen der Erweiterung der Bandbreite; und

e) einen Decodierer (5) zum Decodieren der codierten Informationen und Generieren der zeitlichen Einhüllenden und der spektralen Einhüllenden aus den codierten Informationen zum Erzeugen eines bandbreitenerweiterten Ausgangssprachsignals $(s_{wb}^{°} (k)) .$
Vorrichtung nach Anspruch 23,
dadurch gekennzeichnet, dass
die Mittel in a) bis d) als Codierer (1) ausgebildet sind.