EP1561205A1

EP1561205A1 - Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals

Info

Publication number: EP1561205A1
Application number: EP03769360A
Authority: EP
Inventors: Stefano Ambrosius Klinke; Frank Lorenz
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2002-11-11
Filing date: 2003-10-08
Publication date: 2005-08-10
Also published as: DE10252327A1; WO2004044894A1; AU2003278058A1

Abstract

Das schmalbandig gefilterte Sprachsignal wird in bezug auf Frequenzanteile oberhalb der Grenzfrequenz derart geschaetzt, dass eine spektrale Struktur aus den schmalbandigen Sprachsignalzeitabschnitten berechnet wird, jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhaftes und/oder stimmloser Laut klassifieziert wird, erste, eine spektrale Struktur aufweisende Ergaenzungen zur Erweiterung des schmalbandigen Sprachsignals in bezug auf die vorgenommene lautartbezogene Klassifizierung erzeugt werden, zweite, eine spektrale Struktur aufweisende Ergaenzungen zur Erweiterung des schmalbandingen Sprachsignals basierend auf allgemein bekannten Methoden zur Auswertung des statistischen Eigenschaften des schmalbandigen spektrale Struktur derart verknuepft werden, dass jeweils eine erweiterte spektrale Struktur entsteht auf deren Basis jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird bevor abschliessend aus dem einzelnen breitbandigen erweiterten Sprachsignal-zeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird.

Description

VERFAHREN ZUR ERWEITERUNG DER BANDBREITE EINES SCHMALBANDIG GEFILTERTEN SPRACHSIGNALS

Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Tele- kommunikationsgerät gesendeten Sprachsignals

Die vorliegende Erfindung betrifft ein Verfahren zur Erweiterung der Brandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals gemäß dem Oberbegriff des Patentanspruches 1.

Sprachcodierverfahren sind durch ihre unterschiedlichen Bandbreiten charakterisiert. So gibt es beispielsweise Schmal- band-Codierer (engl.: narrow-band coder), welche Sprachsignale, die im Frequenzbereich bis 4000 Hz liegen, in codierte Sprachsignale umsetzen und Breitband-Codierer (engl.: wide- band coder) , welche Sprachsignale, die typischerweise zwischen 50 und 7000 Hz liegen, in codierte Sprachsignale umset- zen. Die Sprachsignale, die dem Schmalband-Codierer zugeführt werden, werden dabei in der Regel mit einer geringeren Abtastrate abgetastet als die Sprachsignale, die dem Breitband- Codierer zugeführt werden. Dafür ist die Nettobitrate des Schmalband-Codierers in der Regel niedriger als die Nettobit- rate des Breitband-Codierers.

Werden die codierten Sprachsignale verschiedener Bandbreite innerhalb des gleichen Kanalmodus übertragen, so ermöglicht dies die Anwendung verschiedener Raten bei der Kanalcodie- rung, was zu unterschiedlichem Fehlerschutz führt. So ist es bei Anwendung des gleichen Kanalmodus möglich, bei schlechten Übertragungsbedingungen über den Übertragungskanal den schmalbandigen codierten Sprachsignalen im Zuge der Kanalcodierung mehr redundante Fehlerschutzbits hinzuzufügen als den breitbandigen codierten Sprachsignalen. Daher bietet sich bei variierenden Übertragungsbedingungen die Übertragung von Sprachsignalen über einen Übertragungskanal an, bei der ab- hängig von den Übertragungsbedingungen die Sprachcodierung zwischen einer breitbandigen und einer schmalbandigen Sprachcodierung umgeschaltet ["Wide-Band" to Narrow-Band"-Switching ("WB/NB"-Switching) ] und die Kanalcodierung, insbesondere die Rate der Kanalcodierung, daran angepasst wird. Empfangsseitig erfolgt eine an die Codierung angepasste Decodierung der codierten Sprachsignale.

Bei dem neuen Telekommunikationssystem zur drahtlosen Tele- kommunikation UMTS (Universal Mobile Telecommunications System") ist beispielsweise eine Breitband-Codierung standardisiert worden, um mit den zukünftigen UMTS-Endgeräten eine sehr gute Sprachqualität zu gewährleisten.

Nachteilig bei einem derartigen Ansatz ist, dass ein empfangender Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfindet.

Dieses sogenannte "WB/NB-Switching"-Problem kann auch bei der Handover-Situation in TelekommunikationsSystemen zur drahtlosen Telekommunikation mit mehreren Basisstationen und Mobilteilen, wobei die Basisstationen unterschiedlichen Telekommunikationsteilsystemen zugeordnet sind und die Mobilteilen in- nerhalb des Systems für ein teilsystemübergreifendes Roaming als Dual-Mode-Mobilteilen ausgebildet sind, auftreten:

Ausgangspunkt der Betrachtungen ist eine bestehende breitban- dige Gesprächsverbindung zwischen einer Basisstation und ei- nem Mobilteil. Wenn nun für das Mobilteil bzw. den Gesprächsteilnehmer eine Übergabe (Handover) an eine andere Basisstation durchgeführt wird, kann der Fall eintreten, dass die übernehmende Basisstation zu einem Teilsystem gehört, welches den breitbandigen Sprachservice nicht unterstützt. Aus diesem Grunde wird dann auf die schmalbandige Codierung und Decodierung zurückgeschaltet. Auch in diesem Szenario wird der empfangende Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfinden.

Basisstationen, die wie oben beschrieben keine breitbandige Gesprächsverbindung unterstützen, sowie andere Telekommunikationsendgeräte, welche lediglich Schmalband-Codierung oder analoge Sprachsignalübertragung im Bereich von typisch 300 bis 3400 Hz ermöglichen, sind noch weit verbreitet, da die bisher bekannten Telekomunikationssysteme Sprachsignale bisher im Allgemeinen mit einer Bandbreite von etwa 3,1 kHz zwischen 3400 Hz und 300 Hz übertragen, da die Verständlichkeit der Kommunikation trotz der damit gegebenen Bandbegrenzung der Sprache ausreichend ist. Zur Übertragung der Sprachsignale verwenden die bisher bekannten Telekommunikationssysteme dabei verschiedene digitale und analoge Codierverfahren.

Um eine Qualitätsverbesserung derart zu erzielen, dass eine Sprachqualität in Telekommunikationssystemen mit der Sprachqualität bei Radio- und Fernsehsignalen vergleichbar ist, wird es erforderlich, Frequenzanteile der Sprache, die über die Bandbreite von 300 Hz bis 3400 Hz hinausgehen, empfänger- seitig abzuschätzen und zu synthetisieren.

Im Stand der Technik sind verschiedene Verfahren bekannt, die eine Erweiterung der Bandbreite eines schmalbandigen Sprachsignals ermöglichen.

In vielen Verfahren der digitalen Sprachcodierung wird das digitale Sprachsignal zur Weiterverarbeitung und Übertragung in Koeffizienten, welche die spektrale Grobstruktur eines Signalabschnitts beschreiben, und ein sogenanntes Restsignal (auch Prädiktionsfehlersignal genannt) aufgespalten, welches die spektrale Feinstruktur bildet. Dieses Restsignal enthält nicht mehr die spektrale Einhüllende des Sprachsignals, wel- ehe durch die Koeffizienten, die die spektrale Grobstruktur beschreiben, repräsentiert wird.

Auf der Decoderseite werden diese beiden - meist quantisiert übertragenen - Teile, welche die spektrale Grob- und Feinstruktur beschrieben, wieder zusammengefügt und bilden das decodierte Sprachsignal .

Eine typische Repräsentation für die spektrale Grobstruktur bilden die LPC-Koeffizienten, welche ein rekursives Filter (sogenanntes Synthesefilter) beschreiben, dessen Übertragungsfunktion der spektralen Grobstruktur entspricht. Diese Koeffizienten werden in ihrer eigentlichen oder einer transformierten Form in vielen Sprachcodern verwendet. Hierbei wird auf Empfängerseite das empfangene Restsignal als Eingangssignal für das Synthesefilter verwendet, so dass am Ausgang des Filters das rekonstruierte Sprachsignal verfügbar ist. Die LPC-Koeffizienten sind folglich eine Repräsentation der spektralen Grobstruktur eines Sprachsignalsabschnitts und können unter Verwendung eines passenden Anregungssignals zur Synthese von Sprachsignalen verwendet werden.

Aus der Druckschrift - Carl, H.; Heute, U. : „Bandwidth Enhancement of Narrow-Band Speech Signals', Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 - ist ein Verfahren zur Erweiterung der Bandbreite im oberen Frequenzbereich bekannt, das zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) basiert, die eine Re- lation zwischen den LPC-Koeffizienten (Linear Predictive Co- ding, lineare Prädiktionscodierung) eines schmalbandigen Sprachsignalabschnitts und denen eines breitbandigen Sprachsignalabschnitts bilden. Das hat zur Folge, dass die Codebücher gleichzeitig mit schmalbandiger und breitbandiger Spra- ehe trainiert und im Kommunikationsendgerät abgespeichert werden müssen. Außerdem wird aus dem schmalbandigen Restsignal, das durch die lineare Prädiktionsanalyse des schmalbandigen Sprachsignals erzeugt wurde, ein breitbandiges Anregungssignal erzeugt, welches Frequenzkomponenten oberhalb der Bandbreite des schmalbandigen Sprachsignals enthält.

Versuche haben gezeigt, dass die aus den Codebüchern mittels LPC-Koeffizienten erhaltenen spektralen Grobstrukturen für das abzuschätzende Frequenzband häufig fehlerhaft sind, also z.B. bei stimmhaften Lauten zu viel Energie für das obere

Frequenzband abschätzen, was zu einer schlechten Qualität der Bandbreitenerweiterung führt.

Aus der nachveröffentlichten Internationalen Anmeldung PCT/DE01/01826 ist ein alternatives Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals bekannt. Bei diesem Verfahren wird auf Basis des schmalbandigen Sprachsignals detektiert, ob das schmalbandige Sprachsignal einem stimmhaften Laut, einem stimmlosen Laut oder einer Kom- bination stimmhaft/stimmlos entspricht, und aufgrund der de- tektierten Lautart wird eine Auswahl getroffen, wie das schmalbandige Sprachsignal spektral erweitert wird. Hierbei wird auf Basis der getroffenen stimmhaft/stimmlos-Unter- scheidung mindestens ein Parameter berechnet, der die Form der spektralen Struktur der oberen Erweiterung bestimmt, so dass schließlich eine Verknüpfung auf Basis des schmalbandigen Sprachsignals und der gewählten Ergänzung derart erfolgt, dass ein im oberen Frequenzbereich erweitertes Sprachsignal erzeugt wird oder auf Basis der Ergänzung ein breitbandiges Sprachsignal in voller Bandbreite erzeugt wird.

Nach dem Detektieren eines stimmhaften Lautes wird eine Ergänzung gewählt, die den typischen Verlauf der spektralen Struktur eines stimmhaften Lautes - mit einer vernachlässig- bar geringen Signalenergie in Frequenzanteilen oberhalb einer Frequenzfrequenz - aufweist. Diese Ergänzung kann stets die gleiche sein, unabhängig davon um welchen stimmhaften Laut - z.B. ,,a^λΛ , „e oder „i^λ - es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs für stimmhafte Laute entfällt.

Nach dem Detektieren eines stimmlosen Lautes wird eine Ergänzung gewählt, die den typischen Verlauf der spektralen Grobstruktur eines stimmlosen Lautes aufweist, d.h. ein wesentlicher Teil der Signalenergie befindet sich oberhalb der oberen Grenzfrequenz des schmalbandigen Sprachsignals. Auf diese Weise kann einfach ohne genaue Kenntnis des Lautes eine Erweiterung des schmalbandigen Sprachsignals durchgeführt werden.

Zwei alternative Ausführungsbeispiele, die auf dem oben beschriebenen Verfahren basieren, werden in der genannten PCT- Anmeldung auf den Seiten 7-8, Seiten 15-25 in Verbindung mit den Figuren 1-2 beschrieben.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, die Bandbreite eines schmalbandig gefilterten Sprachsignals auf einfache und kostengünstige Weise ohne Qualitätseinbußen zu erweitern und dabei die Nachteile aus dem vorstehend gewürdigten Stand der Technik zu vermeiden.

Diese Aufgabe wird ausgehend von dem im Oberbegriff des Anspruchs 1 definierten Verfahren durch die im Kennzeichen des Anspruchs 1 angegebenen Merkmale gelöst.

Die der Erfindung zugrundeliegende Idee besteht in der Kombination der aus dem vorstehend gewürdigten Stand der Technik bekannten Verfahren. Diese Kombination behebt die Nachteile beider Verfahren und ermöglicht das Erreichen einer optimalen Qualität des erweiterten Signals. So wird das schmalbandig gefilterte Sprachsignal in bezug auf Frequenzanteile oberhalb der Grenzfrequenz derart geschätzt , dass zunächst das schmalbandige Sprachsignal in Sprachsignalzeit- abschnitte unterteilt wird, jeweils eine spektrale Struktur aus den schmalbandigen Sprachsignalzeitabschnitten berechnet wird, jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter und/oder stimmloser Laut klassifiziert wird, erste eine spektrale Struktur aufweisende Ergänzungen zur Erwei- terung des schmalbandigen Sprachsignals in bezug auf die vorgenommene lautartbezogene Klassifizierung erzeugt werden, wobei zumindest für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist, zweite eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals basierend auf allgemein bekannten Methoden zur Auswertung der statistischen Eigenschaften des schmalbandigen Sprachsignals erzeugt werden, wobei die Ergänzung abhängig von dem jeweiligen Laut ist, die beiden Ergänzungen, z.B. durch Multiplikation gemäß Anspruch 8, verknüpft werden und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise derart verknüpft werden, dass jeweils eine erweiterte spektrale Struktur entsteht sowie anschließend auf der Basis der erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitab- schnitt erzeugt wird, bevor abschließend aus den einzelnen breitbandigen erweiterten Sprachsignalzeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird.

Der Hauptvorteil des erfindungsgemäßen Verfahrens liegt darin, dass mögliche Fehler in der Schätzung der erweiterten Spektralstruktur der aus der Druckschrift - Carl, H. Heute, U. : „Bandwidth Enhancement of Narrow-Band Speech Signals', Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 be- kannten Methode durch die aus der aus der nachveröffentlichten Internationalen Anmeldung PCT/DE01/01826 bekannten Methode korrigiert werden. Falls mit der erstgenannten Methode ei- ne Spektralstruktur für einen stimmhaften Laut geschätzt wird, die zu viel Energie im oberen Frequenzbereich hat, wird durch die Kombination der beiden Methoden diese Spektralstruktur berichtigt.

Da es mit der Kombination beider Methoden möglich ist, die Fehler bei der Schätzung der Spektralstruktur von stimmhaften Lauten zu korrigieren, brauchen bei der erstgenannten Methode nur stimmlose Laute trainiert zu werden. Dies erlaubt eine verbesserte Schätzung für stimmlose Laute und daher eine verbesserte Qualität des erweiterten Sprachsignals.

Die Weiterbildung der Erfindung gemäß Anspruch 2 zeichnet sich dadurch aus, dass^' durch eine Fouriertransformation des schmalbandigen Sprachsignalzeitabschnitts die spektrale

Struktur des schmalbandigen Sprachsignalzeitabschnittes berechnet und durch eine inverse Fouriertransformation der erweiterten spektralen Struktur der breitbandige erweiterte Sprachsignalzeitabschnitt erzeugt werden kann, ohne dass da- bei das Ξprachsignal in eine Grobstruktur und Feinstruktur aufgespaltet werden uss.

Die Weiterbildung der Erfindung gemäß Anspruch 3 zeichnet sich hingegen dadurch aus, dass durch Berechnung der zum schmalbandigen Sprachsignalzeitabschnitt gehörenden LPC- Koeffizienten und folgend des Frequenzgangs des durch diese Koeffizienten festgelegten LPC-Synthesefilters die spektrale Grobstruktur des schmalbandigen Sprachsignalzeitabschnittes berechnet wird. Daneben wird durch lineare Prädiktionsanalyse mit den berechneten LPC-Koeffizienten ein schmalbandiges Prä- diktionsfehlersignal erzeugt, welches die spektrale Feinstruktur des schmalbandigen Sprachsignalzeitabschnittes enthält und mittels eines im Stand der Technik bekannten Verfahrens in der Bandbreite erweitert wird. Die spektrale Grob- Struktur wird sodann mittels der in Anspruch 1 dargelegten Ablaufschritte erweitert. Aus der berechneten erweiterten spektralen Grobstruktur werden sodann Koeffizienten eines breitbandigen LPC-Synthesefilters berechnet. Durch Filterung des bandbreitenerweiterten Prädiktionsfehlersignals mit dem breitbandigen LPC-Synthesefilter wird dann der breitbandige erweiterte Sprachsignalzeitabschnitt erzeugt. Der gegenüber des in Anspruch 2 dargelegten Verfahrens erhöhte Aufwand rechtfertigt sich dadurch, dass durch Aufteilung in spektrale Grob- und Feinstruktur eine größere Flexibilität bezüglich der Erweiterung der Bandbreite gegeben ist.

Bei der Weiterbildung gemäß Anspruch 4 wird die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils erzeugte erste Ergänzung derart erzeugt, dass die Energie dieser Ergänzung in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes ver- nachlässigbar ist.

Diese Ergänzung kann stets die gleiche sein, unabhängig davon, um welchen stimmhaften Laut - z.B.: "a", "e" oder "i" - es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs zu diesem Zweck für stimmhafte Laute entfällt.

Durch die Weiterbildung gemäß Anspruch 5 ist eine Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals ge- währleistet, da durch diese Art der Weiterbildung berücksichtigt wird, dass bei stimmlosen Lauten im oberen Frequenzbereich ein wesentlicher Teil der Signalenergie fortgesetzt wird, so dass eine Vernachlässigung des genauen Verlaufs dieses Teils verhindert wird, die dadurch erfolgt, dass stets die gleiche Ergänzung vorgenommen wird und somit das synthetisierte Sprachsignals verfälscht würde.

Bei der Weiterbildung gemäß Anspruch 5 wird die für die als stimmlose Laute klassifizierten schmalbandigen Sprac signal- abschnitte jeweils erzeugte erste Ergänzung derart erzeugt, dass die Energie dieser Ergänzung in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes nicht ver- nachlässigbar ist. Auf diese Weise kann einfach ohne genaue Kenntnis des stimmlosen Lautes ein Erweiterung des schmalbandig gefilterten Ξprachsignals durchgeführt werden.

Um die Qualität des breitbandigen erweiterten Sprachsignals gemäß der Ansprüche 1 bis 5 zu verbessern, ist es von Vorteil, wenn gemäß Anspruch 7 der aus der erweiterten spektralen Struktur jeweils erzeugte breitbandige erweiterte Sprachsignalzeitabschnitt hochpassgefiltert wird, der hochpassge- filterte Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt verknüpft wird und aus den einzelnen verknüpften Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal erzeugt wird.

Weitere Einzelheiten, Merkmale und Vorteile der Erfindung werden nachfolgend anhand der in den Figuren dargestellten Ausführungsbeispiele näher erläutert. Dabei zeigen:

FIGUR 1 als ein erstes Ausführungsbeispiel ein Ablaufdia- gra m zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Frequenzbereich,

FIGUR 2 als ein zweites Ausführungsbeispiel ein Ablaufdiagramm zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb ei- ner Grenzfrequenz des schmalbandig gefilterten

Sprachsignals im Frequenzbereich,

FIGUR 3a die spektrale Struktur eines stimmhaften Lautes (Vokals) ,

FIGUR 3b die spektrale Struktur eines stimmlosen Lautes (Frikativs) , FIGUR 4a eine mögliche Erweiterung der spektralen Struktur eines Vokals,

FIGUR 4b eine mögliche Erweiterung der spektralen Struktur eines Frikativs,

FIGUR 1 zeigt anhand eines Ablaufdiagramms einen ersten Pro- zess (eine erste Methode) zur Erweiterung der Brandbreite ei- nes von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz - z.B. 4 kHz - des schmalbandig gefilterten Sprachsignals im Frequenzbereich. Gemäß einem Ausgangszustand AZ des dargestellten Prozesses wird von dem Telekommunikations- gerät das Sprachsignal gesendet. Es liegt somit ein schmalbandig gefiltertes Sprachsignal vor.

In einem ersten Prozessschritt P0.1 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeit- abschnitte unterteilt. Anschließend werden für jeden Sprachsignalzeitabschnitt in einem zweiten Prozessschritt Pl .1 die Spektralstruktur z.B. durch eine „Fourier-Transformation' berechnet und in einem dritten Prozessschritt P2.1 eine Klassifizierung derart durchgeführt, dass der jeweilige Sprachsig- nalzeitabschnitt als ein stimmhafter Laut - wie beispielsweise "a", "e" oder "i", deren Aussprache ein in FIGUR 3a dargestelltes Spektrum aufweist - und/oder als ein stimmloser Laut - wie beispielsweise "s", "seh" oder "f", deren Aussprache ein in FIGUR 3b dargestelltes Spektrum aufweist - eingestuft bzw. definiert wird.

Diese Unterscheidung wird beispielsweise anhand der Position der ersten Formanten oder anhand des Verhältnisses von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz - beispielsweise 2 kHz - geschehen. Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach durchzuführen, da wie ein Vergleich des in FIGUR 3a dargestellten Spektrum eines stimmhaften Lautes mit dem in FIGUR 3b dargestellten Spektrum eines stimmlosen Lautes zeigt, stimmhafte und stimmlose Laute in der Regel sehr unterschiedliche Spektren haben.

Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das De- tektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie zu Langzeitsignalenergie mit einem Schwellwert realisiert.

Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie - d.h. der Signalenergie in einem kurzen Zeitausschnitt des Schmalband-Sprachsignals - und der Langzeitsignalenergie - d.h. der Signalenergie über einen längeren Zeitausschnitt betrachtet - und anschließendem Vergleich des Verhältnis Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.

Im Anschluss daran wird in einem vierten Prozessschritt P3.1 im Rahmen einer ersten Spektralstrukturerweiterung in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautart- bezogene Klassifizierung die im zweiten Prozessschritt Pl.l berechnete Spektralstruktur erweitert. Dies geschieht derart, dass zeitabschnittsweise in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung erste Ergänzungen EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei beispielsweise (insbesondere) für den Fall des stimmhaften Lautes die erste Ergänzung EG1 unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes - stiit-rαhaft/stimmlos (stimmhaft und/oder stimmlos) - wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt) . Parallel dazu werden in einem fünften Prozessschritt P4.1 im Rahmen einer zweiten Spektralstrukturerweiterung z.B. gemäß der Druckschrift - Carl, H.; Heute, U. : „Bandwidth Enhancement of Narrow-Band Speech Signals', Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 - zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals basierend auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) zweite eine spektrale Struktur aufweisende Ergänzungen EG2 erzeugt, wobei die Ergänzung ab- hängig von dem jeweiligen Laut ist.

In einem sich daran anschließenden sechsten Prozessschritt P5.1 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2 verknüpft, bevor in einem siebten Prozessschritt P6.1 ei- ne erweiterte Spektralstruktur erzeugt und in einem achten

Prozessschritt P7.1 ein erweiterter Sprachsignalzeitabschnitt erzeugt wird. Diese Verknüpfung geschieht vorzugsweise durch eine Multiplikation.

Daran anschließend gibt es zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.

Um eine gewisse Qualitätsverbesserung des breitbandigen er- weiterten Sprachsignals zu erzielen, ist es möglich, den jeweiligen im vierten Prozessschritt P3.1 erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitt in einem neunten Prozessschritt P8.1 mittels eines Hochpassfilters zu filtern, danach in einem zehnten Prozessschritt P9.1 diesen gefilter- ten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Ξprachsignalzeitabschnitt aus dem ersten Prozessschritt P0.1 zu verknüpfen, bevor abschließend in einem elften Prozessschritt P10.1 aus den einzelnen verknüpften Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeit- abschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird. Kann auf eine derartige Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem achten Prozessschritt P7.1 aus den in diesem Prozessschritt jeweils er- zeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem elften Prozessschritt P10.1 durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.

Anhand der FIGUR 2 soll zunächst die erfindungsgemäße Erweiterung eines schmalbandig gefilterten Sprachsignals in die Richtung der oberen Frequenzen gemäß eines zweiten Prozesses (einer zweiten Methode) erläutert werden.

Im Allgemeinen wird ein Sprachsignal durch lineare Prädiktion analysiert. Dabei werden unter der Annahme, dass ein Sprachabtastwert durch die lineare Kombination von vorherigen Sprachabtastwerten angenähert werden kann, lineare Prädiktionskoeffizienten, sogenannte LPC-Koeffizienten, die die Fil- terkoeffizienten eines Sprachsynthesefilters darstellen, sowie ein Anregungssignal für dieses Synthesefilter berechnet.

Durch Anwenden der zu einem Sprachsignalabschnitt gehörenden LPC-Koeffizienten auf diesen Sprachsignalabschnitt mittels Filterung des Abschnitts mit einem durch diese Koeffizienten definierten nichtrekursiven Digitalfilter entsteht das sogenannte Prädiktionsfehlersignal. Dieses Signal beschreibt die Differenz zwischen dem durch die lineare Prädiktion geschätztem Signalwert und dem tatsächlichem Signalwert. Es stellt auch gleichzeitig das Anregungssignal für das durch die LPC- Koeffizienten definierte rein rekursive Synthesefilter dar, mit dem der Original-Sprachsignalabschnitt durch Filtern des Prädiktionsfehler- bzw. Anregungssignals wiedergewonnen wird.

Um ein Sprachsignal in die Richtung der oberen Frequenzen zu erweitern, ist die Kenntnis eines breitbandigen Anregungssignals und der Filterkoeffizienten, die das (breitbandige) Sprachsignal im Sinne der linearen Prädiktion beschreiben erforderlich.

Da beispielsweise in Telekommunikationssystemen, in denen schmalbandig übertragen wird, das Sprachsignal schmalbandig vorliegt, wird anhand des mittels linearer Prädiktion aus dem Sprachsignal berechneten schmalbandigen Anregungssignals ein breitbandiges Anregungssignal ermittelt.

Dies erfolgt beispielweise durch Frequenzspiegelung des schmalbandigen Anregungssignals, bei dem die Frequenzanteile zwischen 0 kHz und 4 kHz an der 4 kHz - Spektrallinie in einen Bereich von 4 kHz bis 8 kHz gespiegelt werden.

Alternativ kann die Berechnung auch durch Addition des schmalbandigen Signals mit spektral gleichverteiltem (weißem) oder spektral gewichtetem (gefärbtem) Rauschen realisiert werden.

FIGUR 2 zeigt anhand eines Ablaufdiagramms den zweiten Pro- zess (die zweite Methode) zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz - z.B. 4 kHz - des schmalbandig gefilterten Sprach- Signals im Frequenzbereich. Gemäß dem Ausgangszustand AZ des dargestellten Prozesses wird wieder von dem Telekommunikationsgerät das Sprachsignal gesendet. Es liegt somit wider ein schmalbandig gefiltertes Sprachsignal vor.

In einem ersten Prozessschritt PO.2 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.2 in bekannter Weise im Rahmen einer Prädiktionsanalyse LPC- Koeffizienten und ein schmalbandiges Prädiktionsfehlersignal berechnet, in einem dritten Prozessschritt P2.2 auf der Basis der LPC-Koeffizienten und des schmalbandigen Prädiktionsfeh- lersignals die Spektralstruktur der schmalbandigen Sprachsignalzeitabschnitte berechnet und in einem vierten Prozessschritt P3.2 eine Klassifizierung derart durchgeführt, dass der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut - wie beispielsweise "a", "e" oder "i", deren Aussprache ein in FIGUR 3a dargestelltes Spektrum aufweist - und/oder als ein stimmloser Laut - wie beispielsweise "s", "seh" oder "f", deren Aussprache ein in FIGUR 3b dargestelltes Spektrum aufweist - eingestuft bzw. definiert wird.

Diese Unterscheidung wird beispielsweise anhand der Position der ersten Formanten oder anhand des Verhältnisses von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz - beispielsweise 2 kHz - geschehen. Eine Unterscheidung an- hand des schmalbandigen Spektrums ist einfach durchzuführen, da wie ein Vergleich des in FIGUR 3a dargestellten Spektrum eines stimmhaften Lautes mit dem in FIGUR 3b dargestellten Spektrum eines stimmlosen Lautes zeigt, stimmhafte und stimmlose Laute in der Regel sehr unterschiedliche Spektren haben.

Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie - d.h. der Signalenergie in einem kurzen Zeitausschnitt des Schmalband-Sprachsignals - und der Langzeitsignalenergie - d.h. der Signalenergie über einen längeren Zeitausschnitt betrachtet - und anschließendem Ver- gleich des Verhältnis Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden. Im Anschluss daran wird in einem fünften Prozessschritt P4.2 in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung die im dritten Prozessschritt P2.2 berechnete Spektralstruktur erweitert. Dies geschieht derart, dass zeitabschnittsweise in bezug auf die im vierten Prozessschritt P3.2 vorgenommene lautartbezogene Klassifizierung erste Ergänzungen EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes - stimmhaft/stimmlos (stimmhaft und/oder stimmlos) - wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt) , die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer erweiterten spektralen Struktur verknüpft werden.

Handelt es sich in dem fünften Prozessschritt P4.2 bei dem untersuchten schmalbandigen Sprachsignal um einen stimmhaften Laut, so wird die schmalbandige spektrale Struktur, wie in FIGUR 4a dargestellt, derart durch eine Ergänzung erweitert, dass die erweiterte breitbandige spektrale Struktur oberhalb von 4 kHz wesentlich weniger Energie als unterhalb von 4 kHz besitzt. Es ist z.B. ein Abfall, ein exponentieller Abfall, ein gleichbleibendes Nullniveau oder ein gleichbleibendes Niveau der spektralen Struktur zu höheren Frequenzen hin denkbar.

Alternativ kann auch ganz von einer Erweiterung abgesehen werden, weil in der Regel die Signalenergie eines stimmhaften Lautes oberhalb der oberen Grenzfrequenz des Schmalband- Sprachsignals (z.B. 4 kHz) vernachlässigbar ist (vgl. FIGUR 3a) . Der erzeugte breitbandige Frequenzgang entspricht für diesen Fall dem schmalbandigen Frequenzgang des zugrundelie- genden schmalbandigen Sprachsignals, Es ist auch möglich, dass die Erweiterung, die nach Detektion eines stimmhaften Lautes vorgenommen wird, unabhängig von der genauen Kenntnis der Laute stets die gleiche ist (angepasst lediglich an die Energie des Schmalband-Sprachsignals) , so dass eine einfache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.

Handelt es sich in dem fünften Prozessschritt P4.2 bei dem untersuchten schmalbandigen Sprachsignal um einen stimmlosen Laut, so wird der schmalbandige Frequenzgang, wie in FIGUR 4b dargestellt, derart erweitert, dass er - im Gegensatz zur Erweiterung bei stimmhaften Lauten - im Bereich oberhalb der ersten Grenzfrequenz des Schmalband-Sprachsignals (z.B. 4 kHz) einen nicht vernachlässigbaren Teil seiner Gesamtenergie besitzt.

Auch hierbei kann die Erweiterung stets, unabhängig von der genauen Kenntnis der Laute, durch eine gleichartige spektrale Erweiterung erfolgen (angepasst lediglich an die Energie des Schmalband-Sprachsignals) , so dass hierdurch ebenso eine einfache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.

Als Ergebnis der ersten bis fünften Prozessschritte P0.2...P4.2 in FIGUR 2 wird also eine erste eine spektrale

Struktur aufweisende Ergänzung der schmalbandigen spektralen Struktur in Abhängigkeit von dem Laut, der der vorhandenen schmalbandigen spektralen Struktur zugrunde liegt, generiert.

Außerdem wird in einem sechsten Prozessschritt P5.2 das in dem zweiten Prozessschritt P1.2 berechnete schmalbandige Prädiktionsfehlersignal zum einem breitbandigen Prädiktionsfehlersignal erweitert, so dass bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Prädiktionsfehlersignalabschnitte des breitbandigen Prädikti- onsfehlersignales erzeugt werden. Parallel dazu werden wieder in einem siebten Prozessschritt Pβ.2 im Rahmen einer zweiten Spektralstrukturerweiterung z.B. gemäß der Druckschrift - Carl, H.; Heute, U. : „Bandwidth Enhancement of Narrow-Band Speech Signals', Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 - zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals basierend auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) zweite eine spektrale Struktur aufweisende Ergänzungen EG2 erzeugt, wobei die Ergänzung ab- hängig von dem jeweiligen Laut ist.

In einem sich daran anschließenden achten Prozessschritt P7.2 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2 verknüpft, bevor in einem neunten Prozessschritt P8.2 eine erweiterte Spektralstruktur erzeugt wird. Diese Verknüpfung geschieht vorzugsweise durch eine Multiplikation.

Daran anschließend wird aus der im neunten Prozessschritt P8.2 erzeugten erweiterten spektralen Struktur durch die Be- rechnung von breitbandigen Filterkoeffizienten in einem zehnten Prozessschritt P9.2 und dem im sechsten Prozessschritt P5.2 jeweils erzeugten breitbandigen Prädiktionsfehlersignal- abschnitt in einem elften Prozessschritt P10.2 mittels eines durch die in Prozessschritt P9.2 berechneten breitbandigen Filterkoeffizienten bestimmten Synthesefilters jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt.

Daran anschließend gibt es wieder zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.

Um eine gewisse Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals zu erzielen, ist es möglich, den jeweiligen im elften Prozessschritt P10.2 erzeugten breitbandi- gen erweiterten Sprachsignalzeitabschnitt in einem zwölften Prozessschritt P11.2 mittels eines Hochpassfilters zu filtern, danach in einem dreizehnten Prozessschritt P12.2 diesen gefilterten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt aus dem ersten Prozessschritt PO.2 zu verknüpfen, bevor abschließend in einem vierzehnten Prozessschritt P13.2 aus den einzelnen verknüpf- ten Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird.

Kann auf eine derartige Qualitätsverbesserung des breitbandi- gen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem elften Prozessschritt P10.2 aus den in diesem Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem vierzehnten Prozessschritt P13.2 durch Zusammenfü- gen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.

Claims

Patentansprüche

1. Verfahren zur Erweiterung der Brandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals, oberhalb einer Grenzfrequenz des schmalbandigen Sprachsignals, bei dem a) das schmalbandige Sprachsignal in Sprachsignalzeitabschnitte unterteilt wird (P0.1, PO.2) und jeweils eine spektrale Struktur aus den Sprachsignalzeitabschnitten be- rechnet wird (Pl.l, P1.2, P2.2), b) jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter und/oder stimmloser Laut klassifiziert wird (P2.1, P3.2), dadurch gekennzeichnet, dass c) erste eine spektrale Struktur aufweisende Ergänzungen

(EG1) zur Erweiterung des schmalbandigen Sprachsignals in bezug auf die in b) vorgenommene lautartbezogene Klassifizierung erzeugt werden (P3.1, P4.2), wobei insbesondere zumindest für den Fall des stimmhaften Lautes die Ergän- zung unabhängig von dem jeweiligen Laut ist, d) zweite eine spektrale Struktur aufweisende Ergänzungen (EG2) zur Erweiterung des schmalbandigen Sprachsignals basierend auf allgemein bekannten Methoden zur Auswertung der statistischen Eigenschaften des schmalbandigen Sprach- Signals erzeugt werden (P4.1, P6.2), wobei die Ergänzung abhängig von dem jeweiligen Laut ist, e) die erste Ergänzung (EG1) jeweils mit der zweiten Ergänzung (EG2) verknüpft wird (EG3, P5.1, P7.2), f) die spektrale Struktur des schmalbandigen Sprachsignal- Zeitabschnittes und die spektrale Struktur der verknüpften Ergänzung (EG3) zeitabschnittsweise derart verknüpft werden (P6.1, P8.2), dass jeweils eine erweiterte spektrale Struktur entsteht, g) auf Basis der erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird (P7.1, P9.2, P10.2), h) aus den einzelnen breitbandigen erweiterten Sprachsi'gnal- zeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird (P8.1, P9.1, P10.1, P11.2, P12.1, P13.2).

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes durch eine Fouriertransformation berechnet wird und aus der erweiterten spektralen Struktur durch eine inverse Fouriertransformation der breitbandige erweiterte Sprachsignalzeitabschnitt erzeugt wird.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes durch Berechnung des Frequenzgangs eines zum Sprachsignalzeitabschnitt gehörenden LPC-Synthesefilters berechnet wird, aus der erweiterten spektralen Struktur die Koeffizienten eines breitbandigen LPC-Synthesefilters berechnet werden, bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Prädiktionsfe ler- signalzeitabschnitte eines breitbandigen Prädiktionsfehler- signals erzeugt werden (P5.2) und durch Filterung des Prädik- tionsfehlersignalzeitabschnittes in dem breitbandigen LPC- Synthesefilter jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird (P9.2, P10.2).

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils erzeugte erste Ergänzung (EG1) derart erzeugt wird (P3.1, P4.2), dass die Energie dieser Ergänzung (EG1) in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes vernachlässigbar ist.

5. Verfahren nach Anspruch 1 oder 4, d a d u r c h g e k e n n z e i c h n e t , dass die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalabschnitte jeweils erzeugte erste Ergänzung (EGl) derart erzeugt wird (P3.1, P4.2), dass die Energie dieser Ergänzung (EGl) in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes nicht vernachlässigbar ist.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die erzeugte erste Ergänzung (EGl) abfällt, exponentiell abfällt, ansteigt, gleichbleibendes Nullniveau aufweist oder gleichbleibendes Niveau aufweist.

7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der aus der erweiterten spektralen Struktur jeweils erzeugte breitbandige erweiterte Sprachsignalzeitabschnitt hochpassge- filtert wird (P8.1, P11.2), der hochpassgefilterte Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt verknüpft wird (P9.1, P12.2) und aus den einzelnen verknüpften Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal erzeugt wird (P10.1, P13.2) .

8 . Verfahren nach Anspruch 1 , d a d u r c h g e k e n n z e i c h n e t , dass die Verknüpfung des ersten Ergänzung (EGl) mit der zweiten Ergänzung (EG2) durch Multiplikation erfolgt.