DE10041512A1 - Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen - Google Patents

Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen

Info

Publication number
DE10041512A1
DE10041512A1 DE10041512A DE10041512A DE10041512A1 DE 10041512 A1 DE10041512 A1 DE 10041512A1 DE 10041512 A DE10041512 A DE 10041512A DE 10041512 A DE10041512 A DE 10041512A DE 10041512 A1 DE10041512 A1 DE 10041512A1
Authority
DE
Germany
Prior art keywords
signal
speech signal
filter coefficients
filter
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10041512A
Other languages
English (en)
Other versions
DE10041512B4 (de
Inventor
Peter Jax
Juergen Schnitzler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Infineon Technologies AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies AG filed Critical Infineon Technologies AG
Priority to DE10041512A priority Critical patent/DE10041512B4/de
Priority to US10/111,522 priority patent/US7181402B2/en
Priority to PCT/EP2001/009125 priority patent/WO2002017303A1/de
Publication of DE10041512A1 publication Critical patent/DE10041512A1/de
Application granted granted Critical
Publication of DE10041512B4 publication Critical patent/DE10041512B4/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

Die Erfindung schafft ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen. Dazu erfolgt das Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate; das Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten zur Einhüllenerweiterung; das Durchführen einer Restsignalerweiterung an dem analysegefilterten Sprachsignal und das Durchführen einer Synthesefilterung an dem restsignalerweiterten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals. Für die Analysefilterung werden identische Filterkoeffizienten wie für die Synthesefilterung verwendet.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen.
Sprachsignale überstreichen einen breiten Frequenzbereich, der in etwa von der Sprachgrundfrequenz, die abhängig vom Sprecher um ca. 80 bis 160 Hz liegt, bis zu den Frequenzen jenseits von 10 kHz reicht. Bei der Sprachkommunikation über bestimmte Übertragungsmedien, wie z. B. Telefon wird allerdings aus Gründen der Bandbreiteneffizienz nur ein eingeschränkter Ausschnitt übertragen, wobei eine Satzverständlichkeit von ca. 98% gewährleistet ist.
Entsprechend der minimalen für das Telefonsystem spezifizierten Bandbreite von 300 Hz bis 3400 Hz lässt sich ein Sprachsignal grob in drei Frequenzbereiche unterteilen, jeder dieser Bereiche ist für spezifische Spracheigenschaften und subjektive Empfindungen verantwortlich:
  • - Tiefe Frequenzen unterhalb von etwa 300 Hz entstehen hauptsächlich während stimmhafter Sprachabschnitte wie z. B. Vokalen. Dieser Frequenzbereich enthält in diesem Fall tonale Komponenten, d. h. insbesondere die Sprachgrundfrequenz (fp) sowie je nach Stimmlage eventuell einige Harmonische.
    Die tiefen Frequenzen sind für die subjektive Empfindung von Volumen und Dynamik eines Sprachsignals von entschei­ dender Bedeutung. Die Sprachgrundfrequenz lässt sich dem­ gegenüber von einem menschlichen Hörer aufgrund der psy­ choakustischen Eigenschaft der virtuellen Tonhöhenempfin­ dung auch bei Fehlen der tiefen Frequenzen aus der harmonischen Struktur in höheren Frequenzbereichen wahrnehmen.
  • - Mittlere Frequenzen im Bereich 300 bis 3400 Hz sind bei Sprachaktivität durchgängig im Sprachsignal vorhanden. Ih­ re zeitvariante spektrale Färbung durch mehrere Formate sowie die zeitliche und spektrale Feinstruktur charakteri­ sieren den jeweils gesprochenen Laut/Phonem. Auf diese Weise transportieren die mittleren Frequenzen den Haupt­ teil der für die Verständlichkeit der Sprache relevanten Informationen.
  • - Hohe Frequenzanteile oberhalb von etwa 3.4 kHz entstehen vornehmlich während stimmloser Laute; sie sind besonders stark bei scharfen Lauten wie z. B. /s/ oder /f/. Auch Plo­ sivlaute wie /k/ oder /t/ weisen ein breites Spektrum mit starken hochfrequenten Anteilen auf. Entsprechend hat das Signal in diesem oberen Frequenzbereich einen eher rauschartigen als tonalen Charakter.
    Die Struktur der auch in diesem Bereich vorhandenen Formanten ist verhältnismässig zeitinvariant, unterscheidet sich jedoch für verschiedene Sprecher.
    Die hohen Frequenzanteile sind wichtig für die Natürlichkeit, Klarheit und Präsenz eines Sprachsignals - ohne diese Komponenten wirkt die Sprache dumpf. Weiterhin ermöglichen diese oberen Frequenzen eine bessere Unterscheidung von Frikativen und Konsonanten und sorgen somit für eine erhöhte Verständlichkeit.
Sowohl der Bereich der hohen als auch der tiefen Frequenzen enthält eine Reihe sprecherspezifischer Eigenschaften und er­ leichtert somit die Identifikation des Sprechers durch einen Hörer. Diese Aussage muss jedoch insofern relativiert werden, als man sich in der Regel an die "Telefonsprache" einer Per­ son gewöhnt und diese dann trotz einer Begrenzung der Band­ breite recht gut erkennen kann.
Das Ziel eines Sprachkommunikationssystems ist immer die Ü­ bertragung eines Sprachsignals mit bestmöglicher Qualität ü­ ber einen Kanal mit eingeschränkter Bandbreite. Die Sprach­ qualität ist hierbei eine subjektive Größe mit vielen Kompo­ nenten, von denen für ein Kommunikationssystem sicherlich die Verständlichkeit die wichtigste darstellt. Die Übertragungs­ bandbreite des analogen Telefons wurde als Kompromiss zwi­ schen Bandbreite und Sprachverständlichkeit definiert: die Satzverständlichkeit beträgt im ungestörten Fall etwa 98%. Allerdings ist die Silbenverständlichkeit auf eine deutlich geringere Erkennungsrate eingeschränkt.
Mit der modernen digitalen Übertragungstechnik bewegt man sich ich einen Bereich sehr hoher Sprachverständlichkeit, und weitere Aspekte der Sprachqualität gewinnen an Bedeutung, insbesondere solche rein subjektiver Art wie Natürlichkeit oder Lautheit bzw. Dynamik. Bedient man sich des Mean Opinion Score (MOS) als Gesamtmaß für die subjektive Sprachqualität, so lässt sich durch Hörtests der Einfluss der Bandbreie auf das Hörempfinden bestimmen. Ergebnisse einer solchen Untersu­ chung für Telefonhandapparate sind in Fig. 10 zusammenge­ fasst.
Wie zu erkennen ist, lässt sich sowohl durch eine Erweiterung der Telefonbandbreite um hohe Frequenzen (größer als 3,4 kHz) als auch um tiefe Anteile (kleiner als 300 Hz) eine deutliche Verbesserung der subjektiven Beurteilung eines Sprachsignals erzielen. Die besten Ergebnisse werden erreicht, wenn die Er­ weiterung ausgewogen nach oben und unten erfolgt; durch eine Vergrößerung der Bandbreite auf den Bereich 50 Hz bis 7 kHz lassen sich gegenüber Telefonsprache über 1,4 MOS-Punkte ge­ winnen.
Im Sinne einer subjektiven Qualitätsverbesserung ist also ei­ ne gegenüber der üblichen Telefonbandbreite vergrößerte Band­ breite bei Systemen zur Sprachkommunikation anzustreben.
Ein möglicher Ansatz besteht darin, die Übertragung zu modi­ fizieren und entweder eine größere Bitrate zu verwenden oder mittels Codierverfahren eine breitere übertragene Bandbreite zu bewirken. Dieser Ansatz ist jedoch aufwendig.
Die künstliche Erweiterung der Bandbreite von Sprachsignalen ohne Übertragung zusätzlicher Nebeninformationen nimmt in der Literatur im Vergleich zu anderen Funktionen der digitalen Sprachsignalverarbeitung bisher nur einen sehr kleinen Raum ein. Die veröffentlichten Verfahren unterscheiden sich grund­ sätzlich darin, ob eine Erweiterung zu hohen oder zu tiefen Frequenzen erzielt werden soll. Weiterhin legen die verschie­ denen Algorithmen in unterschiedlichem Maß Schwerpunkte auf die Rekonstruktion der groben spektralen Struktur und/oder auf zeitliche und spektrale Feinstrukturen.
Die ersten Versuche zur Bandbreitenerweiterung wurden schon in 1971 von der BBC mit dem Ziel durchgeführt, sogenannte Phone-In-Beiträge in Radio- oder Fernsehsendungen aufwerten zu können (M. G. Croll, "Sound Quality Improvement of Broad­ cast Telephone Calls", BBC Research Report RD1972/26, British Broadcasting Corporation, 1972). Für die Erweiterung nach un­ ten wurde vorgeschlagen, tiefe Frequenzkomponenten durch ei­ nen nichtlinearen Gleichrichter zu generieren und nach der Filterung mit einem Bandpass der Bandbreite 80 Hz bis 300 Hz dem Originalsignal hinzuzuaddieren.
Ein weitergehender Vorschlag, einzelne Sinustöne bei der Pitch-Frequenz und dessen erster Harmonischen hinzuzufügen, führt zu einem unausgewogenen Zusammenklang mit dem bandbe­ grenzten Sprachsignal, obwohl für die Bestimmung der Amplitu­ de dieser Sinustöne der Effektivwert der Sprachkomponenten zwischen 300 Hz und 1 kHz herangezogen wird (P. J. Patrick, "Enhancement of Bandlimited Speech Signals", Dissertation, Loughborough University of Technology, 1983).
Für die Erzeugung hoher Frequenzanteile wurde vorgeschlagen, das Ausgangssignal eines Rauschgenerators mit der Leistung eines Teilbandes (2.4-3.4 kHz) des Originalsignals zu modu­ lieren und nach einer Bandpassfilterung der Bandbreite 3.4- 7.6 kHz zu dem Originalsignal zu addieren.
Ein weiterer Ansatz von Patrick basiert auf einer Analyse des Eingangssignals mittels Fensterung und FFT. Der Bandbereich zwischen 300 Hz und 3.4 kHz wird in den Bereich von 3.4-6.5 kHz kopiert und abhängig von der Leistung des Originalsignals im Band 2.4-3.4 kHz sowie von dem Quotienten der Leistungen der Bereiche 2.4-3.4 kHz skaliert.
Ein weiteres Verfahren ist durch die Beobachtung motiviert, dass die höheren Formanten bei einem Sprecher sich zeitlich kaum in Frequenz und Breite verändern. Es wird also zunächst durch eine Nichtlinearität eine Anregung erzeugt, die als Eingangssignal für ein festes Filter zur Formung eines Form­ anten dient. Das Ausgangssignal des Filters wird zum Origi­ nalsignal addiert, allerdings nur während stimmhafter Laute. Ein auf statistischen Methoden basierendes System zur Band­ breitenerweiterung wird in Y. M. Cheng, D. O'Shaugnessy, P. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband Speech". IEEE Transactions on Speech and Audio Processing, Band 2, Nr. 4, Oktober 1994 beschrieben. Die Sig­ nalquelle (d. h. der Spracherzeugungsprozess) wird als eine Menge von voneinander unabhängigen, jeweils bandbegrenzten Teilquellen betrachtet, von denen aber bei einem schmalbandi­ gen Signal nur eine beschränkte Anzahl zum Signal beitragen und somit beobachtbar sind. Anhand trainiertem a priori Wis­ sen wird nun eine Schätzung für die Parameter der nicht di­ rekt beobachtbaren Quellen berechnet, mit denen dann das (breitbandige) Gesamtsignal rekonstruiert werden kann.
Eine mit geringem Aufwand realisierbare Möglichkeit, die Di­ gital-Analog Umsetzung mit einer Vergrößerung der Bandbreite zu verknüpfen, besteht darin, das der Digital-Analog-Wandlung folgende Anti-Aliasing Tiefpassfilter so zu gestalten, dass die Dämpfung bis zum eineinhalbfachen Vielfachen der Ny­ quistfrequenz langsam bis zu einem Wert von 20 dB abnimmt und erst dann ein steiler Übergang zu höheren Dämpfungen erfolgt (M. Dietrich, "Performance and Implementation of a Robust ADPCM Algorithm for Wideband Speech Coding with 64 kBit/s", Proc. International Zürich Seminar Digital Communications, 1984). Bei einer Abtastfrequenz von 16 kHz werden durch diese Maßnahme im Bereich von 8 bis 12 kHz Spiegelfrequenzen er­ zeugt, die den Eindruck einer größeren Bandbreite vermitteln.
In neuerer Zeit wurden einige Verfahren präsentiert, bei de­ nen die Erweiterung der spektralen Einhüllenden und der Fein­ struktur getrennt voneinander erfolgt (H. Carl, "Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband-Sprachsignalen", Dissertation, Ruhr-Universität Bochum, 1994). Hierbei wird zunächst rahmenweise eine LPC-Analyse des Eingangssignals durchgeführt und das Sprachsignal mit dem LPC-Inversfilter gefiltert. Das resultierende Restsignal ist im Idealfall durch den "Weißmacher-Effekt" der LPC von der spektralen Ein­ hüllenden befreit und enthält nunmehr ausschließlich Informa­ tionen über die Feinstruktur des Signals.
Der Vorteil der Aufspaltung des Eingangssignals in eine Be­ schreibung der spektralen Grobstruktur und ein Restsignal liegt in der Möglichkeit, dass nun die beiden Teilalgorithmen zur Erweiterung der Komponenten unabhängig voneinander ent­ worfen und optimiert werden können.
Die Aufgabe des Teilalgorithmus zur Erweiterung des Restsig­ nals besteht darin, für das nachfolgende Filter ein breitban­ diges Anregungssignal zu erzeugen, das einerseits wiederum spektral flach ist, aber andererseits auch eine zur Pitchfre­ quenz der Sprache passende harmonische Struktur besitzt.
Während bei der Restsignalerweiterung häufig ähnliche Ansätze gewählt werden, gehen die Wege bei der Ergänzung der spektra­ len Einhüllenden auseinander.
  • - Ein Teil der Methoden basiert auf der Annahme, dass zwi­ schen den Parametern des Sprachtraktes in schmalbandiger und breitbandiger Beschreibungsform ein annähernd linea­ rer Zusammenhang besteht. Die bei einer LPC-Analyse ge­ wonnenen Parameter werden hierbei in verschiedenen Dar­ stellungsformen verwendet, z. B. als Cepstralkoeffizien­ ten oder Koeffizienten einer DFT-Analyse (z. B. H. Her­ mansky, C. Avendano, E. A. Wan, "Noise Reduction and Re­ covery of Missing Frequencies in Speech", Proceedings 15th Annual Speech Research Symposium, 1995).
    Die Parameter werden parallel in eine Anzahl linearer sogenannter Multiple Input Single Output (MISO) Filter eingespeist. Der Ausgang eines einzelnen MISO Filters stellt die Schätzung eines breitbandigen Parameters dar; diese Schätzung hängt also von sämtlichen schmalbandigen Parametern ab. Die Koeffizienten der MISO Filter werden vor der Bandbreitenerweiterung in einer Trainingsphase optimiert, z. B. nach einem Minimum Mean Squared Error Kriterium. Nachdem alle breitbandigen Parameter für den aktuellen Signalrahmen durch eigene MISO Filter ge­ schätzt wurden, können sie in entsprechend umgerechneter Form als Koeffizienten des LPC-Synthesefilters verwendet werden.
  • - Ein zweiter Ansatz macht sich die beschränkte Zahl der in einem Sprachsignal vorkommenden Laute zu nutze. Es wird ein Codebuch mit Repräsentanten der Einhüllenden­ formen typischer Sprachlaute trainiert und gespeichert. Bei der Erweiterung wird dann verglichen, welche der ge­ speicherten Einhüllendenformen dem aktuellen Signalaus­ schnitt am ähnlichsten ist. Die dieser ähnlichsten Einhüllendenform entsprechenden Filterkoeffizienten werden als Koeffizienten des LPC-Synthesefilters verwendet.
Alle hier erwähnten Methoden sind prinzipiell für eine Erwei­ terung sowohl hoher als auch tiefer Frequenzbereiche verwend­ bar; es muss nur die Restsignalerweiterung so gestaltet wer­ den, dass in den entsprechenden Bändern des Restsignals eine passende Anregung generiert wird.
So unterschiedlich die bekannten Algorithmen auch sind, sie weisen doch alle in mehr oder weniger starker Ausprägung sehr ähnliche Eigenschaften und Probleme auf.
Besonders problematisch scheint das Ziel eines ausgewogenen Zusammenspiels der neu generierten Signalkomponenten mit dem schmalbandigen Originalsignal zu sein. Durch fehlerhafte Amp­ lituden der neuen Bandbereiche erhält der Hörer den Eindruck einer Sprachverzerrung, der sogar in eine Sprachverfremdung münden kann, wenn beispielsweise das Ausgangssignal "gelis­ pelt" klingt.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen zu schaffen, die in der La­ ge sind, aus einem herkömmlich übertragenen Sprachsignal, das z. B. nur mit Telefonbandbreite vorliegt, mit Kenntnis der Me­ chanismen der Spracherzeugung und -wahrnehmung ein Sprachsig­ nal zu erzeugen, das subjektiv eine größere Bandbreite und somit auch eine bessere Sprachqualität als das Originalsignal aufweist, wobei für ein solches System die Übertragungsstre­ cke an sich nicht modifiziert werden muß.
Die Erfindung schafft ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen ge­ mäß Anspruch 1 bzw. 12.
Der Erfindung liegt die Idee zu Grunde, dass für die Analysefilterung und die Synthesefilterung identische Filterkoeffi­ zienten verwendet werden.
Die erfindungsgemäße Grundstruktur des Algorithmus zur Band­ breitenvergrößerung kommt im Gegensatz zu den bekannten Ver­ fahren mit nur einem einzigen breitbandigen Codebuch aus, welches im voraus trainiert wird.
Ein wesentlicher Vorteil dieses Algorithmus liegt darin, daß die Übertragungsfunktionen des Analyse- und Synthesefilters exakt invers zueinander sein können. Hierdurch kann die Transparenz des Systems bzgl. des Basisbandes, d. h. desjeni­ gen Frequenzbereichs, in dem bereits im schmalbandigen Ein­ gangssignal Komponenten enthalten sind, garantiert werden. Hierzu muß lediglich darauf geachtet werden, daß durch die Restsignalerweiterung die Anregungskomponenten des Basisban­ des nicht modifiziert werden. Eine nicht-ideale Analysefilte­ rung im Sinne einer optimalen linearen Prädiktion hat keine Auswirkung auf das Basisband, wenn Analyse- und Synthesefil­ ter exakt invers zueinander sind.
Bei der bisher üblichen Verwendung unterschiedlicher Koeffi­ zientensätze für die Analyse- und Synthesefilterung war es notwendig, das Ausgangssignal des Synthesefilters adaptiv an das schmalbandige Eingangssignal anzupassen, damit beide Sig­ nale im Basisband die gleiche Leistung aufweisen. Diese Not­ wendigkeit der adaptiven Schätzung und Anwendung der hierzu notwendigen Korrekturfaktoren entfällt beim Gegenstand der Erfindung vollständig. Artefakte und Fehler, die aus Fehl­ schätzungen der Korrekturfaktoren herrühren, können somit e­ benfalls vermieden werden.
Bevorzugte Weiterbildungen sind Gegenstand der Unteransprü­ che.
Gemäß einer bevorzugten Weiterbildung werden die Filterkoef­ fizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Code­ buch ermittelt. Hierbei gilt es, für jeden Abschnitt des schmalbandigen Sprachsignals den jeweils bestpassenden Code­ bucheintrag zu ermitteln.
Gemäß einer weiteren bevorzugten Weiterbildung liegt das ab­ getastete schmalbandige Sprachsignal im Frequenzbereich 300 Hz bis 3,4 kHz und das breitbandigere Sprachsignal im Fre­ quenzbereich 50 Hz bis 7 kHz. Dies entspricht einer Erweite­ rung von Telefonbandbreite auf Breitbandsprache.
Gemäß einer weiteren bevorzugten Weiterbildung weist der Al­ gorithmus zur Ermittlung der Filterkoeffizienten folgende Schritte auf:
Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Ab­ hängigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor X(m) für einen jeweili­ gen Zeitabschnitt m;
Vergleichen des Merkmalsvektors mit den statistischen Model­ len; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichser­ gebnisses.
Die ermittelten Merkmale können beliebige Größen sein, die aus dem schmalbandigen Sprachsignal berechnet werden können, z. B. Cepstralkoeffizienten, Rahmenenergie, Nulldurchgangsrate etc. Durch die freie Wählbarkeit der aus dem schmalbandigen Sprachsignal zu extrahierenden Merkmale können sehr flexibel verschiedene Eigenschaften des schmalbandigen Sprachsignals zur Bandbreitenerweiterung verwendet werden. Hierdurch wird eine sichere Schätzung der zu erweiternden Frequenzkomponen­ ten ermöglicht.
Die statistische Modellierung des schmalbandigen Sprachsig­ nals ermöglicht es weiterhin, bei der Bandbreitenerweiterung eine Aussage über die erreichbare Erweiterungsqualität zu treffen, da ausgewertet werden kann, wie gut die Übereinstim­ mung der Eigenschaften des schmalbandigen Sprachsignals mit dem jeweiligen statistischen Modell ist.
Gemäß einer weiteren bevorzugten Weiterbildung wird beim Ver­ gleichen mindestens eine der folgenden Wahrscheinlichkeiten berücksichtigt:
die Beobachtungswahrscheinlichkeit p(X(m)|Si) des Auftretens des Merkmalsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand Si befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abge­ tastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
Gemäß einer weiteren bevorzugten Weiterbildung wird zum Er­ mitteln der Filterkoeffizienten der Codebucheintrag Ci ver­ wendet, für den die Beobachtungswahrscheinlichkeit p(X(m)|Si) maximal ist.
Gemäß einer weiteren bevorzugten Weiterbildung wird zum Er­ mitteln der Filterkoeffizienten der Codebucheintrag verwen­ det, für den die Verbundwahrscheinlichkeit p(X(m), Si) maximal ist.
Gemäß einer weiteren bevorzugten Weiterbildung erfolgt zum Ermitteln der Filterkoeffizienten eine direkte Schätzung der spektralen Einhüllenden durch die mit der a posteriori Wahr­ scheinlichkeit p(Si|X(m) gewichtete Mittelung aller Codebuch­ einträge.
Gemäß einer weiteren bevorzugten Weiterbildung wird die Beo­ bachtungswahrscheinlichkeit durch ein Gauß'sches Mischmodell dargestellt.
Gemäß einer weiteren bevorzugten Weiterbildung wird in vorbe­ stimmten Sprachabschnitten die Bandbreitenerweiterung deakti­ viert. Dies ist dort zweckmäßig, wo von vorneherein eine feh­ lerhafte Bandbreitenerweiterung zu erwarten ist. So läßt sich verhindern, daß die Qualität des schmalbandigen Sprachsignals z. B. durch Artefakte verschlechtert anstatt verbessert wird.
Im folgenden wird die Erfindung anhand von Ausführungsbei­ spielen unter Bezugnahme auf die Zeichnungen eingehender be­ schrieben.
Es zeigen:
Fig. 1 ein einfaches autoregressives Modell des Prozesses der Spracherzeugung sowie der Übertragungsstrecke;
Fig. 2 das technische Prinzip der Bandbreitenerweiterung nach Carl;
Fig. 3 die Frequenzgänge des Inversfilters und des Synthe­ sefilters für zwei unterschiedliche Laute;
Fig. 4 eine erste Ausführungsform der Bandbreitenerweite­ rung gemäß der vorliegenden Erfindung;
Fig. 5 eine weitere Ausführungsform der Bandbreitenerweiterung gemäß der vorliegenden Erfindung;
Fig. 6 eine Gegenüberstellung der Frequenzgänge eines a­ kustischen Front-End und eines Postfilters, das für Hörtests mit hochwertigeren Lautsprechersystemen verwendet wurde;
Fig. 7 ein Hidden-Markov-Modell des Spracherzeugungspro­ zesses für I = 3 mögliche Zustände;
Fig. 8 eindimensionale Histogramme für die Nulldurchgangs­ rate;
Fig. 9 zweidimensionale Scatterdiagramme zusammen mit den durch den GMM modellierten Verteilungsdichtefunkti­ onen VDF;
Fig. 10 eine Illustration zur subjektiven Beurteilung von Sprachsignalen mit verschiedenen Bandbreiten, wobei fgu die untere und fgo die obere Bandgrenze dar­ stellt; und
Fig. 11 typische Übertragungscharakteristiken zweier akus­ tischer Front-Ends.
In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente.
Es sollen zunächst die technischen Randbedingungen der Band­ breitenerweiterung erläutert werden, die einerseits die Ei­ genschaften des Eingangssignals bestimmen sowie andererseits den Weg des Ausgangssignals bis zum Empfänger des Signals d. h. das menschliche Ohr definieren.
Der Teil, der vor dem Algorithmus angesiedelt ist, umfasst die gesamte Übertragungsstrecke vom Sprecher bis in das emp­ fangene Telefongerät, d. h. insbesondere Mikrofon, und Analog- Digital-Umsetzer sowie die Übertragungsstrecke zwischen den beteiligten Telefongeräten.
Im Mikrofon wird das Nutzsignal in der Regel leicht verzerrt. Abhängig von der Anordnung und Position des Mikrofons relativ zum Sprecher sind in dem Mikrofonsignal neben dem Sprachsig­ nal zusätzliche Hintergrundgeräusche, akustische Echos etc. enthalten.
Vor der Analog-Digital-Umsetzung des Mikrofonsignals wird dessen obere Grenzfrequenzdurch analoge Filterung auf maximal die halbe Abtastfrequenz begrenzt - bei der Abtastfrequenz von fa = 8 kHz beträgt die Bandbreite des digitalen Signals also maximal 4 kHz. Die durch die analoge Vorverarbeitung und Quantisierung hinzugefügten Verzerrungen und Störungen seien hierbei vernachlässigbar.
Bei der Betrachtung der Eigenschaften der Übertragungsstrecke müssen zwei Fälle unterschieden werden:
  • - Bei analoger Übertragung treten Störungen in der Form von Rauschen, Leitungsechos, Übersprechen etc. auf. Zusätzlich wird das Sprachsignal in der Regel für Multiplexstrecken auf den standardisierten Frequenzbereich von 300 Hz bis 3400 Hz bandbegrenzt.
  • - Erfolgt die Übertragung des Signals hingegen in digitaler Technik, so kann sie im Idealfall als transparent angenom­ men werden (z. B. im ISDN-Netz). Wird das Signal jedoch zur Übertragung codiert, z. B. für eine Mobilfunkstrecke, so können sowohl nichtlineare Verzerrungen als auch additives Quantisierungsrauschen auftreten. Weiterhin wirken sich in diesem Fall Übertragungsfehler mehr oder weniger stark aus.
Basierend auf den beschriebenen Systemeigenschaften werden im weiteren die folgenden Eigenschaften für das Eingangssignal angenommen:
  • - Das Sprachsignal ist bandbegrenzt. Die übertragene Band­ breite reicht nach oben im Bestfall bis zu einer Grenzfre­ quenz von 4 kHz, in der Regel jedoch nur bis etwa 3,4 kHz. Die Beschneidung der Bandbreite zu tiefen Frequenzen hin hängt von der Übertragungsstrecke ab und kann im Extrem­ fall bei circa 300 Hz erfolgen.
  • - Abhängig von der Position des Mikrofons relativ zum Spre­ cher und von der akustischen Situation auf der Sendeseite sind im Eingangssignal additive Hintergrundstörungen ver­ schiedener Art zu erwarten.
  • - Das Sprachsignal kann mehr oder weniger stark verzerrt sein. Diese Verzerrungen hängen von der Übertragungsstre­ cke ab und können sowohl linearer als auch nichtlinearer Natur sein.
Aus Sicht des Eingangssignals ist eine Erweiterung zu hohen Frequenzen hin in jedem Fall sinnvoll. Tiefe Frequenzen hin­ gegen sind in einigen Fällen bereits im Eingangssignal vor­ handen und müssten dann nicht mehr künstlich ergänzt werden; andernfalls ist auch in diesem Bereich eine Bandbreitenerwei­ terung sinnvoll. Bei dem Entwurf des Algorithmus zur Band­ breitenerweiterung sollten mögliche Verzerrungen und Störun­ gen berücksichtigt werden, damit eine robuste Lösung erreicht werden kann.
Das Ausgangssignal des Algorithmus zur Bandbreitenerweiterung wird im wesentlichen ins Analoge umgesetzt, durchläuft dann einen Leistungsverstärker und wird schließlich einem akusti­ schen Front-End zugeführt.
Die Digital-Analog Umsetzung kann im Rahmen der Bandbreiten­ erweiterung als ideal angenommen werden. Der nachfolgende analoge Leistungsverstärker kann dem Signal linare und nichtlineare Verzerrungen zufügen.
Der Lautsprecher weist bei handelsüblichen Handapparaten und Freisprechgeräten aus optischen und Kostengründen meist eine recht kleine Bauform auf. Dementsprechend klein ist auch die akustische Leistung, die im linearen Arbeitsbereich des Lautsprechers abgestrahlt werden kann und die Gefahr der Übersteuerung und der dadurch bewirkten nichtlinearen Verzerrungen ist groß. Weiterhin treten lineare Verzerrungen auf, die auch zu einem großen Teil von der akustischen Umgebung abhängen. Insbesondere bei Handapparaten hängt die Übertragungscharakteristik des Lautsprechers stark von der Haltung und Andruckkraft des Hörers an das Ohr ab.
In Fig. 11 sind exemplarisch die typischen Frequenzgänge der gesamten Ausgangsübertragungsstrecke (d. h. inkl. Digital- Analog-Wandlung, Verstärkung und Lautsprecher) für einen Telefonhörer sowie für den Lautsprecher eines Freisprech­ telefons dargestellt. Für diese qualitativen Messungen wurden die einzelnen Komponenten nicht übersteuert; Nichtlineari­ täten gehen daher nicht in die Ergebnisse ein.
Die starken linearen und nichtlinearen Verzerrungen, die durch das akustische Front-End bewirkt werden, schränkenden möglichen Arbeitsbereich einer Bandbreitenerweiterung ein:
  • - Eine Erweiterung nach unten scheint sich kaum zu lohnen, da übliche Front-Ends diese tiefen Frequenzen ohnehin nicht übertragen können. Leistungsreiche tieffrequente Sprachkomponenten bewirken eher eine Verschlechterung des akustischen Signals, da sie zu einer verstärkten Übersteuerung des Systems führen, so dass die Sprache "scheppernd" klingt.
    Bei Handapparaten wird die Übertragungsbandbreite des Front-End zu tiefen Frequenzen zusätzlich durch ein "akustisches Leck" begrenzt, das durch eine sub-optimale Abdichtung der Ohrmuschel durch den Telefonhörer entsteht.
    Das Ausmaß dieses Lecks hängt massgeblich von der Andruckkraft des Hörers ab und kann in gewissen Grenzen vom Teilnehmer kontrolliert werden.
  • - Im Gegensatz hierzu erscheint eine Erweiterung von Sprachsignalen zu hohen Frequenzen hin durchaus möglich zu sein. Auch hier sollten allerdings die Eigenschaften des Lautsprechers berücksichtigt werden, da es keinen Sinn macht, eine Vergrößerung der Bandbreite bis beispielsweise 8 kHz anzustreben, wenn schon bei 7 kHz das Signal um über 20 dB gedämpft wird.
Die oben beschriebenen Einschränkungen gelten natürlich nur für Systeme mit den beschriebenen Eigenschaften. Sobald akustische Front-Ends mit verbesserten Eigenschaften eingesetzt werden, wachsen auch die Möglichkeiten einer künstlichen Bandbreitenerweiterung - insbesondere einer solchen, die tiefe Frequenzkomponenten ergänzt.
Durch die Vergrößerung der Bandbreite von Sprachsignalen wird mit der Bandbreitenerweiterung primär eine höhere subjektiv empfundene Sprachqualität angestrebt. Aus der höheren Sprach­ qualität folgt ein entsprechend größerer Komfort für den Anwender des Telefons. Ein weiteres Ziel ist die Erhöhung der Sprachverständlichkeit.
Bei der Entwicklung eines Algorithmus zur Bandbreitenerwei­ terung sollten daher die folgenden Aspekte stets berücksichtigt werden.
Die subjektive Qualität eines Sprachsignals darf durch Bandbreitenerweiterung auf keinen Fall verschlechtert werden. In diesem Zusammenhang sind mehrere Teilaspekte relevant.
Das Basisband, d. h. der Frequenzbereich, der bereits im Eingangssignal vorhanden ist, sollte möglichst gegenüber dem Eingangssignal keine Modifikationen oder Verzerrungen erfahren, da das Eingangssignal in diesem Band bereits die bestmögliche Signalqualität liefert.
Die synthetisch hinzugefügten Sprachkomponenten müssen zu den im schmalbandigen Eingangssignal vorhandenen Signalanteilen passen. Gegenüber einem ensprechenden breitbandigen Sprachsignal dürfen also auch in diesen Frequenzbereichen keine starken Signalverzerrungen erzeugt werden. Als solche Verzerrungen sind auch Veränderungen des Sprachmaterials anzusehen, die eine Identifizierung des Sprechers erschweren.
Schließlich darf das Ausgangssignal möglichst keine künstlich klingenden Artefake beinhalten.
Die Robustheit ist ein weiteres Kriterium, wobei unter Robustheit hier verstanden werden soll, dass der Algorithmus zur Bandbreitenerweiterung für Eingangssignale mit variierenden Eigenschaften anhaltend gute Ergebnisse liefert. Insbesondere soll das Verfahren sprecherunabhängig sein und für verschiedene Sprachen funktionieren. Weiterhin muss damit gerechnet werden, dass das Eingangssignal additive Störungen enthält oder beispielsweise durch eine Codierung oder Quantisierung verzerrt wurde.
Wenn die Eigenschaften des Eingangssignals zu weit von den spezifizierten Vorgaben abweichen, sollte der Algorithmus die Bandbreitenerweiterung deaktivieren, damit auf keinen Fall die Qualität des Ausgangssignals zu stark verschlechtert wird.
Bandbreitenerweiterung ist nicht in allen Situationen und für alle Signalarten machbar. Die Möglichkeiten werden einerseits durch die Beschaffenheit der physikalischen Umgebung sowie andererseits duch die Eigenschaften der Signalquelle, d. h. für Sprachsignale des Spracherzeugungsprozesses beschränkt.
Eine deutliche Grenze wird der Bandbreitenerweiterung durch die Eigenschaften des akustischen Front-End gezogen. Die Übertragungseigenschaften typischer Lautsprecher in handelsüblichen Telefonapparaten ermöglichen es kaum, tiefe Frequenzen bis in den Bereich der Sprachgrundfrequenz herunter abzustrahlen.
Eine Extrapolation von Frequenzkomponenten ist nur dann möglich, wenn sie anhand eines Modells der Signalquelle vohergesagt werden können. Die Beschränkung auf die Behandlung von Sprachsignalen bedeutet, dass zusätzliche Signalkomponenten, die durch die tief- oder Bandpaßfilterung des breitbandigen Originalsignals verlören gegangen sind (z. b. akustische Effekte wie Hall oder hochfrequente Hintergrundgeräusche) i. a. nicht rekonstruiert werden können.
Im folgenden ist auf folgende Konvention zu achten:
  • - Es werden häufig Signale mit den beiden Abtastraten fa = 8 kHz sowie fa' = 16 kHz definiert. Um eine einfache Unterscheidung zu ermöglichen, werden alle Zeit- und Frequenzindizes, die sich auf die höhere Abtastrate fa' beziehen, mit einem Hochkomma versehen. Ein Signal x(k) wäre beispielsweise mit 8 kHz abgetastet, während das Signal y(k') mit 16 kHz abgetastet ist.
  • - Bei Signalen, bei denen die Bandbreite eindeutig ist, wird diese durch ein tiefgestelltes nb für schmalbandig oder wb für breitbandig gekennzeichnet. Zu beachten ist, dass schmalbandige Signale (mit nb markiert) auch mit der hohen Abtastrate fa' kombiniert werden können.
Als Ausgangspunkt der beschriebenen Ausführungsform der Er­ findung wird der Algorithmus von Carl (H. Carl, "Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband-Sprachsignalen", Dissertation, Ruhr-Universität Bochum, 1994) gewählt.
Zunächst wird die Erzeugung neuer Sprachsignalkomponenten be­ schrieben. Die Basis für sämtliche hier beschriebenen Metho­ den besteht in einem einfachen autoregressiven (AR) Modell des Spracherzeugungsprozesses. Die Signalquelle setzt sich bei diesem Modell aus nur zwei zeitvarianten Teilsystemen zu­ sammen, wie in Fig. 1 dargestellt.
Das aus dem ersten Anregungserzeugungsteil AE (entsprechend der Lunge und den Stimmbändern) resultierende Anregungssignal xwb(k') ist nach den Modellvorstellungen spektral flach und weist bei stimmlosen Lauten eine rauschartige Charakteristik auf, während es bei stimmhaften Lauten eine harmonische Pitchstruktur besitzt.
Durch den zweiten Teil des Modells wird der Vokaltrakt bzw. Sprachtrakt ST (Mund- und Rachenraum) als ein rein rekursives Filter 1/A(z') modelliert. Dieses Filter prägt dem Anregungs­ signal xwb(k') die grobe spektrale Struktur auf.
Durch die Variation der Parameter ΘAnregung und ΘSprachtrakt der beiden Teilsysteme entsteht das zeitvariante Sprachsignal swb(k'). Die Übertragungsstrecke wird durch ein einfaches zeit­ invariantes Tiefpass- bzw. Bandpassfilter TP mit der Übertra­ gungsfunktion HÜS(z') modelliert. Das resultierende schmal­ bandige Sprachsignal, wie es dem Algorithmus zur Bandbreiten­ erweiterung zur Verfügung steht, ist snb(k), das in der Regel nach einer Reduktion der Abtastfrequenz RA um den Faktor 2 mit einer Abtastrate von fa = 8 kHz vorliegt.
Der erste Schritt bei der Bandbreitenerweiterung besteht in einer Segmentierung des Eingangssignals snb(k) in Rahmen mit einer Länge von jeweils K Abtastwerten (z. B. K = 160). Sämt­ liche nachfolgenden Schritte und Teilalgorithmen werden durchweg rahmenbezogen durchgeführt. Ein Signalrahmen bei er­ höhter Abtastfrequenz fa' = 16 kHz hat die doppelte Länge K' = 2K.
Anschließend wird nun, motiviert durch das einfache Modell des Spracherzeugungsprozesses, zunächst das Eingangssignal snb(k) in die beiden Komponenten Anregung und spektrale Ein­ hüllendenform aufgespalten. Diese beiden Komponenten können anschließend unabhängig voneinander bearbeitet werden, wobei die genaue Arbeitsweise der hierzu eingesetzten Teilalgorith­ men an dieser Stelle zunächst noch nicht definiert werden muss - eine detaillierte Beschreibung folgt später.
Die Aufspaltung des Eingangssignals kann in verschiedenen Va­ rianten durchgeführt werden. Da die gewählten Varianten un­ terschiedliche Einflüsse auf die Transparenz des Systems im Basisband hat, werden sie erst nachfolgend detailliert einan­ der gegenübergestellt.
Die prinzipielle Vorgehensweise sieht so aus, dass das Ein­ gangssignal durch ein adaptives Filter HI(z) spektral fla­ cher, also "weißer" gemacht wird. Nachdem die so berechnete Schätzung nb(k) des schmalbandigen Anregungssignals spektral erweitert wurde (Restsignalerweiterung), dient sie als Ein­ gangssignal eines spektralen Gewichtungsfilters HS(z'), mit dessen Hilfe dem nun breitbandigen Restsignal wb(k') die in­ zwischen ebenfalls erweiterte, d. h. breitbandige spektrale Einhüllendenform aufgeprägt wird, wie in Fig. 2 dargestellt.
Eine Forderung an Algorithmen zur Bandbreitenerweiterung be­ steht darin, dass Signalkomponenten, die schon im Eingangs­ signal vorhanden sind, abgesehen von einer Signalverzögerung τ, durch das System nicht verzerrt oder modifiziert werden, d. h. es soll gelten
Dieses Ziel kann näherungsweise auf verschiedene Weisen er­ reicht werden, die in nachfolgend erläutert werden sollen. Exemplarisch soll die Erweiterung der spektralen Einhüllenden durch ein Codebuch-Verfahren erfolgen.
Als nächstes wird die Mischung mit dem Eingangssignal be­ schrieben.
Die erste bekannte Variante gemäß Fig. 2 sieht vor, dass das schmalbandige Eingangssignal snb(k) hierbei zunächst einer LPC-Analyse (Linear Predictive Coding, siehe z. B. J. D. Mar­ kel, A. H. Gray, "Linear Prediction of Speech", Springer- Verlag, 1976) in der Einrichtung LPCA unterzogen wird.
Bei der LPC-Analyse werden für einen Sprachrahmen S (m)|nb(κ) die Filterkoeffizienten nb(κ) eines nicht-rekursiven Prädiktions­ filters (z) in solcher Weise optimiert, dass die Leistung des Ausgangssignals
dieses Prädiktionsfil­ ters minimal wird
ε{(xnb(κ))2} → min.
Diese Leistungsminimierung führt dazu, dass das Frequenz­ spektrum des Restsignals xnb(κ) flacher bzw. "weißer" wird als das Frequenzspektrum des Ursprungssignals snb(k). In den Fil­ terkoeffizienten nb(κ) steckt die Information über die spekt­ rale Einhüllende des Eingangssignals. Für die Berechnung der optimierten Filterkoeffizienten nb(κ) wird z. B. der Levinson- Durbin-Algorithmus verwendet.
Die durch die LPC-Analyse LPCA ermittelten Filterkoeffizien­ ten Ânb(z) dienen als Parameter für ein Inversfilter IR
HI(z) = Ânb(z),
in das das schmalbandige Sprachsignal eingegeben wird - das Ausgangssignal nb(k) dieses Filters ist dann die gesuchte spektral flache Schätzung des Anregungssignals und liegt in schmalbandiger Form, d. h. mit der geringen Abtastrate fa = 8 kHz vor. Nachdem nun einerseits das Restsignal im Block Rest­ signalerweiterung RE und andererseits die LPC-Koeffizienten im Block Einhüllendenerweiterung EE spektral erweitert wur­ den, können sie als Eingangssignal wb(k') bzw. Parameter Âwb(z') für das nachfolgende Synthesefilter SF
verwendet werden.
Da durch die beschriebene Vorgehensweise mittels LPC-Analyse die Schätzung nb(k) des bandbegrenzten Anregungssignals die Forderung nach spektraler Flachheit sehr gut erfüllt, ist bei dieser ersten Variante eine gute Formung der neu syntheti­ sierten Bandbereiche möglich; die groben spektralen Struktu­ ren in diesen Bereichen hängen bei weißem Restsignal primär von den Vorgaben der Einhüllendenerweiterung ab.
Auf das Basisband hingegen wirkt sich das Verfahren eher ne­ gativ aus. Da für das Inversfilter HI(z) und das nachfolgende Synthesefilter HS(z'), je nach Einhüllendenerweiterung, Fil­ terkoeffizienten eingesetzt werden, die nicht ideal invers zueinander sind, wird die Einhüllendenform im Basisbandbe­ reich in der Regel mehr oder weniger stark verzerrt. Wird beispielsweise die Einhüllendenerweiterung durch ein Codebuch durchgeführt, so entspricht das Ausgangssignal wb(k') des Sys­ tems im Basisband einer Variante des Eingangssignals snb(k), bei der die Einhüllendeninformation vektorquantisiert wurde.
Da diese, teilweise signifikanten, Verzerrungen des Basis­ bandsignals nicht akzeptiert werden können, müssen die ver­ schiedenen Frequenzanteile des Ausgangssignals separat behan­ delt und am Ausgang des Systems gemischt werden.
  • - Das durch die oben beschriebene Weise bandbreitenerwei­ terte Signal wird durch ein Bandstopfilter BS mit der Funktion HBS(z') von allen Frequenzanteilen, die inner­ halb des Basisbandes liegen, befreit. Das Bandstopfilter BS muss also einen Frequenzgang aufweisen, der an die Charakteristik des Übertragungskanals und damit des Ein­ gangssignals angepasst ist, d. h. es sollte möglichst die Übertragungsfunktion
    HBS(z') = 1 - HÜS(z')
    besitzen.
  • - Das schmalbandige Eingangssignal wird zunächst durch das Einfügen von Nullwerten und evtl. eine Tiefpassfilterung auf die erhöhte Abtastrate am Ausgang des Systems inter­ poliert. Anschließend werden durch ein Bandpassfilter BP mit der Funktion HBP(z') wiederum alle Signalkomponen­ ten, die außerhalb des Basisbandes liegen, entfernt, d. h.
    HBP(z') = HÜS(z').
    Das bei der Interpolation verwendete Filter kann in der Regel entfallen, da die Aufgabe der Anti-Aliasing- Filterung durch den Bandpass BP übernommen werden kann.
Die Mischung der beiden Teilsignale snb(k') und nb(k') erfolgt am Ausgang des Systems durch eine einfache Additionseinrich­ tung ADD. Damit bei dieser Addition keinerlei Fehler auftre­ ten, ist es wichtig, dass die beteiligten Teilsignale korrekt aneinander angepasst werden.
Um grobe Phasenfehler zu vermeiden, ist es notwendig, die beiden parallelen Signalpfade sorgfältig in der Laufzeit ein­ ander anzugleichen. Dies kann durch ein einfaches Verzöge­ rungsglied erfolgen, das in denjenigen der beiden Pfade ein­ gefügt wird, der die geringere algorithmische Verzögerung be­ wirkt. Die Laufzeit dieses Verzögerungsgliedes muss so einge­ stellt werden, dass die Gesamtlaufzeiten beider Signalpfade exakt gleich sind.
Weiterhin ist eine Abstimmung der Leistungen der beiden Teil­ signale snb(k') und wb(k') für die Qualität des Ausgangssignals wb(k') von entscheidender Bedeutung. Durch die Bandbreitener­ weiterung kann an verschiedenen Stellen die Leistung des Sig­ nals beeinflusst werden; dem Verhältnis der Leistungen im Ba­ sisband und in den synthetisierten Bereichen muss daher Be­ achtung geschenkt werden. Diese zunächst einfach klingende Aufgabe kann in zwei Teilprobleme aufgespalten werden:
  • - Der Block Restsignalerweiterung muss in solcher Weise arbeiten, dass trotz der Erhöhung der Abtastrate die Leistung des Basisbandes im Ausgangssignal exakt der Leistung des Eingangssignals entspricht.
  • - Durch die Invers- und Synthesefilterung mit nicht exakt zueinander inversen Filtern entsteht in der Regel eine Leistungsveränderung des Signals, die von den Frequenz­ gängen der beiden Filter abhängt. Dieser Umstand soll anhand Fig. 3 verdeutlicht werden.
    In Fig. 3 dargestellt sind für zwei unterschiedliche Laute (stimmhaft und stimmlos) die Frequenzgänge des zu­ gehörigen Inversfilters HI(z) sowie des Synthesefilters HS(z') jeweils innerhalb eines Koordinatensystems darge­ stellt. Entsprechend ihrer Aufgabe sind die Filter so entworfen, dass sie lediglich die Einhüllendenform ver­ ändern. Die Stoßantworten h(k) sind daher so normiert, dass der erste Filterkoeffizient jeweils den Wert h(0) = 1 besitzt. Im Frequenzbereich drückt sich diese Tatsache so aus, dass der Frequenzgang H(ej Ω) jedes Filters verti­ kal so verschoben ist, dass das Integral über den gesam­ ten Frequenzbereich einem festen Wert entspricht, wie anhand der Vorschrift für die Fourier-Transformation leicht nachvollzogen werden kann
    Wenn nun die Frequenzgänge eines Paares aus zusammenge­ hörigen Invers- und Synthesefiltern betrachtet werden, so kann beobachtet werden, dass im Basisband eine Diffe­ renz zwischen breit- und schmalbandigem Filter besteht. Die Größe dieser Differenz hängt von den Frequenzgängen der beiden Filter ab und lässt sich nicht auf einfache Weise vorhersagen. Die Differenz führt dazu, dass sich bei der Verkettung eines solchen Filterpaares eine Leis­ tungsveränderung im Basisband ergibt: Bei den darge­ stellten Beispielfrequenzgängen würde sich bei dem stimmhaften Laut die Leistung im Basisband erhöhen, wäh­ rend sie bei dem stimmlosen Laut abgesenkt würde. Wird nun ohne weitere Maßnahme das Original-Basisbandsignal snb(k) mit den so erstellten Erweiterungen gemischt; ge­ rät (durch den gleichen Mechanismus) die Abstimmung zwi­ schen den beiden Komponenten durcheinander.
    Als Gegenmaßnahme muss das bandbreitenerweiterte Signal wb(k') mit einem Korrekturfaktor ζ multipliziert werden, der diese Leistungsmodifikation wieder ausgleicht. Ein solcher Korrekturfaktor hängt von der Form der Frequenz­ gänge eines Filterpaares ab und lässt sich somit nicht fest vorgeben. Insbesondere durch die hier verwendete LPC-Analyse ergibt sich die Schwierigkeit, dass der Fre­ quenzgang des Inversfilters HI(z) nicht a priori bekannt ist.
    Es kann jedoch die Leistung der Basisbandkomponenten des bandbreitenerweiterten Signals wb(k') mit der Leistung des interpolierten Eingangssignals snb(k') verglichen wer­ den. Dieses Verhältnis muss für eine korrekte Abstimmung der Signalanteile zu Eins werden
    so das sich der Korrekturfaktor ζ aus der Wurzel des Kehrwertes dieses Leistungsverhältnisses bestimmen lässt
    Die Bestimmung eines Korrekturfaktors durch diese Vor­ schrift bedingt eine zusätzliche Filterung des bandbrei­ tenerweiterten Signals wb(k') mit einem Bandpassfilter, dessen Übertragungsfunktion derjenigen der Übertragungs­ strecke HÜS(z') entspricht.
Eine Vereinfachung gegenüber der zuvor beschriebenen Variante lässt sich erreichen, indem auf die dort notwendige, anfäng­ liche LPC-Analyse verzichtet wird. Das Blockschaltbild des daraus resultierenden Ausführungsbeispiels der Erfindung ist in Fig. 4 illustriert.
Die Parameter des ersten LPC-Inversfilter IF mit der Funktion HI(z) werden nun nicht mehr durch eine LPC-Analyse des Ein­ gangssignals snb(k) vorgegeben, sondern - ebenso wie die Para­ meter des Synthesefilters HS(z') - durch die Einhüllendener­ weiterung EE. In diesem Block kann nun eine Abstimmung der beiden Parametersätze Ânb(z) und Âwb(z') aufeinander erfolgen, d. h. die Qualität der Inversfilterung wird etwas reduziert auf Kosten einer besseren Übereinstimmung der Frequenzgänge von Invers- und Synthesefilter im Basisband. Eine mögliche Realisierung kann z. B. in der Verwendung parallel erstellter, aber separater Codebücher für die Parameter der beiden Filter liegen. Es werden dann aus beiden Codebüchern zu einer Zeit immer nur Einträge mit identischem Index i eingesetzt, die beim Training in entsprechender Weise aufeinander abgestimmt wurden.
Der Zweck der Abstimmung der Parameter des Filterpaares HI(z) und HS(z') besteht darin, im Basisband eine größere Transparenz zu erreichen. Dadurch, dass Invers- und Synthesefilter nun im Basisband annähernd invers zueinander sind, werden Fehler, die bei der Inversfilterung IF entstehen, durch das nachfolgende Synthesefilter SF wieder behoben. Wie erwähnt, sind die Filterpaare jedoch auch bei dieser Struktur nicht perfekt invers zueinander; leichte Differenzen lassen sich durch die unterschiedlichen Abtastraten, bei denen die Filter arbeiten, sowie durch die deswegen notwendigen voneinander abweichenden Filterordnungen nicht vermeiden. Die Folge ist, dass das Sprachsignal wb(k') im Basisband gegenüber der ers­ ten Variante verzerrt wird.
Eine weitere Fehlerquelle liegt darin, dass das Restsignal nb(k) des Inversfilters HI(z) nicht weiter in allen Frequenz­ bereichen weiß ist. Dies erfordert entweder eine ausgeklügel­ te Restsignalerweiterung oder führt zu Fehlern in den neu ge­ nerierten Frequenzbereichen.
Als Vorteil dieser Ausführungsform lassen sich einige Einspa­ rungen verbuchen:
  • - Zunächst fallen die Bandstop- und Bandpassfilter HBS(z') und HBP(z') weg, die bei der ersten Variante notwendig waren, um die Transparenz im Basisband zu gewährleisten. Mit ihnen entfällt auch die notwendige Rechenleistung sowie die durch die Filter erzeugte Signalverzögerung.
  • - Weiterhin ist die Anpassung der Signalleistungen erheb­ lich weniger aufwendig. Fehler der Signalleistung wirken sich hier nur in der Gesamtleistung des Ausgangssignals aus und würden einem Hörer erst im Vergleich mit dem schmal- oder breitbandigen Originalsignal auffallen.
  • - Auch bei dieser Variante werden das Invers- und das Syn­ thesefilter mit unterschiedlichen Abtastraten betrieben. Hieraus resultiert, wie schon bei der ersten Variante, die Notwendigkeit eines Korrekturfaktors ζ, da sonst abhängig von dem momentan gesprochenen Laut die Signal­ leistung variiert. Die Ermittlung eines solchen Faktors ist in diesem Fall jedoch erheblich einfacher, da die Frequenzgänge der Filterpaare schon im Voraus bekannt sind. Der zu dem i-ten Filterpaar  (i)|nb(z) und  (i)|wb(z') eines Codebuches zu erwartende Korrekturfaktor ζi kann daher auch schon im Voraus berechnet werden und beispielsweise im Codebuch abgelegt werden.
Eine weitere alternative Ausführungsform der Erfindung ist in Fig. 5 skizziert. Gegenüber der ersten Ausführungsform ergibt sich zwar kaum eine Veränderung der erforderlichen Rechen­ leistung, aber die Modifikationen haben einen deutlichen Ein­ fluss auf die Qualität des Ausgangssignals.
Im Gegensatz zu der ersten Ausführungsform werden bei der hier vorgestellten Struktur sowohl das Inversfilter HI(z') als auch das Synthesefilter HS(z') mit der gleichen Abtastra­ te von fa' = 16 kHz betrieben. Dies ermöglicht es, die Fil­ terkoeffizienten so einzustellen, dass die beiden Filter ex­ akt invers zueinander sind, d. h. es gilt
Durch dieses Verhalten kann einerseits die geforderte Eigen­ schaft der Transparenz im Basisband erheblich besser gewähr­ leistet werden, da nun sämtliche Fehler, die durch die In­ versfilterung im Basisband erzeugt werden, im Synthesefilter wieder rückgängig gemacht werden. Auf der anderen Seite kann wegen dieser Maßnahme bei der Entwicklung des Algorithmus zur Einhüllendenerweiterung eine weniger aufwendige Lösung ge­ wählt werden.
Ein signifikanter Vorteil der Verwendung exakt zueinander in­ verser Filter besteht außerdem darin, dass nun keinerlei Leistungsanpassung durch Korrekturfaktoren ζ mehr notwendig ist.
Bezüglich der Qualität der neu synthetisierten Frequenzantei­ le bestehen die gleichen geringfügigen Einschränkungen wie bei der ersten Ausführungsform. Die Tatsache, dass das Rest­ signal nb(k') des Inversfilters nun mit hoher Abtastrate vor­ liegt, muss bei der Restsignalerweiterung berücksichtigt wer­ den, erfordert aber keine prinzipiellen Veränderungen dieses Teilalgorithmus. Es muss jedoch beachtet werden, dass im Restsignal nb(k') lediglich Anregungskomponenten im Bereich des Basisbandes vorhanden sind.
Die zweite Ausführungsform setzt voraus, dass das Eingangs­ sprachsignal snb(k') zwar in bandbegrenzter Form, aber mit ei­ ner erhöhten Abtastrate von fa' = 16 kHz vorliegt. Bei einer digitalen Übertragungsstrecke muss daher in der Regel vor der Bandbreitenerweiterung eine Interpolationsstufe eingefügt werden. Abhängig von der Bandbegrenzung des Sprachsignals sind die Anforderungen an den Interpolationstiefpass aller­ dings vergleichsweise gering. In der Regel weist das Sprach­ signal schon eine geringe obere Grenzfrequenz (z. B. von 3.4 kHz) auf, so dass der Übergangsbereich des Filters recht breit sein darf (in dem Beispiel darf die Breite 1.2 kHz betragen). Außerdem ist ein geringes Ausmaß von Aliasing- Effekten im allgemeinen zu tolerieren, solange sie gegenüber den durch die Bandbreitenerweiterung erzeugten Effekten ver­ nachlässigbar sind. Nichtsdestotrotz bringt auch ein kurzes Interpolationsfilter immer den Nachteil einer Signalverzöge­ rung mit sich.
Jetzt sollen verschiedene Maßnahmen erläutert werden, die die subjektiv wahrgenommene Qualität des bandbreitenerweiterten Signals wb(k') verbessern sollen. Diese einfachen Modifikati­ onen der Algorithmen sind von der speziellen Ausführung der Teilalgorithmen zur Restsignal- und Einhüllendenerweiterung weitgehend unabhängig.
Bei einigen Lautübergängen lassen sich an Grenzen zwischen zwei Rahmen Knackgeräusche wahrnehmen. Diese Artefakte ent­ stehen durch das abrupte Umschalten zwischen zwei stark un­ terschiedlichen Einhüllendenformen. Der Effekt ist daher ins­ besondere dann dominant, wenn ein Codebuch mit geringer Größe I eingesetzt wird, da sich Lautübergänge weniger fein model­ lieren lassen, je stärker sich die einzelnen Einträge des Co­ debuchs voneinander unterscheiden.
Eine oft gegen solche Fehler eingesetzte Methode (z. B. in der Sprachcodierung) besteht darin, jeden Sprachrahmen (z. B. mit 10 ms Dauer) in mehrere Unterrahmen (Dauer z. B. 2.5 oder 5 ms) zu unterteilen und die für diese Unterrahmen verwendeten Filterkoeffizienten Ânb(z) bzw. Âwb(z') durch eine Interpolati­ on oder Mittelung der für die Nachbarrahmen ermittelten Fil­ terkoeffizienten zu berechnen. Für eine Mittelung ist es vor­ teilhaft, die Filterkoeffizienten in eine LSF-Darstellung zu überführen, da bei einer Interpolation in dieser Beschrei­ bungsform die Stabilität der resultierenden Filter garantiert werden kann. Eine Interpolation der Filterparameter bringt den Vorteil mit sich, dass die insgesamt realisierbaren Ein­ hüllendenformen sehr viel zahlreicher werden, als die ansons­ ten durch die Größe I des Codebuchs fest vorgegebene grobe Unterteilung.
Die Grundlage für den Ansatz der Mittelung von Filterkoeffi­ zienten besteht in der Beobachtung, dass der menschliche Sprachtrakt eine gewisse Trägheit besitzt, d. h. sich nur in endlich kurzer Zeit auf einen neuen Sprachlaut umstellen kann.
Für die Aneinanderkettung der für die Unterrahmen berechneten Ausgangswerte wurden mehrere Möglichkeiten untersucht:
  • - Die naheliegendste Lösung besteht darin, aneinandersto­ ßende Unterrahmen zu verwenden. Ein Sprachrahmen wird dabei in nicht überlappende Unterrahmen zerlegt, die ge­ trennt voneinander prozessiert und am Schluss wieder an­ einandergekettet werden. Bei dieser Variante müssen die Filterzustände von Inversfilter HI(z) und Synthesefilter HS(z') jeweils an den nachfolgenden Unterrahmen weiter­ gegeben werden.
  • - Lässt man zu, dass die einzelnen Unterrahmen einander teilweise überlappen, so muss bei der Zusammensetzung der Unterrahmen zum Ausgangssignal eine Overlap Add Technik zum Einsatz kommen. Das für jeden Unterrahmen berechnete Ausgangssignal wird daher zunächst mit einer Fensterfunktion (z. B. Hamming) gewichtet und anschlie­ ßend in den überlappenden Bereichen mit den entsprechen­ den Bereichen der Nachbarrahmen addiert. Bei dieser Va­ riante dürfen die Filterzustände nicht von einem zum nächsten Unterrahmen weitergegeben werden, da sich die Zustände nicht auf das gleiche, fortgesetzte Signal be­ ziehen.
Weiterhin wurden Untersuchungen bezüglich der optimalen Ein­ flusslänge der Interpolation durchgeführt. Hierbei wurde die Zahl der benachbarten Sprachrahmen, aus denen jeweils ein neuer Filterparametersatz berechnet wurde, im Bereich von 2 (d. h. Mittelung ausschließlich aus den direkten Nachbarn) bis 10 variiert.
Je größer das Interpolationsfenster gewählt wird, desto stär­ ker werden Artefakte und Fehler gemildert, die durch eine fehlerhafte Zuordnung bei der Einhüllendenerweiterung erzeugt werden. Andererseits wird die Qualität des Ausgangssignals bei einigen schnellen Lautübergängen verschlechtert. Die Zahl der für die Mittelung herangezogenen Nachbarrahmen sollte da­ her möglichst klein gehalten werden.
Die besten Ergebnisse wurden mit einer Variante gefunden, bei der für die Unterrahmen die ursprüngliche Rahmengröße K' beibehalten wird, aber jeder Sprachrahmen in zwei Unterrahmen unterteilt wird, die also um jeweils die halbe Rahmengröße K'/2 mit den beiden Nachbarunterrahmen überlappen. Die Be­ rechnung des Ausgangssignals wb(k') wird dann mit dem Overlap Add Verfahren durchgeführt. Durch diese Maßnahme verschwinden die knackenden Artefakte völlig.
Zur Steuerung des Ausmaßes der Bandbreitenerweiterung kann dem Algorithmus als letzte Stufe ein Filter HPF(z') nachge­ schaltet werden, das im folgenden als Postfilter bezeichnet wird. Hier wurde das Postfilter durchweg als Tiefpassfilter realisiert.
  • - Die obere Grenzfrequenz des Ausgangssignals wb(k') kann durch ein steilflankiges Tiefpassfilter mit fester Grenzfrequenz definiert werden. Ein solches Filter mit einer Grenzfrequenz von 7 kHz beispielsweise hat sich als nützlich erwiesen, um tonale Artefakte zu verrin­ gern, die bei einer spektralen Spiegelung aus den leis­ tungsstarken tiefen Sprachfrequenzen entstehen. Insbe­ sondere hochfrequentes Pfeifen bei der Nyquistfrequenz fa'/2, das (je nach eingesetztem Verfahren zur Restsig­ nalerweiterung) aus einem Gleichanteil des Eingangssig­ nals snb(k) resultieren kann, wird wirkungsvoll unter­ drückt.
  • - Artefakte und Störungen, die über einen weiten Bereich der neu synthetisierten Frequenzkomponenten verteilt sind, können wirkungsvoll mit Hilfe eines Tiefpassfil­ ters kontrolliert werden, welches eine nur langsame Zu­ nahme der Dämpfung zu hohen Frequenzen hin bewirkt.
    Es kann beispielsweise ein einfaches FIR Filter achter Ordnung eingesetzt werden, das bei 4.8 kHz eine Dämpfung von 6 dB und bei 7 kHz eine Dämpfung von etwa 25 dB er­ reicht, wie in Fig. 6 illustriert.
    Ähnliche tiefpassartige Eigenschaften können auch bei vielen akustischen Front-Ends beobachtet werden, sind also im realisierten System in der Regel ohnehin, d. h. auch ohne explizit eingesetztes digitales Postfilter vorhanden.
Als nächstes wird der Teilalgorithmus der Restsignalerweite­ rung beschrieben. Das Ziel der Restsignalerweiterung besteht darin, aus der in schmalbandiger Form vorliegenden Schätzung nb(k) der Anregung des Sprachtraktes die entsprechende breit­ bandige Anregung zu ermitteln. Diese Schätzung wb(k') des An­ regungssignals in breitbandiger Form dient anschließend als Eingangssignal für das nachfolgende Synthesefilter HS(z').
Wegen des zugrundeliegenden Modells der Spracherzeugung kön­ nen sowohl für das Eingangs- als auch für das Ausgangssignal der Restsignalerweiterung bestimmte Eigenschaften angenommen werden.
  • - Das Eingangssignal nb(k) des Teilalgorithmus der Rest­ signalerweiterung entsteht durch die Filterung des schmalbandigen Sprachsignals snb(k) mit dem FIR Filter HI(z), dessen Koeffizienten durch eine LPC-Analyse oder durch eine Codebuchsuche vorgegeben werden. Als Resultat weist das Restsignal eine flache bzw. annähernd weiße spektrale Einhüllende auf.
    Ist der aktuelle Sprachrahmen s (m)|nb(κ) also rauschartiger Natur, so entspricht der Restsignalrahmen (m) nb(κ) nähe­ rungsweise (bandbegrenztem) weißem Rauschen; bei einem stimmhaften Laut weist das Restsignal eine harmonische Struktur aus sinusartigen Tönen bei der Sprachgrundfre­ quenz fp und deren ganzzahligen Vielfachen auf, wobei diese Einzeltöne jedoch jeweils näherungsweise die glei­ che Amplitude aufweisen, die spektrale Einhüllende also wiederum flach ist.
  • - Das Ausgangssignal wb(k') der Restsignalerweiterung dient als Anregungssignal des nachfolgenden Synthesefil­ ters HS(z'). Es muss also prinzipiell die gleiche Eigen­ schaft der spektralen Flachheit aufweisen, wie das Ein­ gangssignal nb(k) des Teilalgorithmus, allerdings im ge­ samten breitbandigen Frequenzbereich. Ebenso sollte im Idealfall bei stimmhaften Lauten eine der Sprachgrund­ frequenz fp entsprechende harmonische Struktur vorhanden sein.
Eine wichtige Forderung an den Algorithmus der Bandbreitener­ weiterung ist die Transparenz im Basisband. Um dieses Ziel erreichen zu können, muss sichergestellt sein, dass die Anre­ gungskomponenten im Basisband nicht modifiziert werden. Hier­ zu zählt auch, dass die Leistungsdichte des Anregungssignals nicht verändert wird. Dies ist wichtig, damit das Ausgangs­ signal wb(k') der Bandbreitenerweiterung im Basisband die gleiche Leistung wie das Eingangssignal snb(k) aufweist - ins­ besondere dann, wenn die neu synthetisierten Signalkomponen­ ten am Ausgang des Gesamtsystems mit einer interpolierten Version snb(k') des Eingangssignals kombiniert werden.
Zur Restsignalerweiterung gibt es verschiedene grundsätzliche Möglichkeiten. Die einfachste Möglichkeit zur Erweiterung des Restsignals ist die spektrale Spiegelung, wobei jeweils für jeden zweiten Abtastwert des schmalbandigen Restsignals nb(k) ein Nullwert eingefügt wird. Eine weitere Methode ist die spektrale Verschiebung, wobei die tiefe und die hohe Hälfte des Frequenzbereichs des breitbandigen Anregungssignals wb(k') separat erzeugt wird. Auch hier wird zunächst eine spektrale Spiegelung durchgeführt und das breitbandige Signal anschließend gefiltert, so dass dieses Teilsignal ausschließ­ lich tieffrequente Komponenten enthält. In einem weiteren Zweig wird dieses Signal moduliert und anschließend einem Hochpass zugeführt, der eine untere Grenzfrequenz von typi­ scherweise 4 kHz aufweist. Durch die Modulation wird aus der anfänglichen Spiegelung der ursprünglichen Signalanteile eine Verschiebung. Schließlich werden die beiden Teilsignale ad­ diert.
Eine weitere alternative Möglichkeit zur Generierung hochfre­ quenter Anregungskomponenten basiert auf der Beobachtung, dass in Sprachsignalen hochfrequente Anteile hauptsächlich während scharfer Zischlaute und anderer stimmloser Laute vor­ kommen. Entsprechend sind diese hohen Frequenzbereiche im allgemeinen eher rauschartiger als tonaler Natur. Daher wird bei diesem Ansatz zu dem interpolierten schmalbandigen Ein­ gangssignal xnb(k') ein bandbegrenztes Rauschen mit angepass­ ter Leistungsdichte hinzugefügt.
Eine weitere Möglichkeit der Restsignalerweiterung besteht darin, gezielt Effekte von Nichtlinearitäten zu nutzen, indem das schmalbandige Restsignal mittels einer nichtlinearen Kennlinie verzerrt wird.
Weiterhin gibt es verschiedene Methoden, die das Restsignal vor oder nach der Erweiterung modifizieren und so die Eigen­ schaften des Ausgangssignals verbessern, wie z. B. Postfilter, getrennte Bearbeitung von hoch- und tieffrequenten Anregungs­ komponenten, Weißmacherfilter, Longtermprediction (LTP), Un­ terscheidung stimmhafter und stimmloser Laute etc.
Die Erweiterung der spektralen Einhüllenden des schmalbandi­ gen Eingangssignals ist der eigentliche Kern der Bandbreite­ nerweiterung.
Die Grundlage für die gewählte Vorgehensweise ist die Beo­ bachtung, dass in einem Sprachsignal nur eine begrenzte An­ zahl typischer Laute mit den entsprechenden spektralen Ein­ hüllenden vorkommen. Demzufolge scheint es ausreichend zu sein, in einer Trainingsphase eine ausreichende Anzahl von solchen typischen spektralen Einhüllenden in einem Codebuch zu sammeln und dieses dann bei einer anschließenden Bandbrei­ tenerweiterung zu verwenden.
In dem an sich bekannten Codebuch werden Informationen über die Form der spektralen Einhüllenden als Koeffizienten Â(z') eines entsprechenden linearen Prädiktionsfilters gespeichert. Die Codebucheinträge können also direkt in dem jeweiligen LPC-Inversfilter HI(z') = Â(z') oder Synthesefilter HS(z') = 1/Â(z') eingesetzt werden. Die Art der so erstellten Codebü­ cher entspricht damit Codebüchern, wie sie in der Sprachco­ dierung bei der Gain-Shape Vektorquantisierung eingesetzt werden. Ebenso ähneln sich auch die für Training bzw. Verwen­ dung der Codebücher einsetzbaren Algorithmen; bei der Band­ breitenerweiterung muss allerdings die Beteiligung von sowohl schmal- als auch breitbandigen Signalen entsprechend berück­ sichtigt werden.
Beim Training wird das zur Verfügung stehende Trainingsmate­ rial in mehrere typische Laute (spektrale Einhüllendenformen) unterteilt, aus denen anschließend durch Speicherung von Rep­ räsentanten das Codebuch erstellt wird. Das Training erfolgt einmalig für repräsentative Sprachproben und ist daher keinen allzu strengen Restriktionen bezüglich Rechen- oder Speicher­ effizienz unterworfen.
Die beim Training verwendete Vorgehensweise ist prinzipiell die gleiche wie bei der Gain-Shape Vektorquantisierung (siehe z. B. Y. Linde, A. Buzo, R. M. Gray, "An Algorithm for Vector Quantizer Design", IEEE Transactions on Communications, Band COM-28, Nr. 1, Januar 1980). Mit Hilfe eines Abstandsmaßes lässt sich das Trainingsmaterial in eine Reihe von Clustern unterteilen, in denen jeweils spektral ähnliche Sprachrahmen aus den Trainingsdaten vereint sind. Die Beschreibung eines Clusters i erfolgt dabei durch den sog. Centroiden Ci, der den Schwerpunkt sämtlicher Sprachrahmen bildet, die dem je­ weiligen Cluster zugeordnet sind.
Bei einigen bekannten Algorithmen zur Bandbreitenerweiterung ist die Benutzung mehrerer paralleler Codebücher notwendig, z. B. wenn die Inversfilterung, HI(z), und die Synthesefilte­ rung, HS(z'), mit unterschiedlichen Abtastraten vollzogen wird. In solchen Fällen ist es natürlich wichtig, dass die für die beiden Filter verwendeten Koeffizientensätze Ânb(z) und Âwb(z') zueinander passen, d. h. ein Codebuch-Eintrag in dem primären LPC-Codebuch - je nach Training in breit- oder schmalbandiger Form - muss denselben Laut beschreiben, wie der entsprechende Eintrag in dem zweiten, sog. Schattencode­ buch.
Wenn im folgenden von einem bzw. dem Codebuch gesprochen wird, ist in der Regel die Gesamtheit aus primärem Codebuch und allen angegliederten Schattencodebüchern gemeint, wenn nicht explizit von einem bestimmten Codebuch die Rede ist. Wie viele und welche Codebücher tatsächlich verwendet werden, hängt von der algorithmischen Struktur der Bandbreitenerwei­ terung ab.
Eine grundlegende Entscheidung, die vor dem Training getrof­ fen werden muss, besteht darin, ob für das Training des pri­ mären Codebuchs die schmalbandige Version snb(k) oder die breitbandige Variante swb(k') des Trainingsmaterials verwendet werden soll. Aus der Literatur bekannte Verfahren verwenden ausschließlich das schmalbandige Signal snb(k) als Trainings­ material.
Ein großer Vorteil der Verwendung des schmalbandigen Signals snb(k) besteht darin, dass die Eigenschaften der Signale bei Training und Bandbreitenerweiterung die gleichen sind. Trai­ ning und Bandbreitenerweiterung sind also sehr gut aufeinan­ der abgestimmt. Wird hingegen für die Erstellung des Codebu­ ches das breitbandige Trainingssignal swb(k') verwendet, so entsteht das Problem, dass bei der späteren Codebuchsuche nur ein schmalbandiges Signal zur Verfügung steht und somit ande­ re Bedingungen herrschen als beim Training.
Andererseits spricht für ein Training mit dem breitbandigen Trainingssignal swb(k'), dass diese Vorgehensweise der eigent­ lichen Intention des Trainings, nämlich möglichst gute Reprä­ sentanten für breitbandige Sprachlaute zu finden und zu spei­ chern, viel eher entgegenkommt. Vergleicht man verschiedene Codebucheinträge, wie sie beim Training mit einem breitbandi­ gen Sprachsignal entstehen, so lassen sich recht viele Laut­ paare beobachten, bei denen sich die schmalbandigen spektra­ len Einhüllenden einander sehr ähneln, während die Repräsen­ tanten der breitbandigen Einhüllenden durchaus stark unter­ schiedlich sind. Bei solchen Lauten sind bei einem Training mit schmalbandigem Trainingsmaterial Probleme zu erwarten, da die sich ähnelnden Laute in einem Codebucheintrag zusammenge­ fasst werden und so die sich unterscheidenden breitbandigen Einhüllenden durch die Mittelung gegenseitig abgeschwächt werden.
Insgesamt überwiegen stark die Vorteile eines breitbandigen Trainings, so dass für die im weiteren erläuterten Untersu­ chungen von einem solchen Training ausgegangen wird.
Die Größe des Codebuches ist ein Faktor, der die Qualität der Bandbreitenerweiterung stark beeinflusst. Je größer das Code­ buch ist, desto größer wird die Anzahl der speicherbaren ty­ pischen Sprachlaute. Außerdem sind die einzelnen spektralen Einhüllenden genauer repräsentiert. Andererseits wächst na­ türlich mit der Zahl der Einträge auch die Komplexität sowohl des Trainings als auch der eigentlichen Bandbreitenerweite­ rung. Bei der Festlegung der Codebuchgröße muss also ein Kom­ promiss zwischen der algorithmischen Komplexität und der im Bestfall (d. h. bei "optimaler" Suche im Codebuch) möglichen Signalqualität des Ausgangssignals wb(k') eingestellt werden. Die Anzahl der in dem Codebuch gespeicherten Einträge wird mit I gekennzeichnet.
Eine Suche durch Inversfilterung mit allen Einträgen eines schmalbandigen Codebuchs gefolgt von einem Vergleich der Restsignalleistungen E (i)|x führt in der Regel nicht zu befrie­ digenden Resultaten. Es sollten also zusätzlich zu der Form der spektralen Einhüllenden weitere Eigenschaften des schmal­ bandigen Eingangssignals snb(k) zur Auswahl des Codebuchein­ trages ausgewertet werden.
Bei dem bei dieser Ausführungsform eingeführten statistischen Ansatz zur Suche im Codebuch wird die Gewichtung der einzel­ nen Sprachmerkmale untereinander implizit während der Trai­ ningsphase optimiert. Auf den Vergleich von Einhüllendenfor­ men mittels Inversfilterung wird hierbei komplett verzichtet.
Die Grundlage des statistischen Ansatzes ist ein gegenüber Fig. 1 etwas modifiziertes Modell des Spracherzeugungsprozes­ ses, wie es in Fig. 7 skizziert ist. Die Signalquelle wird nun als Hidden-Markov Prozess angenommen, d. h. sie besitzt mehrere mögliche Zustände, die durch die Stellung des Schal­ ters SCH gekennzeichnet sind. Die Schalterstellung wechselt nur jeweils zwischen zwei Sprachrahmen; mit jedem Rahmen ist also ein Zustand der Quelle fest verknüpft. Der aktuelle Zu­ stand der Quelle wird im folgenden mit Si bezeichnet.
Mit jedem Zustand Si der Quelle sind nun bestimmte Eigen­ schaften des Anregungssignals xwb(k') sowie des Sprachtraktes bzw. der spektralen Einhüllendenform verbunden. Die möglichen Zustände werden so definiert, dass jedem Eintrag i des breit­ bandigen Codebuches ein eigener Zustand Si zugeordnet ist. Durch den Inhalt des Codebucheintrages ist somit bereits die typische Form der spektralen Einhüllenden (durch HI(z') = 1/Â (i)|wb(z')) vorgegeben. Ebenso lassen sich für jeden Zustand typische Eigenschaften des Anregungssignals xwb,i(k') finden. Hochpassartige Codebucheinträge werden beispielsweise eher in Verbindung mit rauschartigen, stimmlosen Anregungen auftre­ ten, wohingegen stimmhafte Laute mit tonaler Anregung mit e­ her tiefpassartigen Einhüllendenformen verbunden sind.
Die bei der Codebuchsuche zu lösende Aufgabe besteht nun dar­ in, für jeden Rahmen des Eingangssignals snb(k) die zunächst unbekannte Stellung des Schalters, d. h. den Zustand Si der Quelle zu bestimmen. Für ähnliche Problemstellungen sind vie­ le Ansätze, z. B. für die automatische Spracherkennung, entwi­ ckelt worden, allerdings besteht dort i. a. die Zielsetzung darin, aus einer Menge abgespeicherter Modelle (für jede zu erkennende Einheit (Phonem, Wort o. ä.) wird bei der Spracher­ kennung in der Regel ein separates Hidden-Markov Modell trai­ niert und gespeichert) bzw. Zustandsfolgen die beste auf das Eingangssignal passende auszuwählen, während für die Band­ breitenerweiterung nur ein einziges Modell existiert und die Anzahl der korrekt geschätzten Zustände zu maximieren ist. Die Schätzung der Zustandsfolge wird durch den Umstand er­ schwert, dass durch die Tief- bzw. Bandpassfilterung (Über­ tragungsstrecke) nicht alle Informationen über das (breitban­ dige) Quellsignal swb(k') zur Verfügung stehen.
Der zur Bestimmung der wahrscheinlichsten Zustandsfolge ange­ setzte Algorithmus lässt sich für jeden Sprachrahmen in meh­ rere Schritte unterteilen, die in den folgenden Teilabschnit­ ten erläutert werden.
  • 1. Zunächst werden aus dem schmalbandigen Signal mehrere Merkmale extrahiert.
  • 2. Mittels eines zuvor trainierten statistischen Modells sowie der erhaltenen Merkmale können verschiedene a pri­ ori und/oder a posteriori Wahrscheinlichkeiten bestimmt werden.
  • 3. Diese Wahrscheinlichkeiten können schließlich verwendet werden, um entweder den Sprachrahmen zu klassifizieren oder um eine, nicht an die diskreten Codebucheinträge gebundene, Schätzung der spektralen Einhüllendenform zu berechnen.
Die aus dem schmalbandigen Sprachsignal snb(k) extrahierten Merkmale sind letztlich die Grundlage für die Bestimmung des aktuellen Quellenzustandes Si. Daher sollen die Merkmale In­ formationen enthalten, die möglichst gut mit der Form der breitbandigen spektralen Einhüllenden korrelieren. Um eine hohe Robustheit zu erreichen, dürfen die gewählten Merkmale dagegen nur eine möglichst geringe Abhängigkeit von Sprecher, Sprache, Veränderungen der Sprechweise, Hintergrundgeräu­ schen, Verzerrungen etc. aufweisen. Die Auswahl der richtigen Merkmale ist ein entscheidender Faktor für die erreichbare Qualität und Robustheit des statistischen Suchverfahrens.
Die zu dem m-ten Sprachrahmen s (m)|nb(κ) der Länge K berechneten Merkmale werden zu dem Merkmalsvektor X(m) zusammengefasst, der die Grundlage für die nachfolgenden Schritte darstellt. Im folgenden werden exemplarisch einige einsetzbare Sprachpa­ rameter kurz beschrieben. Sämtliche Sprachparameter sind vom Rahmenindex m abhängig - wo die Berechnung eines Parameters nur von Inhalten des aktuellen Rahmens abhängt, wird im fol­ genden zur Vereinfachung auf die Kennzeichnung der Abhängig­ keit vom Rahmenindex m verzichtet.
Ein Merkmal ist die Kurzzeitleistung En.
Die Energie eines Signalabschnittes ist in der Regel in stimmhaften Abschnitten höher als bei stimmlosen Lauten oder Pausen. Die Energie ist hier definiert als
Diese Rahmenenergie ist aber nicht nur von dem momentan ge­ sprochenen Laut, sondern auch von absoluten Pegelunterschie­ den verschiedener Sprachproben abhängig. Um diesen bei der Bandbreitenerweiterung unerwünschten Einfluss des globalen Abspielpegels auszuschließen, muss die bezogene Rahmenleis­ tung
auf die in der gesamten, aus M Rahmen zusammengesetzten Sprachprobe maximalen vorkommenden Rahmenleistung
bezogen werden. Für n(m) ergeben sich also Werte im Bereich von Null bis Eins.
Ein globales Maximum für die Rahmenleistung kann natürlich nur dann berechnet werden, wenn im Voraus die gesamte Sprach­ probe vorliegt. In den meisten Fällen wird man daher die ma­ ximale Rahmenenergie adaptiv schätzen müssen. Die geschätzte maximale Rahmenleistung n,max(m) wird dann vom Rahmenindex m abhängig und kann z. B. durch die Vorschrift
rekursiv bestimmt werden. Mit dem festen Faktor α < 1 kann die Geschwindigkeit der Adaption gesteuert werden.
Ein anderes Merkmal ist der Steigungsindex dn.
Der Steigungsindex (siehe J. Paulus, "Codierung breitbandiger Sprachsignale bei niedriger Datenrate". Aachener Beiträge zu Digitalen Nachrichtensystemen, Verlag der Augustinus Buch­ handlung, Aachen, 1997) ist ein Maß, das die Häufigkeit von Richtungsänderungen und die Steigung des Signals auswertet. Da während stimmhafter Laute das Signal einen wesentlich glatteren Verlauf besitzt als bei stimmlosen Lauten, wird der Steigungsindex für stimmhafte Signale auch einen geringeren Wert annehmen als für stimmlose.
Die Berechnung des Steigungsindex basiert auf dem Gradienten
Ψ(κ) = xnb(κ) - xnb(κ - 1)
des Signals. Zur Berechnung des eigentlichen Steigungsindex werden die Beträge der bei Richtungswechseln des Signals auf­ tretenden Gradienten aufsummiert und mit der RMS-Energie des Rahmens normiert
Die sign-Funktion wertet das Vorzeichen seines Argumentes aus
Ein weiteres Merkmal ist die Nulldurchgangsrate ZCR.
Mit der Nulldurchgangsrate wird angegeben, wie oft der Sig­ nalpegel innerhalb eines Rahmens den Nullwert überschreitet, d. h. das Vorzeichen wechselt. Bei rauschartigen Signalen ist die Nulldurchgangsrate höher als bei Signalen mit stark tona­ len Komponenten. der Wert wird auf die Zahl der Abtastwerte eines Rahmens normiert, so dass nur Werte zwischen Null und Eins auftreten können.
Ein weiteres Merkmal sind Cepstralkoeffizienten cp.
Als Sprachparameter, die die geglättete spektrale Einhüllende eines Signals robust beschreiben, werden in der Spracherken­ nung häufig Cepstrahlkoeffizienten eingesetzt. Das reellwer­ tige Cepstrum des Eingangssignals snb(κ) ist als inverse Fouriertransformierte des logarithmierten Betragsspektrums defi­ niert
cp = IDFT{In|DFT{snb(κ)}|}
Während der nullte Cepstralkoeffizient c0 ausschließlich von der Leistung des Signals abhängt, beschreiben die folgenden Koeffizienten die Form der Einhüllenden.
Die Berechnung kann aufwandsgünstig einer LPC-Analyse mittels Levinson-Durbin Algorithmus nachgeschaltet werden; die LPC- Koeffizienten können mit einer rekursiven Vorschrift in Cepstralkoeffizienten umgerechnet werden. Für die erwünschte grobe Beschreibung der Einhüllendenform des schmalbandigen Eingangssignals reicht die Berücksichtigung beispielsweise der ersten acht Koeffizienten aus.
Weitere wichtige Merkmale von Sprachsignalen sind die zeitli­ chen Veränderungen der oben beschriebenen Parameter. Die ein­ fache Verwendung der Differenz zeitlich aufeinanderfolgender Parameter als Schätzung der Ableitung führt allerdings zu sehr verrauschten und unzuverlässigen Ergebnissen. Ein in L. Rabiner, B.-H. Juang, "Fundamentals of Speech Recognition". Prentice Hall, 1993 beschriebenes Verfahren, das auf einer Näherung der tatsächlichen zeitlichen Ableitung des Parame­ terverlaufes durch ein Polynom basiert, führt auf eine einfa­ che Vorschrift, die hier am Beispiel der Kurzzeitleistung En(m) angegeben werden soll
Mit der Konstanten Λ lässt sich die Anzahl der Rahmen bestimmen, die bei der Glättung der Ableitung berücksichtigt werden sollen. Ein größerer Wert für Λ bewirkt ein weniger verrauschtes Ergebnis, es muss jedoch beachtet werden, dass hierdurch eine erhöhte Signalverzögerung notwendig wird, da nach obiger Vorschrift auch zukünftige Rahmen in die Schät­ zung der Ableitung eingehen.
Als akzeptabler Kompromiss zwischen der Dimension des Merk­ malsvektors und den erzielten Klassifikationsergebnissen kann die Zusammensetzung des Merkmalsvektors aus den folgenden Komponenten gewählt werden:
  • - Kurzzeitleistung En (mit adaptivem Normierungsfaktor En,max(m); α = 0.999),
  • - Steigungsindex dn,
  • - Acht Cepstralkoeffizienten c1 bis c8 und
  • - Ableitungen aller zehn obigen Parameter mit Λ = 3.
Das Ergebnis sind also zwanzig Sprachparameter, die für jeden Sprachrahmen zu dem Merkmalsvektor X kombiniert werden
Die Dimension des Merkmalsvektors X wird im folgenden mit N bezeichnet (hier: N = 20).
Bei den Wahrscheinlichkeiten sind mehrere zu unterscheiden. Unter der Beobachtungswahrscheinlichkeit soll hier die Wahr­ scheinlichkeit verstanden werden, dass unter der Vorausset­ zung, dass die Signalquelle sich in dem definierten Zustand Si befindet, der Merkmalsvektor X beobachtet wird.
Diese Wahrscheinlichkeit P(X|Si) hängt allein von den Eigen­ schaften der Quelle ab. Insbesondere hängt die Verteilungs­ dichtefunktion p(X|Si) von der Festlegung der möglichen Quel­ lenzustände ab, d. h. im Falle der Bandbreitenerweiterung von den im Codebuch gespeicherten spektralen Einhüllenden.
Aufgrund der komplexen Zusammenhänge beim Spracherzeugungs­ prozess lässt sich die Beobachtungswahrscheinlichkeit nicht in beliebiger Genauigkeit analytisch berechnen, sondern sie muss anhand von Informationen, die in einer Trainingsphase gesammelt wurden, geschätzt werden. Man beachte, dass die Verteilungsdichtefunktion (VDF) wegen der Dimension X eine N- dimensionale Funktion ist. Es müssen daher Wege gefunden wer­ den, diese VDF durch möglichst einfache Modelle, aber dennoch in hinreichender Genauigkeit zu modellieren.
Die einfachste Möglichkeit, die VDF p(X|Si) zu modellieren, besteht in der Verwendung von Histogrammen. Hierbei wird der Wertebereich jedes Elementes des Merkmalsvektors in eine fes­ te Anzahl diskreter Stufen (z. B. 100) unterteilt und in einer Tabelle wird zu jeder Stufe die Wahrscheinlichkeit abgelegt, dass der entsprechende Parameter innerhalb des durch die Stu­ fe repräsentierten Werteintervalles liegt. Zu jedem Zustand der Quelle muss eine separate Tabelle angelegt werden.
Es ist leicht einzusehen, dass aus Gründen der Realisierbar­ keit bei diesem Verfahren keine Möglichkeit besteht, Kovari­ anzen zwischen den einzelnen Elementen des Merkmalsvektors zu berücksichtigen: Wird beispielsweise der Wertebereich jedes Parameters sehr grob in nur 10 Stufen unterteilt, so wären für die Speicherung eines Histogramms, das die 20- dimensionale Verteilungsdichtefunktion vollständig be­ schreibt, insgesamt 1020 Speicherstellen notwendig!
In Fig. 8 sind die eindimensionalen Histogramme für die Null­ durchgangsrate dargestellt, anhand derer bereits einige Ei­ genschaften der Quelle erläutert werden können.
Man erkennt an dem Beispiel, dass die für verschiedene Zu­ stände auftretenden Wertebereiche in dieser eindimensionalen Darstellung durchaus sehr stark überlappen können. Diese Ü­ berlappung wird bei der späteren Klassifikation zu Unsicher­ heiten und Fehlentscheidungen führen.
Weiterhin ist zu beobachten, dass die Verteilungsdichtefunk­ tionen in der Regel nicht einer bekannten Form wie z. B. der Gauß- oder Poisson-Verteilung entsprechen. Will man also von der Darstellung als Histogramm zu einer Modellierung der VDF übergehen, so sind solche einfachen Modelle offensichtlich nicht geeignet.
Um eine Berücksichtigung der zwischen den im Merkmalsvektor enthaltenen Sprachparameter bestehenden Korrelationen zu er­ möglichen, muss ein einfaches Modell für die Darstellung der N-dimensionalen Verteilungsdichtefunktion erstellt werden. Es wurde bereits erwähnt, dass die VDF i. a. schon im eindimensi­ onalen Fall nicht einer der bekannten "Standardformen" ent­ spricht. Aus diesem Grund wurde eine Modellierung mittels so­ genannter Gaussian Mixture Models (GMM) realisiert.
Bei dieser Methode wird eine Verteilungsdichtefunktion p(X|Si) durch eine Summe gewichteter mehrdimensionaler Gauß- Verteilungen approximiert
Die in diesem Ausdruck verwendete Funktion N(X; µil, Σil) ist die N-dimensionale Gaußfunktion
Zur Beschreibung des Modells für einen Zustand reichen nun also die L skalaren Gewichtungsfaktoren Pil sowie L Parame­ tersätze zur Definition der einzelnen Gauß-Funktionen, je­ weils bestehend aus einer N × N Kovarianzmatrix Σil und dem Mittelwertvektor µil der Länge N = 20 aus. Die Gesamtheit der Parameter des Modells eines einzigen Zustandes werden im fol­ genden mit Θi bezeichnet; in Θ werden die Parameter aller Zustände zusammengefasst.
Durch die Variation der Anzahl L der in einem Modell enthal­ tenen Gauß-Verteilungen lässt sich nun theoretisch jede reale Verteilungsdichtefunktion in beliebiger Genauigkeit annähern.
In der Praxis reichen aber meist bereits recht kleine Werte für L, beispielsweise im Bereich um 5 bis 10, für eine aus­ reichend genaue Modellierung aus.
Das Training der Gaussian Mixture Models erfolgt im Anschluss an die Erstellung der Codebücher anhand der gleichen Trai­ ningsdaten sowie der "optimalen Rahmenzuordnung" iopt(m) mit dem iterativen Estimate-Maximize (EM) Algorithmus (siehe z. B. S. V. Vaseghi, "Advanced Signal Processing and Digital Noise Reduction", Wiley, Teubner, 1996).
In Fig. 9 ist ein Beispiel für die zweidimensionale Modellie­ rung einer VDF dargestellt. Es ist zu beobachten, dass durch die Berücksichtigung der Kovarianzen eine bessere Klassifika­ tion ermöglicht wird, da die drei Funktionen im zweidimensio­ nalen Fall räumlich weniger stark überlappen, als die beiden eindimensionalen Projektionen auf eine der beiden Achsen. Weiterhin zeigt sich, dass das Modell die tatsächlich gemes­ sene Häufigkeitsverteilung der Merkmalswerte verhältnismäßig gut nachbildet.
Die Wahrscheinlichkeit P(Si), dass die Signalquelle sich ü­ berhaupt in einem Zustand Si befindet, soll im folgenden als Zustandswahrscheinlichkeit bezeichnet werden. Bei der Berech­ nung der Zustandswahrscheinlichkeiten werden keinerlei Neben­ informationen berücksichtigt, sondern es wird anhand des gan­ zen Trainingsmaterials das Verhältnis der Anzahl Mi der mit­ tels "optimaler" Suche einem bestimmten Codebucheintrag zuge­ ordneten Rahmen zu der gesamten Rahmenanzahl M bestimmt
Auf diese einfache Weise lassen sich die Zustandswahrschein­ lichkeiten für alle Einträge des Codebuchs bestimmen und in einer eindimensionalen Tabelle speichern.
Betrachtet man ein Sprachsignal, so stellt man fest, dass einzelne Laute bzw. Einhüllendenformen deutlich wahrscheinli­ cher auftreten als andere. Schon allein wegen der zeitlichen Dauer stimmhafter Laute kommen entsprechend stimmhafte Rahmen erheblich häufiger vor als beispielsweise Zischlaute oder Plosive.
Die Übergangswahrscheinlichkeit P(S (m)|i|S (m-1)|j) beschreibt, wie wahrscheinlich der Übergang zwischen den Zuständen von einem Rahmen zum Folgerahmen ist. Grundsätzlich ist der Übergang von jedem Zustand zu jedem anderen möglich, so dass für die Speicherung der trainierten Übergangswahrscheinlichkeiten ei­ ne zweidimensionale Matrix mit insgesamt I2 Einträgen nötig ist. Das Training kann ähnlich wie bei den Zustandswahr­ scheinlichkeiten durch die Berechnung der Verhältnisse der Anzahlen bestimmter Übergänge zu der Gesamtzahl aller Über­ gänge erfolgen.
Betrachtet man die Matrix der Übergangswahrscheinlichkeiten, so stellt man fest, dass die größten Maxima auf der Hauptdia­ gonalen liegen, dass also die Quelle in der Regel länger als eine Rahmenlänge in dem gleichen Zustand verharrt. Vergleicht man die Einhüllendenformen zweier Codebucheinträge, zwischen denen eine hohe Übergangswahrscheinlichkeit gemessen wurde, so sind sich diese im allgemeinen verhältnismäßig ähnlich.
Aus den anhand der Merkmale ermittelten bzw. a priori vorhan­ denen Wahrscheinlichkeiten kann nun im letzten Schritt eine Klassifikation des aktuellen Rahmens zu einem der im Codebuch repräsentierten Quellenzustände erfolgen; das Ergebnis ist dann also ein einzelner definierter Index i desjenigen Code­ bucheintrages, der nach dem statistischen Modell dem aktuel­ len Sprachrahmen bzw. Quellenzustand am ehesten entspricht.
Alternativ können die berechneten Wahrscheinlichkeitswerte für eine Schätzung der nach einem definierten Fehlermaß bes­ ten Mischung mehrerer Codebucheinträge genutzt werden.
Das Ergebnis der verschiedenen Verfahren hängt maßgeblich von dem jeweils zu optimierenden Kriterium ab. Es wurden die fol­ genden Verfahren untersucht:
  • - Bei der Maximum Likelihood (ML) Methode wird derjenige Zustand bzw. Eintrag des Codebuchs ausgewählt, für den die Beobachtungswahrscheinlichkeit maximal ist
  • - En anderer Ansatz besteht darin, denjenigen Zustand an­ zunehmen, der aufgrund der momentanen Beobachtung am wahrscheinlichsten ist, d. h. es ist die a posteriori Wahrscheinlichkeit P(Si|X) zu maximieren
    Mit der Bayes'schen Regel lässt sich dieser Ausdruck so umformen, dass mit der Beobachtungswahrscheinlichkeit P(X|Si) und der a priori Wahrscheinlichkeit P(Si) nur noch bekannte bzw. messbare Größen vorkommen
    Nach der verwendeten a posteriori Wahrscheinlichkeit wird diese Klassifikationsmethode Maximum A Posteriori (MAP) genannt.
  • - Auf der Minimierung des mittleren quadratischen Fehlers (Minimum Mean Squared Error) zwischen geschätztem und Originalsignal basiert das MMSE Verfahren. Durch diese Methode wird eine Schätzung erstellt, die sich aus der mit der a posteriori Wahrscheinlichkeit P(Si|X) gewich­ teten Summe der Codebucheinträge Ci ergibt
    Die Wahrscheinlichkeit des Auftretens des Merkmalsvek­ tors X kann aus dem statistischen Modell berechnet wer­ den:
    Im Gegensatz zu den vorherigen beiden Klassifikations­ verfahren ist das Ergebnis nun nicht mehr an einen der Codebucheinträge gebunden. In Fällen, in denen die a posteriori Wahrscheinlichkeit für einen Zustand dominant ist, das Verfahren sich also quasi seiner Entscheidung sicher ist, entspricht das Resultat der Schätzung dem Ergebnis des MAP Schätzers.
  • - Bei den beiden Methoden MAP-Klassifikation und MMSE- Schätzung, bei denen die a posteriori Wahrscheinlichkeit P(Si|X) ausgewertet wird, können zu den a priori bekann­ ten Zustandswahrscheinlichkeiten zusätzlich die Über­ gangswahrscheinlichkeiten berücksichtigt werden. Zu die­ sem Zweck muss in den beiden Ausdrücken ??? der Term P(Si|X) für die a posteriori Wahrscheinlichkeit durch den Ausdruck P(S (m)|i, X(0), X(1), . . ., X(m)) ersetzt werden, der von sämtlichen in der Vergangenheit beobachteten Rahmen ab­ hängt. Die Berechnung dieser Verbundwahrscheinlichkeit kann rekursiv erfolgen
    Beim ersten Rahmen kann die Startlösung wie folgt be­ rechnet werden:
Obwohl die Erfindung vorstehend anhand bevorzugter Ausfüh­ rungsbeispiele erläutert wurde, ist sie darauf nicht be­ schränkt, sondern in vielfältiger Weise modifizierbar.
Insbesondere ist die Erfindung für jegliche Art von Sprach­ signalen anwendbar und nicht auf Telefonsprachsignale be­ schränkt.
Bezugszeichenliste
xwb
(k') Anregungssignal des Sprachtrakts, breitbandig
swb
(k') Sprachsignal, breitbandig
snb
(k') Sprachsignal, schmalbandig, Abtastrate fa'
= 16 kHz
snb
(k) Sprachsignal, schmalbandig
Θ
A(z') Übertragungsfunktion des zum Sprachtraktfilter inversen Filters
HÜS
(z') Übertragungsfunktion des Modells der Übertra­ gungsstrecke
HBP
(z') Übertragungsfunktion des Bandpaßfilters
Ânb
(z) Koeffizientensatz für LPC-Analysefilter
HI
(z) Übertragungsfunktion des LPC-Inversfilters
HS
(z') Übertragungsfunktion des LPC-Synthesefilters
HBS
(z') Übertragungsfunktion des Bandstoppfilters
Âwb
(z') Koeffizientensatz für LPC-Synthesefilter
nb
(k) Schätzung des Anregungssignals des Sprach­ trakts, schmalbandig
wb
(k) Schätzung des Anregungssignals des Sprach­ trakts, breitbandig
AE Anregungserzeugung
ST Sprachtrakt
TP Tiefpaß
LPCA LPC-Analyse
BP Bandpaß
ADD Addierer
LPCA LPC-Analyse
EE Einhüllendenerweiterung
RE Restsignalerweiterung
IF Inversfilter
SF Synthesefilter
BS Bandstopp
IP Interpolation
I Anzahl Codebuch
RA Reduzierung Abtastfrequenz
SCH Schalter

Claims (21)

1. Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen mit den Schritten:
Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate;
Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätz­ ten Filterkoeffizienten, welche eine Erweiterung der Band­ breite der Einhüllenden bewirken;
Durchführen einer Restsignalerweiterung an dem anlaysegefil­ terten Sprachsignal; und
Durchführen einer Synthesefilterung an dem restsignalerweite­ reten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals mit den aus dem abgetasteten Sprachsignal ge­ schätzten Filterkoeffizienten.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Filterkoeffizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Codebuch ermittelt werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß das abgestastete schmalbandige Sprachsignal im Frequenz­ bereich 300 Hz bis 3,4 kHz liegt und das breitbandigere Sprachsignal im Frequenzbereich 50 Hz bis 7 kHz liegt.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Algorithmus zur Ermittlung der Filterkoeffizienten folgende Schritte aufweist:
Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Ab­ hängigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor für einen jeweiligen Zeitabschnitt;
Vergleichen des Merkmalsvektors mit den statistischen Model­ len; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichser­ gebnisses.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß beim Vergleichen mindestens eine der folgenden Wahr­ scheinlichkeiten berücksichtigt wird:
die Beobachtungswahrscheinlichkeit des Auftretens des Merk­ malsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abge­ tastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß zum Ermitteln der Filterkoeffizienten der Codebucheintrag verwendet wird, für den die Beobachtungswahrscheinlichkeit maximal ist.
7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß zum Ermitteln der Filterkoeffizienten der Codebucheintrag verwendet wird, für den die Verbundwahrscheinlichkeit p(X(m), Si) maximal ist.
8. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß zum Ermitteln der Filterkoeffizienten eine direkte Schät­ zung der spektralen Einhüllenden durch die mit der a posteri­ ori Wahrscheinlichkeit p(Si|X(m)) gewichtete Mittelung aller Codebucheinträge erfolgt.
9. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Beobachtungswahrscheinlichkeit durch ein Gauß'sches Mischmodell dargestellt wird.
10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in vorbestimmten Sprachabschnitten die Bandbreitenerwei­ terung deaktiviert wird.
11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß eine Postfilterung des synthesegefilterten Signals durch­ geführt wird.
12. Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen mit:
einer Eingabeeinrichtung zum Bereitstellen eines schmalbandi­ gen Sprachsignals mit einer vorbestimmten Abtastrate;
einem Analysefilter (AF) zum Durchführen einer Analysefilte­ rung an dem abgetasteten Sprachsignal mit aus dem abgetaste­ ten Sprachsignal geschätzten Filterkoeffizienten, welche eine Erweiterung der Bandbreite der Einhüllenden bewirken;
einer Restsignalerweiterungseinrichtung (RE) zum Durchführen einer Restsignalerweiterung an dem anlaysegefilterten Sprach­ signal; und
einem Synthesefilter (SF) zum Durchführen einer Synthesefil­ terung an dem restsignalerweitereten Sprachsignal zur Erzeu­ gung eines breitbandigeren Sprachsignals mit den aus dem ab­ getasteten Sprachsignal geschätzten Filterkoeffizienten.
13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, daß eine Einhüllendenerweiterungseinrichtung (EE) vorgesehen ist, die die Filterkoeffizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Codebuch ermittelt.
14. Vorrichtung nach Anspruch 12 oder 13, dadurch gekennzeichnet, daß das abgestastete schmalbandige Sprachsignal im Frequenz­ bereich 300 Hz bis 3,4 kHz liegt und das breitbandigere Sprachsignal im Frequenzbereich 50 Hz bis 7 kHz liegt.
15. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, daß der Algorithmus der Einhüllendenerweiterungseinrichtung (EE) zur Ermittlung der Filterkoeffizienten folgende Funktio­ nen ausführt:
Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Ab­ hängigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor für einen jeweiligen Zeitabschnitt;
Vergleichen des Merkmalsvektors mit den statistischen Model­ len; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichser­ gebnisses.
16. Vorrichtung nach Anspruch 15, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) beim Verglei­ chen durch mindestens eine der folgenden Wahrscheinlichkeiten berücksichtigt:
die Beobachtungswahrscheinlichkeit des Auftretens des Merk­ malsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abge­ tastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands.
17. Vorrichtung nach Anspruch 16, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermit­ teln der Filterkoeffizienten den Codebucheintrag verwendet, für den die Beobachtungswahrscheinlichkeit maximal ist.
18. Vorrichtung nach Anspruch 16, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermit­ teln der Filterkoeffizienten den Codebucheintrag verwendet, für den die Verbundwahrscheinlichkeit p(X(m), Si) maximal ist.
19. Vorrichtung nach Anspruch 16, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermit­ teln der Filterkoeffizienten eine direkte Schätzung der spektralen Einhüllenden durch die mit der a posteriori Wahr­ scheinlichkeit p(Si|X(m)) gewichtete Mittelung aller Code­ bucheinträge durchführt.
20. Vorrichtung nach Anspruch 16, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) die Beobach­ tungswahrscheinlichkeit durch ein Gauß'sches Mischmodell dar­ stellt.
21. Vorrichtung nach einem der vorhergehenden Ansprüche 12 bis 20, dadurch gekennzeichnet, daß die Einhüllendenerweite­ rungseinrichtung (EE) in vorbestimmten Sprachabschnitten die Bandbreitenerweiterung deaktiviert.
DE10041512A 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen Expired - Lifetime DE10041512B4 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE10041512A DE10041512B4 (de) 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US10/111,522 US7181402B2 (en) 2000-08-24 2001-08-07 Method and apparatus for synthetic widening of the bandwidth of voice signals
PCT/EP2001/009125 WO2002017303A1 (de) 2000-08-24 2001-08-07 Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10041512A DE10041512B4 (de) 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen

Publications (2)

Publication Number Publication Date
DE10041512A1 true DE10041512A1 (de) 2002-03-14
DE10041512B4 DE10041512B4 (de) 2005-05-04

Family

ID=7653597

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10041512A Expired - Lifetime DE10041512B4 (de) 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen

Country Status (3)

Country Link
US (1) US7181402B2 (de)
DE (1) DE10041512B4 (de)
WO (1) WO2002017303A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004044894A1 (de) * 2002-11-11 2004-05-27 Siemens Aktiengesellschaft Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals
WO2007087824A1 (de) * 2006-01-31 2007-08-09 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und anordnungen zur audiosignalkodierung

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
DE10116358A1 (de) * 2001-04-02 2002-11-07 Micronas Gmbh Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7421304B2 (en) * 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method
ES2280736T3 (es) * 2002-04-22 2007-09-16 Koninklijke Philips Electronics N.V. Sintetizacion de señal.
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4433668B2 (ja) * 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
KR100465318B1 (ko) * 2002-12-20 2005-01-13 학교법인연세대학교 광대역 음성신호의 송수신 장치 및 그 송수신 방법
US7519530B2 (en) * 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US20040138876A1 (en) * 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
US8712768B2 (en) 2004-05-25 2014-04-29 Nokia Corporation System and method for enhanced artificial bandwidth expansion
WO2006011265A1 (ja) * 2004-07-23 2006-02-02 D & M Holdings, Inc. オーディオ信号出力装置
DE102005000830A1 (de) * 2005-01-05 2006-07-13 Siemens Ag Verfahren zur Bandbreitenerweiterung
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7698143B2 (en) * 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
US7778718B2 (en) * 2005-05-24 2010-08-17 Rockford Corporation Frequency normalization of audio signals
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
US20070005351A1 (en) * 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP1772855B1 (de) 2005-10-07 2013-09-18 Nuance Communications, Inc. Verfahren zur Erweiterung der Bandbreite eines Sprachsignals
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7885419B2 (en) 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US8538050B2 (en) * 2006-02-17 2013-09-17 Zounds Hearing, Inc. Method for communicating with a hearing aid
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US7519619B2 (en) * 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
US7912729B2 (en) 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
GB0705329D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
JPWO2009084221A1 (ja) * 2007-12-27 2011-05-12 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8326641B2 (en) * 2008-03-20 2012-12-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8831958B2 (en) * 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
WO2011148230A1 (en) * 2010-05-25 2011-12-01 Nokia Corporation A bandwidth extender
US8958510B1 (en) * 2010-06-10 2015-02-17 Fredric J. Harris Selectable bandwidth filter
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
GB2520867B (en) 2011-10-25 2016-05-18 Skype Ltd Jitter buffer
JP5949379B2 (ja) * 2012-09-21 2016-07-06 沖電気工業株式会社 帯域拡張装置及び方法
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9319510B2 (en) * 2013-02-15 2016-04-19 Qualcomm Incorporated Personalized bandwidth extension
CN104050971A (zh) * 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9959888B2 (en) * 2016-08-11 2018-05-01 Qualcomm Incorporated System and method for detection of the Lombard effect
US10264116B2 (en) * 2016-11-02 2019-04-16 Nokia Technologies Oy Virtual duplex operation
WO2018201112A1 (en) * 2017-04-28 2018-11-01 Goodwin Michael M Audio coder window sizes and time-frequency transformations
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US10672382B2 (en) * 2018-10-15 2020-06-02 Tencent America LLC Input-feeding architecture for attention based end-to-end speech recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0732687B2 (de) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Erweiterung der Sprachbandbreite
EP0878790A1 (de) * 1997-05-15 1998-11-18 Hewlett-Packard Company Sprachkodiersystem und Verfahren
EP0945852A1 (de) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Sprachsynthese

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
H. Carl, "Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband- Sprachsignalen", Dissertation, Ruhr-Universit„t Bochum, 1994 *
H. Hermansky, C. Avendano, E.A. Wan, "Noise Reduction and Recovery of Missing Frequencies in Speech", Proceedings 15th Annual Speech Research Symposium, 1995 *
M. Dietrich, "Performance and Implementation of a Robust ADPCM Algorithm for Wideband Speech Coding with 64 kBit/s", Proc. International ZürichSeminar Digital Communications, 1984 *
P.J. Patrick, "Enhancement of Bandlimit Speech Signals", Dissertation, Loughborough University ofTechnology, 1983 *
Y.M. Cheng, D. O'Shaugnessy, P. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband Speech", IEEE Transactions on Speech and Audio Processing, Band 2, Nr. 4, Okt. 1994 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004044894A1 (de) * 2002-11-11 2004-05-27 Siemens Aktiengesellschaft Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals
WO2007087824A1 (de) * 2006-01-31 2007-08-09 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und anordnungen zur audiosignalkodierung
US8612216B2 (en) 2006-01-31 2013-12-17 Siemens Enterprise Communications Gmbh & Co. Kg Method and arrangements for audio signal encoding

Also Published As

Publication number Publication date
US20030050786A1 (en) 2003-03-13
US7181402B2 (en) 2007-02-20
DE10041512B4 (de) 2005-05-04
WO2002017303A1 (de) 2002-02-28

Similar Documents

Publication Publication Date Title
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
DE69615302T2 (de) Maskierung des wahrnehmbaren Rauschens auf der Basis der Frequenzantwort eines Synthesefilters
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
DE69621393T2 (de) Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60120949T2 (de) Eine hörprothese mit automatischer hörumgebungsklassifizierung
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
RU2447415C2 (ru) Способ и устройство для расширения ширины полосы аудиосигнала
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE69132885T2 (de) CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE69620967T2 (de) Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE69411817T2 (de) Verfahren und vorrichtung zur kodierung/dekodierung von hintergrundgeräuschen
DE60300267T2 (de) Verfahren und Vorrichtung zur multi-referenz Korrektur der durch ein Kommunikationsnetzwerk verursachten spektralen Sprachverzerrungen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE

R081 Change of applicant/patentee

Owner name: LANTIQ DEUTSCHLAND GMBH, DE

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

Effective date: 20110325

Owner name: LANTIQ BETEILIGUNGS-GMBH & CO. KG, DE

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

Effective date: 20110325

R081 Change of applicant/patentee

Owner name: INTEL CORP., SANTA CLARA, US

Free format text: FORMER OWNER: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE

Owner name: LANTIQ BETEILIGUNGS-GMBH & CO. KG, DE

Free format text: FORMER OWNER: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE

R071 Expiry of right
R081 Change of applicant/patentee

Owner name: INTEL CORP., SANTA CLARA, US

Free format text: FORMER OWNER: LANTIQ BETEILIGUNGS-GMBH & CO. KG, 85579 NEUBIBERG, DE