DE60101148T2

DE60101148T2 - Vorrichtung und verfahren zur sprachsignalmodifizierung

Info

Publication number: DE60101148T2
Application number: DE60101148T
Authority: DE
Inventors: Ulf Lindgren; Harald Gustafsson; Petra Deutgen; Clas Thurban
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-01-28
Filing date: 2001-01-17
Publication date: 2004-05-27
Anticipated expiration: 2021-01-18
Also published as: US20010044722A1; CN1397064A; CN1185626C; US6704711B2; EP1252621B1; ATE253766T1; EP1252621A1; AU2001230190A1; DE60101148D1; WO2001056021A1

Description

HINTERGRUND
Die vorliegende Erfindung betrifft Verfahren zur Übertragung von Sprachinformationen in Kommunikationsnetzwerken, und im einzelnen Verfahren zur Steigerung von Schmalband-Sprachsignalen bei einem Empfänger.
Bei der Übertragung von Sprachsignalen gibt es einen Kompromiss zwischen Netzwerkkapazitäten (d.h. der Anzahl der übertragenen Anrufe) und der Qualität des Sprachsignals bei solchen Anrufen. Die meisten heutzutage verwendeten Telefonsysteme verschlüsseln und übertragen mit einer Abtastrate bzw. Samplingrate von 8 kHz Sprachsignale in Übereinstimmung mit dem Nyquist-Theorem in dem Schmalfrequenzband zwischen etwa 300 Hz und 3,4 kHz. Da die menschliche Sprache Frequenzen zwischen etwa 50 Hz und 13 kHz enthält, lässt das Abtasten der menschlichen Sprache bei einer 8 kHz-Rate und das Übertragen des Schmal-Frequenzbereichs von etwa 300 Hz bis 3,4 kHz notwendigerweise Informationen im Sprachsignal weg. Demgemäß setzen Telefonsysteme die Qualität der Sprachsignale gezwungenermaßen herab.
Es wurden verschiedene Verfahren zum Ausdehnen der Bandbreite von in Telefonsystemen übertragenen Sprachsignalen entwickelt. Die Verfahren können in zwei Kategorien eingeteilt werden. Die erste Kategorie weist Systeme auf, die die Bandbreite des über das gesamte Telefonsystem übertragenen Sprachsignals erweitern, um einen breiteren, mittels der menschlichen Sprache erzeugten Frequenzbereich aufzunehmen. Diese Systeme bringen zusätzliche Erfordernisse bezüglich der Bandbreiten über das gesamte Netzwerk auf, und sie sind von daher zu kostenaufwendig, um sie zu verwenden.
Eine zweite Kategorie weist Systeme auf, die einen mathematischen Algorithmus verwenden, um die von bestehenden Telefonsystemen verwendete Schmalband-Sprachsignale zu manipulieren. Geeignete Beispiele weisen Sprachkodier-Algorithmen auf, die Breitband-Sprachsignale bei einem Sender komprimieren, so dass das Breitband-Signal über eine bestehende Schmalband-Verbindung übertragen werden kann. Das Breitband-Signal muss dann bei einem Empfänger dekomprimiert werden. Die Verwendung bzw. Implementierung dieser Verfahren kann kostenaufwendig sein, da die Struktur der bestehenden Systeme abgeändert werden muss.
Andere Verfahren verwenden einen "Codebook"-Ansatz, wie er in der Veröffentlichung "Statistical Recovery of Wideband Speech from Narrowband Speech", IEEE Transactions on Speech and Audio Processing, Oktober 1994, von Yan Ming Cheng et. al. beschrieben wird und als europäische Patentanmeldung Nr. EP-A-0 945 852 A1 veröffentlicht ist. Ein Codebook wird verwendet, um von dem Schmalband-Sprachsignal zu dem neuen Breitband-Sprachsignal zu übersetzen. Häufig basiert die Übersetzung von dem Schmalband zu dem Breitband auf den beiden folgenden Modellen: Ein Modell für die Schmalband-Sprachanalyse und ein für die Breitband-Sprachsynthese. Das Codebook ist für Sprachdaten derart ausgebildet, um die Verschiedenheit der meisten Sprachklänge (Phoneme) zu "lernen". Bei der Verwendung des Codebooks wird die Schmalband-Sprache modelliert und der Codebook-Eintrag gesucht, welcher eine geringste Entfernung zu dem Schmalband-Modell darstellt. Das ausgewählte Modell wird zu seiner Breitband-Äquivalenz konvertiert, welches zur Synthese der Breitband-Sprache verwendet wird. Ein Nachteil, der in Zusammenhang mit Codebooks steht, liegt darin, dass sie ein aufwendiges Erlernen bzw. Training benötigen.
Ein anderes Verfahren wird gewöhnlich als Spektralfaltung bezeichnet. Techniken der Spektralfaltung basieren auf dem Prinzip, dass der Inhalt in dem niedrigeren Frequenzband in das obere Band gefaltet werden kann. Normalerweise wird das Schmalband-Signal erneut bei einer höheren Abtastrate abgetastet, um das Aliasing in dem oberen Frequenzband einzuführen. Das obere Frequenzband wird dann mit einem Tiefpass-Filter geformt, und das Breitband-Signal ist erzeugt. Diese Verfahren sind einfach und effektiv, jedoch führen sie häufig Hochfrequenzverzerrungen ein, die den Sprachklang metallisch machen.
Demgemäß besteht auf dem Fachgebiet ein Bedarf nach zusätzlichen Systemen und Verfahren zur Übertragung von Schmalband-Sprachsignalen. Ferner besteht in dem Fachgebiet ein Bedarf nach Systemen und Verfahren zur Verarbeitung von Schmalband-Sprachsignalen bei einem Empfänger, um Breitband-Sprachsignale zu simulieren.
ZUSAMMENFASSUNG
Die vorliegende Erfindung ist auf diese und andere Bedürfnisse durch das Hinzufügen synthetischer Informationen zu einem, bei einem Empfänger empfangenen Schmalband-Sprachsignal gerichtet. In bevorzugter Weise wird das Sprachsignal in ein Stimmkanal-Modell und in ein Erregungssignal aufgeteilt. Eine oder mehrere Resonanzfrequenzen können zu dem Stimmkanal-Modell hinzugefügt werden, wodurch ein zusätzlicher Formant in dem Sprachsignal synthetisiert wird. Zusätzlich kann ein neues synthetisches Erregungssignal zu dem ursprünglichen Erregungssignal in dem zu synthetisierenden Frequenzbereich hinzugefügt werden. Die Sprache kann dann synthetisiert werden, um ein Breitband-Sprachsignal zu erhalten. In bevorzugter Weise sind die Verfahren der Erfindung von relativ geringer rechnerbezogenen Komplexität, und sie führen keine signifikante Verzerrung in das Sprachsignal ein.
Ein anderer Aspekt der vorliegenden Erfindung stellt ein Verfahren zur Verarbeitung eines Schmalband-Sprachsignals gemäß Patentanspruch 1 bereit.
Gemäß der Ausführungsformen der Erfindung kann ein bestimmter Frequenzbereich des Breitband-Signals selektiv verstärkt werden. Das Breitband-Signal kann ebenso in ein analoges Format konvertiert und verstärkt werden.
In Übereinstimmung mit einem anderen Aspekt stellt die Erfindung ein System zur Verarbeitung eines Schmalband-Sprachsignals gemäß Patentanspruch 9 zur Verfügung.
Gemäß der Ausführungsformen der Erfindung weist das Residuum-Erweiterungs- und Kopiermodul folgendes auf: ein Fast-Fourier-Transformations-Modul zum Konvertieren des Fehlersignals von dem parametrischen Spektralanalyse-Modul in den Frequenzraum; einen Spitzendetektor zum Identifizieren der harmonischen Frequenzen des Fehlersignals; und ein Kopier-Modul zum Kopieren der mittels des Spitzendetektors identifizierten Spitzen in den oberen Frequenzbereich.
In einem noch anderen Aspekt gibt die Erfindung ein Systemen zur Verarbeitung eines Schmalband-Sprachsignals gemäß Patentanspruch 15 an.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Aufgaben und Vorteile der Erfindung werden durch das Lesen der nachfolgenden detaillierten Beschreibung in Verbindung mit den Zeichnungen verstanden, in welchen:
1 eine schematische Darstellung ist, die die Funktionen eines Empfängers in Übereinstimmung mit Aspekten der Erfindung zeigt;
2 ein repräsentatives Spektrum von stimmhafter Sprache und die grobe Struktur der Formanten zeigt;
3 ein repräsentatives Spektogramm darstellt;
4 ein Blockdiagramm ist, welches eine exemplarische Ausführungsform eines Systems und eines Verfahrens zum Hinzufügen von synthetischer Information zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung zeigt;
5 ein Blockdiagramm ist, welches eine in 4 dargestellte, exemplarische Residuum-Erweiterungs- und Kopierschaltung zeigt;
6 ein Blockdiagramm ist, welches eine zweite exemplarische Ausführungsform eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung zeigt;
7 ein Blockdiagramm ist, welches eine in 6 dargestellte, exemplarische Residuum-Erweiterungs- und Kopierschaltung zeigt;
8 ein Blockdiagramm ist, welches eine dritte exemplarische Ausführungsform eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung zeigt;
9 ein Blockdiagramm ist, welches einen exemplarischen Residuum-Modifizierer in Übereinstimmung mit der vorliegenden Erfindung zeigt;
10 eine graphische Darstellung ist, die eine Kurzzeit-Autokorrelations-Funktion eines Sprachsamples bzw. einer Sprachabtastung zeigt, das einen stimmhaften Klang darstellt;
11 eine graphische Darstellung ist, die eine Mittelwert-Differenzfunktion eines Sprachsamples bzw. einer Sprachabtastung zeigt, das einen stimmhaften Klang darstellt;
12 ein Blockdiagramm ist, welches zeigt, dass eine AR-Modell-Übertragungsfunktion in zwei Übertragungsfunktionen geteilt werden kann;
13 eine graphische Darstellung ist, die die grobe Struktur eines Sprachsignals vor und nach der Hinzufügung eines synthetischen Formanten zu dem Sprachsignal zeigt;
14 eine graphische Darstellung ist, die die grobe Struktur eines Sprachsignals vor und nach dem Hinzufügen eines synthetischen Formanten zu dem Sprachsignal zeigt; und
15 eine graphische Darstellung ist, die die Frequenzantwort-Kurvenverläufe von AR-Modellen mit verschiedenen Parametern an einem Sprachsignal zeigt.
DETAILLIERTE BESCHREIBUNG
Die vorliegende Erfindung liefert Verbesserungen bei der Verarbeitung von Sprachsignalen, die bei einem Empfänger verwendet werden können. Gemäß einem Aspekt der Erfindung werden unter Verwendung von Information in den unteren Frequenzbereichen des empfangenden Sprachsignals Frequenzen des Sprachsignals in dem oberen Frequenzbereich synthetisiert. In bevorzugter Weise macht die Erfindung von der Tatsache Gebrauch, dass Sprachsignale harmonischen Inhalt aufweisen, der in den höheren Frequenzbereich extrapoliert werden kann.
Die vorliegende Erfindung kann in herkömmlichen kabelgestützten (d.h. festen) Telefonsystemen oder in kabellosen (d.h. mobilen) Telefonsystemen verwendet werden. Weil die meisten bestehenden kabellosen Telefonsysteme digital sind, kann die vorliegende Erfindung auf einfache Weise in mobilen Kommunikationsterminals (beispielsweise Mobiltelefonen oder anderen Kommunikationsvorrichtungen) verwendet werden. Die 1 liefert in Übereinstimmung mit Aspekten der vorliegenden Erfindung eine schematische Darstellung der Funktionen, die mittels eines Kommunikationsterminals ausgeführt werden, das als Empfänger wirkt. Ein verschlüsseltes Sprachsignal, das mittels der Antenne 110 und des Empfängers 120 eines Mobiltelefons empfangen wird, wird mittels eines Kanaldecoders 130 und eines Sprachentschlüsselungsgerätes 140 entschlüsselt. Das digitale Signal von dem Sprachentschlüsselungsgerät 140 wird einem Bandbreiten-Erweiterungs-Modul 150 zugeführt, welches fehlende Frequenzen des Sprachsignals (beispielsweise Information in dem oberen Frequenzbereich) basierend auf Information in dem empfangenden Sprachsignal synthetisiert. Das erweiterte Signal kann zu einem D/A-Konverter 160 übertragen werden, der das digitale Signal in ein analoges Signal konvertiert, welches einem Lautsprecher 170 zugeführt werden kann. Da das Sprachsignal grundsätzlich digital ist, wird die Abtastung bereits in dem übertragenden Mobiltelefon durchgeführt. Jedoch ist es ersichtlich, dass die vorliegende Erfindung nicht auf kabellose Netzwerke beschränkt ist; sie kann allgemein bei sämtlichen bidirektionalen Sprachkommunikationen verwendet werden.
Spracherzeugung
Als Hintergrundinformation sei hinzugefügt, dass Sprache mittels neuromuskularer Signale von dem Gehirn, welches das Stimmsystem steuert, erzeugt wird. Die verschiedenen, mittels des vokalen Systems erzeugten Klänge werden Phoneme genannt, welche kombiniert werden, um Wörter und/oder Begriffe auszubilden. Jede Sprache weist ihren eigenen Satz von Phoneme auf, und einige Phoneme bestehen in mehr als einer Sprache.
Sprachklänge können in zwei Hauptkategorien klassifiziert werden: stimmhafte Klänge und nicht-stimmhafte Klänge. Stimmhafte Klänge werden erzeugt, wenn quasi-periodische Luftstöße mittels der Stimmritze freigegeben werden, welche die Öffnung zwischen den Stimmbändern ist. Diese Luftstöße erregen den Stimmkanal, wobei einstimmhafter Klang erzeugt wird (d.h., ein kurzes "a" (ä) in "car"). Im Gegensatz hierzu werden nicht-stimmhafte Klänge erzeugt, wenn ein stetiger Luftstrom durch eine Einschränkung in dem Stimmkanal gezwungen wird. Diese Einschränkung liegt häufig in der Nähe des Mundes, wodurch die Luft veranlasst wird, turbulent zu werden und einen rausch-ähnlichen Klang zu erzeugen (d.h., wie "sh" in "she"). Selbstverständlich gibt es Klänge, die Eigenschaften von sowohl stimmhaften Klängen als auch nicht-stimmhaften Klängen aufweisen.
Es gibt eine Anzahl von verschiedene Interessenmerkmale für Techniken zur Sprachmodellierung. Ein solches Merkmal sind die Formanten-Frequenzen, die von der Formgebung des Stimmkanals abhängen. Die Anregungsquelle für den Stimmkanal ist ebenso ein interessanter Parameter.
Die 2 zeigt das Spektrum der stimmhaften Sprache, das bei einer 16 kHz-Abtastfrequenz abgetastet wurde. Mittels der gestrichelten Linie 210 wird die grobe Struktur dargestellt. Die drei ersten Formanten sind mit den Pfeilen angezeigt.
Formanten sind die Resonanzfrequenzen des Stimmkanals. Sie formen die grobe Struktur des Sprachfrequenzspektrums. Formanten variieren abhängig von Charakteristika des Stimmkanals des Sprechers; d.h., ob er lang (typischerweise für einen Mann) oder kurz (typischerweise für eine Frau) ist. Wenn sich die Formgebung des Sprachkanals ändert, dann ändern sich ebenso die Resonanzfrequenzen in der Frequenz, Bandbreite und Amplitude. Bei Phoneme ändern Formanten ihre Formgebung kontinuierlich, es treten jedoch abrupte Änderungen bei Übergängen von einem stimmhaften Klang zu einem nicht-stimmhaften Klang auf. Die drei Formanten mit den niedrigsten Resonanzfrequenzen sind für das Abtasten des erzeugten Sprachklanges wichtig. Jedoch verbessert das Einfügen zusätzlicher Formanten (beispielsweise des vierten und fünften Formanten) die Qualität des Sprachsignals. Aufgrund der in Schmalband-Übertragungssystemen verwendeten, niedrigen Abtastrate (d.h. 8 kHz), werden die Formanten höherer Frequenz von dem verschlüsselten Sprachsignal weggelassen, was in einem Sprachsignal geringerer Qualität resultiert. Die Formanten werden häufig mit F_k bezeichnet, wobei k die Nummer des Formanten ist.
Es gibt zwei Anregungsarten des Stimmkanals: Impulserregung und Rauscherregung. Die Impulserregung und die Rauscherregung können gleichzeitig auftreten, um eine gemischte Erregung zu erzeugen.
Luftstöße, die von der Stimmritze ausgehen, sind die Grundlage der Impulserregung. Die Impulse der Stimmritze hängen von dem ausgesprochenen Klang und der Spannung der Stimmbänder ab. Die Frequenz der Impulse der Stimmritze wird als fundamentale Frequenz bezeichnet, die häufig mit F₀ bezeichnet wird. Die Periode zwischen zwei aufeinanderfolgenden Stößen ist die Abstands-Periode und erstreckt sich von etwa 1,25 ms bis 20 ms für Sprache, was einem Frequenzbereich zwischen 50 Hz bis 800 Hz entspricht. Der Abstand besteht nur, wenn die Stimmbänder vibrieren und ein stimmhafter Klang (oder ein gemischter Erregungsklang) erzeugt wird.
Verschiedene Klänge werden abhängig von der Formgebung des. Stimmkanals erzeugt. Die fundamentale Frequenz F₀ ist abhängig vom Geschlecht, und sie ist typischerweise für männliche Sprecher niedriger als für weibliche Sprecher. Der Abstand kann in dem Frequenzraum als Feinstruktur des Spektrums beobachtet werden. In einem Spektrogramm, welches die Signalenergie (typischerweise mittels einer Farb-Intensität dargestellt) als eine Funktion der Zeit und Frequenz aufträgt, kann, wie in 3 dargestellt, der Abstand als dünne horizontale Linien beobachtet werden. Diese Struktur stellt die Abstandsfrequenz und seine Harmonischen höherer Ordnung dar, die von der fundamentalen Frequenz erzeugt werden.
Wenn nicht-stimmhafte Klänge erzeugt werden, stellt die Erregungsquelle Rauschen dar. Rauschen wird mittels eines stetigen Luftstromes erzeugt, der durch eine Einengung in dem Stimmkanal, häufig in der Mundhöhle, hindurchläuft. Wenn der Luftstrom durch die Einengung hindurchläuft, wird er turbulent, und es wird ein Rauschklang erzeugt. Abhängig von der Art der erzeugten Phoneme ist die Einengung bei verschiedenen Orten angeordnet. Die Feinstruktur des Spektrums unterscheidet sich von einem stimmhaften Klang durch die Abwesenheit der grundsätzlich gleich beabstandeten Spitzen.
Exemplarische Sprachsignal-Verbesserungsschaltungen
4 zeigt eine exemplarische Ausführungsform eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung. Synthetische Information kann zu einem Schmalband-Sprachsignal hinzugefügt werden, um das reproduzierte Frequenzband zu erweitern, wodurch eine verbesserte, reproduzierte, wahrgenommene Sprachqualität bereitgestellt wird. Unter Bezugnahme auf 4 wird ein mittels eines Empfängers (beispielsweise eines Mobiltelefons) empfangenes Eingangs-Stimm- oder Sprachsignals 405 zunächst mittels eines Up-Samplers bzw. eines Abtastraten-Aufwärtswandlers 410 aufwärtsgesampelt, um die Abtastfrequenz des empfangenden Signals zu erhöhen. In einer bevorzugten Ausführungsform kann der Up-Sampler 410 das empfangene Signal um einen Faktor zwei (2) aufwärtssampeln, jedoch wird verstanden, dass andere Up-Sampling- bzw. Aufwärtssampling-Faktoren angewandt werden können.
Das aufwärtsgesampelte Signal wird mittels eines parametrischen Spektralanalyse-Moduls 420 analysiert, um die Struktur der Formanten des empfangenden Sprachsignals zu ermitteln. Die bestimmte, mittels der parametrischen Spektralanalyse-Einheit 420 durchgeführte Art der Analyse kann variieren. In einer Ausführungsform kann ein autoregressives (AR) Modell benutzt werden, um, wie nachfolgend beschrieben, Modellparameter abzuschätzen. Alternativ hierzu kann ein harmonisches Modell in der parametrischen Spektralanalyse-Einheit 420 verwendet werden, wie es beispielsweise in dem Artikel "Speech Enhancement Using State-based Estimation and Sinusoidal Modeling" von Deisher und Spanias beschrieben wird, wobei die Offenbarung hiervon hier durch Referenz eingebunden ist. In anderen Fällen gibt die parametrische Spektralanalyse-Einheit 420 Parameter aus (d.h., Werte, die in Zusammenhang mit dem hierin verwendeten, bestimmten Modell stehen), die erläuternd für das empfangende Sprachsignal sind, sowie ein Fehlersignal (e) 424, welches den in Zusammenhang mit der Beurteilung des durch die parametrische Spektralanalyse-Einheit 420 empfangenen Signals stehenden Vorhersagefehler darstellt.
Das Fehlersignal (e) 424 wird von der Abstandsentscheidungs-Einheit 430 verwendet, um den Abstand des empfangenden Sprachsignals abzuschätzen. Die Abstandsentscheidungs-Einheit 430 kann beispielsweise den Abstand basierend auf einer Distanz zwischen Übergangsvorgängen bzw. Transienten in dem Fehlersignal ermitteln. Diese Übergangsvorgänge bzw. Transienten sind das Ergebnis von Impulse, die von der Stimmritze bei der Erzeugung stimmhafter Klänge erzeugt werden. Das Abstandsentscheidungs-Modul 430 kann ebenso ermitteln, ob der Sprachinhalt des empfangenen Signals einen stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt, und es kann ein Signal erzeugen, das dieses anzeigt. Die von der Abstandsentscheidungs-Einheit 430 getroffene Entscheidung hinsichtlich der Charakteristik des empfangenen Signals, ob es ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, kann eine binäre Entscheidung oder eine Weich-Entscheidung sein, die eine relative Wahrscheinlichkeit für ein stimmhaftes Signal oder für ein nicht-stimmhaften Signals anzeigt.
Die Abstandsinformation und ein Signal, das angibt, ob das empfangene Signal ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, werden von der Abstandsentscheidungs- Einheit 430 zu einer Residuum-Erweiterungs- und Kopiereinheit 440 ausgegeben. Wie nachfolgend unter Bezugnahme auf 5 beschrieben, extrahiert die Residuum-Erweiterungs- und Kopiereinheit 440 Information von dem empfangenen Schmalband-Sprachsignal (beispielsweise in dem Bereich von 0 bis 4 kHz) und verwendet die extrahierte Information, um einen höheren Frequenzbereich (beispielsweise 4 kHz bis 8 kHz) zu besetzen. Die Ergebnisse werden dann zu einem synthetischen Filter 450 weitergeleitet, welcher den unteren Frequenzbereich basierend auf die von der parametrischen Spektralanalyse-Einheit 420 ausgegebenen Parameter synthetisiert und den höheren Frequenzbereich basierend auf der Ausgabe der Residuum-Erweiterungs- und Kopier-Einheit 440 synthetisiert. Der synthetische Filter 450 kann beispielsweise das Inverse des für das AR-Modell verwendeten Filters ein. Alternativ hierzu kann der synthetische Filter 450 auf einem sinusförmigen bzw. harmonischen Modell basieren.
Ein Abschnitt des interessanten Frequenzbereiches kann ferner verstärkt bzw. angehoben werden, indem die Ausgabe des synthetischen Filters 450 einem linearen, zeitvarianten (LTV) Filter 460 bereitgestellt wird. In einer exemplarischen Ausführungsform kann der LTV-Filter 460 ein unbegrenzter Impulsantwort-(IIR)Filter sein. Obwohl andere Arten von Filtern verwendet werden können, sind IIR-Filter mit ausgeprägten Polen besonders für das Modellieren des Sprachkanals geeignet. Der LTV-Filter 460 kann basierend auf einer Ermittlung im Hinblick darauf, wo der künstliche Formant (oder Formanten) innerhalb des synthetisierten Sprachsignals gesetzt werden sollte, angepasst werden. Diese Ermittlung wird mittels der Ermittlungseinheit 470 basierend auf dem Abstand des empfangenen Sprachsignals sowie auf die von der parametrischen Spektralanalyse-Einheit 420 ausgegebenen Parameter gemacht, und zwar basierend auf einer linearen oder nicht-linearen Kombination dieser Werte oder basierend auf Werte, die in einer Nachschlagtabelle gespeichert sind, und indexbasierend auf den abgeleiteten Sprachmodell-Parametern und ermittelten Abstand.
Die 5 zeigt eine exemplarische Ausführungsform der Residuum-Erweiterungs- und Kopiereinheit 440. Hier wird das Residuum-Fehlersignal (e) 424 von der parametrischen Spektralanalyse-Einheit 420 in ein Fast-Fourier-Transformations-(FFT)Modul 510 eingegeben. Die FFT-Einheit 510 transformiert das Fehlersignal in den Frequenzraum für die Operation durch die Kopiereinheit 530. Die Kopiereinheit 530 wählt unter der Steuerung des Spitzendetektors 520 Information von dem Residuum-Fehlersignal (e) 424 aus, welche verwendet werden kann, um zumindest einen Bereich eines Erregungssignals zu bestücken bzw. zu besetzen. In einer Ausführungsform kann der Spitzendetektor 520 die Spitzen oder die Harmonischen in dem Residuum-Fehlersignal (e) 424 des Schmalband-Sprachsignals identifizieren. Die Spitzen können in das höhere Frequenzband mittels des Kopiermoduls 530 kopiert werden. Alternativ hierzu kann der Spitzendetektor 520 eine Teilmenge der in dem Schmalband-Sprachsignal gefundenen Anzahl der Spitzen (beispielsweise die erste Spitze) identifizieren und die mittels der Abstandsentscheidungs-Einheit 430 identifizierte Abstandsperiode verwenden, um die Lage der zusätzlichen, mittels der Kopiereinheit 530 zu kopierenden Spitzen zu berechnen. Das Signal, welches anzeigt, ob das abgetastete Schmalband-Signal ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, wird ebenso dem Spitzendetektor 520 bereitgestellt, da die Spitzenerfassung und das Kopieren durch einen künstlichen, nicht-stimmhaften Sprachinhalt des oberen Bandes ersetzt werden, wenn das Sprachsegment einen nicht-stimmhaften Klang darstellt.
Nicht-stimmhafter Sprachinhalt wird mittels der Sprachinhalts-Einheit 540 erzeugt. Künstlicher, nicht-stimmhafter Sprachinhalt des oberen Bandes kann auf verschiedene Arten erzeugt werden. Beispielsweise kann eine lineare Regression abhängig von den Sprachparametern und dem Abstand durchgeführt werden, um einen künstlichen, nicht-stimmhaften Sprachinhalt des oberen Bandes zu erzielen. Als Alternative kann ein zugehöriges Speichermodul eine Nachschlagtabelle einschliessen, die künstlichen, nicht-stimmhaften Sprachinhalt des oberen Bandes bereitstellt, der Eingabewerten entspricht, die zu den von dem Modell und dem ermittelten Abstand abgeleiteten Sprachparametern zugehört. Die kopierte Spitzeninformation von dem Residuum-Fehlersignal und der künstliche, nicht-stimmhafte Sprachinhalt des oberen Bandes werden in ein Kombinationsmodul 560 eingegeben. Die Kombinationseinheit 560 gestattet es, dass die Ausgaben der Kopiereinheit 530 und der künstlichen, nicht-stimmhaften Sprachinhalts-Einheit des oberen Bandes 540 gewichtet und zusammensummiert werden, bevor sie zurück in den Zeitraum mittels der FFT-Einheit 570 konvertiert werden. Die gewichteten Werte können dann mittels einer Verstärkungssteuerungs-Einheit 550 angepasst werden. Das Verstärkungssteuerungs-Modul 550 ermittelt die Flachheit des Eingabespektrums und verwendet diese Information und die Abstandsinformation von dem Abstandsentscheidungs-Modul 430, um die zu der Kombinationseinheit 120 zugehörige Verstärkungen zu regulieren. Die Verstärkungssteuerungs-Einheit 550 als Teil des Gewichtungs-Algorithmus empfängt ebenso das Signal, welches anzeigt, ob das Sprachsegment einen stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt. Wie obig beschrieben kann dieses Signal binäre oder "weiche" Information sein, die eine Wahrscheinlichkeit gibt, dass das zu verarbeitende empfangende Signalsegment entweder ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist.
Die 6 zeigt eine andere exemplarische Ausführungsform eines Systems und eines Verfahrens zum Zufügen eines synthetischen Sprach-Formanten zu einem oberen Frequenzbereich eines empfangenen Signals. Die in 6 dargestellte Ausführungsform ist ähnlich der in 4 dargestellten Ausführungsform, mit der Ausnahme, dass das Residuum-Erweiterungs- und Kopiermodul 640 eine Ausgabe bereitstellt, die lediglich auf der von dem Schmalband-Bereich des empfangenen Signals kopierten Information basiert. Eine exemplarische Ausführungsform dieses Residuum-Erweiterungs- und Kopiermoduls 640 wird in 7 dargestellt und nachfolgend beschrieben. Wenn die Abstandsentscheidungs-Einheit 630 ermittelt, dass ein bestimmtes Segment von Interesse einen nicht-stimmhaften Klang darstellt, dann steuert sie den Schalter 635, um das Residuum-Fehlersignal (e) zur Eingabe in den synthetischen Filter 650 direkt auszuwählen. Wenn im Gegensatz hierzu das Abstandsentscheidungs-Modul 630 ermittelt, dass ein stimmhaftes Signal vorhanden ist, dann wird der Schalter 635 gesteuert, um mit der Ausgabe der Residuum-Erweiterungs- und Kopiereinheit 640 derart verbunden zu sein, dass der Inhalt der oberen Frequenz dadurch ermittelt wird. Ein Boost- bzw. Verstärkungsfilter 660 ist an der Ausgabe des synthetischen Filters 650 wirksam, um die Verstärkung in einem bestimmten Abschnitt der gewünschten Abtastfrequenz zu steigern. Beispielsweise kann der Boost-Filter 660 ausgelegt sein, um die Verstärkung des Bandes von 2 kHz bis 8 kHz zu steigern. Durch Simulation der Reproduktion von verschiedenen synthetischen Sprach-Formanten können, wie hier beschrieben, die Filterpol-Paare, beispielsweise in der Umgebung eines Radius von 0,85 und einem Winkel 0,58 π, optimiert werden.
Die 7 stellt ein Beispiel einer Residuum-Erweiterungs- und Kopiereinheit 640 dar, die in der exemplarischen Ausführungsform von 6 verwendet wird. Hier wird das Residuum-Fehlersignal (e) erneut in den Frequenzraum mittels der FFT-Einheit 710 transformiert. Der Spitzendetektor 720 identifiziert Spitzen, die zu der Frequenzraumversion des Residuum-Fehlersignal (e) stehen, welche dann mittels des Kopiermoduls 730 kopiert und mittels des FFT-Moduls 740 in den Zeitraum transformiert werden. Wie in der exemplarischen Ausführungsform von 5 kann der Spitzendetektor 620 unabhängig jede der Spitzen oder eine Teilmenge der Spitzen erkennen, und er kann die verbleibenden Spitzen basierend auf den ermittelten Abstand berechnen. Ein Fachmann wird einsehen, dass diese bestimmte Implementation des Residuum-Erweiterungs- und Kopiermoduls im Vergleich mit der Implementation in 5 etwas vereinfacht ist, da es nicht versucht, nicht-stimmhafte Klänge in den Sprachinhalt des oberen Bandes zu synthetisieren.
8 ist eine schematische Darstellung einer anderen exemplarischen Ausführungsform eines Systems und eines Verfahrens von Hinzufügen eines synthetischen Sprach-Formanten zu einem oberen Frequenzbereich eines empfangenden Signals in Übereinstimmung mit der vorliegenden Erfindung. Ein Schmalband-Sprachsignal, welches mit χ(n) bezeichnet wird, wird an einen Abtastraten-Aufwärtswandler bzw. Up-Sampler 810 gerichtet, um ein neues Signal s(n) mit einer erhöhten Abtastfrequenz von beispielsweise 16 kHz zu erzielen. Es sei darauf hingewiesen, dass n die Abtastratenzahl ist. Das aufwärtsgesampelte Signal s(n) wird an ein Segmentationsmodul 820 gerichtet, welches den Satz der Abtastungen in einem Vektor (oder Zwischenspeicher) sammelt, die das Signal s(n) enthalten.
Die Struktur der Formanten kann unter Verwendung von beispielsweise einem AR-Modul abgeschätzt werden. Die Modellparameter a_k können unter Verwendung von beispielsweise einem linearen Vorhersage-Algorythmus abgeschätzt werden. Ein lineares Vorhersagemodul 840 empfängt das aufwärtsgesampelte Signal s(n) und den durch das Segmentationsmodul 820 erzeugten Abtast- bzw. Sample-Vektor als Eingang, und berechnet das Vorhersagepolynom a_k, wie es detaillierter nachfolgend beschrieben wird. Ein lineares Vorhersage-Codier(LPC)-Modul 830 verwendet das inverse Polynom, um das Signal s(n) vorherzusagen, was in einem Residuum-Signal (e), dem Vorhersagefehler, resultiert. Das Ursprungssignal wird mittels der Erregung des AR-Modells mit dem Residuum-Signal e(n) rückerzeugt.
Das Signal wird ebenso in den oberen Teil des Frequenzbandes erweitert. Um das erweiterte Signal zu erregen, wird das Residuum-Signal e(n) mittels des Residuum-Modifizierungs-Moduls 860 erweitert und an ein Synthesizermodul 870 gerichtet. Zusätzlich schätzt ein neues Formanten-Modul 850 die Positionen der Formanten in dem höheren Frequenzband ab und leitet diese Information an das Synthesizermodul 870 weiter. Das Synthesizermodul 870 verwendet die LPC-Parameter; das erweiterte Residuum-Signal und die erweiterte Modellinformation, die mittels des neuen Formanten-Moduls 850 zugeführt werden, um ein Breitband-Sprachsignal zu erzeugen, welches von dem System ausgegeben wird.
9 zeigt ein System zum Erweitern des Residuum-Signals in dem oberen Frequenzbereich, welches dem Residuum-Modifizierungs-Modul 860 entsprechen kann, das in 8 dargestellt wird. Das Residuum-Signal e(n) wird an ein Abstandsabschätzungs-Modul 910 gerichtet, welches den Abstand basierend auf beispielsweise einer Entfernung zwischen den Transienten bzw. Übergangsvorgängen in dem Fehlersignal ermittelt, und ein Signal 912 erzeugt, dass dieses darstellt. Das Abstandsabschätzungs-Modul 910 ermittelt ebenso, ob der Sprachinhalt des empfangenden Signals ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, und erzeugt ein Signal 914 das dieses anzeigt. Diese mittels des Abstandsabschätzungs-Moduls 910 hinsichtlich der Eigenschaft des empfangenden Signals, ob es ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, getroffene Entscheidung kann eine binäre Entscheidung oder eine weiche Entscheidung sein, die eine relative Wahrscheinlichkeit angibt, dass das Signal einen stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt. Das Residuum-Signal e(n) wird ebenso an ein erstes FFT-Modul 920 gerichtet, um in den Frequenzraum transformiert zu werden, und an einen Schalter 950. Die Ausgabe des ersten FFT-Moduls 920 wird an ein Modifizierungs-Modul 930 gerichtet, welches das Signal in ein Breitbandformat modifiziert. Die Ausgabe des Modifizierungs-Moduls 930 wird an ein inverses FFT(IFFT)-Modul 940 gerichtet, wobei die Ausgabe hiervon auf den Schalter 950 gerichtet ist.
Wenn das Abstandsabschätzungs-Modul 910 ermittelt, dass ein bestimmtes Segment von Interesse einen nicht-stimmhaften Klang darstellt, dann steuert es den Schalter 950, um das Residuum-Fehlersignal (e) direkt zur Eingabe in den Synthesizer 870 auszuwählen. Wenn im Gegensatz hierzu das Abstandsabschätzungs-Modul 910 ermittelt, dass das Signal einen stimmhaften Klang darstellt, dann wird der Schalter 950 gesteuert, um mit der Ausgabe des Modifizierungs-Moduls 930 und dem IFFT-Modul 940 verbunden zu sein, so dass dadurch der obere Frequenzinhalt ermittelt wird. Die Ausgabe von dem Schalter 950 kann beispielsweise an den Synthesizer 870 zur weiteren Verarbeitung gerichtet werden.
Die in den 8 und 9 beschriebenen Systeme können verwendet werden, um zwei Verfahren des Besetzens des oberen Frequenzbandes zu implementieren. In einem ersten Verfahren erzeugt der Modifizierer 930 harmonische Spitzen in dem oberen Frequenzband, indem Teile des Residuum-Signals des unteren Bandes in das höhere Band kopiert werden. Die harmonischen Spitzen können durch Auffinden der ersten harmonischen Spitze in dem Spektrum, die über den Mittelwert des Spektrums reicht, und durch Auffinden der letzten Spitzen innerhalb der Frequenzkästen, die dem Telefonfrequenzband entsprechen, abgestimmt werden. Der Abschnitt zwischen der ersten und der letzten Spitzen kann zu der Position der letzten Spitzen kopiert werden. Dieses resultiert in gleichförmig beabstandeten Spitzen in dem oberen Frequenzband. Obwohl mit diesem Verfahren nicht erreicht wird, dass die Spitzen bis zu dem Ende des Spektrums (8 kHz) reichen, kann die Technik wiederholt werden, bis das Ende des Spektrums erreicht ist.
Das Ergebnis von diesem Prozess ist in 13 dargestellt, welches im wesentlichen gleichförmig beabstandete Spitzen in dem oberen Frequenzband wiedergibt. Da dort lediglich ein synthetischer Formant in der Umgebung von 4,6 kHz hinzugeführt wurde, gibt es kein Formant-Modell, welches mit Harmonischen über etwa 6 kHz ausgeführt werden kann. Dieses Verfahren erzeugt keinerlei Artefakte in der endgültigen synthetischen Sprache. Abhängig von dem Betrag des Rauschens, das in der Berechnung von dem AR-Modell hinzugeführt wurde, muss der erweiterte Teil des Spektrums mit einer Funktion gewichtet werden, die mit ansteigender Frequenz abnimmt.
In dem zweiten Verfahren verwendet das Modifizierungs-Modul 930 die Abstandsperiode, um die neuen harmonischen Spitzen in der korrekten Position anzuordnen. Unter Verwendung der abgeschätzten Abstandsperiode ist es möglich, die Position der Harmonischen in dem oberen Frequenzband zu berechnen, da angenommen wird, dass die Harmonischen Vielfache der fundamentalen Frequenz sind. Dieses Verfahren macht es möglich, die Spitzen, die zu den Harmonischen höherer Ordnung in dem oberen Frequenzband gehören, zu erzeugen.
In dem zellularen Mobilfunksystem (GSM) werden die Übertragungen zwischen dem Mobiltelefon und der Basisstation in Abtastpaketen bzw. -blöcken durchgeführt. In GSM enthalten die Blöcke bzw. Pakete 160 Abtastungen, die 20 ms Sprache entsprechen. Die Blockgröße in GSM geht davon aus, dass die Sprache ein quasi-stationäres Signal ist. Die vorliegende Erfindung kann angepasst werden, um der GSM-Abtaststruktur zu entsprechen, und sie verwendet von daher die gleiche Blockgröße. Ein Block bzw. Paket von Abtastungen wird ein Rahmen genannt. Nach der Aufwärtsabtastung wird die Rahmenlänge 320 Abtastungen sein und mit L bezeichnet.
Das AR-Modell der Spracherzeugung
Ein Weg zum Modellieren von Sprachsignalen liegt darin, anzunehmen, dass die Signale von einer Quelle von Weißem Rauschen, welches einen Filter passiert hat, erzeugt wurden. Wenn der Filter nur Pole enthält, dann wird der Prozess ein autoregressiver Prozess genannt. Dieser Prozess kann mittels der nachfolgenden Differentialgleichung beschrieben werden, wenn eine kurze Zeitstationarität angenommen wird:
Wobei w_i(n) das Weiße Rauschen mit einheitlicher Varianz ist, s_i(n) die Ausgabe des Prozesses ist und p die Modellordnung ist. s_i(n-k) sind die alten Ausgabewerte des Prozesses und a_ik ist der entsprechende Filterkoeffizient. Der Index i wird verwendet, um anzuzeigen, dass der Algorhytmus auf Verarbeitungszeit-variierenden Blöcken von Daten basiert, wobei i die Nummer des Blockes ist. Das Modell geht davon aus, dass das Signal während des gegenwärtigen Blockes i stationär ist. Die entsprechende System-Funktion in dem Z-Raum kann wie folgt ausgedrückt werden:
Wobei H_i(z) die Übertragungsfunktion des Systems und A_i(z) der Prädiktor genannt wird. Das System besteht nur aus Polen und modelliert nicht vollständig die Sprache, jedoch wurde gezeigt, dass, wenn das Stimmgerät als eine verlustfreie Verknüpfung von Röhren angenommen wird, die Übertragungsfunktion mit dem AR-Modell gleichkommt. Das inverse der Systemfunktion für das AR-Modell, eine Null-Funktion ist:
Diese wird Vorhersagefilter genannt. Dies ist die einstufige Vorhersage von s_i(n+1) von den letzten p+1-Werten von [s_i(n), ..., s_i(n-p+1)]. Das vorhergesagte, s(n) genannte Signal, welches von dem Signal si(n) subtrahiert wird, ergibt den Vorhersagefehler e₁(n), was manchmal Residuum genannt wird. Obwohl diese Annäherung nicht vollständig ist, liefert sie nützliche Information über das Sprachsignal. In dem Modell wurde auf die nasale Aushöhlung und die Nasenlöcher verzichtet. Wenn die Ordnung des AR-Modells hinreichend hoch gewählt ist, dann wird das AR-Modell eine nützliche Annäherung des Sprachsignals liefern. Schmalband-Sprachsignale können mit einer Ordnung von acht (8) modelliert werden.
Das AR-Modell kann verwendet werden, um das Sprachsignal auf einer kurzfristigen Basis zu modellieren, d.h. typische , Segmente von 10 bis 30 ms Dauer, wo das Sprachsignal als stationär angenommen wird. Das AR-Modell schätzt einen Ganz- Pol-Filter ab, der eine Impulsantwort š_i(n) aufweist, die das Sprachsignal s_i(n) annähert. Die Impulsantwort š_i(n) ist die umgekehrte z-Transformation der Systemfunktion H(z). Der Fehler e(n) zwischen dem Modell und dem Sprachsignal kann dann wie folgt definiert werden:
Es gibt verschiedene Verfahren zum Auffinden der Koeffizienten a_ik des AR-Modells. Das Autokorrelationsverfahren liefert die Koeffizienten, die
minimalisieren, wobei L die Länge der Daten ist. Die Summe beginnt bei Null und endet bei L+p-1. Dieses geht davon aus, dass die Daten außerhalb der L-verfügbaren Daten null sind und dass sie durch Multiplikation von s_i(n) mit einem rechtwinkligen Fenster ausgebildet werden. Das Minimalisieren der Fehlerfunktion resultiert in dem Lösen eines Satzes von linearen Gleichungen:
wobei r_si(k) die Autokorrelation der gefensterten Daten (n) darstellten und a_ik die Koeffizienten des AR-Modells sind.
Die Gleichung 6 kann auf verschiedene Arten gelöst werden, ein Verfahren ist die Levinson-Durbin-Rekursion, die auf der Tatsache basiert, dass die Koeffizientenmatrix eine Toeplitz-Matrix ist. Eine Matrix ist eine Toeplitz-Matrix, wenn die Einträge in jeder Diagonalen die gleichen Werte haben. Dieses Verfahren ist schnell und liefert sowohl die Filterkoeffizienten a_ik als auch die Reflektionskoeffizienten. Die Reflektionskoeffizienten werden verwendet, wenn das AR-Modell mit einer Gitterstruktur realisiert wird. Wenn ein Filter in der Festpunkt-Umgebung verwendet wird, was häufig der Fall bei Mobiltelefonen ist, muss die Unempfindlichkeit der Quantisierung der Filterkoeffizienten betrachtet werden. Die Gitterstruktur ist gegenüber diesen Effekten unempfindlich und ist von daher geeigneter, als die Verwendung der direkten Form. Ein effizienteres Verfahren zum Auffinden der Reflexionskoeffizienten ist die Schur-Rekursion, die nur die Reflexionskoeffizienten liefert.
Abstandsermittlung
Bevor die Abstandsperiode abgeschätzt werden kann, muss die Natur des Sprachsegmentes ermittelt werden. Das nachfolgend beschriebene Vorhersagegerät bzw. Prediktor resultiert in einem Residuum-Signal. Die Analyse des Residuum-Sprachsignals kann aussagen, ob das Sprachsegment einen stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt. Wenn das Sprachsegment einen nicht-stimmhaften Klang darstellt, dann sollte das Residuum-Signal gleich sein mit Rauschen. Wenn sich im Gegensatz hierzu das Residuum-Signal aus einer Reihe von Impulsen zusammensetzt, dann stellt es sehr wahrscheinlich einen stimmhaften Klang dar. Diese Klassifikation kann auf verschiedene Art und Weisen durchgeführt werden, und da die Abstandsperiode ebenso ermittelt werden muss, wird ein Verfahren bevorzugt, welches beides zur gleichen Zeit abschätzten kann. Ein solches Verfahren basiert auf der normalisierten Kurzzeit-Autokorrelationsfunktion des Residuum-Signals, dass wie folgt definiert wird:
wobei n die Abtastnummer in dem Rahmen mit dem Index i und l die zeitliche Verzögerung ist. Das Sprachsignal wird als stimmhafter Klang klassifiziert, wenn der Maximumwert von R_ie(l) innerhalb des Abstandsbereiches und überhalb eines Schwellenwertes liegt. Der Abstandsbereich der Sprache ist 50 bis 800 Hz was 1 in dem Bereich von 20 bis 320 Abtastungen entspricht. Die 10 zeigt eine Kurzzeit-Autokorrelationsfunktion eines stimmhaften Rahmen. Eine Spitze ist eindeutig in der Umgebung der zeitlichen Verzögerung 72 sichtbar. Spitzen sind ebenso bei Vielfachen der fundamentalen Frequenz erkennbar.
Ein anderer, zur Analyse des Residuum-Signals geeigneter Algorythmus ist die Durchschnittswert-Differenzfunktion (AMDF). Dieses Verfahren weist eine relativ geringe rechnerische Komplexität auf. Dieses Verfahren verwendet ebenso das Residuum-Signal. Die Definition von der AMDF ist wie folgt:
Diese Funktion weist ein lokales Minimum bei der Zeitdifferenz auf, die der Abstandsperiode entspricht. Der Rahmen wird als stimmhafter Klang klassifiziert, wenn der Wert des lokalen Minimums unterhalb eines variablen Schwellenwertes liegt. Dieses Verfahren benötigt zumindest eine Datenlänge von 2 Abstandsperioden, um die Abstandsperiode abzuschätzen. Die 11 stellt eine graphische Auftragung der AMDF-Funktion für einen stimmhaften Rahmen dar, wobei verschiedene lokale Minima gesehen werden können. Die Abstandsperiode beträgt etwa 72 Abtastungen, das bedeutet, dass die fundamentale Frequenz 222 Hz ist, wenn die Abtastungsfrequenz 16 kHz beträgt.
Hinzufügen eines synthetischen Formanten
Es wurden verschiedene Verfahren entwickelt, um synthetische Resonanzfrequenzen hinzuzufügen. Jedes dieser Verfahren modelliert den synthetischen Formanten mit einem Filter.
Das AR-Modell hat eine Übertragungsfunktion von der Gestalt
,was umformuliert werden kann zu:
wobei a¹ _ik die beiden neuen AR-Modellkoeffizienten darstellt. Wie in 12 gezeigt, kann ein Filter in zwei Filter eingeteilt sein. H_il(z) stellt das AR-Modell dar, welches von dem gegenwärtigen Sprachsegment berechnet wurde, und H_i2(z) stellt den neuen synthetischen Formantenfilter dar.
In einem Verfahren werden die synthetischen Formanten mittels eines komplexkonjugierten Polpaares ausgedrückt. Die Übertragungsfunktion H_i2(z) kann dann über die folgende Gleichung definiert werden:
wobei v der Radius und ω₅ der Winkel der Pole ist. Der Parameter b_o kann verwendet werden, um den Basispegel der Verstärkung des Filters festzusetzen. Der Basispegel der Verstärkung kann auf 1 gesetzt werden, um eine Beeinflussung des Signals bei geringen Frequenzen zu vermeiden. Dieses kann durch das Setzen von b_o gleich der Summe der Koeffizienten in den Nenner von H_i2(z) erzielt werden. Ein synthetischer Formant kann bei einem Radius von 0,85 und einem Winkel von 0,58 n angeordnet werden. Der Parameter b_o wird dann 2,1453 sein. Wenn dieser synthetische Formant zu dem AR-Modell, das an dem schmalbandigen Sprachsignal abgeschätzt wurde, hinzugefügt wird, dann wird die daraus resultierende Übertragungsfunktion keine herausragende synthetische Formantenspitze aufweisen. Statt dessen wird die Übertragungsfunktion die Frequenzen in dem Bereich 2,0 bis 3,4 kHz anheben. Der Grund dafür, dass der synthetische Formant nicht herausragend ist, liegt an der großen Betragspegeldifferenz in dem AR-Modell von typischerweise 60 bis 80 dB. Die Steigerung des modifizierten Signals, so dass die Formanten einen richtigen Betragspegel erreichen, vermindert die Bandbreite des Formanten und verstärkt die höheren Frequenzen in dem unteren Band um einige dB. Dieses ist in 13 dargestellt, in welcher die gestrichelte Linie 1310 die grobe spektrale Struktur vor dem Hinzufügen eines synthetischen Formanten darstellt. Die durchgezogene Linie 1320 stellt die spektrale Struktur nach dem Hinzufügen eines synthetischen Formanten dar, was ein geringe Spitze bei etwa 4,6 kHz erzeugt.
Von daher macht ein Formaten-Filter, der ein komplex-konjugiertes Polpaar verwendet, es schwierig, den Formanten-Filter mit einem Verhalten wie eines gewöhnlichen Formanten zu machen. Wenn Hochpass-gefiltertes weißes Rauschen zu dem Sprachsignal vor der Berechnung der AR-Modellparameter hinzugefügt wird, dann wird das AR-Modell das Rauschen und das Sprachsignal modellieren. Wenn die Ordnung des AR-Modells unverändert gehalten wird (beispielsweise bei der Ordnung 8), dann können einige der Formanten nur schwach abgeschätzt werden. Wenn die Ordnung des AR-Modells gesteigert wird, so dass es das Rauschen in dem oberen Band modellieren kann, ohne die Modellierung des Sprachsignals des unteren Bandes zu beeinflussen, dann wird ein besseres AR-Modell erreicht. Dieses wird dazu führen, dass der synthetische Formant mehr wie ein gewöhnlicher Formant erscheinen wird. Dieses ist in 14 dargestellt, wo die gestrichelte Linie 1410 die grobe spektrale Struktur vor dem Hinzufügen eines synthetischen Formanten zeigt. Die durchgezogene Linie 1420 stellt die spektrale Struktur nach dem Hinzufügen eines synthetischen Formanten dar, welcher eine Spitzen bei etwa 4,6 kHz erzeugt.
Die 15 zeigt den Unterschied zwischen dem AR-Modell, welches mit und ohne dem hinzugefügten Rauschen zu dem Sprachsignal berechnet ist. Unter Bezugnahme auf 15 stellt die durchgezogene Linie 1510 ein AR-Modell des Schmalband-Sprachsignals dar, das mit der vierzehnten Ordnung ermittelt wird. Die gestrichelte Linie 1520 stellt ein AR-Modell des Schmalband-Sprachsignals dar, das mit der vierzehnten Ordnung ermittelt wird und welches mit Hochpassgefiltertem Rauschen versorgt wird. Die punktierte Linie 1530 stellt ein AR-Modell des Schmalband-Sprachsignals dar, welches mit der achten Ordnung ermittelt wird.
Andere Wege, um das Problem zu lösen, liegen darin, einen komplexeren Formantenfilter zu verwenden. Der Filter kann sich auf verschiedenen komplex-konjigierten Polpaaren und Nullen zusammensetzen. Bei Verwendung eines komplizierteren synthetischen Formantenfilters wächst die Schwierigkeit der Steuerung des Radius der Pole in dem Filter und die Schwierigkeit der Erfüllung anderer Erfordernisse an dem Filter an, wie etwa das Erzielen einer einheitlichen Verstärkung bei geringen Frequenzen.
Um den Radius der Pole des synthetischen Formantenfilters zu steuern, sollte der Filter einfach aufgebaut sein. Eine lineare Abhängigkeit zwischen dem bestehenden Formanten geringer Frequenz und dem Radius des neuen synthetischen Formanten kann gemäß der folgenden Gleichung angenommen werden:
wobei ν₁, ν₂, ν₃ und ν₄ die Radien der Formanten in dem AR-Modell von dem Schmalband-Sprachsignal sind. Die Parameter a_m, m=1, 2, 3, 4, sind die linearen Koeffizienten. Der Parameter ν_ωs ist der Radius des fünften synthetischen Formanten des AR-Modells des Breitband-Sprachsignals.
Wenn verschiedene AR-Modelle verwendet werden, dann kann die Gleichung 12 wie folgt ausgedrückt werden:
wobei ν der Radius des Formanten ist und wobei der erste Index die AR-Modellnummer bezeichnet, der zweite Index die Formantennummer bezeichnet und der dritte Index ω in dem Vektor ganz rechts den von dem Breitband-Sprachsignal geschätzten Formanten bezeichnet, und k die Anzahl der AR-Modelle ist. Dieses System von Gleichungen ist überbestimmt und die Least-Square-Lösung kann mit Hilfe der Pseudoinversen berechnet werden.
Die erzielte Lösung wurde dann verwendet, um den Radius des neuen synthetischen Formant en als
zu berechnen, wobei ν_i5 der neue synthetische Formantenradius und der α-Paramter die Lösung für das Gleichungssystem 13 sind.
Die vorliegende Erfindung wird oben unter Hinzunahme auf bestimmte Ausführungsformen beschrieben, und es wird für einen Fachmann leicht einsehbar sein, dass es möglich ist, die Erfindung in anderen Gestalten als die obig beschriebenen, umzusetzen. Die obig beschriebenen, bestimmten Ausführungsformen sind nur anschaulich und sollen nicht in irgendeiner Weise als einschränkend betrachtet werden. Der Umfang der Erfindung ist durch die nachfolgenden Patentansprüche gegeben, und sämtliche Variationen und Ähnlichkeiten, die innerhalb des Umfanges der Patentansprüche fallen, werden als damit umfasst angesehen.

Claims

Verfahren zum Verarbeiten eines Schmalband-Sprachsignals durch Hinzufügen von synthetischem Inhalt eines oberen Bandes, um das reproduzierte Frequenzband zu erweitern, wobei das Schmalband-Sprachsignal mittels eines Abtastenraten-Aufwärtswandlers aufwärts gesampelt wird, das Verfahren weist die folgenden Verfahrensschritte auf: Durchführen einer Spektralanalyse, um eine Formanten-Struktur des aufwärtsgesampelten Schmalband-Sprachsignals zu analysieren, und Erzeugen eines Fehlersignals und Parameter, die das aufwärtsgesampelte Schmalband-Sprachsignal beschreiben; Ermitteln, basierend auf dem Fehlersignal, des Abstandes der Klangsegmente, die durch das aufwärtsgesampelte Schmalband-Sprachsignal dargestellt werden, und ob das Klangsegment einen stimmhaften oder einen nicht-stimmhaften Klang darstellt; Verarbeiten von Informationen, die von dem aufwärtsgesampelten Schmalband-Sprachsignal über die Spektralanalyse und die Abstandsermittlung abgeleitet wird, und dadurch Erzeugen des synthetischen Signalinhalts des oberen Bandes; Reproduzieren eines niedrigeren Bandes basierend auf den erzeugten beschreibenden Parametern; und Synthetisieren des unteren Bandes mit dem synthetischen Inhalt des oberen Bandes, um ein Breitband-Sprachsignal zu erzeugen, welches das Schmalband-Sprachsignal darstellt.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass das aufwärtsgesampelte Schmalband-Sprachsignal Informationsinhalte in dem Bereich von etwa 0 bis 4 kHz bereitstellt und dass der synthetische Inhalt des höheren Bandes in dem Bereich von etwa 4 bis 8 kHz liegt.
Verfahren gemäß Anspruch 1, wobei der Verfahrensschritt des Verarbeitens von Informationen, die von dem aufwärtsgesampelten Schmalband-Sprachsignal abgeleitet wird, durch die folgenden Schritte gekennzeichnet ist: Identifizieren von Spitzen, die in Zusammenhang mit dem Schmalband-Sprachsignal stehen; und Kopieren von Informationen von dem aufwärtsgesampelten Schmalband-Sprachsignal in ein oberes Frequenzband basierend auf wenigstens den ermittelten Abstand oder dem identifizierten Spitzen, um den synthetischen Inhalt des oberen Bandes bereitzustellen.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass das die Spektralanalyse einen AR-Prediktor bzw. ein AR-Vorhersagegerät verwendet.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Spektralanalyse ein sinusförmiges bzw. harmonisches Modell verwendet.
Verfahren gemäß Anspruch 1, gekennzeichnet durch den zusätzlichen Schritt des selektiven Verstärkens eines bestimmten Frequenzbereiches des Breitband-Signals.
Verfahren gemäß Anspruch 1, gekennzeichnet durch den zusätzlichen Schritt des Konvertierens des Breitband-Signals in ein analoges Format.
Verfahren gemäß Anspruch 7, gekennzeichnet durch den zusätzlichen Schritt des Verstärkens des Breitband-Signals.
System zum Verarbeiten eines Schmalband-Sprachsignals durch Hinzufügen von synthetischem Inhalt eines höheren Bandes, um das reproduzierte Frequenzband zu erweitern, wobei das Schmalband-Sprachsignal durch einen Abtastraten-Aufwärtswandler (410) aufwärtsgesampelt ist, das System weist folgendes auf: ein parametrisches Spektralanalyse-Modul (420), welches eine Formanten-Struktur des aufwärtsgesampelten Schmalband-Sprachsignals analysiert und ein Fehlersignal (424) und Parameter (422) erzeugt, die das aufwärtsgesampelte Schmalband-Sprachsignal beschreiben; ein Abstandsentscheidungs-Modul (430) welches, basierend auf dem Fehlersignal (424), einen Abstand eines mittels des aufwärtsgesampelten Schmalband-Sprachsignals dargestellten Klangsegmentes, und ob das Klangsegment einen stimmhaften oder einen nicht-stimmhaften Klang darstellt, ermittelt; ein Residuum-Erweiterungs- und -Kopiermodul (440), welches Informationen verarbeitet, die über das parametrische Spektralanalyse-Modul (420) und das Abstandsentscheidungs-Modul (430) von dem aufwärtsgesampelten Schmalband-Sprachsignal abgeleitet wird, und welches den synthetischen Signalinhalt des oberen Bandes erzeugt; und einen synthetischen Filter (450), welcher ein niedrigeres Band reproduziert, basierend auf den mittels des parametrischen Spektralanalyse-Moduls (420) erzeugten, beschreibenden Parametern (422), und welcher das niedrigere Band mit dem synthetischen oberen Bandinhalt synthetisiert, um ein Breitband-Sprachsignal zu erzeugen, dass das Schmalband-Sprachsignal darstellt.
System gemäß Anspruch 9, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) folgendes aufweist: ein Fast-Fourier-Transformations-Modul (510) zum Konvertieren des Fehlersignals (424) von dem parametrischen Spektralanalyse-Modul (420) in den Frequenzraum; einen Spitzendetektor (520) zum Identifizieren harmonischer Frequenzen des Fehlersignals (424); und ein Kopiermodul (530) zum Kopieren der mittels des Spitzendetektors identifizierten Spitzen in ein oberes Band.
System gemäß Anspruch 10, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) ferner ein Modul zum Erzeugen künstlichen, nicht-stimmhaften Sprachinhalts (540) aufweist.
System gemäß Anspruch 11, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) ferner einen Kombinierer (560) aufweist, zum Kombinieren eines Ausgabesignals von dem Kopiermodul (530) und einer Ausgabe von dem Modul zum Erzeugen künstlichen, nichtstimmhaften Sprachinhalts (540).
System gemäß Anspruch 12, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) ferner ein Verstärkungssteuerungs-Modul (550) aufweist, zum Gewichten der Eingabesignale in den Kombinierer (560).
System gemäß Anspruch 12, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) ferner ein zweites Fast-Fourier-Transformations-Modul (570) aufweist zum Konvertieren des kombinierten Ausgabesignals von dem Kombinierer (560) von dem Frequenzraum in den Zeitraum.
System zum Verarbeiten eines Schmalband-Sprachsignals durch Hinzufügen von synthetischem Inhalt eines oberen Bandes, um das reproduzierte Frequenzband zu erweitern, folgendes aufweisend: einen Abtastraten-Aufwärtswandler (610), der das Schmalband-Sprachsignal empfängt und die Abtastfrequenz erhöht, um eine Ausgabesignal zu erzeugen, welches ein erweitertes Frequenzspektrum aufweist; ein parametrisches Spektralanalyse-Modul (620), welches das Ausgabesignal von dem Abtastraten-Aufwärtswandler (610) empfängt und das Ausgabesignal analysiert, um ein Residuum-Fehlersignal und Parameter zu erzeugen, die in Zusammenhang mit einem Sprach-Modell stehen; ein Abstandsentscheidungs-Modul (630), welches das Residuum-Fehlersignal von dem parametrischen Spektralanalyse-Modul (620) empfängt und welches ein Abstandssignal erzeugt, dass den Abstand des Sprachsignals darstellt, und welches ein Indikatorsignal erzeugt, welches anzeigt, ob das Sprachsignal stimmhafte Sprache oder nicht-stimmhafte Sprache darstellt; ein Residuum-Erweiterungs- und Kopiermodul (640), welches das Residuum-Fehlersignal und das Abstandssignal empfängt und verarbeitet, um eine synthetische Signalkomponente des oberen Bandes zu erzeugen.
System gemäß Anspruch 15, dadurch gekennzeichnet, dass es ferner folgendes aufweist: einen synthetischen Filter (650), welcher die Parameter von dem parametrischen Spektralanalyse-Modul (620) und von dem Residuum-Fehlersignal abgeleitete Information empfängt, und welcher ein Breitband-Signal erzeugt, dass dem Schmalband-Sprachsignal entspricht.
System gemäß Anspruch 16, wobei das Indikatorsignal von dem Abstandsentscheidungs-Modul einen Schalter (635) steuert, der mit einer Eingabe des synthetischen Filters (650) verbunden ist, so dass, wenn das Indikatorsignal anzeigt, dass das Sprachsignal stimmhafte Sprache darstellt, die Eingabe des synthetischen Filters mit der Ausgabe des Residuum-Erweiterungs- und Kopiermoduls (640) verbunden wird, und wenn das Indikatorsignal anzeigt, dass das Sprachsignal nicht-stimmhafte Sprache darstellt, die Eingabe zu dem synthetischen Filter mit der Residuum-Fehlersignal-Ausgabe von dem parametrischen Spektralanalyse-Modul (620) verbunden wird.