-
HINTERGRUND
-
Die vorliegende Erfindung betrifft
Verfahren zur Übertragung
von Sprachinformationen in Kommunikationsnetzwerken, und im einzelnen
Verfahren zur Steigerung von Schmalband-Sprachsignalen bei einem Empfänger.
-
Bei der Übertragung von Sprachsignalen
gibt es einen Kompromiss zwischen Netzwerkkapazitäten (d.h.
der Anzahl der übertragenen
Anrufe) und der Qualität
des Sprachsignals bei solchen Anrufen. Die meisten heutzutage verwendeten
Telefonsysteme verschlüsseln
und übertragen
mit einer Abtastrate bzw. Samplingrate von 8 kHz Sprachsignale in Übereinstimmung
mit dem Nyquist-Theorem in dem Schmalfrequenzband zwischen etwa
300 Hz und 3,4 kHz. Da die menschliche Sprache Frequenzen zwischen
etwa 50 Hz und 13 kHz enthält,
lässt das
Abtasten der menschlichen Sprache bei einer 8 kHz-Rate und das Übertragen
des Schmal-Frequenzbereichs
von etwa 300 Hz bis 3,4 kHz notwendigerweise Informationen im Sprachsignal weg.
Demgemäß setzen
Telefonsysteme die Qualität
der Sprachsignale gezwungenermaßen
herab.
-
Es wurden verschiedene Verfahren
zum Ausdehnen der Bandbreite von in Telefonsystemen übertragenen
Sprachsignalen entwickelt. Die Verfahren können in zwei Kategorien eingeteilt
werden. Die erste Kategorie weist Systeme auf, die die Bandbreite
des über
das gesamte Telefonsystem übertragenen
Sprachsignals erweitern, um einen breiteren, mittels der menschlichen
Sprache erzeugten Frequenzbereich aufzunehmen. Diese Systeme bringen
zusätzliche
Erfordernisse bezüglich
der Bandbreiten über
das gesamte Netzwerk auf, und sie sind von daher zu kostenaufwendig,
um sie zu verwenden.
-
Eine zweite Kategorie weist Systeme
auf, die einen mathematischen Algorithmus verwenden, um die von
bestehenden Telefonsystemen verwendete Schmalband-Sprachsignale
zu manipulieren. Geeignete Beispiele weisen Sprachkodier-Algorithmen auf,
die Breitband-Sprachsignale bei einem Sender komprimieren, so dass
das Breitband-Signal über
eine bestehende Schmalband-Verbindung übertragen werden kann. Das
Breitband-Signal muss dann bei einem Empfänger dekomprimiert werden.
Die Verwendung bzw. Implementierung dieser Verfahren kann kostenaufwendig
sein, da die Struktur der bestehenden Systeme abgeändert werden muss.
-
Andere Verfahren verwenden einen "Codebook"-Ansatz, wie er in
der Veröffentlichung "Statistical Recovery
of Wideband Speech from Narrowband Speech", IEEE Transactions on Speech and Audio
Processing, Oktober 1994, von Yan Ming Cheng et. al. beschrieben
wird und als europäische
Patentanmeldung Nr. EP-A-0 945
852 A1 veröffentlicht
ist. Ein Codebook wird verwendet, um von dem Schmalband-Sprachsignal
zu dem neuen Breitband-Sprachsignal zu übersetzen. Häufig basiert
die Übersetzung
von dem Schmalband zu dem Breitband auf den beiden folgenden Modellen:
Ein Modell für
die Schmalband-Sprachanalyse
und ein für
die Breitband-Sprachsynthese. Das Codebook ist für Sprachdaten derart ausgebildet,
um die Verschiedenheit der meisten Sprachklänge (Phoneme) zu "lernen". Bei der Verwendung
des Codebooks wird die Schmalband-Sprache modelliert und der Codebook-Eintrag
gesucht, welcher eine geringste Entfernung zu dem Schmalband-Modell darstellt.
Das ausgewählte
Modell wird zu seiner Breitband-Äquivalenz
konvertiert, welches zur Synthese der Breitband-Sprache verwendet
wird. Ein Nachteil, der in Zusammenhang mit Codebooks steht, liegt
darin, dass sie ein aufwendiges Erlernen bzw. Training benötigen.
-
Ein anderes Verfahren wird gewöhnlich als
Spektralfaltung bezeichnet. Techniken der Spektralfaltung basieren
auf dem Prinzip, dass der Inhalt in dem niedrigeren Frequenzband
in das obere Band gefaltet werden kann. Normalerweise wird das Schmalband-Signal
erneut bei einer höheren
Abtastrate abgetastet, um das Aliasing in dem oberen Frequenzband
einzuführen.
Das obere Frequenzband wird dann mit einem Tiefpass-Filter geformt,
und das Breitband-Signal ist erzeugt. Diese Verfahren sind einfach
und effektiv, jedoch führen
sie häufig
Hochfrequenzverzerrungen ein, die den Sprachklang metallisch machen.
-
Demgemäß besteht auf dem Fachgebiet
ein Bedarf nach zusätzlichen
Systemen und Verfahren zur Übertragung
von Schmalband-Sprachsignalen. Ferner besteht in dem Fachgebiet
ein Bedarf nach Systemen und Verfahren zur Verarbeitung von Schmalband-Sprachsignalen
bei einem Empfänger,
um Breitband-Sprachsignale
zu simulieren.
-
ZUSAMMENFASSUNG
-
Die vorliegende Erfindung ist auf
diese und andere Bedürfnisse
durch das Hinzufügen
synthetischer Informationen zu einem, bei einem Empfänger empfangenen
Schmalband-Sprachsignal
gerichtet. In bevorzugter Weise wird das Sprachsignal in ein Stimmkanal-Modell
und in ein Erregungssignal aufgeteilt. Eine oder mehrere Resonanzfrequenzen
können
zu dem Stimmkanal-Modell hinzugefügt werden, wodurch ein zusätzlicher
Formant in dem Sprachsignal synthetisiert wird. Zusätzlich kann
ein neues synthetisches Erregungssignal zu dem ursprünglichen
Erregungssignal in dem zu synthetisierenden Frequenzbereich hinzugefügt werden. Die
Sprache kann dann synthetisiert werden, um ein Breitband-Sprachsignal
zu erhalten. In bevorzugter Weise sind die Verfahren der Erfindung
von relativ geringer rechnerbezogenen Komplexität, und sie führen keine
signifikante Verzerrung in das Sprachsignal ein.
-
Ein anderer Aspekt der vorliegenden
Erfindung stellt ein Verfahren zur Verarbeitung eines Schmalband-Sprachsignals
gemäß Patentanspruch
1 bereit.
-
Gemäß der Ausführungsformen der Erfindung
kann ein bestimmter Frequenzbereich des Breitband-Signals selektiv
verstärkt
werden. Das Breitband-Signal kann ebenso in ein analoges Format
konvertiert und verstärkt
werden.
-
In Übereinstimmung mit einem anderen
Aspekt stellt die Erfindung ein System zur Verarbeitung eines Schmalband-Sprachsignals gemäß Patentanspruch
9 zur Verfügung.
-
Gemäß der Ausführungsformen der Erfindung
weist das Residuum-Erweiterungs-
und Kopiermodul folgendes auf: ein Fast-Fourier-Transformations-Modul zum Konvertieren
des Fehlersignals von dem parametrischen Spektralanalyse-Modul in
den Frequenzraum; einen Spitzendetektor zum Identifizieren der harmonischen
Frequenzen des Fehlersignals; und ein Kopier-Modul zum Kopieren
der mittels des Spitzendetektors identifizierten Spitzen in den
oberen Frequenzbereich.
-
In einem noch anderen Aspekt gibt
die Erfindung ein Systemen zur Verarbeitung eines Schmalband-Sprachsignals
gemäß Patentanspruch
15 an.
-
KURZE BESCHREIBUNG DER
ZEICHNUNGEN
-
Die Aufgaben und Vorteile der Erfindung
werden durch das Lesen der nachfolgenden detaillierten Beschreibung
in Verbindung mit den Zeichnungen verstanden, in welchen:
-
1 eine
schematische Darstellung ist, die die Funktionen eines Empfängers in Übereinstimmung mit
Aspekten der Erfindung zeigt;
-
2 ein
repräsentatives
Spektrum von stimmhafter Sprache und die grobe Struktur der Formanten zeigt;
-
3 ein
repräsentatives
Spektogramm darstellt;
-
4 ein
Blockdiagramm ist, welches eine exemplarische Ausführungsform
eines Systems und eines Verfahrens zum Hinzufügen von synthetischer Information
zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden
Erfindung zeigt;
-
5 ein
Blockdiagramm ist, welches eine in 4 dargestellte,
exemplarische Residuum-Erweiterungs- und Kopierschaltung zeigt;
-
6 ein
Blockdiagramm ist, welches eine zweite exemplarische Ausführungsform
eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information
zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden
Erfindung zeigt;
-
7 ein
Blockdiagramm ist, welches eine in 6 dargestellte,
exemplarische Residuum-Erweiterungs- und Kopierschaltung zeigt;
-
8 ein
Blockdiagramm ist, welches eine dritte exemplarische Ausführungsform
eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information
zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden
Erfindung zeigt;
-
9 ein
Blockdiagramm ist, welches einen exemplarischen Residuum-Modifizierer
in Übereinstimmung
mit der vorliegenden Erfindung zeigt;
-
10 eine
graphische Darstellung ist, die eine Kurzzeit-Autokorrelations-Funktion eines Sprachsamples
bzw. einer Sprachabtastung zeigt, das einen stimmhaften Klang darstellt;
-
11 eine
graphische Darstellung ist, die eine Mittelwert-Differenzfunktion
eines Sprachsamples bzw. einer Sprachabtastung zeigt, das einen
stimmhaften Klang darstellt;
-
12 ein
Blockdiagramm ist, welches zeigt, dass eine AR-Modell-Übertragungsfunktion in zwei Übertragungsfunktionen
geteilt werden kann;
-
13 eine
graphische Darstellung ist, die die grobe Struktur eines Sprachsignals
vor und nach der Hinzufügung
eines synthetischen Formanten zu dem Sprachsignal zeigt;
-
14 eine
graphische Darstellung ist, die die grobe Struktur eines Sprachsignals
vor und nach dem Hinzufügen
eines synthetischen Formanten zu dem Sprachsignal zeigt; und
-
15 eine
graphische Darstellung ist, die die Frequenzantwort-Kurvenverläufe von
AR-Modellen mit verschiedenen Parametern an einem Sprachsignal zeigt.
-
DETAILLIERTE
BESCHREIBUNG
-
Die vorliegende Erfindung liefert
Verbesserungen bei der Verarbeitung von Sprachsignalen, die bei
einem Empfänger
verwendet werden können.
Gemäß einem
Aspekt der Erfindung werden unter Verwendung von Information in
den unteren Frequenzbereichen des empfangenden Sprachsignals Frequenzen
des Sprachsignals in dem oberen Frequenzbereich synthetisiert. In
bevorzugter Weise macht die Erfindung von der Tatsache Gebrauch,
dass Sprachsignale harmonischen Inhalt aufweisen, der in den höheren Frequenzbereich
extrapoliert werden kann.
-
Die vorliegende Erfindung kann in
herkömmlichen
kabelgestützten
(d.h. festen) Telefonsystemen oder in kabellosen (d.h. mobilen)
Telefonsystemen verwendet werden. Weil die meisten bestehenden kabellosen Telefonsysteme
digital sind, kann die vorliegende Erfindung auf einfache Weise
in mobilen Kommunikationsterminals (beispielsweise Mobiltelefonen
oder anderen Kommunikationsvorrichtungen) verwendet werden. Die 1 liefert in Übereinstimmung
mit Aspekten der vorliegenden Erfindung eine schematische Darstellung der
Funktionen, die mittels eines Kommunikationsterminals ausgeführt werden,
das als Empfänger
wirkt. Ein verschlüsseltes
Sprachsignal, das mittels der Antenne 110 und des Empfängers 120 eines
Mobiltelefons empfangen wird, wird mittels eines Kanaldecoders 130 und
eines Sprachentschlüsselungsgerätes 140 entschlüsselt. Das
digitale Signal von dem Sprachentschlüsselungsgerät 140 wird einem Bandbreiten-Erweiterungs-Modul 150 zugeführt, welches
fehlende Frequenzen des Sprachsignals (beispielsweise Information
in dem oberen Frequenzbereich) basierend auf Information in dem
empfangenden Sprachsignal synthetisiert. Das erweiterte Signal kann
zu einem D/A-Konverter 160 übertragen werden, der das digitale
Signal in ein analoges Signal konvertiert, welches einem Lautsprecher 170 zugeführt werden
kann. Da das Sprachsignal grundsätzlich digital
ist, wird die Abtastung bereits in dem übertragenden Mobiltelefon durchgeführt. Jedoch
ist es ersichtlich, dass die vorliegende Erfindung nicht auf kabellose
Netzwerke beschränkt
ist; sie kann allgemein bei sämtlichen
bidirektionalen Sprachkommunikationen verwendet werden.
-
Spracherzeugung
-
Als Hintergrundinformation sei hinzugefügt, dass
Sprache mittels neuromuskularer Signale von dem Gehirn, welches
das Stimmsystem steuert, erzeugt wird. Die verschiedenen, mittels
des vokalen Systems erzeugten Klänge
werden Phoneme genannt, welche kombiniert werden, um Wörter und/oder
Begriffe auszubilden. Jede Sprache weist ihren eigenen Satz von
Phoneme auf, und einige Phoneme bestehen in mehr als einer Sprache.
-
Sprachklänge können in zwei Hauptkategorien
klassifiziert werden: stimmhafte Klänge und nicht-stimmhafte Klänge. Stimmhafte
Klänge
werden erzeugt, wenn quasi-periodische Luftstöße mittels der Stimmritze freigegeben
werden, welche die Öffnung
zwischen den Stimmbändern
ist. Diese Luftstöße erregen den
Stimmkanal, wobei einstimmhafter Klang erzeugt wird (d.h., ein kurzes "a" (ä)
in "car"). Im Gegensatz hierzu
werden nicht-stimmhafte Klänge
erzeugt, wenn ein stetiger Luftstrom durch eine Einschränkung in
dem Stimmkanal gezwungen wird. Diese Einschränkung liegt häufig in
der Nähe
des Mundes, wodurch die Luft veranlasst wird, turbulent zu werden
und einen rausch-ähnlichen
Klang zu erzeugen (d.h., wie "sh" in "she"). Selbstverständlich gibt
es Klänge,
die Eigenschaften von sowohl stimmhaften Klängen als auch nicht-stimmhaften Klängen aufweisen.
-
Es gibt eine Anzahl von verschiedene
Interessenmerkmale für
Techniken zur Sprachmodellierung. Ein solches Merkmal sind die Formanten-Frequenzen,
die von der Formgebung des Stimmkanals abhängen. Die Anregungsquelle für den Stimmkanal
ist ebenso ein interessanter Parameter.
-
Die 2 zeigt
das Spektrum der stimmhaften Sprache, das bei einer 16 kHz-Abtastfrequenz
abgetastet wurde. Mittels der gestrichelten Linie 210 wird
die grobe Struktur dargestellt. Die drei ersten Formanten sind mit
den Pfeilen angezeigt.
-
Formanten sind die Resonanzfrequenzen
des Stimmkanals. Sie formen die grobe Struktur des Sprachfrequenzspektrums.
Formanten variieren abhängig
von Charakteristika des Stimmkanals des Sprechers; d.h., ob er lang
(typischerweise für
einen Mann) oder kurz (typischerweise für eine Frau) ist. Wenn sich die
Formgebung des Sprachkanals ändert,
dann ändern
sich ebenso die Resonanzfrequenzen in der Frequenz, Bandbreite und
Amplitude. Bei Phoneme ändern
Formanten ihre Formgebung kontinuierlich, es treten jedoch abrupte Änderungen
bei Übergängen von
einem stimmhaften Klang zu einem nicht-stimmhaften Klang auf. Die
drei Formanten mit den niedrigsten Resonanzfrequenzen sind für das Abtasten
des erzeugten Sprachklanges wichtig. Jedoch verbessert das Einfügen zusätzlicher
Formanten (beispielsweise des vierten und fünften Formanten) die Qualität des Sprachsignals.
Aufgrund der in Schmalband-Übertragungssystemen
verwendeten, niedrigen Abtastrate (d.h. 8 kHz), werden die Formanten
höherer
Frequenz von dem verschlüsselten Sprachsignal
weggelassen, was in einem Sprachsignal geringerer Qualität resultiert.
Die Formanten werden häufig
mit Fk bezeichnet, wobei k die Nummer des
Formanten ist.
-
Es gibt zwei Anregungsarten des Stimmkanals:
Impulserregung und Rauscherregung. Die Impulserregung und die Rauscherregung können gleichzeitig
auftreten, um eine gemischte Erregung zu erzeugen.
-
Luftstöße, die von der Stimmritze
ausgehen, sind die Grundlage der Impulserregung. Die Impulse der Stimmritze
hängen
von dem ausgesprochenen Klang und der Spannung der Stimmbänder ab.
Die Frequenz der Impulse der Stimmritze wird als fundamentale Frequenz
bezeichnet, die häufig
mit F0 bezeichnet wird. Die Periode zwischen
zwei aufeinanderfolgenden Stößen ist
die Abstands-Periode und erstreckt sich von etwa 1,25 ms bis 20
ms für
Sprache, was einem Frequenzbereich zwischen 50 Hz bis 800 Hz entspricht.
Der Abstand besteht nur, wenn die Stimmbänder vibrieren und ein stimmhafter
Klang (oder ein gemischter Erregungsklang) erzeugt wird.
-
Verschiedene Klänge werden abhängig von
der Formgebung des. Stimmkanals erzeugt. Die fundamentale Frequenz
F0 ist abhängig vom Geschlecht, und sie
ist typischerweise für
männliche
Sprecher niedriger als für
weibliche Sprecher. Der Abstand kann in dem Frequenzraum als Feinstruktur
des Spektrums beobachtet werden. In einem Spektrogramm, welches
die Signalenergie (typischerweise mittels einer Farb-Intensität dargestellt)
als eine Funktion der Zeit und Frequenz aufträgt, kann, wie in 3 dargestellt, der Abstand
als dünne
horizontale Linien beobachtet werden. Diese Struktur stellt die
Abstandsfrequenz und seine Harmonischen höherer Ordnung dar, die von
der fundamentalen Frequenz erzeugt werden.
-
Wenn nicht-stimmhafte Klänge erzeugt
werden, stellt die Erregungsquelle Rauschen dar. Rauschen wird mittels
eines stetigen Luftstromes erzeugt, der durch eine Einengung in
dem Stimmkanal, häufig
in der Mundhöhle,
hindurchläuft.
Wenn der Luftstrom durch die Einengung hindurchläuft, wird er turbulent, und
es wird ein Rauschklang erzeugt. Abhängig von der Art der erzeugten
Phoneme ist die Einengung bei verschiedenen Orten angeordnet. Die
Feinstruktur des Spektrums unterscheidet sich von einem stimmhaften
Klang durch die Abwesenheit der grundsätzlich gleich beabstandeten
Spitzen.
-
Exemplarische
Sprachsignal-Verbesserungsschaltungen
-
4 zeigt
eine exemplarische Ausführungsform
eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information
zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung.
Synthetische Information kann zu einem Schmalband-Sprachsignal hinzugefügt werden,
um das reproduzierte Frequenzband zu erweitern, wodurch eine verbesserte,
reproduzierte, wahrgenommene Sprachqualität bereitgestellt wird. Unter
Bezugnahme auf 4 wird
ein mittels eines Empfängers
(beispielsweise eines Mobiltelefons) empfangenes Eingangs-Stimm-
oder Sprachsignals 405 zunächst mittels eines Up-Samplers
bzw. eines Abtastraten-Aufwärtswandlers 410 aufwärtsgesampelt,
um die Abtastfrequenz des empfangenden Signals zu erhöhen. In
einer bevorzugten Ausführungsform
kann der Up-Sampler 410 das empfangene Signal um einen
Faktor zwei (2) aufwärtssampeln,
jedoch wird verstanden, dass andere Up-Sampling- bzw. Aufwärtssampling-Faktoren
angewandt werden können.
-
Das aufwärtsgesampelte Signal wird mittels
eines parametrischen Spektralanalyse-Moduls 420 analysiert,
um die Struktur der Formanten des empfangenden Sprachsignals zu
ermitteln. Die bestimmte, mittels der parametrischen Spektralanalyse-Einheit 420 durchgeführte Art
der Analyse kann variieren. In einer Ausführungsform kann ein autoregressives
(AR) Modell benutzt werden, um, wie nachfolgend beschrieben, Modellparameter
abzuschätzen.
Alternativ hierzu kann ein harmonisches Modell in der parametrischen
Spektralanalyse-Einheit 420 verwendet werden, wie es beispielsweise
in dem Artikel "Speech
Enhancement Using State-based Estimation and Sinusoidal Modeling" von Deisher und
Spanias beschrieben wird, wobei die Offenbarung hiervon hier durch
Referenz eingebunden ist. In anderen Fällen gibt die parametrische
Spektralanalyse-Einheit 420 Parameter aus (d.h., Werte,
die in Zusammenhang mit dem hierin verwendeten, bestimmten Modell
stehen), die erläuternd
für das
empfangende Sprachsignal sind, sowie ein Fehlersignal (e) 424,
welches den in Zusammenhang mit der Beurteilung des durch die parametrische
Spektralanalyse-Einheit 420 empfangenen Signals stehenden
Vorhersagefehler darstellt.
-
Das Fehlersignal (e) 424 wird
von der Abstandsentscheidungs-Einheit 430 verwendet,
um den Abstand des empfangenden Sprachsignals abzuschätzen. Die
Abstandsentscheidungs-Einheit 430 kann beispielsweise den
Abstand basierend auf einer Distanz zwischen Übergangsvorgängen bzw.
Transienten in dem Fehlersignal ermitteln. Diese Übergangsvorgänge bzw.
Transienten sind das Ergebnis von Impulse, die von der Stimmritze
bei der Erzeugung stimmhafter Klänge
erzeugt werden. Das Abstandsentscheidungs-Modul 430 kann
ebenso ermitteln, ob der Sprachinhalt des empfangenen Signals einen
stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt,
und es kann ein Signal erzeugen, das dieses anzeigt. Die von der
Abstandsentscheidungs-Einheit 430 getroffene Entscheidung
hinsichtlich der Charakteristik des empfangenen Signals, ob es ein
stimmhafter Klang oder ein nicht-stimmhafter Klang ist, kann eine
binäre
Entscheidung oder eine Weich-Entscheidung sein, die eine relative
Wahrscheinlichkeit für
ein stimmhaftes Signal oder für
ein nicht-stimmhaften Signals anzeigt.
-
Die Abstandsinformation und ein Signal,
das angibt, ob das empfangene Signal ein stimmhafter Klang oder
ein nicht-stimmhafter
Klang ist, werden von der Abstandsentscheidungs- Einheit 430 zu einer Residuum-Erweiterungs-
und Kopiereinheit 440 ausgegeben. Wie nachfolgend unter
Bezugnahme auf 5 beschrieben,
extrahiert die Residuum-Erweiterungs- und Kopiereinheit 440 Information
von dem empfangenen Schmalband-Sprachsignal
(beispielsweise in dem Bereich von 0 bis 4 kHz) und verwendet die
extrahierte Information, um einen höheren Frequenzbereich (beispielsweise
4 kHz bis 8 kHz) zu besetzen. Die Ergebnisse werden dann zu einem
synthetischen Filter 450 weitergeleitet, welcher den unteren
Frequenzbereich basierend auf die von der parametrischen Spektralanalyse-Einheit 420 ausgegebenen
Parameter synthetisiert und den höheren Frequenzbereich basierend
auf der Ausgabe der Residuum-Erweiterungs-
und Kopier-Einheit 440 synthetisiert. Der synthetische
Filter 450 kann beispielsweise das Inverse des für das AR-Modell
verwendeten Filters ein. Alternativ hierzu kann der synthetische
Filter 450 auf einem sinusförmigen bzw. harmonischen Modell
basieren.
-
Ein Abschnitt des interessanten Frequenzbereiches
kann ferner verstärkt
bzw. angehoben werden, indem die Ausgabe des synthetischen Filters 450 einem
linearen, zeitvarianten (LTV) Filter 460 bereitgestellt wird.
In einer exemplarischen Ausführungsform
kann der LTV-Filter 460 ein unbegrenzter Impulsantwort-(IIR)Filter
sein. Obwohl andere Arten von Filtern verwendet werden können, sind
IIR-Filter mit ausgeprägten
Polen besonders für
das Modellieren des Sprachkanals geeignet. Der LTV-Filter 460 kann
basierend auf einer Ermittlung im Hinblick darauf, wo der künstliche
Formant (oder Formanten) innerhalb des synthetisierten Sprachsignals
gesetzt werden sollte, angepasst werden. Diese Ermittlung wird mittels
der Ermittlungseinheit 470 basierend auf dem Abstand des
empfangenen Sprachsignals sowie auf die von der parametrischen Spektralanalyse-Einheit 420 ausgegebenen
Parameter gemacht, und zwar basierend auf einer linearen oder nicht-linearen
Kombination dieser Werte oder basierend auf Werte, die in einer
Nachschlagtabelle gespeichert sind, und indexbasierend auf den abgeleiteten
Sprachmodell-Parametern und ermittelten Abstand.
-
Die 5 zeigt
eine exemplarische Ausführungsform
der Residuum-Erweiterungs- und Kopiereinheit 440. Hier
wird das Residuum-Fehlersignal (e) 424 von der parametrischen
Spektralanalyse-Einheit 420 in ein Fast-Fourier-Transformations-(FFT)Modul 510 eingegeben.
Die FFT-Einheit 510 transformiert das Fehlersignal in den
Frequenzraum für
die Operation durch die Kopiereinheit 530. Die Kopiereinheit 530 wählt unter
der Steuerung des Spitzendetektors 520 Information von
dem Residuum-Fehlersignal (e) 424 aus, welche verwendet
werden kann, um zumindest einen Bereich eines Erregungssignals zu
bestücken
bzw. zu besetzen. In einer Ausführungsform
kann der Spitzendetektor 520 die Spitzen oder die Harmonischen
in dem Residuum-Fehlersignal (e) 424 des Schmalband-Sprachsignals
identifizieren. Die Spitzen können
in das höhere
Frequenzband mittels des Kopiermoduls 530 kopiert werden.
Alternativ hierzu kann der Spitzendetektor 520 eine Teilmenge der
in dem Schmalband-Sprachsignal gefundenen Anzahl der Spitzen (beispielsweise
die erste Spitze) identifizieren und die mittels der Abstandsentscheidungs-Einheit 430 identifizierte
Abstandsperiode verwenden, um die Lage der zusätzlichen, mittels der Kopiereinheit 530 zu
kopierenden Spitzen zu berechnen. Das Signal, welches anzeigt, ob
das abgetastete Schmalband-Signal ein stimmhafter Klang oder ein
nicht-stimmhafter Klang
ist, wird ebenso dem Spitzendetektor 520 bereitgestellt,
da die Spitzenerfassung und das Kopieren durch einen künstlichen,
nicht-stimmhaften Sprachinhalt des oberen Bandes ersetzt werden,
wenn das Sprachsegment einen nicht-stimmhaften Klang darstellt.
-
Nicht-stimmhafter Sprachinhalt wird
mittels der Sprachinhalts-Einheit 540 erzeugt. Künstlicher, nicht-stimmhafter Sprachinhalt
des oberen Bandes kann auf verschiedene Arten erzeugt werden. Beispielsweise
kann eine lineare Regression abhängig
von den Sprachparametern und dem Abstand durchgeführt werden,
um einen künstlichen,
nicht-stimmhaften
Sprachinhalt des oberen Bandes zu erzielen. Als Alternative kann
ein zugehöriges
Speichermodul eine Nachschlagtabelle einschliessen, die künstlichen,
nicht-stimmhaften
Sprachinhalt des oberen Bandes bereitstellt, der Eingabewerten entspricht,
die zu den von dem Modell und dem ermittelten Abstand abgeleiteten
Sprachparametern zugehört.
Die kopierte Spitzeninformation von dem Residuum-Fehlersignal und
der künstliche,
nicht-stimmhafte Sprachinhalt des oberen Bandes werden in ein Kombinationsmodul 560 eingegeben.
Die Kombinationseinheit 560 gestattet es, dass die Ausgaben
der Kopiereinheit 530 und der künstlichen, nicht-stimmhaften
Sprachinhalts-Einheit des oberen Bandes 540 gewichtet und
zusammensummiert werden, bevor sie zurück in den Zeitraum mittels
der FFT-Einheit 570 konvertiert werden. Die gewichteten
Werte können
dann mittels einer Verstärkungssteuerungs-Einheit 550 angepasst werden.
Das Verstärkungssteuerungs-Modul 550 ermittelt
die Flachheit des Eingabespektrums und verwendet diese Information
und die Abstandsinformation von dem Abstandsentscheidungs-Modul 430,
um die zu der Kombinationseinheit 120 zugehörige Verstärkungen
zu regulieren. Die Verstärkungssteuerungs-Einheit 550 als
Teil des Gewichtungs-Algorithmus empfängt ebenso das Signal, welches
anzeigt, ob das Sprachsegment einen stimmhaften Klang oder einen
nicht-stimmhaften Klang darstellt. Wie obig beschrieben kann dieses
Signal binäre
oder "weiche" Information sein,
die eine Wahrscheinlichkeit gibt, dass das zu verarbeitende empfangende
Signalsegment entweder ein stimmhafter Klang oder ein nicht-stimmhafter
Klang ist.
-
Die 6 zeigt
eine andere exemplarische Ausführungsform
eines Systems und eines Verfahrens zum Zufügen eines synthetischen Sprach-Formanten
zu einem oberen Frequenzbereich eines empfangenen Signals. Die in 6 dargestellte Ausführungsform
ist ähnlich
der in 4 dargestellten
Ausführungsform,
mit der Ausnahme, dass das Residuum-Erweiterungs- und Kopiermodul 640 eine
Ausgabe bereitstellt, die lediglich auf der von dem Schmalband-Bereich des empfangenen
Signals kopierten Information basiert. Eine exemplarische Ausführungsform
dieses Residuum-Erweiterungs-
und Kopiermoduls 640 wird in 7 dargestellt
und nachfolgend beschrieben. Wenn die Abstandsentscheidungs-Einheit 630 ermittelt,
dass ein bestimmtes Segment von Interesse einen nicht-stimmhaften
Klang darstellt, dann steuert sie den Schalter 635, um
das Residuum-Fehlersignal (e) zur Eingabe in den synthetischen Filter 650 direkt
auszuwählen.
Wenn im Gegensatz hierzu das Abstandsentscheidungs-Modul 630 ermittelt,
dass ein stimmhaftes Signal vorhanden ist, dann wird der Schalter 635 gesteuert,
um mit der Ausgabe der Residuum-Erweiterungs- und Kopiereinheit 640 derart
verbunden zu sein, dass der Inhalt der oberen Frequenz dadurch ermittelt
wird. Ein Boost- bzw. Verstärkungsfilter 660 ist
an der Ausgabe des synthetischen Filters 650 wirksam, um
die Verstärkung
in einem bestimmten Abschnitt der gewünschten Abtastfrequenz zu steigern.
Beispielsweise kann der Boost-Filter 660 ausgelegt sein,
um die Verstärkung
des Bandes von 2 kHz bis 8 kHz zu steigern. Durch Simulation der
Reproduktion von verschiedenen synthetischen Sprach-Formanten können, wie
hier beschrieben, die Filterpol-Paare, beispielsweise in der Umgebung
eines Radius von 0,85 und einem Winkel 0,58 π, optimiert werden.
-
Die 7 stellt
ein Beispiel einer Residuum-Erweiterungs- und Kopiereinheit 640 dar,
die in der exemplarischen Ausführungsform
von 6 verwendet wird.
Hier wird das Residuum-Fehlersignal (e) erneut in den Frequenzraum
mittels der FFT-Einheit 710 transformiert. Der Spitzendetektor 720 identifiziert
Spitzen, die zu der Frequenzraumversion des Residuum-Fehlersignal
(e) stehen, welche dann mittels des Kopiermoduls 730 kopiert
und mittels des FFT-Moduls 740 in den Zeitraum transformiert
werden. Wie in der exemplarischen Ausführungsform von 5 kann der Spitzendetektor 620 unabhängig jede
der Spitzen oder eine Teilmenge der Spitzen erkennen, und er kann
die verbleibenden Spitzen basierend auf den ermittelten Abstand
berechnen. Ein Fachmann wird einsehen, dass diese bestimmte Implementation
des Residuum-Erweiterungs-
und Kopiermoduls im Vergleich mit der Implementation in 5 etwas vereinfacht ist,
da es nicht versucht, nicht-stimmhafte Klänge in den Sprachinhalt des
oberen Bandes zu synthetisieren.
-
8 ist
eine schematische Darstellung einer anderen exemplarischen Ausführungsform
eines Systems und eines Verfahrens von Hinzufügen eines synthetischen Sprach-Formanten zu einem
oberen Frequenzbereich eines empfangenden Signals in Übereinstimmung
mit der vorliegenden Erfindung. Ein Schmalband-Sprachsignal, welches
mit χ(n)
bezeichnet wird, wird an einen Abtastraten-Aufwärtswandler bzw. Up-Sampler 810 gerichtet,
um ein neues Signal s(n) mit einer erhöhten Abtastfrequenz von beispielsweise
16 kHz zu erzielen. Es sei darauf hingewiesen, dass n die Abtastratenzahl
ist. Das aufwärtsgesampelte
Signal s(n) wird an ein Segmentationsmodul 820 gerichtet,
welches den Satz der Abtastungen in einem Vektor (oder Zwischenspeicher)
sammelt, die das Signal s(n) enthalten.
-
Die Struktur der Formanten kann unter
Verwendung von beispielsweise einem AR-Modul abgeschätzt werden.
Die Modellparameter ak können unter Verwendung von beispielsweise
einem linearen Vorhersage-Algorythmus abgeschätzt werden. Ein lineares Vorhersagemodul 840 empfängt das
aufwärtsgesampelte
Signal s(n) und den durch das Segmentationsmodul 820 erzeugten
Abtast- bzw. Sample-Vektor als Eingang, und berechnet das Vorhersagepolynom
ak, wie es detaillierter nachfolgend beschrieben
wird. Ein lineares Vorhersage-Codier(LPC)-Modul 830 verwendet
das inverse Polynom, um das Signal s(n) vorherzusagen, was in einem Residuum-Signal
(e), dem Vorhersagefehler, resultiert. Das Ursprungssignal wird
mittels der Erregung des AR-Modells mit dem Residuum-Signal e(n)
rückerzeugt.
-
Das Signal wird ebenso in den oberen
Teil des Frequenzbandes erweitert. Um das erweiterte Signal zu erregen,
wird das Residuum-Signal e(n) mittels des Residuum-Modifizierungs-Moduls 860 erweitert
und an ein Synthesizermodul 870 gerichtet. Zusätzlich schätzt ein
neues Formanten-Modul 850 die Positionen der Formanten
in dem höheren
Frequenzband ab und leitet diese Information an das Synthesizermodul 870 weiter. Das
Synthesizermodul 870 verwendet die LPC-Parameter; das erweiterte
Residuum-Signal und die erweiterte Modellinformation, die mittels
des neuen Formanten-Moduls 850 zugeführt werden, um ein Breitband-Sprachsignal
zu erzeugen, welches von dem System ausgegeben wird.
-
9 zeigt
ein System zum Erweitern des Residuum-Signals in dem oberen Frequenzbereich,
welches dem Residuum-Modifizierungs-Modul 860 entsprechen
kann, das in 8 dargestellt
wird. Das Residuum-Signal e(n) wird an ein Abstandsabschätzungs-Modul 910 gerichtet,
welches den Abstand basierend auf beispielsweise einer Entfernung
zwischen den Transienten bzw. Übergangsvorgängen in
dem Fehlersignal ermittelt, und ein Signal 912 erzeugt,
dass dieses darstellt. Das Abstandsabschätzungs-Modul 910 ermittelt ebenso,
ob der Sprachinhalt des empfangenden Signals ein stimmhafter Klang
oder ein nicht-stimmhafter Klang ist, und erzeugt ein Signal 914 das
dieses anzeigt. Diese mittels des Abstandsabschätzungs-Moduls 910 hinsichtlich
der Eigenschaft des empfangenden Signals, ob es ein stimmhafter
Klang oder ein nicht-stimmhafter Klang ist, getroffene Entscheidung
kann eine binäre
Entscheidung oder eine weiche Entscheidung sein, die eine relative
Wahrscheinlichkeit angibt, dass das Signal einen stimmhaften Klang
oder einen nicht-stimmhaften Klang darstellt. Das Residuum-Signal
e(n) wird ebenso an ein erstes FFT-Modul 920 gerichtet,
um in den Frequenzraum transformiert zu werden, und an einen Schalter 950.
Die Ausgabe des ersten FFT-Moduls 920 wird an ein Modifizierungs-Modul 930 gerichtet,
welches das Signal in ein Breitbandformat modifiziert. Die Ausgabe des
Modifizierungs-Moduls 930 wird an ein inverses FFT(IFFT)-Modul 940 gerichtet,
wobei die Ausgabe hiervon auf den Schalter 950 gerichtet
ist.
-
Wenn das Abstandsabschätzungs-Modul 910 ermittelt,
dass ein bestimmtes Segment von Interesse einen nicht-stimmhaften
Klang darstellt, dann steuert es den Schalter 950, um das
Residuum-Fehlersignal (e) direkt zur Eingabe in den Synthesizer 870 auszuwählen. Wenn
im Gegensatz hierzu das Abstandsabschätzungs-Modul 910 ermittelt,
dass das Signal einen stimmhaften Klang darstellt, dann wird der
Schalter 950 gesteuert, um mit der Ausgabe des Modifizierungs-Moduls 930 und
dem IFFT-Modul 940 verbunden zu sein, so dass dadurch der
obere Frequenzinhalt ermittelt wird. Die Ausgabe von dem Schalter 950 kann
beispielsweise an den Synthesizer 870 zur weiteren Verarbeitung
gerichtet werden.
-
Die in den 8 und 9 beschriebenen
Systeme können
verwendet werden, um zwei Verfahren des Besetzens des oberen Frequenzbandes
zu implementieren. In einem ersten Verfahren erzeugt der Modifizierer 930 harmonische
Spitzen in dem oberen Frequenzband, indem Teile des Residuum-Signals
des unteren Bandes in das höhere
Band kopiert werden. Die harmonischen Spitzen können durch Auffinden der ersten
harmonischen Spitze in dem Spektrum, die über den Mittelwert des Spektrums
reicht, und durch Auffinden der letzten Spitzen innerhalb der Frequenzkästen, die
dem Telefonfrequenzband entsprechen, abgestimmt werden. Der Abschnitt
zwischen der ersten und der letzten Spitzen kann zu der Position
der letzten Spitzen kopiert werden. Dieses resultiert in gleichförmig beabstandeten
Spitzen in dem oberen Frequenzband. Obwohl mit diesem Verfahren
nicht erreicht wird, dass die Spitzen bis zu dem Ende des Spektrums
(8 kHz) reichen, kann die Technik wiederholt werden, bis das Ende
des Spektrums erreicht ist.
-
Das Ergebnis von diesem Prozess ist
in 13 dargestellt, welches
im wesentlichen gleichförmig
beabstandete Spitzen in dem oberen Frequenzband wiedergibt. Da dort
lediglich ein synthetischer Formant in der Umgebung von 4,6 kHz
hinzugeführt
wurde, gibt es kein Formant-Modell, welches mit Harmonischen über etwa
6 kHz ausgeführt
werden kann. Dieses Verfahren erzeugt keinerlei Artefakte in der
endgültigen
synthetischen Sprache. Abhängig
von dem Betrag des Rauschens, das in der Berechnung von dem AR-Modell
hinzugeführt
wurde, muss der erweiterte Teil des Spektrums mit einer Funktion
gewichtet werden, die mit ansteigender Frequenz abnimmt.
-
In dem zweiten Verfahren verwendet
das Modifizierungs-Modul 930 die Abstandsperiode, um die
neuen harmonischen Spitzen in der korrekten Position anzuordnen.
Unter Verwendung der abgeschätzten
Abstandsperiode ist es möglich,
die Position der Harmonischen in dem oberen Frequenzband zu berechnen,
da angenommen wird, dass die Harmonischen Vielfache der fundamentalen
Frequenz sind. Dieses Verfahren macht es möglich, die Spitzen, die zu
den Harmonischen höherer
Ordnung in dem oberen Frequenzband gehören, zu erzeugen.
-
In dem zellularen Mobilfunksystem
(GSM) werden die Übertragungen
zwischen dem Mobiltelefon und der Basisstation in Abtastpaketen
bzw. -blöcken
durchgeführt.
In GSM enthalten die Blöcke
bzw. Pakete 160 Abtastungen, die 20 ms Sprache entsprechen.
Die Blockgröße in GSM
geht davon aus, dass die Sprache ein quasi-stationäres Signal
ist. Die vorliegende Erfindung kann angepasst werden, um der GSM-Abtaststruktur zu
entsprechen, und sie verwendet von daher die gleiche Blockgröße. Ein
Block bzw. Paket von Abtastungen wird ein Rahmen genannt. Nach der
Aufwärtsabtastung
wird die Rahmenlänge 320 Abtastungen
sein und mit L bezeichnet.
-
Das AR-Modell
der Spracherzeugung
-
Ein Weg zum Modellieren von Sprachsignalen
liegt darin, anzunehmen, dass die Signale von einer Quelle von Weißem Rauschen,
welches einen Filter passiert hat, erzeugt wurden. Wenn der Filter
nur Pole enthält,
dann wird der Prozess ein autoregressiver Prozess genannt. Dieser
Prozess kann mittels der nachfolgenden Differentialgleichung beschrieben
werden, wenn eine kurze Zeitstationarität angenommen wird:
-
Wobei w
i(n)
das Weiße
Rauschen mit einheitlicher Varianz ist, s
i(n)
die Ausgabe des Prozesses ist und p die Modellordnung ist. s
i(n-k) sind die alten Ausgabewerte des Prozesses
und a
ik ist der entsprechende Filterkoeffizient.
Der Index i wird verwendet, um anzuzeigen, dass der Algorhytmus
auf Verarbeitungszeit-variierenden Blöcken von Daten basiert, wobei
i die Nummer des Blockes ist. Das Modell geht davon aus, dass das Signal
während
des gegenwärtigen
Blockes i stationär
ist. Die entsprechende System-Funktion in dem Z-Raum kann wie folgt ausgedrückt werden:
-
Wobei H
i(z)
die Übertragungsfunktion
des Systems und A
i(z) der Prädiktor genannt
wird. Das System besteht nur aus Polen und modelliert nicht vollständig die
Sprache, jedoch wurde gezeigt, dass, wenn das Stimmgerät als eine
verlustfreie Verknüpfung
von Röhren
angenommen wird, die Übertragungsfunktion
mit dem AR-Modell gleichkommt. Das inverse der Systemfunktion für das AR-Modell,
eine Null-Funktion
ist:
-
Diese wird Vorhersagefilter genannt.
Dies ist die einstufige Vorhersage von si(n+1)
von den letzten p+1-Werten von [si(n), ...,
si(n-p+1)]. Das vorhergesagte, s(n) genannte
Signal, welches von dem Signal si(n) subtrahiert wird, ergibt den
Vorhersagefehler e1(n), was manchmal Residuum
genannt wird. Obwohl diese Annäherung
nicht vollständig
ist, liefert sie nützliche
Information über
das Sprachsignal. In dem Modell wurde auf die nasale Aushöhlung und
die Nasenlöcher
verzichtet. Wenn die Ordnung des AR-Modells hinreichend hoch gewählt ist,
dann wird das AR-Modell eine nützliche
Annäherung
des Sprachsignals liefern. Schmalband-Sprachsignale können mit einer Ordnung von
acht (8) modelliert werden.
-
Das AR-Modell kann verwendet werden,
um das Sprachsignal auf einer kurzfristigen Basis zu modellieren,
d.h. typische , Segmente von 10 bis 30 ms Dauer, wo das Sprachsignal
als stationär
angenommen wird. Das AR-Modell schätzt einen Ganz- Pol-Filter ab, der
eine Impulsantwort š
i(n) aufweist, die das Sprachsignal s
i(n) annähert.
Die Impulsantwort š
i(n) ist die umgekehrte z-Transformation
der Systemfunktion H(z). Der Fehler e(n) zwischen dem Modell und
dem Sprachsignal kann dann wie folgt definiert werden:
-
Es gibt verschiedene Verfahren zum
Auffinden der Koeffizienten a
ik des AR-Modells.
Das Autokorrelationsverfahren liefert die Koeffizienten, die
minimalisieren, wobei L die
Länge der
Daten ist. Die Summe beginnt bei Null und endet bei L+p-1. Dieses
geht davon aus, dass die Daten außerhalb der L-verfügbaren Daten
null sind und dass sie durch Multiplikation von s
i(n)
mit einem rechtwinkligen Fenster ausgebildet werden. Das Minimalisieren
der Fehlerfunktion resultiert in dem Lösen eines Satzes von linearen
Gleichungen:
wobei r
si(k)
die Autokorrelation der gefensterten Daten (n) darstellten und a
ik die Koeffizienten des AR-Modells sind.
-
Die Gleichung 6 kann auf verschiedene
Arten gelöst
werden, ein Verfahren ist die Levinson-Durbin-Rekursion, die auf
der Tatsache basiert, dass die Koeffizientenmatrix eine Toeplitz-Matrix ist. Eine
Matrix ist eine Toeplitz-Matrix, wenn die Einträge in jeder Diagonalen die
gleichen Werte haben. Dieses Verfahren ist schnell und liefert sowohl
die Filterkoeffizienten aik als auch die
Reflektionskoeffizienten. Die Reflektionskoeffizienten werden verwendet,
wenn das AR-Modell mit einer Gitterstruktur realisiert wird. Wenn
ein Filter in der Festpunkt-Umgebung verwendet wird, was häufig der
Fall bei Mobiltelefonen ist, muss die Unempfindlichkeit der Quantisierung
der Filterkoeffizienten betrachtet werden. Die Gitterstruktur ist
gegenüber
diesen Effekten unempfindlich und ist von daher geeigneter, als
die Verwendung der direkten Form. Ein effizienteres Verfahren zum
Auffinden der Reflexionskoeffizienten ist die Schur-Rekursion, die
nur die Reflexionskoeffizienten liefert.
-
Abstandsermittlung
-
Bevor die Abstandsperiode abgeschätzt werden
kann, muss die Natur des Sprachsegmentes ermittelt werden. Das nachfolgend
beschriebene Vorhersagegerät
bzw. Prediktor resultiert in einem Residuum-Signal. Die Analyse
des Residuum-Sprachsignals kann aussagen, ob das Sprachsegment einen
stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt.
Wenn das Sprachsegment einen nicht-stimmhaften Klang darstellt,
dann sollte das Residuum-Signal gleich sein mit Rauschen. Wenn sich
im Gegensatz hierzu das Residuum-Signal aus einer Reihe von Impulsen
zusammensetzt, dann stellt es sehr wahrscheinlich einen stimmhaften
Klang dar. Diese Klassifikation kann auf verschiedene Art und Weisen
durchgeführt
werden, und da die Abstandsperiode ebenso ermittelt werden muss,
wird ein Verfahren bevorzugt, welches beides zur gleichen Zeit abschätzten kann.
Ein solches Verfahren basiert auf der normalisierten Kurzzeit-Autokorrelationsfunktion des
Residuum-Signals, dass wie folgt definiert wird:
wobei n die Abtastnummer
in dem Rahmen mit dem Index i und l die zeitliche Verzögerung ist.
Das Sprachsignal wird als stimmhafter Klang klassifiziert, wenn
der Maximumwert von R
ie(l) innerhalb des
Abstandsbereiches und überhalb
eines Schwellenwertes liegt. Der Abstandsbereich der Sprache ist
50 bis 800 Hz was 1 in dem Bereich von 20 bis 320 Abtastungen entspricht.
Die
10 zeigt eine Kurzzeit-Autokorrelationsfunktion eines
stimmhaften Rahmen. Eine Spitze ist eindeutig in der Umgebung der
zeitlichen Verzögerung
72 sichtbar. Spitzen
sind ebenso bei Vielfachen der fundamentalen Frequenz erkennbar.
-
Ein anderer, zur Analyse des Residuum-Signals
geeigneter Algorythmus ist die Durchschnittswert-Differenzfunktion
(AMDF). Dieses Verfahren weist eine relativ geringe rechnerische
Komplexität
auf. Dieses Verfahren verwendet ebenso das Residuum-Signal. Die
Definition von der AMDF ist wie folgt:
-
Diese Funktion weist ein lokales
Minimum bei der Zeitdifferenz auf, die der Abstandsperiode entspricht.
Der Rahmen wird als stimmhafter Klang klassifiziert, wenn der Wert
des lokalen Minimums unterhalb eines variablen Schwellenwertes liegt.
Dieses Verfahren benötigt
zumindest eine Datenlänge
von 2 Abstandsperioden, um die Abstandsperiode abzuschätzen. Die 11 stellt eine graphische
Auftragung der AMDF-Funktion für
einen stimmhaften Rahmen dar, wobei verschiedene lokale Minima gesehen
werden können.
Die Abstandsperiode beträgt
etwa 72 Abtastungen, das bedeutet, dass die fundamentale Frequenz
222 Hz ist, wenn die Abtastungsfrequenz 16 kHz beträgt.
-
Hinzufügen eines
synthetischen Formanten
-
Es wurden verschiedene Verfahren
entwickelt, um synthetische Resonanzfrequenzen hinzuzufügen. Jedes
dieser Verfahren modelliert den synthetischen Formanten mit einem
Filter.
-
Das AR-Modell hat eine Übertragungsfunktion
von der Gestalt
,was umformuliert werden
kann zu:
wobei a
1
ik die beiden neuen AR-Modellkoeffizienten
darstellt. Wie in
12 gezeigt,
kann ein Filter in zwei Filter eingeteilt sein. H
il(z)
stellt das AR-Modell dar, welches von dem gegenwärtigen Sprachsegment berechnet wurde,
und H
i2(z) stellt den neuen synthetischen
Formantenfilter dar.
-
In einem Verfahren werden die synthetischen
Formanten mittels eines komplexkonjugierten Polpaares ausgedrückt. Die Übertragungsfunktion
H
i2(z) kann dann über die folgende Gleichung
definiert werden:
wobei v der Radius und ω
5 der Winkel der Pole ist. Der Parameter
b
o kann verwendet werden, um den Basispegel
der Verstärkung
des Filters festzusetzen. Der Basispegel der Verstärkung kann
auf 1 gesetzt werden, um eine Beeinflussung des Signals bei geringen
Frequenzen zu vermeiden. Dieses kann durch das Setzen von b
o gleich der Summe der Koeffizienten in den
Nenner von H
i2(z) erzielt werden. Ein synthetischer
Formant kann bei einem Radius von 0,85 und einem Winkel von 0,58
n angeordnet werden. Der Parameter b
o wird
dann 2,1453 sein. Wenn dieser synthetische Formant zu dem AR-Modell,
das an dem schmalbandigen Sprachsignal abgeschätzt wurde, hinzugefügt wird,
dann wird die daraus resultierende Übertragungsfunktion keine herausragende
synthetische Formantenspitze aufweisen. Statt dessen wird die Übertragungsfunktion
die Frequenzen in dem Bereich 2,0 bis 3,4 kHz anheben. Der Grund
dafür,
dass der synthetische Formant nicht herausragend ist, liegt an der
großen
Betragspegeldifferenz in dem AR-Modell von typischerweise 60 bis
80 dB. Die Steigerung des modifizierten Signals, so dass die Formanten
einen richtigen Betragspegel erreichen, vermindert die Bandbreite
des Formanten und verstärkt
die höheren
Frequenzen in dem unteren Band um einige dB. Dieses ist in
13 dargestellt, in welcher
die gestrichelte Linie
1310 die grobe spektrale Struktur
vor dem Hinzufügen
eines synthetischen Formanten darstellt. Die durchgezogene Linie
1320 stellt
die spektrale Struktur nach dem Hinzufügen eines synthetischen Formanten
dar, was ein geringe Spitze bei etwa 4,6 kHz erzeugt.
-
Von daher macht ein Formaten-Filter,
der ein komplex-konjugiertes
Polpaar verwendet, es schwierig, den Formanten-Filter mit einem Verhalten wie eines
gewöhnlichen
Formanten zu machen. Wenn Hochpass-gefiltertes weißes Rauschen
zu dem Sprachsignal vor der Berechnung der AR-Modellparameter hinzugefügt wird,
dann wird das AR-Modell das Rauschen und das Sprachsignal modellieren.
Wenn die Ordnung des AR-Modells unverändert gehalten wird (beispielsweise
bei der Ordnung 8), dann können
einige der Formanten nur schwach abgeschätzt werden. Wenn die Ordnung
des AR-Modells gesteigert wird, so dass es das Rauschen in dem oberen
Band modellieren kann, ohne die Modellierung des Sprachsignals des
unteren Bandes zu beeinflussen, dann wird ein besseres AR-Modell
erreicht. Dieses wird dazu führen,
dass der synthetische Formant mehr wie ein gewöhnlicher Formant erscheinen
wird. Dieses ist in 14 dargestellt,
wo die gestrichelte Linie 1410 die grobe spektrale Struktur
vor dem Hinzufügen
eines synthetischen Formanten zeigt. Die durchgezogene Linie 1420 stellt
die spektrale Struktur nach dem Hinzufügen eines synthetischen Formanten
dar, welcher eine Spitzen bei etwa 4,6 kHz erzeugt.
-
Die 15 zeigt
den Unterschied zwischen dem AR-Modell, welches mit und ohne dem
hinzugefügten Rauschen
zu dem Sprachsignal berechnet ist. Unter Bezugnahme auf 15 stellt die durchgezogene
Linie 1510 ein AR-Modell des Schmalband-Sprachsignals dar,
das mit der vierzehnten Ordnung ermittelt wird. Die gestrichelte
Linie 1520 stellt ein AR-Modell des Schmalband-Sprachsignals
dar, das mit der vierzehnten Ordnung ermittelt wird und welches
mit Hochpassgefiltertem Rauschen versorgt wird. Die punktierte Linie 1530 stellt
ein AR-Modell des Schmalband-Sprachsignals dar, welches mit der
achten Ordnung ermittelt wird.
-
Andere Wege, um das Problem zu lösen, liegen
darin, einen komplexeren Formantenfilter zu verwenden. Der Filter
kann sich auf verschiedenen komplex-konjigierten Polpaaren und Nullen
zusammensetzen. Bei Verwendung eines komplizierteren synthetischen
Formantenfilters wächst
die Schwierigkeit der Steuerung des Radius der Pole in dem Filter
und die Schwierigkeit der Erfüllung
anderer Erfordernisse an dem Filter an, wie etwa das Erzielen einer
einheitlichen Verstärkung
bei geringen Frequenzen.
-
Um den Radius der Pole des synthetischen
Formantenfilters zu steuern, sollte der Filter einfach aufgebaut
sein. Eine lineare Abhängigkeit
zwischen dem bestehenden Formanten geringer Frequenz und dem Radius
des neuen synthetischen Formanten kann gemäß der folgenden Gleichung angenommen
werden:
wobei ν
1, ν
2, ν
3 und ν
4 die
Radien der Formanten in dem AR-Modell
von dem Schmalband-Sprachsignal sind. Die Parameter a
m,
m=1, 2, 3, 4, sind die linearen Koeffizienten. Der Parameter ν
ωs ist
der Radius des fünften synthetischen
Formanten des AR-Modells des Breitband-Sprachsignals.
-
Wenn verschiedene AR-Modelle verwendet
werden, dann kann die Gleichung 12 wie folgt ausgedrückt werden:
wobei ν der Radius des Formanten ist
und wobei der erste Index die AR-Modellnummer bezeichnet, der zweite Index
die Formantennummer bezeichnet und der dritte Index ω in dem
Vektor ganz rechts den von dem Breitband-Sprachsignal geschätzten Formanten
bezeichnet, und k die Anzahl der AR-Modelle ist. Dieses System von Gleichungen
ist überbestimmt
und die Least-Square-Lösung
kann mit Hilfe der Pseudoinversen berechnet werden.
-
Die erzielte Lösung wurde dann verwendet,
um den Radius des neuen synthetischen Formant en als
zu berechnen, wobei ν
i5 der
neue synthetische Formantenradius und der α-Paramter die Lösung für das Gleichungssystem
13 sind.
-
Die vorliegende Erfindung wird oben
unter Hinzunahme auf bestimmte Ausführungsformen beschrieben, und
es wird für
einen Fachmann leicht einsehbar sein, dass es möglich ist, die Erfindung in
anderen Gestalten als die obig beschriebenen, umzusetzen. Die obig
beschriebenen, bestimmten Ausführungsformen
sind nur anschaulich und sollen nicht in irgendeiner Weise als einschränkend betrachtet
werden. Der Umfang der Erfindung ist durch die nachfolgenden Patentansprüche gegeben,
und sämtliche
Variationen und Ähnlichkeiten,
die innerhalb des Umfanges der Patentansprüche fallen, werden als damit
umfasst angesehen.