DE60101148T2 - Vorrichtung und verfahren zur sprachsignalmodifizierung - Google Patents

Vorrichtung und verfahren zur sprachsignalmodifizierung Download PDF

Info

Publication number
DE60101148T2
DE60101148T2 DE60101148T DE60101148T DE60101148T2 DE 60101148 T2 DE60101148 T2 DE 60101148T2 DE 60101148 T DE60101148 T DE 60101148T DE 60101148 T DE60101148 T DE 60101148T DE 60101148 T2 DE60101148 T2 DE 60101148T2
Authority
DE
Germany
Prior art keywords
signal
module
speech signal
speech
synthetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60101148T
Other languages
English (en)
Other versions
DE60101148D1 (de
Inventor
Ulf Lindgren
Harald Gustafsson
Petra Deutgen
Clas Thurban
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of DE60101148D1 publication Critical patent/DE60101148D1/de
Publication of DE60101148T2 publication Critical patent/DE60101148T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Description

  • HINTERGRUND
  • Die vorliegende Erfindung betrifft Verfahren zur Übertragung von Sprachinformationen in Kommunikationsnetzwerken, und im einzelnen Verfahren zur Steigerung von Schmalband-Sprachsignalen bei einem Empfänger.
  • Bei der Übertragung von Sprachsignalen gibt es einen Kompromiss zwischen Netzwerkkapazitäten (d.h. der Anzahl der übertragenen Anrufe) und der Qualität des Sprachsignals bei solchen Anrufen. Die meisten heutzutage verwendeten Telefonsysteme verschlüsseln und übertragen mit einer Abtastrate bzw. Samplingrate von 8 kHz Sprachsignale in Übereinstimmung mit dem Nyquist-Theorem in dem Schmalfrequenzband zwischen etwa 300 Hz und 3,4 kHz. Da die menschliche Sprache Frequenzen zwischen etwa 50 Hz und 13 kHz enthält, lässt das Abtasten der menschlichen Sprache bei einer 8 kHz-Rate und das Übertragen des Schmal-Frequenzbereichs von etwa 300 Hz bis 3,4 kHz notwendigerweise Informationen im Sprachsignal weg. Demgemäß setzen Telefonsysteme die Qualität der Sprachsignale gezwungenermaßen herab.
  • Es wurden verschiedene Verfahren zum Ausdehnen der Bandbreite von in Telefonsystemen übertragenen Sprachsignalen entwickelt. Die Verfahren können in zwei Kategorien eingeteilt werden. Die erste Kategorie weist Systeme auf, die die Bandbreite des über das gesamte Telefonsystem übertragenen Sprachsignals erweitern, um einen breiteren, mittels der menschlichen Sprache erzeugten Frequenzbereich aufzunehmen. Diese Systeme bringen zusätzliche Erfordernisse bezüglich der Bandbreiten über das gesamte Netzwerk auf, und sie sind von daher zu kostenaufwendig, um sie zu verwenden.
  • Eine zweite Kategorie weist Systeme auf, die einen mathematischen Algorithmus verwenden, um die von bestehenden Telefonsystemen verwendete Schmalband-Sprachsignale zu manipulieren. Geeignete Beispiele weisen Sprachkodier-Algorithmen auf, die Breitband-Sprachsignale bei einem Sender komprimieren, so dass das Breitband-Signal über eine bestehende Schmalband-Verbindung übertragen werden kann. Das Breitband-Signal muss dann bei einem Empfänger dekomprimiert werden. Die Verwendung bzw. Implementierung dieser Verfahren kann kostenaufwendig sein, da die Struktur der bestehenden Systeme abgeändert werden muss.
  • Andere Verfahren verwenden einen "Codebook"-Ansatz, wie er in der Veröffentlichung "Statistical Recovery of Wideband Speech from Narrowband Speech", IEEE Transactions on Speech and Audio Processing, Oktober 1994, von Yan Ming Cheng et. al. beschrieben wird und als europäische Patentanmeldung Nr. EP-A-0 945 852 A1 veröffentlicht ist. Ein Codebook wird verwendet, um von dem Schmalband-Sprachsignal zu dem neuen Breitband-Sprachsignal zu übersetzen. Häufig basiert die Übersetzung von dem Schmalband zu dem Breitband auf den beiden folgenden Modellen: Ein Modell für die Schmalband-Sprachanalyse und ein für die Breitband-Sprachsynthese. Das Codebook ist für Sprachdaten derart ausgebildet, um die Verschiedenheit der meisten Sprachklänge (Phoneme) zu "lernen". Bei der Verwendung des Codebooks wird die Schmalband-Sprache modelliert und der Codebook-Eintrag gesucht, welcher eine geringste Entfernung zu dem Schmalband-Modell darstellt. Das ausgewählte Modell wird zu seiner Breitband-Äquivalenz konvertiert, welches zur Synthese der Breitband-Sprache verwendet wird. Ein Nachteil, der in Zusammenhang mit Codebooks steht, liegt darin, dass sie ein aufwendiges Erlernen bzw. Training benötigen.
  • Ein anderes Verfahren wird gewöhnlich als Spektralfaltung bezeichnet. Techniken der Spektralfaltung basieren auf dem Prinzip, dass der Inhalt in dem niedrigeren Frequenzband in das obere Band gefaltet werden kann. Normalerweise wird das Schmalband-Signal erneut bei einer höheren Abtastrate abgetastet, um das Aliasing in dem oberen Frequenzband einzuführen. Das obere Frequenzband wird dann mit einem Tiefpass-Filter geformt, und das Breitband-Signal ist erzeugt. Diese Verfahren sind einfach und effektiv, jedoch führen sie häufig Hochfrequenzverzerrungen ein, die den Sprachklang metallisch machen.
  • Demgemäß besteht auf dem Fachgebiet ein Bedarf nach zusätzlichen Systemen und Verfahren zur Übertragung von Schmalband-Sprachsignalen. Ferner besteht in dem Fachgebiet ein Bedarf nach Systemen und Verfahren zur Verarbeitung von Schmalband-Sprachsignalen bei einem Empfänger, um Breitband-Sprachsignale zu simulieren.
  • ZUSAMMENFASSUNG
  • Die vorliegende Erfindung ist auf diese und andere Bedürfnisse durch das Hinzufügen synthetischer Informationen zu einem, bei einem Empfänger empfangenen Schmalband-Sprachsignal gerichtet. In bevorzugter Weise wird das Sprachsignal in ein Stimmkanal-Modell und in ein Erregungssignal aufgeteilt. Eine oder mehrere Resonanzfrequenzen können zu dem Stimmkanal-Modell hinzugefügt werden, wodurch ein zusätzlicher Formant in dem Sprachsignal synthetisiert wird. Zusätzlich kann ein neues synthetisches Erregungssignal zu dem ursprünglichen Erregungssignal in dem zu synthetisierenden Frequenzbereich hinzugefügt werden. Die Sprache kann dann synthetisiert werden, um ein Breitband-Sprachsignal zu erhalten. In bevorzugter Weise sind die Verfahren der Erfindung von relativ geringer rechnerbezogenen Komplexität, und sie führen keine signifikante Verzerrung in das Sprachsignal ein.
  • Ein anderer Aspekt der vorliegenden Erfindung stellt ein Verfahren zur Verarbeitung eines Schmalband-Sprachsignals gemäß Patentanspruch 1 bereit.
  • Gemäß der Ausführungsformen der Erfindung kann ein bestimmter Frequenzbereich des Breitband-Signals selektiv verstärkt werden. Das Breitband-Signal kann ebenso in ein analoges Format konvertiert und verstärkt werden.
  • In Übereinstimmung mit einem anderen Aspekt stellt die Erfindung ein System zur Verarbeitung eines Schmalband-Sprachsignals gemäß Patentanspruch 9 zur Verfügung.
  • Gemäß der Ausführungsformen der Erfindung weist das Residuum-Erweiterungs- und Kopiermodul folgendes auf: ein Fast-Fourier-Transformations-Modul zum Konvertieren des Fehlersignals von dem parametrischen Spektralanalyse-Modul in den Frequenzraum; einen Spitzendetektor zum Identifizieren der harmonischen Frequenzen des Fehlersignals; und ein Kopier-Modul zum Kopieren der mittels des Spitzendetektors identifizierten Spitzen in den oberen Frequenzbereich.
  • In einem noch anderen Aspekt gibt die Erfindung ein Systemen zur Verarbeitung eines Schmalband-Sprachsignals gemäß Patentanspruch 15 an.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Aufgaben und Vorteile der Erfindung werden durch das Lesen der nachfolgenden detaillierten Beschreibung in Verbindung mit den Zeichnungen verstanden, in welchen:
  • 1 eine schematische Darstellung ist, die die Funktionen eines Empfängers in Übereinstimmung mit Aspekten der Erfindung zeigt;
  • 2 ein repräsentatives Spektrum von stimmhafter Sprache und die grobe Struktur der Formanten zeigt;
  • 3 ein repräsentatives Spektogramm darstellt;
  • 4 ein Blockdiagramm ist, welches eine exemplarische Ausführungsform eines Systems und eines Verfahrens zum Hinzufügen von synthetischer Information zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung zeigt;
  • 5 ein Blockdiagramm ist, welches eine in 4 dargestellte, exemplarische Residuum-Erweiterungs- und Kopierschaltung zeigt;
  • 6 ein Blockdiagramm ist, welches eine zweite exemplarische Ausführungsform eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung zeigt;
  • 7 ein Blockdiagramm ist, welches eine in 6 dargestellte, exemplarische Residuum-Erweiterungs- und Kopierschaltung zeigt;
  • 8 ein Blockdiagramm ist, welches eine dritte exemplarische Ausführungsform eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung zeigt;
  • 9 ein Blockdiagramm ist, welches einen exemplarischen Residuum-Modifizierer in Übereinstimmung mit der vorliegenden Erfindung zeigt;
  • 10 eine graphische Darstellung ist, die eine Kurzzeit-Autokorrelations-Funktion eines Sprachsamples bzw. einer Sprachabtastung zeigt, das einen stimmhaften Klang darstellt;
  • 11 eine graphische Darstellung ist, die eine Mittelwert-Differenzfunktion eines Sprachsamples bzw. einer Sprachabtastung zeigt, das einen stimmhaften Klang darstellt;
  • 12 ein Blockdiagramm ist, welches zeigt, dass eine AR-Modell-Übertragungsfunktion in zwei Übertragungsfunktionen geteilt werden kann;
  • 13 eine graphische Darstellung ist, die die grobe Struktur eines Sprachsignals vor und nach der Hinzufügung eines synthetischen Formanten zu dem Sprachsignal zeigt;
  • 14 eine graphische Darstellung ist, die die grobe Struktur eines Sprachsignals vor und nach dem Hinzufügen eines synthetischen Formanten zu dem Sprachsignal zeigt; und
  • 15 eine graphische Darstellung ist, die die Frequenzantwort-Kurvenverläufe von AR-Modellen mit verschiedenen Parametern an einem Sprachsignal zeigt.
  • DETAILLIERTE BESCHREIBUNG
  • Die vorliegende Erfindung liefert Verbesserungen bei der Verarbeitung von Sprachsignalen, die bei einem Empfänger verwendet werden können. Gemäß einem Aspekt der Erfindung werden unter Verwendung von Information in den unteren Frequenzbereichen des empfangenden Sprachsignals Frequenzen des Sprachsignals in dem oberen Frequenzbereich synthetisiert. In bevorzugter Weise macht die Erfindung von der Tatsache Gebrauch, dass Sprachsignale harmonischen Inhalt aufweisen, der in den höheren Frequenzbereich extrapoliert werden kann.
  • Die vorliegende Erfindung kann in herkömmlichen kabelgestützten (d.h. festen) Telefonsystemen oder in kabellosen (d.h. mobilen) Telefonsystemen verwendet werden. Weil die meisten bestehenden kabellosen Telefonsysteme digital sind, kann die vorliegende Erfindung auf einfache Weise in mobilen Kommunikationsterminals (beispielsweise Mobiltelefonen oder anderen Kommunikationsvorrichtungen) verwendet werden. Die 1 liefert in Übereinstimmung mit Aspekten der vorliegenden Erfindung eine schematische Darstellung der Funktionen, die mittels eines Kommunikationsterminals ausgeführt werden, das als Empfänger wirkt. Ein verschlüsseltes Sprachsignal, das mittels der Antenne 110 und des Empfängers 120 eines Mobiltelefons empfangen wird, wird mittels eines Kanaldecoders 130 und eines Sprachentschlüsselungsgerätes 140 entschlüsselt. Das digitale Signal von dem Sprachentschlüsselungsgerät 140 wird einem Bandbreiten-Erweiterungs-Modul 150 zugeführt, welches fehlende Frequenzen des Sprachsignals (beispielsweise Information in dem oberen Frequenzbereich) basierend auf Information in dem empfangenden Sprachsignal synthetisiert. Das erweiterte Signal kann zu einem D/A-Konverter 160 übertragen werden, der das digitale Signal in ein analoges Signal konvertiert, welches einem Lautsprecher 170 zugeführt werden kann. Da das Sprachsignal grundsätzlich digital ist, wird die Abtastung bereits in dem übertragenden Mobiltelefon durchgeführt. Jedoch ist es ersichtlich, dass die vorliegende Erfindung nicht auf kabellose Netzwerke beschränkt ist; sie kann allgemein bei sämtlichen bidirektionalen Sprachkommunikationen verwendet werden.
  • Spracherzeugung
  • Als Hintergrundinformation sei hinzugefügt, dass Sprache mittels neuromuskularer Signale von dem Gehirn, welches das Stimmsystem steuert, erzeugt wird. Die verschiedenen, mittels des vokalen Systems erzeugten Klänge werden Phoneme genannt, welche kombiniert werden, um Wörter und/oder Begriffe auszubilden. Jede Sprache weist ihren eigenen Satz von Phoneme auf, und einige Phoneme bestehen in mehr als einer Sprache.
  • Sprachklänge können in zwei Hauptkategorien klassifiziert werden: stimmhafte Klänge und nicht-stimmhafte Klänge. Stimmhafte Klänge werden erzeugt, wenn quasi-periodische Luftstöße mittels der Stimmritze freigegeben werden, welche die Öffnung zwischen den Stimmbändern ist. Diese Luftstöße erregen den Stimmkanal, wobei einstimmhafter Klang erzeugt wird (d.h., ein kurzes "a" (ä) in "car"). Im Gegensatz hierzu werden nicht-stimmhafte Klänge erzeugt, wenn ein stetiger Luftstrom durch eine Einschränkung in dem Stimmkanal gezwungen wird. Diese Einschränkung liegt häufig in der Nähe des Mundes, wodurch die Luft veranlasst wird, turbulent zu werden und einen rausch-ähnlichen Klang zu erzeugen (d.h., wie "sh" in "she"). Selbstverständlich gibt es Klänge, die Eigenschaften von sowohl stimmhaften Klängen als auch nicht-stimmhaften Klängen aufweisen.
  • Es gibt eine Anzahl von verschiedene Interessenmerkmale für Techniken zur Sprachmodellierung. Ein solches Merkmal sind die Formanten-Frequenzen, die von der Formgebung des Stimmkanals abhängen. Die Anregungsquelle für den Stimmkanal ist ebenso ein interessanter Parameter.
  • Die 2 zeigt das Spektrum der stimmhaften Sprache, das bei einer 16 kHz-Abtastfrequenz abgetastet wurde. Mittels der gestrichelten Linie 210 wird die grobe Struktur dargestellt. Die drei ersten Formanten sind mit den Pfeilen angezeigt.
  • Formanten sind die Resonanzfrequenzen des Stimmkanals. Sie formen die grobe Struktur des Sprachfrequenzspektrums. Formanten variieren abhängig von Charakteristika des Stimmkanals des Sprechers; d.h., ob er lang (typischerweise für einen Mann) oder kurz (typischerweise für eine Frau) ist. Wenn sich die Formgebung des Sprachkanals ändert, dann ändern sich ebenso die Resonanzfrequenzen in der Frequenz, Bandbreite und Amplitude. Bei Phoneme ändern Formanten ihre Formgebung kontinuierlich, es treten jedoch abrupte Änderungen bei Übergängen von einem stimmhaften Klang zu einem nicht-stimmhaften Klang auf. Die drei Formanten mit den niedrigsten Resonanzfrequenzen sind für das Abtasten des erzeugten Sprachklanges wichtig. Jedoch verbessert das Einfügen zusätzlicher Formanten (beispielsweise des vierten und fünften Formanten) die Qualität des Sprachsignals. Aufgrund der in Schmalband-Übertragungssystemen verwendeten, niedrigen Abtastrate (d.h. 8 kHz), werden die Formanten höherer Frequenz von dem verschlüsselten Sprachsignal weggelassen, was in einem Sprachsignal geringerer Qualität resultiert. Die Formanten werden häufig mit Fk bezeichnet, wobei k die Nummer des Formanten ist.
  • Es gibt zwei Anregungsarten des Stimmkanals: Impulserregung und Rauscherregung. Die Impulserregung und die Rauscherregung können gleichzeitig auftreten, um eine gemischte Erregung zu erzeugen.
  • Luftstöße, die von der Stimmritze ausgehen, sind die Grundlage der Impulserregung. Die Impulse der Stimmritze hängen von dem ausgesprochenen Klang und der Spannung der Stimmbänder ab. Die Frequenz der Impulse der Stimmritze wird als fundamentale Frequenz bezeichnet, die häufig mit F0 bezeichnet wird. Die Periode zwischen zwei aufeinanderfolgenden Stößen ist die Abstands-Periode und erstreckt sich von etwa 1,25 ms bis 20 ms für Sprache, was einem Frequenzbereich zwischen 50 Hz bis 800 Hz entspricht. Der Abstand besteht nur, wenn die Stimmbänder vibrieren und ein stimmhafter Klang (oder ein gemischter Erregungsklang) erzeugt wird.
  • Verschiedene Klänge werden abhängig von der Formgebung des. Stimmkanals erzeugt. Die fundamentale Frequenz F0 ist abhängig vom Geschlecht, und sie ist typischerweise für männliche Sprecher niedriger als für weibliche Sprecher. Der Abstand kann in dem Frequenzraum als Feinstruktur des Spektrums beobachtet werden. In einem Spektrogramm, welches die Signalenergie (typischerweise mittels einer Farb-Intensität dargestellt) als eine Funktion der Zeit und Frequenz aufträgt, kann, wie in 3 dargestellt, der Abstand als dünne horizontale Linien beobachtet werden. Diese Struktur stellt die Abstandsfrequenz und seine Harmonischen höherer Ordnung dar, die von der fundamentalen Frequenz erzeugt werden.
  • Wenn nicht-stimmhafte Klänge erzeugt werden, stellt die Erregungsquelle Rauschen dar. Rauschen wird mittels eines stetigen Luftstromes erzeugt, der durch eine Einengung in dem Stimmkanal, häufig in der Mundhöhle, hindurchläuft. Wenn der Luftstrom durch die Einengung hindurchläuft, wird er turbulent, und es wird ein Rauschklang erzeugt. Abhängig von der Art der erzeugten Phoneme ist die Einengung bei verschiedenen Orten angeordnet. Die Feinstruktur des Spektrums unterscheidet sich von einem stimmhaften Klang durch die Abwesenheit der grundsätzlich gleich beabstandeten Spitzen.
  • Exemplarische Sprachsignal-Verbesserungsschaltungen
  • 4 zeigt eine exemplarische Ausführungsform eines Systems und eines Verfahrens zum Hinzufügen synthetischer Information zu einem Schmalband-Sprachsignal in Übereinstimmung mit der vorliegenden Erfindung. Synthetische Information kann zu einem Schmalband-Sprachsignal hinzugefügt werden, um das reproduzierte Frequenzband zu erweitern, wodurch eine verbesserte, reproduzierte, wahrgenommene Sprachqualität bereitgestellt wird. Unter Bezugnahme auf 4 wird ein mittels eines Empfängers (beispielsweise eines Mobiltelefons) empfangenes Eingangs-Stimm- oder Sprachsignals 405 zunächst mittels eines Up-Samplers bzw. eines Abtastraten-Aufwärtswandlers 410 aufwärtsgesampelt, um die Abtastfrequenz des empfangenden Signals zu erhöhen. In einer bevorzugten Ausführungsform kann der Up-Sampler 410 das empfangene Signal um einen Faktor zwei (2) aufwärtssampeln, jedoch wird verstanden, dass andere Up-Sampling- bzw. Aufwärtssampling-Faktoren angewandt werden können.
  • Das aufwärtsgesampelte Signal wird mittels eines parametrischen Spektralanalyse-Moduls 420 analysiert, um die Struktur der Formanten des empfangenden Sprachsignals zu ermitteln. Die bestimmte, mittels der parametrischen Spektralanalyse-Einheit 420 durchgeführte Art der Analyse kann variieren. In einer Ausführungsform kann ein autoregressives (AR) Modell benutzt werden, um, wie nachfolgend beschrieben, Modellparameter abzuschätzen. Alternativ hierzu kann ein harmonisches Modell in der parametrischen Spektralanalyse-Einheit 420 verwendet werden, wie es beispielsweise in dem Artikel "Speech Enhancement Using State-based Estimation and Sinusoidal Modeling" von Deisher und Spanias beschrieben wird, wobei die Offenbarung hiervon hier durch Referenz eingebunden ist. In anderen Fällen gibt die parametrische Spektralanalyse-Einheit 420 Parameter aus (d.h., Werte, die in Zusammenhang mit dem hierin verwendeten, bestimmten Modell stehen), die erläuternd für das empfangende Sprachsignal sind, sowie ein Fehlersignal (e) 424, welches den in Zusammenhang mit der Beurteilung des durch die parametrische Spektralanalyse-Einheit 420 empfangenen Signals stehenden Vorhersagefehler darstellt.
  • Das Fehlersignal (e) 424 wird von der Abstandsentscheidungs-Einheit 430 verwendet, um den Abstand des empfangenden Sprachsignals abzuschätzen. Die Abstandsentscheidungs-Einheit 430 kann beispielsweise den Abstand basierend auf einer Distanz zwischen Übergangsvorgängen bzw. Transienten in dem Fehlersignal ermitteln. Diese Übergangsvorgänge bzw. Transienten sind das Ergebnis von Impulse, die von der Stimmritze bei der Erzeugung stimmhafter Klänge erzeugt werden. Das Abstandsentscheidungs-Modul 430 kann ebenso ermitteln, ob der Sprachinhalt des empfangenen Signals einen stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt, und es kann ein Signal erzeugen, das dieses anzeigt. Die von der Abstandsentscheidungs-Einheit 430 getroffene Entscheidung hinsichtlich der Charakteristik des empfangenen Signals, ob es ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, kann eine binäre Entscheidung oder eine Weich-Entscheidung sein, die eine relative Wahrscheinlichkeit für ein stimmhaftes Signal oder für ein nicht-stimmhaften Signals anzeigt.
  • Die Abstandsinformation und ein Signal, das angibt, ob das empfangene Signal ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, werden von der Abstandsentscheidungs- Einheit 430 zu einer Residuum-Erweiterungs- und Kopiereinheit 440 ausgegeben. Wie nachfolgend unter Bezugnahme auf 5 beschrieben, extrahiert die Residuum-Erweiterungs- und Kopiereinheit 440 Information von dem empfangenen Schmalband-Sprachsignal (beispielsweise in dem Bereich von 0 bis 4 kHz) und verwendet die extrahierte Information, um einen höheren Frequenzbereich (beispielsweise 4 kHz bis 8 kHz) zu besetzen. Die Ergebnisse werden dann zu einem synthetischen Filter 450 weitergeleitet, welcher den unteren Frequenzbereich basierend auf die von der parametrischen Spektralanalyse-Einheit 420 ausgegebenen Parameter synthetisiert und den höheren Frequenzbereich basierend auf der Ausgabe der Residuum-Erweiterungs- und Kopier-Einheit 440 synthetisiert. Der synthetische Filter 450 kann beispielsweise das Inverse des für das AR-Modell verwendeten Filters ein. Alternativ hierzu kann der synthetische Filter 450 auf einem sinusförmigen bzw. harmonischen Modell basieren.
  • Ein Abschnitt des interessanten Frequenzbereiches kann ferner verstärkt bzw. angehoben werden, indem die Ausgabe des synthetischen Filters 450 einem linearen, zeitvarianten (LTV) Filter 460 bereitgestellt wird. In einer exemplarischen Ausführungsform kann der LTV-Filter 460 ein unbegrenzter Impulsantwort-(IIR)Filter sein. Obwohl andere Arten von Filtern verwendet werden können, sind IIR-Filter mit ausgeprägten Polen besonders für das Modellieren des Sprachkanals geeignet. Der LTV-Filter 460 kann basierend auf einer Ermittlung im Hinblick darauf, wo der künstliche Formant (oder Formanten) innerhalb des synthetisierten Sprachsignals gesetzt werden sollte, angepasst werden. Diese Ermittlung wird mittels der Ermittlungseinheit 470 basierend auf dem Abstand des empfangenen Sprachsignals sowie auf die von der parametrischen Spektralanalyse-Einheit 420 ausgegebenen Parameter gemacht, und zwar basierend auf einer linearen oder nicht-linearen Kombination dieser Werte oder basierend auf Werte, die in einer Nachschlagtabelle gespeichert sind, und indexbasierend auf den abgeleiteten Sprachmodell-Parametern und ermittelten Abstand.
  • Die 5 zeigt eine exemplarische Ausführungsform der Residuum-Erweiterungs- und Kopiereinheit 440. Hier wird das Residuum-Fehlersignal (e) 424 von der parametrischen Spektralanalyse-Einheit 420 in ein Fast-Fourier-Transformations-(FFT)Modul 510 eingegeben. Die FFT-Einheit 510 transformiert das Fehlersignal in den Frequenzraum für die Operation durch die Kopiereinheit 530. Die Kopiereinheit 530 wählt unter der Steuerung des Spitzendetektors 520 Information von dem Residuum-Fehlersignal (e) 424 aus, welche verwendet werden kann, um zumindest einen Bereich eines Erregungssignals zu bestücken bzw. zu besetzen. In einer Ausführungsform kann der Spitzendetektor 520 die Spitzen oder die Harmonischen in dem Residuum-Fehlersignal (e) 424 des Schmalband-Sprachsignals identifizieren. Die Spitzen können in das höhere Frequenzband mittels des Kopiermoduls 530 kopiert werden. Alternativ hierzu kann der Spitzendetektor 520 eine Teilmenge der in dem Schmalband-Sprachsignal gefundenen Anzahl der Spitzen (beispielsweise die erste Spitze) identifizieren und die mittels der Abstandsentscheidungs-Einheit 430 identifizierte Abstandsperiode verwenden, um die Lage der zusätzlichen, mittels der Kopiereinheit 530 zu kopierenden Spitzen zu berechnen. Das Signal, welches anzeigt, ob das abgetastete Schmalband-Signal ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, wird ebenso dem Spitzendetektor 520 bereitgestellt, da die Spitzenerfassung und das Kopieren durch einen künstlichen, nicht-stimmhaften Sprachinhalt des oberen Bandes ersetzt werden, wenn das Sprachsegment einen nicht-stimmhaften Klang darstellt.
  • Nicht-stimmhafter Sprachinhalt wird mittels der Sprachinhalts-Einheit 540 erzeugt. Künstlicher, nicht-stimmhafter Sprachinhalt des oberen Bandes kann auf verschiedene Arten erzeugt werden. Beispielsweise kann eine lineare Regression abhängig von den Sprachparametern und dem Abstand durchgeführt werden, um einen künstlichen, nicht-stimmhaften Sprachinhalt des oberen Bandes zu erzielen. Als Alternative kann ein zugehöriges Speichermodul eine Nachschlagtabelle einschliessen, die künstlichen, nicht-stimmhaften Sprachinhalt des oberen Bandes bereitstellt, der Eingabewerten entspricht, die zu den von dem Modell und dem ermittelten Abstand abgeleiteten Sprachparametern zugehört. Die kopierte Spitzeninformation von dem Residuum-Fehlersignal und der künstliche, nicht-stimmhafte Sprachinhalt des oberen Bandes werden in ein Kombinationsmodul 560 eingegeben. Die Kombinationseinheit 560 gestattet es, dass die Ausgaben der Kopiereinheit 530 und der künstlichen, nicht-stimmhaften Sprachinhalts-Einheit des oberen Bandes 540 gewichtet und zusammensummiert werden, bevor sie zurück in den Zeitraum mittels der FFT-Einheit 570 konvertiert werden. Die gewichteten Werte können dann mittels einer Verstärkungssteuerungs-Einheit 550 angepasst werden. Das Verstärkungssteuerungs-Modul 550 ermittelt die Flachheit des Eingabespektrums und verwendet diese Information und die Abstandsinformation von dem Abstandsentscheidungs-Modul 430, um die zu der Kombinationseinheit 120 zugehörige Verstärkungen zu regulieren. Die Verstärkungssteuerungs-Einheit 550 als Teil des Gewichtungs-Algorithmus empfängt ebenso das Signal, welches anzeigt, ob das Sprachsegment einen stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt. Wie obig beschrieben kann dieses Signal binäre oder "weiche" Information sein, die eine Wahrscheinlichkeit gibt, dass das zu verarbeitende empfangende Signalsegment entweder ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist.
  • Die 6 zeigt eine andere exemplarische Ausführungsform eines Systems und eines Verfahrens zum Zufügen eines synthetischen Sprach-Formanten zu einem oberen Frequenzbereich eines empfangenen Signals. Die in 6 dargestellte Ausführungsform ist ähnlich der in 4 dargestellten Ausführungsform, mit der Ausnahme, dass das Residuum-Erweiterungs- und Kopiermodul 640 eine Ausgabe bereitstellt, die lediglich auf der von dem Schmalband-Bereich des empfangenen Signals kopierten Information basiert. Eine exemplarische Ausführungsform dieses Residuum-Erweiterungs- und Kopiermoduls 640 wird in 7 dargestellt und nachfolgend beschrieben. Wenn die Abstandsentscheidungs-Einheit 630 ermittelt, dass ein bestimmtes Segment von Interesse einen nicht-stimmhaften Klang darstellt, dann steuert sie den Schalter 635, um das Residuum-Fehlersignal (e) zur Eingabe in den synthetischen Filter 650 direkt auszuwählen. Wenn im Gegensatz hierzu das Abstandsentscheidungs-Modul 630 ermittelt, dass ein stimmhaftes Signal vorhanden ist, dann wird der Schalter 635 gesteuert, um mit der Ausgabe der Residuum-Erweiterungs- und Kopiereinheit 640 derart verbunden zu sein, dass der Inhalt der oberen Frequenz dadurch ermittelt wird. Ein Boost- bzw. Verstärkungsfilter 660 ist an der Ausgabe des synthetischen Filters 650 wirksam, um die Verstärkung in einem bestimmten Abschnitt der gewünschten Abtastfrequenz zu steigern. Beispielsweise kann der Boost-Filter 660 ausgelegt sein, um die Verstärkung des Bandes von 2 kHz bis 8 kHz zu steigern. Durch Simulation der Reproduktion von verschiedenen synthetischen Sprach-Formanten können, wie hier beschrieben, die Filterpol-Paare, beispielsweise in der Umgebung eines Radius von 0,85 und einem Winkel 0,58 π, optimiert werden.
  • Die 7 stellt ein Beispiel einer Residuum-Erweiterungs- und Kopiereinheit 640 dar, die in der exemplarischen Ausführungsform von 6 verwendet wird. Hier wird das Residuum-Fehlersignal (e) erneut in den Frequenzraum mittels der FFT-Einheit 710 transformiert. Der Spitzendetektor 720 identifiziert Spitzen, die zu der Frequenzraumversion des Residuum-Fehlersignal (e) stehen, welche dann mittels des Kopiermoduls 730 kopiert und mittels des FFT-Moduls 740 in den Zeitraum transformiert werden. Wie in der exemplarischen Ausführungsform von 5 kann der Spitzendetektor 620 unabhängig jede der Spitzen oder eine Teilmenge der Spitzen erkennen, und er kann die verbleibenden Spitzen basierend auf den ermittelten Abstand berechnen. Ein Fachmann wird einsehen, dass diese bestimmte Implementation des Residuum-Erweiterungs- und Kopiermoduls im Vergleich mit der Implementation in 5 etwas vereinfacht ist, da es nicht versucht, nicht-stimmhafte Klänge in den Sprachinhalt des oberen Bandes zu synthetisieren.
  • 8 ist eine schematische Darstellung einer anderen exemplarischen Ausführungsform eines Systems und eines Verfahrens von Hinzufügen eines synthetischen Sprach-Formanten zu einem oberen Frequenzbereich eines empfangenden Signals in Übereinstimmung mit der vorliegenden Erfindung. Ein Schmalband-Sprachsignal, welches mit χ(n) bezeichnet wird, wird an einen Abtastraten-Aufwärtswandler bzw. Up-Sampler 810 gerichtet, um ein neues Signal s(n) mit einer erhöhten Abtastfrequenz von beispielsweise 16 kHz zu erzielen. Es sei darauf hingewiesen, dass n die Abtastratenzahl ist. Das aufwärtsgesampelte Signal s(n) wird an ein Segmentationsmodul 820 gerichtet, welches den Satz der Abtastungen in einem Vektor (oder Zwischenspeicher) sammelt, die das Signal s(n) enthalten.
  • Die Struktur der Formanten kann unter Verwendung von beispielsweise einem AR-Modul abgeschätzt werden. Die Modellparameter ak können unter Verwendung von beispielsweise einem linearen Vorhersage-Algorythmus abgeschätzt werden. Ein lineares Vorhersagemodul 840 empfängt das aufwärtsgesampelte Signal s(n) und den durch das Segmentationsmodul 820 erzeugten Abtast- bzw. Sample-Vektor als Eingang, und berechnet das Vorhersagepolynom ak, wie es detaillierter nachfolgend beschrieben wird. Ein lineares Vorhersage-Codier(LPC)-Modul 830 verwendet das inverse Polynom, um das Signal s(n) vorherzusagen, was in einem Residuum-Signal (e), dem Vorhersagefehler, resultiert. Das Ursprungssignal wird mittels der Erregung des AR-Modells mit dem Residuum-Signal e(n) rückerzeugt.
  • Das Signal wird ebenso in den oberen Teil des Frequenzbandes erweitert. Um das erweiterte Signal zu erregen, wird das Residuum-Signal e(n) mittels des Residuum-Modifizierungs-Moduls 860 erweitert und an ein Synthesizermodul 870 gerichtet. Zusätzlich schätzt ein neues Formanten-Modul 850 die Positionen der Formanten in dem höheren Frequenzband ab und leitet diese Information an das Synthesizermodul 870 weiter. Das Synthesizermodul 870 verwendet die LPC-Parameter; das erweiterte Residuum-Signal und die erweiterte Modellinformation, die mittels des neuen Formanten-Moduls 850 zugeführt werden, um ein Breitband-Sprachsignal zu erzeugen, welches von dem System ausgegeben wird.
  • 9 zeigt ein System zum Erweitern des Residuum-Signals in dem oberen Frequenzbereich, welches dem Residuum-Modifizierungs-Modul 860 entsprechen kann, das in 8 dargestellt wird. Das Residuum-Signal e(n) wird an ein Abstandsabschätzungs-Modul 910 gerichtet, welches den Abstand basierend auf beispielsweise einer Entfernung zwischen den Transienten bzw. Übergangsvorgängen in dem Fehlersignal ermittelt, und ein Signal 912 erzeugt, dass dieses darstellt. Das Abstandsabschätzungs-Modul 910 ermittelt ebenso, ob der Sprachinhalt des empfangenden Signals ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, und erzeugt ein Signal 914 das dieses anzeigt. Diese mittels des Abstandsabschätzungs-Moduls 910 hinsichtlich der Eigenschaft des empfangenden Signals, ob es ein stimmhafter Klang oder ein nicht-stimmhafter Klang ist, getroffene Entscheidung kann eine binäre Entscheidung oder eine weiche Entscheidung sein, die eine relative Wahrscheinlichkeit angibt, dass das Signal einen stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt. Das Residuum-Signal e(n) wird ebenso an ein erstes FFT-Modul 920 gerichtet, um in den Frequenzraum transformiert zu werden, und an einen Schalter 950. Die Ausgabe des ersten FFT-Moduls 920 wird an ein Modifizierungs-Modul 930 gerichtet, welches das Signal in ein Breitbandformat modifiziert. Die Ausgabe des Modifizierungs-Moduls 930 wird an ein inverses FFT(IFFT)-Modul 940 gerichtet, wobei die Ausgabe hiervon auf den Schalter 950 gerichtet ist.
  • Wenn das Abstandsabschätzungs-Modul 910 ermittelt, dass ein bestimmtes Segment von Interesse einen nicht-stimmhaften Klang darstellt, dann steuert es den Schalter 950, um das Residuum-Fehlersignal (e) direkt zur Eingabe in den Synthesizer 870 auszuwählen. Wenn im Gegensatz hierzu das Abstandsabschätzungs-Modul 910 ermittelt, dass das Signal einen stimmhaften Klang darstellt, dann wird der Schalter 950 gesteuert, um mit der Ausgabe des Modifizierungs-Moduls 930 und dem IFFT-Modul 940 verbunden zu sein, so dass dadurch der obere Frequenzinhalt ermittelt wird. Die Ausgabe von dem Schalter 950 kann beispielsweise an den Synthesizer 870 zur weiteren Verarbeitung gerichtet werden.
  • Die in den 8 und 9 beschriebenen Systeme können verwendet werden, um zwei Verfahren des Besetzens des oberen Frequenzbandes zu implementieren. In einem ersten Verfahren erzeugt der Modifizierer 930 harmonische Spitzen in dem oberen Frequenzband, indem Teile des Residuum-Signals des unteren Bandes in das höhere Band kopiert werden. Die harmonischen Spitzen können durch Auffinden der ersten harmonischen Spitze in dem Spektrum, die über den Mittelwert des Spektrums reicht, und durch Auffinden der letzten Spitzen innerhalb der Frequenzkästen, die dem Telefonfrequenzband entsprechen, abgestimmt werden. Der Abschnitt zwischen der ersten und der letzten Spitzen kann zu der Position der letzten Spitzen kopiert werden. Dieses resultiert in gleichförmig beabstandeten Spitzen in dem oberen Frequenzband. Obwohl mit diesem Verfahren nicht erreicht wird, dass die Spitzen bis zu dem Ende des Spektrums (8 kHz) reichen, kann die Technik wiederholt werden, bis das Ende des Spektrums erreicht ist.
  • Das Ergebnis von diesem Prozess ist in 13 dargestellt, welches im wesentlichen gleichförmig beabstandete Spitzen in dem oberen Frequenzband wiedergibt. Da dort lediglich ein synthetischer Formant in der Umgebung von 4,6 kHz hinzugeführt wurde, gibt es kein Formant-Modell, welches mit Harmonischen über etwa 6 kHz ausgeführt werden kann. Dieses Verfahren erzeugt keinerlei Artefakte in der endgültigen synthetischen Sprache. Abhängig von dem Betrag des Rauschens, das in der Berechnung von dem AR-Modell hinzugeführt wurde, muss der erweiterte Teil des Spektrums mit einer Funktion gewichtet werden, die mit ansteigender Frequenz abnimmt.
  • In dem zweiten Verfahren verwendet das Modifizierungs-Modul 930 die Abstandsperiode, um die neuen harmonischen Spitzen in der korrekten Position anzuordnen. Unter Verwendung der abgeschätzten Abstandsperiode ist es möglich, die Position der Harmonischen in dem oberen Frequenzband zu berechnen, da angenommen wird, dass die Harmonischen Vielfache der fundamentalen Frequenz sind. Dieses Verfahren macht es möglich, die Spitzen, die zu den Harmonischen höherer Ordnung in dem oberen Frequenzband gehören, zu erzeugen.
  • In dem zellularen Mobilfunksystem (GSM) werden die Übertragungen zwischen dem Mobiltelefon und der Basisstation in Abtastpaketen bzw. -blöcken durchgeführt. In GSM enthalten die Blöcke bzw. Pakete 160 Abtastungen, die 20 ms Sprache entsprechen. Die Blockgröße in GSM geht davon aus, dass die Sprache ein quasi-stationäres Signal ist. Die vorliegende Erfindung kann angepasst werden, um der GSM-Abtaststruktur zu entsprechen, und sie verwendet von daher die gleiche Blockgröße. Ein Block bzw. Paket von Abtastungen wird ein Rahmen genannt. Nach der Aufwärtsabtastung wird die Rahmenlänge 320 Abtastungen sein und mit L bezeichnet.
  • Das AR-Modell der Spracherzeugung
  • Ein Weg zum Modellieren von Sprachsignalen liegt darin, anzunehmen, dass die Signale von einer Quelle von Weißem Rauschen, welches einen Filter passiert hat, erzeugt wurden. Wenn der Filter nur Pole enthält, dann wird der Prozess ein autoregressiver Prozess genannt. Dieser Prozess kann mittels der nachfolgenden Differentialgleichung beschrieben werden, wenn eine kurze Zeitstationarität angenommen wird:
    Figure 00210001
  • Wobei wi(n) das Weiße Rauschen mit einheitlicher Varianz ist, si(n) die Ausgabe des Prozesses ist und p die Modellordnung ist. si(n-k) sind die alten Ausgabewerte des Prozesses und aik ist der entsprechende Filterkoeffizient. Der Index i wird verwendet, um anzuzeigen, dass der Algorhytmus auf Verarbeitungszeit-variierenden Blöcken von Daten basiert, wobei i die Nummer des Blockes ist. Das Modell geht davon aus, dass das Signal während des gegenwärtigen Blockes i stationär ist. Die entsprechende System-Funktion in dem Z-Raum kann wie folgt ausgedrückt werden:
    Figure 00210002
  • Wobei Hi(z) die Übertragungsfunktion des Systems und Ai(z) der Prädiktor genannt wird. Das System besteht nur aus Polen und modelliert nicht vollständig die Sprache, jedoch wurde gezeigt, dass, wenn das Stimmgerät als eine verlustfreie Verknüpfung von Röhren angenommen wird, die Übertragungsfunktion mit dem AR-Modell gleichkommt. Das inverse der Systemfunktion für das AR-Modell, eine Null-Funktion ist:
    Figure 00220001
  • Diese wird Vorhersagefilter genannt. Dies ist die einstufige Vorhersage von si(n+1) von den letzten p+1-Werten von [si(n), ..., si(n-p+1)]. Das vorhergesagte, s(n) genannte Signal, welches von dem Signal si(n) subtrahiert wird, ergibt den Vorhersagefehler e1(n), was manchmal Residuum genannt wird. Obwohl diese Annäherung nicht vollständig ist, liefert sie nützliche Information über das Sprachsignal. In dem Modell wurde auf die nasale Aushöhlung und die Nasenlöcher verzichtet. Wenn die Ordnung des AR-Modells hinreichend hoch gewählt ist, dann wird das AR-Modell eine nützliche Annäherung des Sprachsignals liefern. Schmalband-Sprachsignale können mit einer Ordnung von acht (8) modelliert werden.
  • Das AR-Modell kann verwendet werden, um das Sprachsignal auf einer kurzfristigen Basis zu modellieren, d.h. typische , Segmente von 10 bis 30 ms Dauer, wo das Sprachsignal als stationär angenommen wird. Das AR-Modell schätzt einen Ganz- Pol-Filter ab, der eine Impulsantwort ši(n) aufweist, die das Sprachsignal si(n) annähert. Die Impulsantwort ši(n) ist die umgekehrte z-Transformation der Systemfunktion H(z). Der Fehler e(n) zwischen dem Modell und dem Sprachsignal kann dann wie folgt definiert werden:
    Figure 00230001
  • Es gibt verschiedene Verfahren zum Auffinden der Koeffizienten aik des AR-Modells. Das Autokorrelationsverfahren liefert die Koeffizienten, die
    Figure 00230002
    minimalisieren, wobei L die Länge der Daten ist. Die Summe beginnt bei Null und endet bei L+p-1. Dieses geht davon aus, dass die Daten außerhalb der L-verfügbaren Daten null sind und dass sie durch Multiplikation von si(n) mit einem rechtwinkligen Fenster ausgebildet werden. Das Minimalisieren der Fehlerfunktion resultiert in dem Lösen eines Satzes von linearen Gleichungen:
    Figure 00230003
    wobei rsi(k) die Autokorrelation der gefensterten Daten (n) darstellten und aik die Koeffizienten des AR-Modells sind.
  • Die Gleichung 6 kann auf verschiedene Arten gelöst werden, ein Verfahren ist die Levinson-Durbin-Rekursion, die auf der Tatsache basiert, dass die Koeffizientenmatrix eine Toeplitz-Matrix ist. Eine Matrix ist eine Toeplitz-Matrix, wenn die Einträge in jeder Diagonalen die gleichen Werte haben. Dieses Verfahren ist schnell und liefert sowohl die Filterkoeffizienten aik als auch die Reflektionskoeffizienten. Die Reflektionskoeffizienten werden verwendet, wenn das AR-Modell mit einer Gitterstruktur realisiert wird. Wenn ein Filter in der Festpunkt-Umgebung verwendet wird, was häufig der Fall bei Mobiltelefonen ist, muss die Unempfindlichkeit der Quantisierung der Filterkoeffizienten betrachtet werden. Die Gitterstruktur ist gegenüber diesen Effekten unempfindlich und ist von daher geeigneter, als die Verwendung der direkten Form. Ein effizienteres Verfahren zum Auffinden der Reflexionskoeffizienten ist die Schur-Rekursion, die nur die Reflexionskoeffizienten liefert.
  • Abstandsermittlung
  • Bevor die Abstandsperiode abgeschätzt werden kann, muss die Natur des Sprachsegmentes ermittelt werden. Das nachfolgend beschriebene Vorhersagegerät bzw. Prediktor resultiert in einem Residuum-Signal. Die Analyse des Residuum-Sprachsignals kann aussagen, ob das Sprachsegment einen stimmhaften Klang oder einen nicht-stimmhaften Klang darstellt. Wenn das Sprachsegment einen nicht-stimmhaften Klang darstellt, dann sollte das Residuum-Signal gleich sein mit Rauschen. Wenn sich im Gegensatz hierzu das Residuum-Signal aus einer Reihe von Impulsen zusammensetzt, dann stellt es sehr wahrscheinlich einen stimmhaften Klang dar. Diese Klassifikation kann auf verschiedene Art und Weisen durchgeführt werden, und da die Abstandsperiode ebenso ermittelt werden muss, wird ein Verfahren bevorzugt, welches beides zur gleichen Zeit abschätzten kann. Ein solches Verfahren basiert auf der normalisierten Kurzzeit-Autokorrelationsfunktion des Residuum-Signals, dass wie folgt definiert wird:
    Figure 00250001
    wobei n die Abtastnummer in dem Rahmen mit dem Index i und l die zeitliche Verzögerung ist. Das Sprachsignal wird als stimmhafter Klang klassifiziert, wenn der Maximumwert von Rie(l) innerhalb des Abstandsbereiches und überhalb eines Schwellenwertes liegt. Der Abstandsbereich der Sprache ist 50 bis 800 Hz was 1 in dem Bereich von 20 bis 320 Abtastungen entspricht. Die 10 zeigt eine Kurzzeit-Autokorrelationsfunktion eines stimmhaften Rahmen. Eine Spitze ist eindeutig in der Umgebung der zeitlichen Verzögerung 72 sichtbar. Spitzen sind ebenso bei Vielfachen der fundamentalen Frequenz erkennbar.
  • Ein anderer, zur Analyse des Residuum-Signals geeigneter Algorythmus ist die Durchschnittswert-Differenzfunktion (AMDF). Dieses Verfahren weist eine relativ geringe rechnerische Komplexität auf. Dieses Verfahren verwendet ebenso das Residuum-Signal. Die Definition von der AMDF ist wie folgt:
    Figure 00250002
  • Diese Funktion weist ein lokales Minimum bei der Zeitdifferenz auf, die der Abstandsperiode entspricht. Der Rahmen wird als stimmhafter Klang klassifiziert, wenn der Wert des lokalen Minimums unterhalb eines variablen Schwellenwertes liegt. Dieses Verfahren benötigt zumindest eine Datenlänge von 2 Abstandsperioden, um die Abstandsperiode abzuschätzen. Die 11 stellt eine graphische Auftragung der AMDF-Funktion für einen stimmhaften Rahmen dar, wobei verschiedene lokale Minima gesehen werden können. Die Abstandsperiode beträgt etwa 72 Abtastungen, das bedeutet, dass die fundamentale Frequenz 222 Hz ist, wenn die Abtastungsfrequenz 16 kHz beträgt.
  • Hinzufügen eines synthetischen Formanten
  • Es wurden verschiedene Verfahren entwickelt, um synthetische Resonanzfrequenzen hinzuzufügen. Jedes dieser Verfahren modelliert den synthetischen Formanten mit einem Filter.
  • Das AR-Modell hat eine Übertragungsfunktion von der Gestalt
    Figure 00260001
    ,was umformuliert werden kann zu:
    Figure 00260002
    wobei a1 ik die beiden neuen AR-Modellkoeffizienten darstellt. Wie in 12 gezeigt, kann ein Filter in zwei Filter eingeteilt sein. Hil(z) stellt das AR-Modell dar, welches von dem gegenwärtigen Sprachsegment berechnet wurde, und Hi2(z) stellt den neuen synthetischen Formantenfilter dar.
  • In einem Verfahren werden die synthetischen Formanten mittels eines komplexkonjugierten Polpaares ausgedrückt. Die Übertragungsfunktion Hi2(z) kann dann über die folgende Gleichung definiert werden:
    Figure 00270001
    wobei v der Radius und ω5 der Winkel der Pole ist. Der Parameter bo kann verwendet werden, um den Basispegel der Verstärkung des Filters festzusetzen. Der Basispegel der Verstärkung kann auf 1 gesetzt werden, um eine Beeinflussung des Signals bei geringen Frequenzen zu vermeiden. Dieses kann durch das Setzen von bo gleich der Summe der Koeffizienten in den Nenner von Hi2(z) erzielt werden. Ein synthetischer Formant kann bei einem Radius von 0,85 und einem Winkel von 0,58 n angeordnet werden. Der Parameter bo wird dann 2,1453 sein. Wenn dieser synthetische Formant zu dem AR-Modell, das an dem schmalbandigen Sprachsignal abgeschätzt wurde, hinzugefügt wird, dann wird die daraus resultierende Übertragungsfunktion keine herausragende synthetische Formantenspitze aufweisen. Statt dessen wird die Übertragungsfunktion die Frequenzen in dem Bereich 2,0 bis 3,4 kHz anheben. Der Grund dafür, dass der synthetische Formant nicht herausragend ist, liegt an der großen Betragspegeldifferenz in dem AR-Modell von typischerweise 60 bis 80 dB. Die Steigerung des modifizierten Signals, so dass die Formanten einen richtigen Betragspegel erreichen, vermindert die Bandbreite des Formanten und verstärkt die höheren Frequenzen in dem unteren Band um einige dB. Dieses ist in 13 dargestellt, in welcher die gestrichelte Linie 1310 die grobe spektrale Struktur vor dem Hinzufügen eines synthetischen Formanten darstellt. Die durchgezogene Linie 1320 stellt die spektrale Struktur nach dem Hinzufügen eines synthetischen Formanten dar, was ein geringe Spitze bei etwa 4,6 kHz erzeugt.
  • Von daher macht ein Formaten-Filter, der ein komplex-konjugiertes Polpaar verwendet, es schwierig, den Formanten-Filter mit einem Verhalten wie eines gewöhnlichen Formanten zu machen. Wenn Hochpass-gefiltertes weißes Rauschen zu dem Sprachsignal vor der Berechnung der AR-Modellparameter hinzugefügt wird, dann wird das AR-Modell das Rauschen und das Sprachsignal modellieren. Wenn die Ordnung des AR-Modells unverändert gehalten wird (beispielsweise bei der Ordnung 8), dann können einige der Formanten nur schwach abgeschätzt werden. Wenn die Ordnung des AR-Modells gesteigert wird, so dass es das Rauschen in dem oberen Band modellieren kann, ohne die Modellierung des Sprachsignals des unteren Bandes zu beeinflussen, dann wird ein besseres AR-Modell erreicht. Dieses wird dazu führen, dass der synthetische Formant mehr wie ein gewöhnlicher Formant erscheinen wird. Dieses ist in 14 dargestellt, wo die gestrichelte Linie 1410 die grobe spektrale Struktur vor dem Hinzufügen eines synthetischen Formanten zeigt. Die durchgezogene Linie 1420 stellt die spektrale Struktur nach dem Hinzufügen eines synthetischen Formanten dar, welcher eine Spitzen bei etwa 4,6 kHz erzeugt.
  • Die 15 zeigt den Unterschied zwischen dem AR-Modell, welches mit und ohne dem hinzugefügten Rauschen zu dem Sprachsignal berechnet ist. Unter Bezugnahme auf 15 stellt die durchgezogene Linie 1510 ein AR-Modell des Schmalband-Sprachsignals dar, das mit der vierzehnten Ordnung ermittelt wird. Die gestrichelte Linie 1520 stellt ein AR-Modell des Schmalband-Sprachsignals dar, das mit der vierzehnten Ordnung ermittelt wird und welches mit Hochpassgefiltertem Rauschen versorgt wird. Die punktierte Linie 1530 stellt ein AR-Modell des Schmalband-Sprachsignals dar, welches mit der achten Ordnung ermittelt wird.
  • Andere Wege, um das Problem zu lösen, liegen darin, einen komplexeren Formantenfilter zu verwenden. Der Filter kann sich auf verschiedenen komplex-konjigierten Polpaaren und Nullen zusammensetzen. Bei Verwendung eines komplizierteren synthetischen Formantenfilters wächst die Schwierigkeit der Steuerung des Radius der Pole in dem Filter und die Schwierigkeit der Erfüllung anderer Erfordernisse an dem Filter an, wie etwa das Erzielen einer einheitlichen Verstärkung bei geringen Frequenzen.
  • Um den Radius der Pole des synthetischen Formantenfilters zu steuern, sollte der Filter einfach aufgebaut sein. Eine lineare Abhängigkeit zwischen dem bestehenden Formanten geringer Frequenz und dem Radius des neuen synthetischen Formanten kann gemäß der folgenden Gleichung angenommen werden:
    Figure 00290001
    wobei ν1, ν2, ν3 und ν4 die Radien der Formanten in dem AR-Modell von dem Schmalband-Sprachsignal sind. Die Parameter am, m=1, 2, 3, 4, sind die linearen Koeffizienten. Der Parameter νωs ist der Radius des fünften synthetischen Formanten des AR-Modells des Breitband-Sprachsignals.
  • Wenn verschiedene AR-Modelle verwendet werden, dann kann die Gleichung 12 wie folgt ausgedrückt werden:
    Figure 00290002
    wobei ν der Radius des Formanten ist und wobei der erste Index die AR-Modellnummer bezeichnet, der zweite Index die Formantennummer bezeichnet und der dritte Index ω in dem Vektor ganz rechts den von dem Breitband-Sprachsignal geschätzten Formanten bezeichnet, und k die Anzahl der AR-Modelle ist. Dieses System von Gleichungen ist überbestimmt und die Least-Square-Lösung kann mit Hilfe der Pseudoinversen berechnet werden.
  • Die erzielte Lösung wurde dann verwendet, um den Radius des neuen synthetischen Formant en als
    Figure 00300001
    zu berechnen, wobei νi5 der neue synthetische Formantenradius und der α-Paramter die Lösung für das Gleichungssystem 13 sind.
  • Die vorliegende Erfindung wird oben unter Hinzunahme auf bestimmte Ausführungsformen beschrieben, und es wird für einen Fachmann leicht einsehbar sein, dass es möglich ist, die Erfindung in anderen Gestalten als die obig beschriebenen, umzusetzen. Die obig beschriebenen, bestimmten Ausführungsformen sind nur anschaulich und sollen nicht in irgendeiner Weise als einschränkend betrachtet werden. Der Umfang der Erfindung ist durch die nachfolgenden Patentansprüche gegeben, und sämtliche Variationen und Ähnlichkeiten, die innerhalb des Umfanges der Patentansprüche fallen, werden als damit umfasst angesehen.

Claims (17)

  1. Verfahren zum Verarbeiten eines Schmalband-Sprachsignals durch Hinzufügen von synthetischem Inhalt eines oberen Bandes, um das reproduzierte Frequenzband zu erweitern, wobei das Schmalband-Sprachsignal mittels eines Abtastenraten-Aufwärtswandlers aufwärts gesampelt wird, das Verfahren weist die folgenden Verfahrensschritte auf: Durchführen einer Spektralanalyse, um eine Formanten-Struktur des aufwärtsgesampelten Schmalband-Sprachsignals zu analysieren, und Erzeugen eines Fehlersignals und Parameter, die das aufwärtsgesampelte Schmalband-Sprachsignal beschreiben; Ermitteln, basierend auf dem Fehlersignal, des Abstandes der Klangsegmente, die durch das aufwärtsgesampelte Schmalband-Sprachsignal dargestellt werden, und ob das Klangsegment einen stimmhaften oder einen nicht-stimmhaften Klang darstellt; Verarbeiten von Informationen, die von dem aufwärtsgesampelten Schmalband-Sprachsignal über die Spektralanalyse und die Abstandsermittlung abgeleitet wird, und dadurch Erzeugen des synthetischen Signalinhalts des oberen Bandes; Reproduzieren eines niedrigeren Bandes basierend auf den erzeugten beschreibenden Parametern; und Synthetisieren des unteren Bandes mit dem synthetischen Inhalt des oberen Bandes, um ein Breitband-Sprachsignal zu erzeugen, welches das Schmalband-Sprachsignal darstellt.
  2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass das aufwärtsgesampelte Schmalband-Sprachsignal Informationsinhalte in dem Bereich von etwa 0 bis 4 kHz bereitstellt und dass der synthetische Inhalt des höheren Bandes in dem Bereich von etwa 4 bis 8 kHz liegt.
  3. Verfahren gemäß Anspruch 1, wobei der Verfahrensschritt des Verarbeitens von Informationen, die von dem aufwärtsgesampelten Schmalband-Sprachsignal abgeleitet wird, durch die folgenden Schritte gekennzeichnet ist: Identifizieren von Spitzen, die in Zusammenhang mit dem Schmalband-Sprachsignal stehen; und Kopieren von Informationen von dem aufwärtsgesampelten Schmalband-Sprachsignal in ein oberes Frequenzband basierend auf wenigstens den ermittelten Abstand oder dem identifizierten Spitzen, um den synthetischen Inhalt des oberen Bandes bereitzustellen.
  4. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass das die Spektralanalyse einen AR-Prediktor bzw. ein AR-Vorhersagegerät verwendet.
  5. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Spektralanalyse ein sinusförmiges bzw. harmonisches Modell verwendet.
  6. Verfahren gemäß Anspruch 1, gekennzeichnet durch den zusätzlichen Schritt des selektiven Verstärkens eines bestimmten Frequenzbereiches des Breitband-Signals.
  7. Verfahren gemäß Anspruch 1, gekennzeichnet durch den zusätzlichen Schritt des Konvertierens des Breitband-Signals in ein analoges Format.
  8. Verfahren gemäß Anspruch 7, gekennzeichnet durch den zusätzlichen Schritt des Verstärkens des Breitband-Signals.
  9. System zum Verarbeiten eines Schmalband-Sprachsignals durch Hinzufügen von synthetischem Inhalt eines höheren Bandes, um das reproduzierte Frequenzband zu erweitern, wobei das Schmalband-Sprachsignal durch einen Abtastraten-Aufwärtswandler (410) aufwärtsgesampelt ist, das System weist folgendes auf: ein parametrisches Spektralanalyse-Modul (420), welches eine Formanten-Struktur des aufwärtsgesampelten Schmalband-Sprachsignals analysiert und ein Fehlersignal (424) und Parameter (422) erzeugt, die das aufwärtsgesampelte Schmalband-Sprachsignal beschreiben; ein Abstandsentscheidungs-Modul (430) welches, basierend auf dem Fehlersignal (424), einen Abstand eines mittels des aufwärtsgesampelten Schmalband-Sprachsignals dargestellten Klangsegmentes, und ob das Klangsegment einen stimmhaften oder einen nicht-stimmhaften Klang darstellt, ermittelt; ein Residuum-Erweiterungs- und -Kopiermodul (440), welches Informationen verarbeitet, die über das parametrische Spektralanalyse-Modul (420) und das Abstandsentscheidungs-Modul (430) von dem aufwärtsgesampelten Schmalband-Sprachsignal abgeleitet wird, und welches den synthetischen Signalinhalt des oberen Bandes erzeugt; und einen synthetischen Filter (450), welcher ein niedrigeres Band reproduziert, basierend auf den mittels des parametrischen Spektralanalyse-Moduls (420) erzeugten, beschreibenden Parametern (422), und welcher das niedrigere Band mit dem synthetischen oberen Bandinhalt synthetisiert, um ein Breitband-Sprachsignal zu erzeugen, dass das Schmalband-Sprachsignal darstellt.
  10. System gemäß Anspruch 9, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) folgendes aufweist: ein Fast-Fourier-Transformations-Modul (510) zum Konvertieren des Fehlersignals (424) von dem parametrischen Spektralanalyse-Modul (420) in den Frequenzraum; einen Spitzendetektor (520) zum Identifizieren harmonischer Frequenzen des Fehlersignals (424); und ein Kopiermodul (530) zum Kopieren der mittels des Spitzendetektors identifizierten Spitzen in ein oberes Band.
  11. System gemäß Anspruch 10, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) ferner ein Modul zum Erzeugen künstlichen, nicht-stimmhaften Sprachinhalts (540) aufweist.
  12. System gemäß Anspruch 11, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) ferner einen Kombinierer (560) aufweist, zum Kombinieren eines Ausgabesignals von dem Kopiermodul (530) und einer Ausgabe von dem Modul zum Erzeugen künstlichen, nichtstimmhaften Sprachinhalts (540).
  13. System gemäß Anspruch 12, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) ferner ein Verstärkungssteuerungs-Modul (550) aufweist, zum Gewichten der Eingabesignale in den Kombinierer (560).
  14. System gemäß Anspruch 12, dadurch gekennzeichnet, dass das Residuum-Erweiterungs- und Kopiermodul (440) ferner ein zweites Fast-Fourier-Transformations-Modul (570) aufweist zum Konvertieren des kombinierten Ausgabesignals von dem Kombinierer (560) von dem Frequenzraum in den Zeitraum.
  15. System zum Verarbeiten eines Schmalband-Sprachsignals durch Hinzufügen von synthetischem Inhalt eines oberen Bandes, um das reproduzierte Frequenzband zu erweitern, folgendes aufweisend: einen Abtastraten-Aufwärtswandler (610), der das Schmalband-Sprachsignal empfängt und die Abtastfrequenz erhöht, um eine Ausgabesignal zu erzeugen, welches ein erweitertes Frequenzspektrum aufweist; ein parametrisches Spektralanalyse-Modul (620), welches das Ausgabesignal von dem Abtastraten-Aufwärtswandler (610) empfängt und das Ausgabesignal analysiert, um ein Residuum-Fehlersignal und Parameter zu erzeugen, die in Zusammenhang mit einem Sprach-Modell stehen; ein Abstandsentscheidungs-Modul (630), welches das Residuum-Fehlersignal von dem parametrischen Spektralanalyse-Modul (620) empfängt und welches ein Abstandssignal erzeugt, dass den Abstand des Sprachsignals darstellt, und welches ein Indikatorsignal erzeugt, welches anzeigt, ob das Sprachsignal stimmhafte Sprache oder nicht-stimmhafte Sprache darstellt; ein Residuum-Erweiterungs- und Kopiermodul (640), welches das Residuum-Fehlersignal und das Abstandssignal empfängt und verarbeitet, um eine synthetische Signalkomponente des oberen Bandes zu erzeugen.
  16. System gemäß Anspruch 15, dadurch gekennzeichnet, dass es ferner folgendes aufweist: einen synthetischen Filter (650), welcher die Parameter von dem parametrischen Spektralanalyse-Modul (620) und von dem Residuum-Fehlersignal abgeleitete Information empfängt, und welcher ein Breitband-Signal erzeugt, dass dem Schmalband-Sprachsignal entspricht.
  17. System gemäß Anspruch 16, wobei das Indikatorsignal von dem Abstandsentscheidungs-Modul einen Schalter (635) steuert, der mit einer Eingabe des synthetischen Filters (650) verbunden ist, so dass, wenn das Indikatorsignal anzeigt, dass das Sprachsignal stimmhafte Sprache darstellt, die Eingabe des synthetischen Filters mit der Ausgabe des Residuum-Erweiterungs- und Kopiermoduls (640) verbunden wird, und wenn das Indikatorsignal anzeigt, dass das Sprachsignal nicht-stimmhafte Sprache darstellt, die Eingabe zu dem synthetischen Filter mit der Residuum-Fehlersignal-Ausgabe von dem parametrischen Spektralanalyse-Modul (620) verbunden wird.
DE60101148T 2000-01-28 2001-01-17 Vorrichtung und verfahren zur sprachsignalmodifizierung Expired - Fee Related DE60101148T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US17872900P 2000-01-28 2000-01-28
US178729P 2000-01-28
US754993 2001-01-05
US09/754,993 US6704711B2 (en) 2000-01-28 2001-01-05 System and method for modifying speech signals
PCT/EP2001/000451 WO2001056021A1 (en) 2000-01-28 2001-01-17 System and method for modifying speech signals

Publications (2)

Publication Number Publication Date
DE60101148D1 DE60101148D1 (de) 2003-12-11
DE60101148T2 true DE60101148T2 (de) 2004-05-27

Family

ID=26874591

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60101148T Expired - Fee Related DE60101148T2 (de) 2000-01-28 2001-01-17 Vorrichtung und verfahren zur sprachsignalmodifizierung

Country Status (7)

Country Link
US (1) US6704711B2 (de)
EP (1) EP1252621B1 (de)
CN (1) CN1185626C (de)
AT (1) ATE253766T1 (de)
AU (1) AU2001230190A1 (de)
DE (1) DE60101148T2 (de)
WO (1) WO2001056021A1 (de)

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001260162A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
JP2003534578A (ja) * 2000-05-26 2003-11-18 セロン フランス エスアーエス 狭帯域で符号化される信号を送信する送信器、受信側において符号化信号の帯域を拡大する受信器、対応する送信及び受信方法、及び、そのシステム
US6829577B1 (en) * 2000-11-03 2004-12-07 International Business Machines Corporation Generating non-stationary additive noise for addition to synthesized speech
US7346499B2 (en) * 2000-11-09 2008-03-18 Koninklijke Philips Electronics N.V. Wideband extension of telephone speech for higher perceptual quality
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
US7113522B2 (en) * 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
JP4711099B2 (ja) * 2001-06-26 2011-06-29 ソニー株式会社 送信装置および送信方法、送受信装置および送受信方法、並びにプログラムおよび記録媒体
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
EP1433166B8 (de) * 2001-09-28 2008-01-02 Nokia Siemens Networks Gmbh & Co. Kg Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
EP1374230B1 (de) * 2001-11-14 2006-06-21 Matsushita Electric Industrial Co., Ltd. Audiocodierung und decodierung
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
GB0202386D0 (en) * 2002-02-01 2002-03-20 Cedar Audio Ltd Method and apparatus for audio signal processing
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7123948B2 (en) * 2002-07-16 2006-10-17 Nokia Corporation Microphone aided vibrator tuning
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7283585B2 (en) * 2002-09-27 2007-10-16 Broadcom Corporation Multiple data rate communication system
US7889783B2 (en) * 2002-12-06 2011-02-15 Broadcom Corporation Multiple data rate communication system
US7519530B2 (en) * 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US20040138876A1 (en) * 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
JP4311034B2 (ja) * 2003-02-14 2009-08-12 沖電気工業株式会社 帯域復元装置及び電話機
WO2005031702A1 (en) * 2003-08-11 2005-04-07 Faculté Polytechnique de Mons Method for estimating resonance frequencies
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
US7949057B2 (en) 2003-10-23 2011-05-24 Panasonic Corporation Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
JP4649888B2 (ja) * 2004-06-24 2011-03-16 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
DE602004020765D1 (de) * 2004-09-17 2009-06-04 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten Tonsignalen
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
NZ562188A (en) * 2005-04-01 2010-05-28 Qualcomm Inc Methods and apparatus for encoding and decoding an highband portion of a speech signal
ES2350494T3 (es) * 2005-04-01 2011-01-24 Qualcomm Incorporated Procedimiento y aparatos para codificar y decodificar una parte de banda alta de una señal de habla.
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8892448B2 (en) * 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
EP2002542B1 (de) * 2006-02-21 2022-01-05 Cirrus Logic International Semiconductor Limited Verfahren und einrichtung zur verzögerungsarmen verarbeitung
US8392176B2 (en) * 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US20090281813A1 (en) * 2006-06-29 2009-11-12 Nxp B.V. Noise synthesis
US9454974B2 (en) 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR101375582B1 (ko) * 2006-11-17 2014-03-20 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US7818168B1 (en) * 2006-12-01 2010-10-19 The United States Of America As Represented By The Director, National Security Agency Method of measuring degree of enhancement to voice signal
US8005671B2 (en) 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US7912729B2 (en) * 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
EP1970900A1 (de) * 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Verfahren und Vorrichtung zum Bereitstellen eines Codebuchs für die Bandbreitenerweiterung eines akustischen Signals
GB0705324D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
US20090198500A1 (en) * 2007-08-24 2009-08-06 Qualcomm Incorporated Temporal masking in audio coding based on spectral dynamics in frequency sub-bands
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
EP2207166B1 (de) * 2007-11-02 2013-06-19 Huawei Technologies Co., Ltd. Audiodekodierungsverfahren und -vorrichtung
EP2220646A1 (de) * 2007-11-06 2010-08-25 Nokia Corporation Audiocodierungsvorrichtung und verfahren dafür
US9082397B2 (en) * 2007-11-06 2015-07-14 Nokia Technologies Oy Encoder
KR101597375B1 (ko) 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090314154A1 (en) * 2008-06-20 2009-12-24 Microsoft Corporation Game data generation based on user provided song
CN101620854B (zh) * 2008-06-30 2012-04-04 华为技术有限公司 频带扩展的方法、系统和设备
JP4818335B2 (ja) * 2008-08-29 2011-11-16 株式会社東芝 信号帯域拡張装置
CN101859578B (zh) * 2009-04-08 2011-08-31 陈伟江 语音类产品的制作处理方法
PL2273493T3 (pl) * 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
EP2481048B1 (de) * 2009-09-25 2017-10-25 Nokia Technologies Oy Audiokodierung
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
WO2013019562A2 (en) 2011-07-29 2013-02-07 Dts Llc. Adaptive voice intelligibility processor
HUE050600T2 (hu) 2011-11-03 2021-01-28 Voiceage Evs Llc A nem-beszéd tartalom javítása alacsony sebességû CELP számára
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
US9564119B2 (en) * 2012-10-12 2017-02-07 Samsung Electronics Co., Ltd. Voice converting apparatus and method for converting user voice thereof
KR102174270B1 (ko) * 2012-10-12 2020-11-04 삼성전자주식회사 음성 변환 장치 및 이의 음성 변환 방법
KR102446441B1 (ko) * 2012-11-13 2022-09-22 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN108172239B (zh) * 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置
CN103594091B (zh) * 2013-11-15 2017-06-30 努比亚技术有限公司 一种移动终端及其语音信号处理方法
US20150170655A1 (en) * 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
US20150215668A1 (en) * 2014-01-29 2015-07-30 Silveredge, Inc. Method and System for cross-device targeting of users
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN107077849B (zh) 2014-11-07 2020-09-08 三星电子株式会社 用于恢复音频信号的方法和设备
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
WO2017115098A1 (en) * 2015-12-29 2017-07-06 Otis Elevator Company Acoustic elevator communication system and method of adjusting such a system
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
WO2020157888A1 (ja) * 2019-01-31 2020-08-06 三菱電機株式会社 周波数帯域拡張装置、周波数帯域拡張方法、及び周波数帯域拡張プログラム
CN113066503B (zh) * 2021-03-15 2023-12-08 广州酷狗计算机科技有限公司 音频帧的调整方法、装置、设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3683767D1 (de) * 1986-04-30 1992-03-12 Ibm Sprachkodierungsverfahren und einrichtung zur ausfuehrung dieses verfahrens.
US6208959B1 (en) 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
EP0945852A1 (de) 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Sprachsynthese
GB2351889B (en) 1999-07-06 2003-12-17 Ericsson Telefon Ab L M Speech band expansion

Also Published As

Publication number Publication date
US20010044722A1 (en) 2001-11-22
CN1397064A (zh) 2003-02-12
CN1185626C (zh) 2005-01-19
US6704711B2 (en) 2004-03-09
EP1252621B1 (de) 2003-11-05
ATE253766T1 (de) 2003-11-15
EP1252621A1 (de) 2002-10-30
AU2001230190A1 (en) 2001-08-07
DE60101148D1 (de) 2003-12-11
WO2001056021A1 (en) 2001-08-02

Similar Documents

Publication Publication Date Title
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60216214T2 (de) Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE102005032724B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
CN1838239B (zh) 一种用于增强信源解码器的设备及方法
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60016532T2 (de) Verfahren zur verschleierung von rahmenausfall
DE60120949T2 (de) Eine hörprothese mit automatischer hörumgebungsklassifizierung
DE60212696T2 (de) Bandbreitenvergrösserung für audiosignale
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE60128479T2 (de) Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
DE10296616T5 (de) Bandbreiten-Ausdehnung von akustischen Signalen
DE112014000945B4 (de) Sprachbetonungsgerät
DE102008031150B3 (de) Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee