DE69924280T2 - Sprachsynthese aus grundfrequenz-prototypwellenformen durch zeit-synchrone wellenforminterpolation - Google Patents

Sprachsynthese aus grundfrequenz-prototypwellenformen durch zeit-synchrone wellenforminterpolation Download PDF

Info

Publication number
DE69924280T2
DE69924280T2 DE69924280T DE69924280T DE69924280T2 DE 69924280 T2 DE69924280 T2 DE 69924280T2 DE 69924280 T DE69924280 T DE 69924280T DE 69924280 T DE69924280 T DE 69924280T DE 69924280 T2 DE69924280 T2 DE 69924280T2
Authority
DE
Germany
Prior art keywords
pitch
prototype
speech
frame
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69924280T
Other languages
English (en)
Other versions
DE69924280D1 (de
Inventor
Amitava Das
L. Eddie CHOY
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of DE69924280D1 publication Critical patent/DE69924280D1/de
Publication of DE69924280T2 publication Critical patent/DE69924280T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Hintergrund der Erfindung
  • I. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Sprachverarbeitung und insbesondere ein Verfahren und eine Vorrichtung zur Synthese von Sprache aus Pitchprototypsignalformen bzw. -wellenformen (pitch prototyp waveforms) durch eine zeitsynchrone Signalforminterpolation (TSWI – time synchronous waveform interpolation).
  • II. Hintergrund des Standes der Technik
  • Eine Übertragung von Sprache durch digitale Techniken ist weit verbreitet, insbesondere in Fern- und digitalen Funktelefonanwendungen. Dies wiederum hat ein Interesse erzeugt hinsichtlich der Bestimmung der geringsten Menge von Information, die über einen Kanal gesendet werden kann, während die empfundene Qualität der wiederhergestellten Sprache beibehalten wird. Wenn Sprache durch einfaches Abtasten und Digitalisieren übertragen wird, ist eine Datenrate in dem Bereich von vierundsechzig Kilobits pro Sekunde (kbps) erforderlich, um eine Sprachqualität eines herkömmlichen analogen Telefons zu erzielen. Jedoch kann durch die Verwendung einer Sprachanalyse, gefolgt von der geeigneten Codierung, Übertragung und Neu-Synthese an dem Empfänger eine signifikante Reduzierung der Datenrate erzielt werden.
  • Vorrichtungen, die Techniken einsetzen zum Komprimieren von Sprache durch Extrahieren von Parametern, die ein Modell einer menschlichen Spracherzeugung betreffen, werden als Sprachcodierer bezeichnet. Ein Sprachcodierer teilt das ankommende Sprachsignal in Zeitblöcke oder Analyserahmen. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer auf oder einen Codec. Der Codierer analysiert den ankommenden Sprachrahmen, um bestimmte relevante Parameter zu gewinnen, und quantisiert dann die Parameter in eine binäre Darstellung, d.h. in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Kommunikationskanal an einen Empfänger und einen Decodierer übertragen. Der Decodierer verarbeitet die Datenpakete, entquantisiert sie zur Erzeugung der Parameter und resynthetisiert dann die Sprachrahmen unter Verwendung der entquantisierten Parameter.
  • Die Funktion des Sprachcodierers liegt darin, das digitalisierte Sprachsignal in ein Signal mit niedriger Bitrate zu komprimieren und zwar durch Entfernen aller in Sprache inhärenter natürlicher Redundanzen. Die digitale Komprimierung wird erreicht durch Darstellen des Eingabe-Sprachrahmens mit einem Satz von Parametern und Anwenden einer Quantisierung, um die Parameter mit einem Satz von Bits darzustellen. Wenn der Eingabe-Sprachrahmen eine Anzahl von Bits Ni aufweist und das von dem Sprachcodierer erzeugte Datenpaket eine Anzahl von Bits No aufweist, ist der von dem Sprachcodierer erzielte Komprimierungsfaktor Cr = Ni/No. Die Herausforderung liegt darin, eine hohe Sprachqualität der decodierten Sprache beizubehalten und gleichzeitig den Ziel-Komprimierungsfaktor zu erreichen. Die Leistung eines Sprachcodierers hängt davon ab, (1) wie gut das Sprachmodell oder die Kombination des oben beschriebenen Analyse- und Synthese-Prozesses arbeitet und (2) wie gut der Parameter-Quantisierungsprozess bei der Ziel-Bitrate von No Bits pro Rahmen durchgeführt wird. Das Ziel des Sprachmodells ist somit, die Essenz des Sprachsignals oder die Ziel-Sprachqualität mit einem kleinen Satz von Parametern für jeden Rahmen zu erfassen.
  • Ein Sprachcodierer wird als Zeitbereichs bzw. Domain-Codierer (time-domain coder) bezeichnet, wenn sein Modell ein Zeitbereichsmodell ist. Ein weithin bekanntes Beispiel ist der „Code Excited Linear Predictive (CELP)"-Codierer, der von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453 (1978) beschrieben wurde. In einem CELP-Coder werden die Kurzzeit-Korrelationen oder Redundanzen in dem Sprachsignal durch eine lineare Prädiktions-Analyse (LP – linear predictive) entfernt, welche die Koeffizienten eines Kurzzeit-Formant-Filters findet. Ein An wenden des Kurzzeit-Prädiktionsfilters auf den eingehenden Sprachrahmen erzeugt ein LP-Restsignal, dass weiter mit Langzeit-Prädiktionsfilter-Parametern und einem nachfolgenden stochastischen Codebuch modelliert und quantisiert wird. Somit teilt eine CELP-Codierung die Aufgabe einer Codierung der Zeitbereichs-Sprachsignalform in die getrennten Aufgaben einer Codierung der LP-Kurzzelt-Filter-Koeffizienten und einer Codierung des LP-Rests. Das Ziel ist, eine synthetisierte Ausgabe-Sprachsignalform zu erzeugen, die der Eingabe-Sprachsignalform sehr ähnlich ist. Um die Zeitbereichs-Signalform exakt zu erhalten, teilt der CELP-Codierer den Rest-Rahmen weiter in kleinere Blöcke oder Teil-Rahmen, und führt das Analyse-durch-Synthese-Verfahren für jeden Teil-Rahmen fort. Dies erfordert eine hohe Anzahl von Bits No pro Rahmen, da viele Parameter für jeden Teil-Rahmen zu quantisieren sind. CELP-Codierer liefern typischerweise eine exzellente Qualität, wenn die verfügbare Anzahl von Bits No pro Rahmen groß genug zum Codieren von Bitraten von 8 kbps und höher ist.
  • EP-A-0 865 028 beschreibt eine Signalform-Interpolations-Sprachcodierung unter Verwendung von Spline-Funktionen. Von einem Signalform-Interpolations-Codierer werden zwei Signale empfangen, wobei jedes einen Satz von Frequenzbereichsparametern aufweist, der ein Sprachsignalsegment einer entsprechenden Pitchperiode (Pitchzeitdauer) darstellt. Aus jedem der empfangenen Signale werden Spline-Koeffizienten erzeugt und umfassen eine Spline-Darstellung einer Zeitbereichstransformation des entsprechenden Satzes von Frequenzbereichsparametern. Der Decodierer interpoliert zwischen den Spline-Darstellungen, um interpolierte Zeitbereichsdaten zu erzeugen, die zur Synthetisierung eines rekonstruierten Sprachsignals verwendet werden.
  • Eine Signalform-Interpolation (WI – waveform interpolation) ist eine aufkommende Sprachcodiertechnik, in der für jeden Sprachrahmen eine Anzahl M von Prototyp-Signalformen extrahiert und mit den verfügbaren Bits codiert wird. Die ausgegebene Sprache wird von den decodierten Prototyp-Signalformen durch eine herkömmliche Signalform-Interpolationstechnik syn thetisiert. Verschiedene WI-Techniken werden von W. Bastiaan Kleijn & Jesper Haagen in „Speech Coding and Synthesis", 176–205 (1995) beschrieben. Herkömmliche WI-Techniken werden ebenfalls in dem U.S.-Patent Nr. 5,517,595 beschrieben. In derartigen herkömmlichen WI-Techniken ist es jedoch notwendig, mehr als eins Prototyp-Signalform pro Rahmen zu extrahieren, um genaue Ergebnisse zu liefern. Zusätzlich existiert kein Mechanismus, um einen Zeit-Synchronismus der rekonstruierten Signalform vorzusehen. Aus diesem Grund ist nicht garantiert, dass die synthetisierte ausgegebene WI-Signalform mit der ursprünglich eingegebenen Signalform ausgerichtet ist.
  • Im Moment steigt das Forschungsinteresse und es besteht ein starkes kommerzielles Bedürfnis, einen Sprachcodierer mit hoher Qualität zu entwickeln, der bei mittleren bis niedrigen Bitraten arbeitet (d.h. in dem Bereich von 2.4 bis 4 kbps und darunter). Die Anwendungsbereiche umfassen drahtloses Fernsprechen, Satelliten-Kommunikation, Internet-Fernsprechen, verschiedene Multimedia- und Sprach-„Streaming"-Anwendungen, Voice-Mail und andere Sprachspeichersysteme. Die treibenden Kräfte sind der Bedarf für eine hohe Kapazität und der Anspruch auf eine robuste Leistung bei Paketverlustsituationen. Verschiedene neue Anstrengungen für eine Sprachcodierungs-Standardisierung sind eine weitere direkte treibende Kraft, die Forschung und Entwicklung von Sprachcodieralgorithmen für niedrige Raten antreibt. Ein Sprachcodierer für niedrige Raten erlaubt mehr Kanäle oder Benutzer pro zulässiger Anwendungs-Bandbreite und ein Sprachcodierer für niedrige Raten gekoppelt mit einer zusätzlichen Schicht geeigneter Kanalcodierung kann dem gesamten Bit-Budget von Codierer-Spezifikationen entsprechen und eine robuste Leistung unter Kanalfehlerbedingungen liefern.
  • Jedoch hören bei niedrigen Bitraten (4 kbps und darunter) Zeitbereichs-Codierer, wie der CELP-Codierer, aufgrund der begrenzten Anzahl von verfügbaren Bits auf, eine hohe Qualität und eine robuste Leistung beizubehalten. Bei niedrigen Bitraten beschneidet der begrenzte Codebook-Raum die Signalform-Anpassungsfähigkeit von herkömmlichen Zeitbereichs-Codierern, die so erfolgreich in kommerziellen Anwendungen für höhere Raten eingesetzt werden.
  • Eine wirksame Technik, um Sprache wirksam bei einer niedrigen Bitrate zu codieren, ist eine Multimodus-Codierung. Ein Multimodus-Codierer wendet unterschiedliche Modi oder Codier-Decodier-Algorithmen auf unterschiedliche Typen von Eingabe-Sprachrahmen an. Jeder Modus oder Codier-Decodier-Vorgang ist spezifisch, um einen bestimmten Typ von Sprachsegment (d.h. stimmhaft, stimmlos oder Hintergrundgeräusch) auf die wirksamste Weise darzustellen. Ein externer Modus-Entscheidungs-Mechanismus untersucht den Eingabe-Sprachrahmen und trifft eine Entscheidung hinsichtlich welcher Modus auf den Rahmen anzuwenden ist. Typischerweise wird die Modus-Entscheidung auf eine Art eines offenen Regelkreises (open loop) durchgeführt durch Extrahieren einer Anzahl von Parametern aus dem Eingabe-Rahmen und deren Bewertung, um eine Entscheidung zu treffen hinsichtlich welcher Modus anzuwenden ist. Somit wird die Modus-Entscheidung getroffen, ohne vorher die genaue Bedingung der Ausgabe-Sprache zu kennen, d.h. wie ähnlich die Ausgabe-Sprache zu der Eingabe-Sprache sein wird hinsichtlich einer Sprachqualität oder jedes anderen Leistungsmaßes. Eine beispielhafte „open-loop"-Modus-Entscheidung für einen Sprachcodec wird in dem U.S.-Patent Nr. 5,414,796 beschrieben, das dem Anmelder der vorliegenden Erfindung erteilt wurde.
  • Eine Multimodus-Codierung kann mit fester Rate erfolgen, unter Verwendung derselben Anzahl von Bits No für jeden Rahmen, oder mit variabler Rate, wobei unterschiedliche Bitraten für unterschiedliche Modi verwendet werden. Das Ziel bei einer Codierung mit einer variablen Rate liegt darin, nur die Menge von Bits zu verwenden, die zum Codieren der Codec-Parameter auf einen Grad erforderlich sind, der zum Erreichen der Zielqualität angemessen ist. Als Ergebnis kann dieselbe angestrebte Sprachqualität wie die eines Codierers mit fester, höherer Rate mit einer signifikant geringeren Durchschnittsrate unter Verwendung von variable-Bitraten(VBR)-Techniken erreicht werden. Ein beispielhafter Sprachcodierer mit variabler Rate wird in dem U.S.-Patent Nr. 5,414,796 beschrieben, das dem Anmelder der vorliegenden Erfindung erteilt wurde.
  • Stimmhafte Sprachsegmente werden als quasiperiodisch bezeichnet, da derartige Segmente in Pitch-Prototypen oder kleine Segmente aufgeteilt werden können, deren Länge L(n) mit der Zeit variiert, da die Pitch- oder Grundfrequenz einer Periodizität mit der Zeit variiert. Derartige Segmente oder Pitch-Prototypen haben einen starken Korrelationsgrad, d.h. sie sind sich sehr ähnlich. Dies trifft besonders auf benachbarte Pitch-Prototypen zu. Es ist vorteilhaft bei der Gestaltung eines effizienten Multimodus-VBR-Codierers, der eine hohe Sprachqualität bei einer niedrigen Durchschnittsrate liefert, die quasiperiodischen stimmhaften Sprachsegmente mit einem Modus einer niedrigen Rate darzustellen.
  • Es wäre wünschenswert, ein Sprachmodell oder ein Analyse-Synthese-Verfahren vorzusehen, das quasiperiodische stimmhafte Segmente von Sprache darstellt. Es wäre weiter wünschenswert, ein Modell zu gestalten, das eine Synthese mit hoher Qualität liefert, wodurch Sprache mit einer hohen Sprachqualität erzeugt wird. Es wäre noch weiter wünschenswert, dass das Modell einen geringen Satz von Parametern aufweist, um so zugänglich zu sein für ein Codieren mit einem geringen Satz von Bits. Somit gibt es die Notwendigkeit für ein Verfahren einer zeitsynchronen Signalform-Interpolation für stimmhafte Sprachsegmente, das eine minimale Menge von Bits zur Codierung erfordert und eine Sprachsynthese von hoher Qualität liefert.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung betrifft ein Verfahren einer zeitsynchronen Signalform-Interpolation für stimmhafte Sprachsegmente, das eine minimale Menge von Bits zur Codierung erfordert und eine Sprachsynthese von hoher Qualität liefert. Demgemäß umfasst in einem Aspekt der Erfindung ein Verfahren zur Synthetisierung von Sprache aus Pitchprototypsignalformen durch zeitsynchrone Signalform-Interpolation vorteilhafterweise Extrahieren von zumindest einem Pitchprototyp pro Rahmen aus einem Signal; Anwenden einer Phasenverschiebung auf den extrahierten Pitchprototyp relativ zu einem vorher extrahierten Pitchprototyp; Höherabtasten (upsampling) des Pitchprototyps für jeden Abtastpunkt innerhalb des Rahmens; Konstruieren einer zweidimensionalen prototyp-evolvierenden Oberfläche; und Wieder-Abtasten (re-sampling) der zweidimensionalen Oberfläche, um einen eindimensionalen synthetisierten Signalrahmen zu erzeugen, wobei die Wieder-Abtastpunkte durch stückweise bzw. abschnittsweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus Pitchverzögerungen (pitch lags) und Ausrichtungsphasenverschiebungen, addiert zu dem extrahierten Pitchprototyp, berechnet werden.
  • In einem weiteren Aspekt der Erfindung umfasst eine Vorrichtung zum Synthetisieren von Sprache aus Pitchprototypsignalformen durch eine zeitsynchrone Signalform-Interpolation vorteilhafterweise Mittel zum Extrahieren zumindest eines Pitchprototyps pro Rahmen aus einem Signal; Mittel zum Anwenden einer Phasenverschiebung auf den extrahierten Pitchprototyp relativ zu einem vorher extrahierten Pitchprototyp; Mittel zum Höherabtasten (upsampling) des Pitchprototyps für jeden Abtastpunkt innerhalb des Rahmens; Mittel zum Konstruieren einer zweidimensionalen prototypevolvierenden Oberfläche; und Mittel zum Wieder-Abtasten (re-sampling) der zweidimensionalen Oberfläche, um einen eindimensionalen synthetisierten Signalrahmen zu erzeugen, wobei die Wieder-Abtastpunkte durch stückweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus Pitchverzögerungen (pitch lags) und Ausrichtungsphasenverschiebungen, addiert zu dem extrahierten Pitchprototyp, berechnet werden.
  • Die Vorrichtung zum Synthetisieren von Sprache aus Pitchprototypsignalformen durch eine zeitsynchrone Signalform-Interpolation umfasst vorteilhafterweise ein Modul, das konfiguriert ist, zumindest einen Pitchprototyp pro Rahmen aus einem Signal zu extrahieren; ein Modul, das konfiguriert ist, eine Phasenverschiebung auf den extrahierten Pitchprototyp relativ zu einem vorher extrahierten Pitchprototyp anzuwenden; ein Modul, das konfiguriert ist, den Pitchprototyp für jeden Abtastpunkt innerhalb des Rahmens höher abzutasten; ein Modul, das konfiguriert ist, eine zweidimensionale prototypevolvierende Oberfläche zu konstruieren; und ein Modul, das konfiguriert ist, die zweidimensionale Oberfläche wieder bzw. erneut abzutasten, um einen eindimensionalen synthetisierten Signalrahmen zu erzeugen, wobei die Wieder-Abtastpunkte durch stückweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus Pitchverzögerungen (pitch lags) und Ausrichtungsphasenverschiebungen, addiert zu dem extrahierten Pitchprototyp, berechnet werden.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines Kommunikationskanals, der an jedem Ende von Sprachcodierern begrenzt wird.
  • 2 ist ein Blockdiagramm eines Codierers.
  • 3 ist ein Blockdiagramm eines Decodierers.
  • 4A–C sind jeweils Darstellungen einer Signalamplitude gegenüber einem diskreten Zeitindex, einer extrahierten Prototypenamplitude gegenüber einem diskreten Zeitindex und eine TSWI-rekonstruierte Signalamplitude gegenüber einem diskreten Zeitindex.
  • 5 ist ein funktionales Blockdiagramm, das eine Vorrichtung zum Synthetisieren von Sprache aus Pitchprototypsignalformen durch eine zeitsynchrone Signalforminterpolation (TSWI) darstellt.
  • 6A ist eine Darstellung einer verzerrten (wrapped) kubischen Phasenkontur gegenüber einem diskreten Zeitindex und 6B ist eine zweidimen sionale Flächendarstellung einer rekonstruierten Sprachsignalamplitude gegenüber der überlagerten Darstellung von 6A.
  • 7 ist eine Darstellung von entzerrten (unwrapped) quadratischen und kubischen Phasenkonturen gegenüber einem diskreten Zeitindex.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • In 1 empfängt ein erster Codierer 10 digitalisierte Sprachabtastwerte s(n) und codiert die Abtastwerte s(n) zur Übertragung auf einem Übertragungsmedium 12, oder Kommunikationskanal 12, an einen ersten Decodierer 14. Der Decodierer 14 decodiert die codierten Sprachabtastwerte und synthetisiert ein Ausgabesprachsignal sSYNTH(n). Zur Übertragung in die entgegengesetzte Richtung codiert ein zweiter Codierer 16 digitalisierte Sprachabtastwerte s(n), die auf einem Kommunikationskanal 18 übertragen werden. Ein zweiter Decodierer 20 empfängt und decodiert die codierten Sprachabtastwerte, wodurch er ein synthetisiertes Ausgabesprachsignal sSYNTH(n) erzeugt.
  • Die Sprachabtastwerte s(n) stellen Sprachsignale dar, die gemäß einem Verfahren von verschiedenen in der Technik bekannten Verfahren, einschließlich zum Beispiel einer Pulscode-Modulation (PCM – pulse code modulation), einem kompandierten μ-Gesetz oder einem A-Gesetz, digitalisiert und quantisiert wurden. Wie in dem Stand der Technik bekannt ist, werden die Sprachabtastwerte s(n) in Rahmen von Eingabedaten organisiert, wobei jeder Rahmen eine vorgegebene Anzahl von digitalisierten Sprachabtastwerten s(n) aufweist. In einem beispielhaften Ausführungsbeispiel wird eine Abtastrate von 8 kH eingesetzt, wobei jeder „20 ms"-Rahmen 160 Abtastwerte aufweist. In den im Folgenden beschriebenen Ausführungsbeispielen kann die Datenübertragungsrate vorteilhaft auf einer Rahmen-zu-Rahmen-Basis von 8 kbps (volle Rate) bis 4 kbps (halbe Rate) bis 2 kbps (viertel Rate) bis 1 kbps (achtel Rate) variiert werden. Ein Variieren der Datenübertragungsrate ist vorteilhaft, da niedrigere Bitraten selektiv für Rahmen eingesetzt werden können, die relativ wenig Sprachinformation enthalten. Wie für Fachleute offensichtlich ist, können andere Abtastraten, Rahmengrößen und Datenübertragungsraten verwendet werden.
  • Der erste Codierer 10 und der zweite Decodierer 20 weisen zusammen einen ersten Sprachcodierer oder Sprachcodec auf. Ähnlich weisen der zweite Codierer 16 und der erste Decodierer 14 zusammen einen zweiten Sprachcodierer auf. Es ist für Fachleute offensichtlich, dass Sprachcodierer mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – application-specific integrated circuit), einer diskreten Gate-Logik, einer Firmware oder einem herkömmlichen programmierbaren Software-Modul und einem Mikroprozessor implementiert werden können. Das Software-Modul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen Form von im Stand der Technik bekannten beschreibbaren Speichermedium befinden. Alternativ kann ein herkömmlicher Prozessor, eine Steuereinrichtung oder eine Zustandsmaschine den Mikroprozessor ersetzen. Beispielhafte ASICs, die speziell zur Sprachcodierung gestaltet wurden, werden in dem U.S.-Patent Nr. 5,727,123, das der Anmelderin der vorliegenden Erfindung erteilt wurde, und dem U.S.-Patent 5,784,532, das der Anmelderin der vorliegenden Erfindung erteilt wurde, beschrieben.
  • In 2 umfasst ein Codierer 100, der in einem Sprachcodierer verwendet werden kann, ein Modus-Entscheidungsmodul 102, ein Pitch-Schätzungsmodul 104, ein LP-Analysemodul 106, einen LP-Analysefilter 108, ein LP-Quantisierungsmodul 110 und ein Rest-Quantisierungsmodul 112. Eingabe-Sprachrahmen s(n) werden an das Modus-Entscheidungsmodul 102, das Pitch-Schätzungsmodul 104, das LP-Analysemodul 106 und den LP-Analysefilter 108 geliefert. Das Modus-Entscheidungsmodul 102 erzeugt einen Modus-Index IM und einen Modus M basierend auf der Periodizität jedes eingegebenen Sprachrahmens s(n). Verschiedene Verfahren zum Klassifizieren von Sprachrahmen gemäß einer Periodizität werden in dem U.S.-Patent Nr. 5,911,128 mit dem Titel „METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING", angemeldet 11. März 1997, beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde. Derartige Verfahren sind auch in den Industrie-Interim-Standards TIA/EIA IS-127 und TIA/EIA IS-733 der „Telecommunications Industry Association" enthalten.
  • Das Pitch-Schätzungsmodul 104 erzeugt einen Pitch-Index IP und einen Verzögerungswert PQ basierend auf jedem Eingabe-Sprachrahmen s(n). Das LP-Analysemodul 106 führt eine lineare prädiktive Analyse jedes Eingabe-Sprachrahmens s(n) durch, um einen LP-Parameter a zu erzeugen. Der LP-Parameter a wird an das LP-Quantisierungsmodul 110 geliefert. Das LP-Quantisierungsmodul 110 empfängt auch den Modus M. Das LP-Quantisierungsmodul 110 erzeugt einen LP-Index ILP und einen quantisierten LP-Parameter â. Der LP-Analysefilter 108 empfängt den quantisierten LP-Parameter â zusätzlich zu dem Eingabe-Sprachrahmen s(n). Der LP-Analysefilter 108 erzeugt ein LP-Restsignal R[n], das den Fehler zwischen den Eingabe-Sprachrahmen s(n) und den quantisierten LP-Parametern â darstellt. Das LP-Restsignal R[n], der Modus M und der quantisierte LP-Parameter â werden an das Rest-Quantisierungsmodul 112 geliefert. Basierend auf diesen Werten erzeugt das Rest-Quantisierungsmodul 112 einen Rest-Index IR und ein quantisiertes Restsignal R ^[n].
  • In 3 umfasst ein Decodierer 200, der in einem Sprachcodierer verwendet werden kann, ein LP-Parameter-Decodierungsmodul 202, ein Rest-Decodierungsmodul 204, ein Modus-Decodierungsmodul 206 und einen LP-Synthesefilter 208. Das Modus-Decodierungsmodul 206 empfängt und decodiert einen Modus-Index IM und erzeugt daraus einen Modus M. Das LP-Parameter-Decodierungsmodul 202 empfängt den Modus M und einen LP-Index ILP. Das LP-Parameter-Decodierungsmodul 202 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter â zu erzeugen. Das Rest-Decodierungsmodul 204 empfängt einen Rest-Index IR, einen Pitch-Index IP und den Modus-Index IM. Das Rest-Decodierungsmodul 204 decodiert die empfangenen Werte, um ein quantisiertes Restsignal R ^[n] zu er zeugen. Das quantisierte Restsignal R ^[n] und der quantisierte LP-Parameter â werden an den LP-Synthesefilter 208 geliefert, der daraus ein decodiertes Ausgabe-Sprachsignal ŝ[n] synthetisiert.
  • Betrieb und Implementierung der verschiedenen Module des Codierers 100 von 2 und des Decodiertes von 3 sind in dem Stand der Technik bekannt. Ein beispielhafter Codierer und ein beispielhafter Decodierer werden in dem U.S.-Patent Nr. 5,414,796 beschrieben.
  • In einem Ausführungsbeispiel werden quasi-periodische stimmhafte Segmente von Sprache durch Extrahieren von Pitchprototypsignalformen aus dem aktuellen Sprachrahmen Scur und Synthetisieren des aktuellen Sprachrahmens aus den Pitchprototypsignalformen durch eine zeitsynchrone Signalforminterpolation (TSWI) modelliert. Durch Extrahieren und Beibehalten nur einer Anzahl M von Pitchprototypsignalformen Wm, wobei m = 1, 2, ..., M ist und jede Pitchprototypsignalform Wm eine Länge Lcur aufweist, wobei Lcur die aktuelle Pitchperiode von dem aktuellen Sprachrahmen Scur ist, wird die Menge an Information, die codiert werden muss, von N Abtastwerten auf das Produkt aus M und Lcur Abtastwerten reduziert. Der Anzahl M kann entweder ein Wert von 1 oder ein diskreter Wert basierend auf der Pitchverzögerung gegeben werden. Ein höherer Wert von M ist oft erforderlich für einen kleinen Wert von Lcur, um zu verhindern, dass das rekonstruierte stimmhafte Signal übermäßig periodisch wird. In einem beispielhaften Ausführungsbeispiel wird M gleich 1 gesetzt, wenn die Pitchverzögerung größer als 60 ist. Ansonsten wird M gleich 2 gesetzt. Die M aktuellen Prototypen und der endgültige Pitchprototyp Wo mit einer Länge Lo aus dem vorherigen Rahmen werden verwendet, um eine Modell-Darstellung Scur_model des aktuellen Sprachrahmens durch Einsatz einer unten detailliert beschriebenen TSWI-Technik wiederherzustellen. Es sei angemerkt, dass als eine Alternative zur Wahl aktueller Prototypen Wm mit derselben Länge Lcur die aktuellen Prototypen Wm stattdessen Längen Lm aufweisen können, wobei die lokale Pitchperiode Lm entweder durch Schätzen der wahren Pitchperiode an dem pertinenten diskreten Zeitort nm oder durch Anwenden einer herkömmlichen In terpolations-Technik zwischen der aktuellen Pitchperiode Lcur und der letzten Pitchperiode Lo geschätzt werden kann. Die verwendete Interpolations-Technik kann zum Beispiel eine einfache lineare Interpolation sein: Lm = (1 – nm/N)*Lo + (nm/N)*Lcur,wobei der Zeitindex nm der Mittelpunkt des m-ten Segments ist, wobei m = 1, 2, ..., M ist.
  • Die obigen Beziehungen sind in den Darstellungen der 4A–C dargestellt. In 4A, die eine Signalamplitude gegenüber einem diskreten Zeitindex (z.B. Abtastanzahl) zeigt, stellt eine Rahmenlänge N die Anzahl von Abtastwerte pro Rahmen dar. In dem gezeigten Ausführungsbeispiel ist N 160. Die Werte Lcur (die aktuelle Pitchperiode in dem Rahmen) und Lo (die letzte Pitchperiode in dem vorhergehenden Rahmen) werden ebenfalls gezeigt. Es sollte darauf hingewiesen werden, dass die Signalamplitude entweder eine Sprachsignalamplitude oder eine Restsignalamplitude sein kann, wie gewünscht. In 4B, die eine Prototypenamplitude gegenüber einem diskreten Zeitindex für den Fall M = 1 zeigt, werden die Werte Wcur (der aktuelle Prototyp) und Wo (der letzte Prototyp des vorhergehenden Rahmens) dargestellt. Die Darstellung von 4C zeigt die Amplitude des rekonstruierten Signals Scur_model nach einer TSWI-Synthese gegenüber einem diskreten Zeitindex.
  • Die Mittelpunkte nm in der obigen Interpolationsgleichung werden vorteilhaft derart gewählt, dass die Entfernungen zwischen benachbarten Mittelpunkten annähernd gleich sind. Zum Beispiel, M = 3, N = 160, Lo = 40 und Lcur = 42 liefert n0 = –20 und n3 = 139, somit ist n1 = 33 und n2 = 86, wobei die Entfernung zwischen benachbarten Segmenten [139 – (–20)/3] oder 53 ist.
  • Der letzte Prototyp des aktuellen Rahmens WM wird durch Auswählen der letzten Lcur-Abtastwerte des aktuellen Rahmens extrahiert. Andere mittlere Prototypen Wm werden durch Auswählen von (Lm)/2-Abtastwerten um die Mittelpunkte nm herum extrahiert.
  • Die Prototypextraktion kann durch Ermöglichen einer dynamischen Verschiebung von Dm für jeden Prototyp Wm weiter verfeinert werden, so dass alle Lm-Abtastwerte aus dem Bereich {nm – 0.5*Lm – Dm, nm + 0.5*Lm + Dm} ausgewählt werden können, um den Prototyp zu bilden. Es ist wünschenswert, Segmente mit hoher Energie an der Prototypgrenze zu vermeiden. Der Wert Dm kann variabel über m sein oder er kann für jeden Prototyp fest sein.
  • Es sollte angemerkt werden, dass eine von Null verschiedene dynamische Verschiebung Dm notwendigerweise die Zeitsynchronität zwischen den extrahierten Prototypen Wm und dem ursprünglichen Signal zerstören würde. Eine einfache Lösung für dieses Problem ist, eine ringförmige Verschiebung auf den Prototyp Wm anzuwenden, um den Offset anzupassen, den die dynamische Verschiebung eingeführt hat. Wenn zum Beispiel die dynamische Verschiebung auf Null gesetzt ist, beginnt die Prototyp-Extraktion bei einem Zeitindex n = 100. Andererseits, wenn Dm angewendet wird, beginnt die Prototyp-Extraktion bei n = 98. Um die Zeitsynchronität zwischen dem Prototyp und dem ursprünglichen Signal beizubehalten, kann der Prototyp kreisförmig nach rechts um zwei Abtastwerte (d.h. 100–98 Abtastwerte) verschoben werden, nachdem der Prototyp extrahiert ist.
  • Um Verschiebungen bzw. ungewollte Unterschiede an den Rahmengrenzen zu vermeiden, ist es wichtig, eine Zeitsynchronität der synthetisierten Sprache beizubehalten. Es ist deswegen wünschenswert, dass die mit dem Analyse-Synthese-Prozess synthetisierte Sprache mit der eingegebenen Sprache gut ausgerichtet wird. In einem Ausführungsbeispiel wird das obige Ziel durch explizites Steuern der Grenzwerte der Phasenspur (phase track) erreicht, wie unten beschrieben wird. Eine Zeitsynchronität ist auch insbesondere entscheidend für einen linear prädiktiv-basierten Multimodus-Sprachcodierer, in dem ein Modus CELP sein kann und ein anderer Modus eine Prototyp-basierte Analyse-Synthese sein kann. Für einen mit CELP co dierten Rahmen kann, wenn der vorige Rahmen mit einem Prototyp-basierten Verfahren bei einer Abwesenheit einer Zeitausrichtung oder einer Zeitsynchronität codiert wird, die Analyse-durch-Synthese-Signalform-Übereinstimmungsleistung von CELP nicht nutzbar gemacht werden. Durch jede Unterbrechung der Zeitsynchronität in der letzten Signalform kann sich CELP für die Prädiktion nicht auf einen Speicher verlassen, da der Speicher aufgrund eines Fehlens einer Zeitsynchronität mit der ursprünglichen Sprache nicht ausgerichtet ist.
  • Das Blockdiagramm von 5 zeigt eine Vorrichtung für eine Sprachsynthese mit TSWI gemäß einem Ausführungsbeispiel. Beginnend mit einem Rahmen der Größe N werden M Prototypen W1, W2, ..., WM einer Länge L1, L2, ... LM in Block 300 extrahiert. In dem Extraktionsvorgang wird eine dynamische Verschiebung für jede Extraktion verwendet, um eine hohe Energie an der Prototypgrenze zu vermeiden. Dann wird eine geeignete kreisförmige Verschiebung auf jeden extrahierten Prototyp angewendet, um die Zeitsynchronität zwischen den extrahierten Prototypen und dem entsprechenden Segment des ursprünglichen Signals zu maximieren. Der m-te Prototyp Wm hat Lm Abtastwerte, indiziert mit einer k Abtastanzahl, d.h. k = 1, 2, ..., Lm. Dieser Index k kann normalisiert und auf einen neuen Phasenindex φ neu abgebildet sein, der von 0 bis 2π reicht. In Block 301 werden Pitchschätzung und Interpolation eingesetzt, um Pitchverzögerungen zu erzeugen.
  • Die Positionen der Endpunkte der Prototypen werden als n1, n2, ..., nM markiert, wobei 0 < n1 < n2 < ... < nM = N ist. Die Prototypen können nun gemäß ihrer Endpunkte wie folgt dargestellt werden: X (n1, ϕ) = W1 X (n2, ϕ) = W2 ... X (nM, ϕ) = WM
  • Es sei angemerkt, dass X (n0, φ) den letzten extrahierten Prototyp in dem vorherigen Rahmen darstellt und dass X (n0, φ) eine Länge von L0 aufweist.
  • Es sollte weiter angemerkt werden, dass {n1, n2, ..., nM} über den aktuellen Rahmen in gleichem Abstand angeordnet sein kann oder nicht.
  • In Block 302, in dem der Ausrichtungsvorgang durchgeführt wird, wird eine Phasenverschiebung ψ auf jeden Prototyp X angewendet, so dass die aufeinander folgenden Prototypen maximal ausgerichtet sind. Insbesondere, W (n1, ϕ) = X (n1, ϕ + ψ1) W (n2, ϕ) = X (n2, ϕ + ψ2)... W (nM, ϕ) = X (nM, ϕ + ψM)wobei W die ausgerichtete Version von X darstellt und die Ausrichtungsverschiebung ψ berechnet werden kann durch:
    Figure 00160001
    Z[X, W] stellt die Kreuzkorrelation zwischen X und W dar.
  • Die M Prototypen werden in Block 303 höher abgetastet/aufgetastet (upsampled) auf N Prototypen durch eine herkömmliche Interpolationstechnik. Die verwendete Interpolationstechnik kann zum Beispiel eine einfache lineare Interpolation sein:
  • Figure 00160002
  • Der Satz von N Prototypen W (ni, φ), wobei i = 1, 2, ..., N ist, bildet eine zweidimensionale (2-D) prototyp-evolvierende Oberfläche, wie in 6B gezeigt.
  • Der Block 304 führt die Berechnung der Phasenspur durch. In einer Signalforminterpolation wird eine Phasenspur Φ[N] verwendet, um die 2-D prototyp-evolvierende Oberfläche zurück in ein 1-D-Signal zu wandeln. Herkömmlicherweise wird eine derartige Phasenkontur auf einer Abtast-zu-Abtast-Basis unter Verwendung von interpolierten Frequenzwerten wie folgt berechnet:
    Figure 00170001
    wobei n = 1, 2, ..., N. Die Frequenzkontur F[n] kann berechnet werden unter Verwendung der interpolierten Pitchspur, insbesondere F[n] = 1/L[n], wobei L[n] die interpolierte Version von {L1, L2, ..., LM} darstellt. Die obige Phasenkonturfunktion wird typischerweise einmal pro Rahmen mit dem anfänglichen Phasenwert Φ0 = Φ und nicht mit dem Endwert ΦN = Φ[N] abgeleitet. Ferner berücksichtigt die Phasenkonturfunktion nicht die aus dem Ausrichtungsvorgang resultierende Phasenverschiebung ψ. Aus diesem Grund ist nicht garantiert, dass die rekonstruierte Signalform zeitsynchron zu dem ursprünglichen Signal ist. Es sollte angemerkt werden, dass, wenn die Frequenzkontur als linear über die Zeit evolvierend angenommen wird, die resultierende Phasenspur Φ[n] eine quadratische Funktion des Zeitindexes (n) ist.
  • In dem Ausführungsbeispiel von 5 ist die Phasenkontur vorteilhafterweise in einer stückweisen Art konstruiert, wobei die anfänglichen und die letzten Grenzphasenwerte mit den Ausrichtungsverschiebungswerten nah abgestimmt sind. Angenommen, es ist gewünscht, dass eine Zeitsynchronität beibehalten wird bei p Zeitpunkten in dem aktuellen Rahmen, nα1, nα2, ..., nαp, wobei nα1 < nα2 < ... < nαp und α1 ∊ {1, 2, ..., M}, i = 1, 2, ..., p. Das resultierende Φ[n], n = 1, 2, ..., N besteht aus p stückweisen kontinuierlichen Phasenfunktionen, die wie folgt geschrieben werden können:
  • Figure 00170002
  • Es sollte angemerkt werden, dass nαp typischerweise auf nM gesetzt wird, so dass Φ[n] für den gesamten Rahmen berechnet werden kann, d.h. für n = 1, 2, ..., N. Die Koeffizienten {a, b, c, d} jeder stückweisen Phasenfunktion können durch vier Grenzbedingungen berechnet werden: jeweils die anfängli chen und die letzten Pitchverzögerungen Lα1-1 und Lα1, und die anfänglichen und die letzten Ausrichtungsverschiebungen ψα1-1 und ψα1. Insbesondere die Koeffizienten können gelöst werden durch:
    Figure 00180001
    wobei i = 1, 2, ..., p ist. Da die Ausrichtungsverschiebung ψ durch Modulo 2π erhalten wird, wird der Faktor ξ verwendet, um die Phasenverschiebungen derart zu entzerren, dass die resultierende Phasenfunktion maximal glatt ist. Der Wert ξ kann wie folgt berechnet werden:
    Figure 00180002
    wobei i = 1, 2, ..., p ist und die Funktion round[x] die zu x nächste Ganzzahl findet. Zum Beispiel ist round[1.4] gleich 1.
  • Eine beispielhafte entzerrte Phasenspur wird in 7 für den Fall M = p = 1 und Lo = 40, Lm = 46 dargestellt. Ein Folgen der kubischen Phasenkontur (im Gegensatz zum Verbleiben bei der herkömmlichen quadratischen Phasenkontur, die mit einer gestrichelten Linie gezeigt wird) garantiert eine Zeitsynchronität der synthetisierten Signalform Scur_model mit dem ursprünglichen Rahmen der Sprache Scur an der Rahmengrenze.
  • In Block 305 wird eine eindimensionale (1-D) Zeitdomain-Signalform aus der 2-D-Oberfläche gebildet. Die synthetisierte Signalform Scur_model[n], wobei n = 1, 2, ..., N ist, wird gebildet durch: Scur_model[n] = W(n, Φ[n])
  • Graphisch ist die obige Transformation äquivalent zu einem Überlagern der in 6A gezeigten verzerrten Phasenspur auf die 2-D-Oberfläche, wie in 6B gezeigt. Die Projektion des Schnittpunkts (wo die Phasenspur auf die 2-D-Oberfläche trifft) auf die Ebene senkrecht zu der Phasenachse ist Scur_model[n].
  • In einem Ausführungsbeispiel wird der Prozess einer Prototypextraktion und einer TSWI-basierten Analyse-Synthese auf den Sprachbereich angewendet. In einem alternativen Ausführungsbeispiel wird der Prozess einer Prototypextraktion und einer TSWI-basierten Analyse-Synthese auf den LP-Restbereich angewendet sowie auf den hier beschriebene Sprachbereich.
  • In einem Ausführungsbeispiel wird ein Pitchprototyp-basiertes Analyse-Synthese-Modell nach einem Vorauswahlprozess angewendet, in dem festgestellt wird, ob der aktuelle Rahmen „periodisch genug" ist. Die Periodizität PFm zwischen benachbarten extrahierten Prototypen Wm und Wm+1 kann berechnet werden als:
    Figure 00190001
    wobei Lmax das Maximum von [Lm, Lm+1], das Maximum der Längen der Prototypen Wm und Wm+1 ist.
  • Die M Sätze von Periodizitäten PFm können mit einem Satz von Schwellen verglichen werden, um festzustellen, ob die Prototypen des aktuellen Rahmens extrem ähnlich sind, oder ob der aktuelle Rahmen hoch periodisch ist. Der Mittelwert des Satzes von Periodizitäten PFm kann vorteilhafterweise mit einer vorgegebenen Schwelle verglichen werden, um zu der obigen Entscheidung zu kommen. Wenn der aktuelle Rahmen nicht periodisch genug ist, dann kann stattdessen ein anderer Algorithmus mit höherer Rate (d.h. einer, der nicht Pitchprototyp-basiert ist) verwendet werden, um den aktuellen Rahmen zu codieren.
  • In einem Ausführungsbeispiel kann ein Nachauswahl-Filter angewendet werden, um eine Leistung zu evaluieren. Somit wird nach der Codierung des aktuellen Rahmens mit einem Pitchprototyp-basierten Analyse-Synthese-Modus eine Entscheidung getroffen, ob die Leistung gut genug ist. Die Entscheidung wird getroffen durch Erlangen eines Qualitätsmaßes, wie beispielsweise PSNR, wobei PSNR wie folgt definiert ist:
    Figure 00200001
    wobei x[n] = h[n]*R[n] und e(n) = h[n]*qR[n], wobei „*" einen Faltungs- oder Filtervorgang anzeigt, h(n) ein wahrnehmbar gewichteter LP-Filter ist, R[n] der ursprüngliche Sprachrest ist und qR[n] der Rest ist, der von dem Pitchprototyp-basierten Analyse-Synthese-Modus erlangt wird. Die obige Gleichung für PSNR ist gültig, wenn eine Pitchprototyp-basierte Analyse-Synthese-Codierung auf das LP-Restsignal angewendet wird. Wenn andererseits die Pitchprototyp-basierte Analyse-Synthese-Technik auf den ursprünglichen Rahmen angewendet wird anstatt auf den LP-Rest, kann PSNR definiert werden als:
    Figure 00200002
    wobei x[n] der ursprüngliche Sprachrahmen ist, e[n] das von der Pitchprototyp-basierten Analyse-Synthese-Technik modellierte Sprachsignal ist und w[n] Wahrnehmungsgewichtungsfaktoren sind. Wenn in beiden Fällen PSNR unter einer vorgegebenen Schwelle ist, ist der Rahmen nicht geeignet für eine Analyse-Synthese-Technik und ein anderer Algorithmus, möglicherweise mit einer höheren Bitrate, kann stattdessen verwendet werden, um den aktuellen Rahmen zu erfassen. Für Fachleute ist offensichtlich, dass jedes herkömmliche Leistungsmaß, einschließlich des oben beschriebenen beispielhaften PSNR-Maßes, für die Nachverarbeitungs-Entscheidung hinsichtlich einer Algorithmus-Leistung verwendet werden kann.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Es ist für Fachleute offensichtlich, dass zahlreiche Veränderungen dieser Ausführungsbeispiele gemacht werden können. Folglich ist die vorliegende Erfindung nicht begrenzt, außer gemäß den folgenden Ansprüchen.

Claims (16)

  1. Verfahren zur Synthetisierung von Sprache aus Pitch oder Tonhöhenprototypwellen- bzw. Signalformen durch zeitsynchrone Wellenforminterpolation, wobei das Verfahren folgendes vorsieht: Extrahieren (300) von mindestens einem Pitchprototyp (Tonhöhenprototyp) pro Rahmen aus einem Signal; Anwenden (302) einer Phasenverschiebung auf den extrahierten Pitchprototyp relativ zu dem zuvor extrahierten Pitchprototyp; Auftasten bzw. up-sampeln (303) des Pitchprototyps für jeden Tastpunkt innerhalb des Rahmens; Konstruieren (304) einer zweidimensionalen prototyp-evolvierenden Oberfläche; und Wieder-Abtasten (re-sampling) (305) der zweidimensionalen Oberfläche zur Erzeugung eines eindimensionalen synthetisierten Signalrahmens, wobei die Wiederabtastungspunkte durch stückweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus den Pitchverzögerungen und den Ausrichtungsphasenverschiebungen addiert zu dem extrahierten Pitchprototyp berechnet werden.
  2. Verfahren nach Anspruch 1, wobei das Signal ein Sprachsignal aufweist bzw. ist.
  3. Verfahren nach Anspruch 1, wobei das Signal ein Restsignal ist bzw. aufweist.
  4. Verfahren nach Anspruch 1, wobei die endgültige Pitchprototypwellenform Verzögerungsabtastungen des vorherigen Rahmens aufweist.
  5. Verfahren nach Anspruch 1, wobei ferner die Berechnung der Periodizität eines laufenden bzw. aktuellen Rahmens vorgesehen ist, und zwar zur Bestimmung, ob die verbleibenden Schritte durchgeführt werden sollen.
  6. Verfahren nach Anspruch 1, wobei ferner der Erhalt eines Nachverarbeitungsperformancemaßes vorgesehen ist und das Vergleichen des Nachverarbeitungsperformancemaßes mit einer vorbestimmten Schwelle.
  7. Verfahren nach Anspruch 1, wobei das Extrahieren (300) das Extrahieren nur eines einzigen Pitchprototyps aufweist.
  8. Verfahren nach Anspruch 1, wobei das Extrahieren (300) das Extrahieren einer Anzahl von Pitchprototypen aufweist, deren Anzahl eine Funktion der Pitchverzögerung ist.
  9. Vorrichtung zum Synthetisieren von Sprache aus Pitchprototypwellenformen durch zeitsynchrone Wellenforminterpolation, wobei die Vorrichtung folgendes aufweist: Mittel zum Extrahieren (300) von mindestens einem Pitchprototyp pro Rahmen aus einem Signal; Mittel zum Anlegen (302) einer Phasenverschiebung an den extrahierten Pitchprototyp relativ zu dem zuvor extrahierten Pitchprototyp; Mittel zur Höherabtastung (up-sampling) (303) des Pitchprototyps für jeden Tastpunkt innerhalb des Rahmens; Mittel zum Konstruieren (304) einer zweidimensionalen prototypevolvierenden Oberfläche; und Mittel zur Wiederabtastung (305) der zweidimensionalen Oberfläche zur Erzeugung eines eindimensionalen synthetisierten Signalrahmens, wobei die Wiederabtastungspunkte durch stückweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus Pitchverzögerungen und Ausrichtungsphasenverschiebungen hinzuaddiert zu dem extrahierten Pitchprototyp berechnet werden.
  10. Vorrichtung nach Anspruch 9, wobei das Signal ein Sprachsignal ist oder ein solches aufweist.
  11. Vorrichtung nach Anspruch 9, wobei das Signal ein Restsignal ist oder aufweist.
  12. Vorrichtung nach Anspruch 9, wobei die finale bzw. endgültige Pitchprototypwellenform Verzögerungsabtastungen des vorhergehenden Rahmens aufweist.
  13. Vorrichtung nach Anspruch 9. wobei ferner Mittel vorgesehen sind zur Berechnung der Periodizität eines laufenden (aktuellen) Rahmens.
  14. Vorrichtung nach Anspruch 9, wobei ferner Mittel vorgesehen sind zum Erhalt eines Nachverarbeitungsperformancemaßes und Mittel zum Vergleich des Nachverarbeitungsperformancemaßes mit einer vorbestimmten Schwelle.
  15. Vorrichtung nach Anspruch 9, wobei die Extrahiermittel (300) Mittel zum Extrahieren von nur einem Pitchprototyp aufweisen.
  16. Vorrichtung nach Anspruch 9, wobei die Extrahiermittel (300) Mittel aufweisen zum Extrahieren einer Anzahl von Pitchprototypen, wobei die Anzahl eine Funktion der Pitchverzögerung ist.
DE69924280T 1998-11-13 1999-11-12 Sprachsynthese aus grundfrequenz-prototypwellenformen durch zeit-synchrone wellenforminterpolation Expired - Lifetime DE69924280T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US191631 1980-09-29
US09/191,631 US6754630B2 (en) 1998-11-13 1998-11-13 Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
PCT/US1999/026849 WO2000030073A1 (en) 1998-11-13 1999-11-12 Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation

Publications (2)

Publication Number Publication Date
DE69924280D1 DE69924280D1 (de) 2005-04-21
DE69924280T2 true DE69924280T2 (de) 2006-03-30

Family

ID=22706259

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69924280T Expired - Lifetime DE69924280T2 (de) 1998-11-13 1999-11-12 Sprachsynthese aus grundfrequenz-prototypwellenformen durch zeit-synchrone wellenforminterpolation

Country Status (9)

Country Link
US (1) US6754630B2 (de)
EP (1) EP1131816B1 (de)
JP (1) JP4489959B2 (de)
KR (1) KR100603167B1 (de)
CN (1) CN100380443C (de)
AU (1) AU1721100A (de)
DE (1) DE69924280T2 (de)
HK (1) HK1043856B (de)
WO (1) WO2000030073A1 (de)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
JP4747434B2 (ja) * 2001-04-18 2011-08-17 日本電気株式会社 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
WO2003019530A1 (fr) * 2001-08-31 2003-03-06 Kenwood Corporation Dispositif et procede de generation d'un signal a forme d'onde affecte d'un pas ; programme
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
GB2398981B (en) * 2003-02-27 2005-09-14 Motorola Inc Speech communication unit and method for synthesising speech therein
JP2007507726A (ja) * 2003-09-29 2007-03-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の符号化
US8089349B2 (en) * 2005-07-18 2012-01-03 Diego Giuseppe Tognola Signal process and system
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
KR101019936B1 (ko) * 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US7899667B2 (en) * 2006-06-19 2011-03-01 Electronics And Telecommunications Research Institute Waveform interpolation speech coding apparatus and method for reducing complexity thereof
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
JP2010540073A (ja) * 2007-09-27 2010-12-24 カーディアック ペースメイカーズ, インコーポレイテッド 電気刺激コンデンサを伴う埋込型リード線
CN101556795B (zh) * 2008-04-09 2012-07-18 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
CN113066472B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN112634934B (zh) * 2020-12-21 2024-06-25 北京声智科技有限公司 语音检测方法及装置
KR20230080557A (ko) 2021-11-30 2023-06-07 고남욱 보이스 교정 시스템

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
DE69233502T2 (de) 1991-06-11 2006-02-23 Qualcomm, Inc., San Diego Vocoder mit veränderlicher Bitrate
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
JP2903986B2 (ja) * 1993-12-22 1999-06-14 日本電気株式会社 波形合成方法及びその装置
US5517595A (en) 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5903866A (en) 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms

Also Published As

Publication number Publication date
US20010051873A1 (en) 2001-12-13
AU1721100A (en) 2000-06-05
CN100380443C (zh) 2008-04-09
HK1043856B (zh) 2008-12-24
EP1131816B1 (de) 2005-03-16
KR20010087391A (ko) 2001-09-15
WO2000030073A1 (en) 2000-05-25
JP2003501675A (ja) 2003-01-14
EP1131816A1 (de) 2001-09-12
JP4489959B2 (ja) 2010-06-23
CN1348582A (zh) 2002-05-08
US6754630B2 (en) 2004-06-22
DE69924280D1 (de) 2005-04-21
KR100603167B1 (ko) 2006-07-24
HK1043856A1 (en) 2002-09-27

Similar Documents

Publication Publication Date Title
DE69924280T2 (de) Sprachsynthese aus grundfrequenz-prototypwellenformen durch zeit-synchrone wellenforminterpolation
DE60011051T2 (de) Celp-transkodierung
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE69923079T2 (de) Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
DE60012760T2 (de) Multimodaler sprachkodierer
DE60027573T2 (de) Quantisierung der spektralen amplitude in einem sprachkodierer
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69928288T2 (de) Kodierung periodischer sprache
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60120766T2 (de) Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition