DE69924280T2

DE69924280T2 - Sprachsynthese aus grundfrequenz-prototypwellenformen durch zeit-synchrone wellenforminterpolation

Info

Publication number: DE69924280T2
Application number: DE69924280T
Authority: DE
Inventors: Amitava Das; L. Eddie CHOY
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2006-03-30
Anticipated expiration: 2019-11-13
Also published as: US20010051873A1; AU1721100A; CN100380443C; HK1043856B; EP1131816B1; KR20010087391A; WO2000030073A1; JP2003501675A; EP1131816A1; JP4489959B2; CN1348582A; US6754630B2; DE69924280D1; KR100603167B1; HK1043856A1

Description

Hintergrund der Erfindung
I. Gebiet der Erfindung
Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Sprachverarbeitung und insbesondere ein Verfahren und eine Vorrichtung zur Synthese von Sprache aus Pitchprototypsignalformen bzw. -wellenformen (pitch prototyp waveforms) durch eine zeitsynchrone Signalforminterpolation (TSWI – time synchronous waveform interpolation).
II. Hintergrund des Standes der Technik
Eine Übertragung von Sprache durch digitale Techniken ist weit verbreitet, insbesondere in Fern- und digitalen Funktelefonanwendungen. Dies wiederum hat ein Interesse erzeugt hinsichtlich der Bestimmung der geringsten Menge von Information, die über einen Kanal gesendet werden kann, während die empfundene Qualität der wiederhergestellten Sprache beibehalten wird. Wenn Sprache durch einfaches Abtasten und Digitalisieren übertragen wird, ist eine Datenrate in dem Bereich von vierundsechzig Kilobits pro Sekunde (kbps) erforderlich, um eine Sprachqualität eines herkömmlichen analogen Telefons zu erzielen. Jedoch kann durch die Verwendung einer Sprachanalyse, gefolgt von der geeigneten Codierung, Übertragung und Neu-Synthese an dem Empfänger eine signifikante Reduzierung der Datenrate erzielt werden.
Vorrichtungen, die Techniken einsetzen zum Komprimieren von Sprache durch Extrahieren von Parametern, die ein Modell einer menschlichen Spracherzeugung betreffen, werden als Sprachcodierer bezeichnet. Ein Sprachcodierer teilt das ankommende Sprachsignal in Zeitblöcke oder Analyserahmen. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer auf oder einen Codec. Der Codierer analysiert den ankommenden Sprachrahmen, um bestimmte relevante Parameter zu gewinnen, und quantisiert dann die Parameter in eine binäre Darstellung, d.h. in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Kommunikationskanal an einen Empfänger und einen Decodierer übertragen. Der Decodierer verarbeitet die Datenpakete, entquantisiert sie zur Erzeugung der Parameter und resynthetisiert dann die Sprachrahmen unter Verwendung der entquantisierten Parameter.
Die Funktion des Sprachcodierers liegt darin, das digitalisierte Sprachsignal in ein Signal mit niedriger Bitrate zu komprimieren und zwar durch Entfernen aller in Sprache inhärenter natürlicher Redundanzen. Die digitale Komprimierung wird erreicht durch Darstellen des Eingabe-Sprachrahmens mit einem Satz von Parametern und Anwenden einer Quantisierung, um die Parameter mit einem Satz von Bits darzustellen. Wenn der Eingabe-Sprachrahmen eine Anzahl von Bits N_i aufweist und das von dem Sprachcodierer erzeugte Datenpaket eine Anzahl von Bits N_o aufweist, ist der von dem Sprachcodierer erzielte Komprimierungsfaktor C_r = N_i/N_o. Die Herausforderung liegt darin, eine hohe Sprachqualität der decodierten Sprache beizubehalten und gleichzeitig den Ziel-Komprimierungsfaktor zu erreichen. Die Leistung eines Sprachcodierers hängt davon ab, (1) wie gut das Sprachmodell oder die Kombination des oben beschriebenen Analyse- und Synthese-Prozesses arbeitet und (2) wie gut der Parameter-Quantisierungsprozess bei der Ziel-Bitrate von N_o Bits pro Rahmen durchgeführt wird. Das Ziel des Sprachmodells ist somit, die Essenz des Sprachsignals oder die Ziel-Sprachqualität mit einem kleinen Satz von Parametern für jeden Rahmen zu erfassen.
Ein Sprachcodierer wird als Zeitbereichs bzw. Domain-Codierer (time-domain coder) bezeichnet, wenn sein Modell ein Zeitbereichsmodell ist. Ein weithin bekanntes Beispiel ist der „Code Excited Linear Predictive (CELP)"-Codierer, der von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453 (1978) beschrieben wurde. In einem CELP-Coder werden die Kurzzeit-Korrelationen oder Redundanzen in dem Sprachsignal durch eine lineare Prädiktions-Analyse (LP – linear predictive) entfernt, welche die Koeffizienten eines Kurzzeit-Formant-Filters findet. Ein An wenden des Kurzzeit-Prädiktionsfilters auf den eingehenden Sprachrahmen erzeugt ein LP-Restsignal, dass weiter mit Langzeit-Prädiktionsfilter-Parametern und einem nachfolgenden stochastischen Codebuch modelliert und quantisiert wird. Somit teilt eine CELP-Codierung die Aufgabe einer Codierung der Zeitbereichs-Sprachsignalform in die getrennten Aufgaben einer Codierung der LP-Kurzzelt-Filter-Koeffizienten und einer Codierung des LP-Rests. Das Ziel ist, eine synthetisierte Ausgabe-Sprachsignalform zu erzeugen, die der Eingabe-Sprachsignalform sehr ähnlich ist. Um die Zeitbereichs-Signalform exakt zu erhalten, teilt der CELP-Codierer den Rest-Rahmen weiter in kleinere Blöcke oder Teil-Rahmen, und führt das Analyse-durch-Synthese-Verfahren für jeden Teil-Rahmen fort. Dies erfordert eine hohe Anzahl von Bits N_o pro Rahmen, da viele Parameter für jeden Teil-Rahmen zu quantisieren sind. CELP-Codierer liefern typischerweise eine exzellente Qualität, wenn die verfügbare Anzahl von Bits N_o pro Rahmen groß genug zum Codieren von Bitraten von 8 kbps und höher ist.
EP-A-0 865 028 beschreibt eine Signalform-Interpolations-Sprachcodierung unter Verwendung von Spline-Funktionen. Von einem Signalform-Interpolations-Codierer werden zwei Signale empfangen, wobei jedes einen Satz von Frequenzbereichsparametern aufweist, der ein Sprachsignalsegment einer entsprechenden Pitchperiode (Pitchzeitdauer) darstellt. Aus jedem der empfangenen Signale werden Spline-Koeffizienten erzeugt und umfassen eine Spline-Darstellung einer Zeitbereichstransformation des entsprechenden Satzes von Frequenzbereichsparametern. Der Decodierer interpoliert zwischen den Spline-Darstellungen, um interpolierte Zeitbereichsdaten zu erzeugen, die zur Synthetisierung eines rekonstruierten Sprachsignals verwendet werden.
Eine Signalform-Interpolation (WI – waveform interpolation) ist eine aufkommende Sprachcodiertechnik, in der für jeden Sprachrahmen eine Anzahl M von Prototyp-Signalformen extrahiert und mit den verfügbaren Bits codiert wird. Die ausgegebene Sprache wird von den decodierten Prototyp-Signalformen durch eine herkömmliche Signalform-Interpolationstechnik syn thetisiert. Verschiedene WI-Techniken werden von W. Bastiaan Kleijn & Jesper Haagen in „Speech Coding and Synthesis", 176–205 (1995) beschrieben. Herkömmliche WI-Techniken werden ebenfalls in dem U.S.-Patent Nr. 5,517,595 beschrieben. In derartigen herkömmlichen WI-Techniken ist es jedoch notwendig, mehr als eins Prototyp-Signalform pro Rahmen zu extrahieren, um genaue Ergebnisse zu liefern. Zusätzlich existiert kein Mechanismus, um einen Zeit-Synchronismus der rekonstruierten Signalform vorzusehen. Aus diesem Grund ist nicht garantiert, dass die synthetisierte ausgegebene WI-Signalform mit der ursprünglich eingegebenen Signalform ausgerichtet ist.
Im Moment steigt das Forschungsinteresse und es besteht ein starkes kommerzielles Bedürfnis, einen Sprachcodierer mit hoher Qualität zu entwickeln, der bei mittleren bis niedrigen Bitraten arbeitet (d.h. in dem Bereich von 2.4 bis 4 kbps und darunter). Die Anwendungsbereiche umfassen drahtloses Fernsprechen, Satelliten-Kommunikation, Internet-Fernsprechen, verschiedene Multimedia- und Sprach-„Streaming"-Anwendungen, Voice-Mail und andere Sprachspeichersysteme. Die treibenden Kräfte sind der Bedarf für eine hohe Kapazität und der Anspruch auf eine robuste Leistung bei Paketverlustsituationen. Verschiedene neue Anstrengungen für eine Sprachcodierungs-Standardisierung sind eine weitere direkte treibende Kraft, die Forschung und Entwicklung von Sprachcodieralgorithmen für niedrige Raten antreibt. Ein Sprachcodierer für niedrige Raten erlaubt mehr Kanäle oder Benutzer pro zulässiger Anwendungs-Bandbreite und ein Sprachcodierer für niedrige Raten gekoppelt mit einer zusätzlichen Schicht geeigneter Kanalcodierung kann dem gesamten Bit-Budget von Codierer-Spezifikationen entsprechen und eine robuste Leistung unter Kanalfehlerbedingungen liefern.
Jedoch hören bei niedrigen Bitraten (4 kbps und darunter) Zeitbereichs-Codierer, wie der CELP-Codierer, aufgrund der begrenzten Anzahl von verfügbaren Bits auf, eine hohe Qualität und eine robuste Leistung beizubehalten. Bei niedrigen Bitraten beschneidet der begrenzte Codebook-Raum die Signalform-Anpassungsfähigkeit von herkömmlichen Zeitbereichs-Codierern, die so erfolgreich in kommerziellen Anwendungen für höhere Raten eingesetzt werden.
Eine wirksame Technik, um Sprache wirksam bei einer niedrigen Bitrate zu codieren, ist eine Multimodus-Codierung. Ein Multimodus-Codierer wendet unterschiedliche Modi oder Codier-Decodier-Algorithmen auf unterschiedliche Typen von Eingabe-Sprachrahmen an. Jeder Modus oder Codier-Decodier-Vorgang ist spezifisch, um einen bestimmten Typ von Sprachsegment (d.h. stimmhaft, stimmlos oder Hintergrundgeräusch) auf die wirksamste Weise darzustellen. Ein externer Modus-Entscheidungs-Mechanismus untersucht den Eingabe-Sprachrahmen und trifft eine Entscheidung hinsichtlich welcher Modus auf den Rahmen anzuwenden ist. Typischerweise wird die Modus-Entscheidung auf eine Art eines offenen Regelkreises (open loop) durchgeführt durch Extrahieren einer Anzahl von Parametern aus dem Eingabe-Rahmen und deren Bewertung, um eine Entscheidung zu treffen hinsichtlich welcher Modus anzuwenden ist. Somit wird die Modus-Entscheidung getroffen, ohne vorher die genaue Bedingung der Ausgabe-Sprache zu kennen, d.h. wie ähnlich die Ausgabe-Sprache zu der Eingabe-Sprache sein wird hinsichtlich einer Sprachqualität oder jedes anderen Leistungsmaßes. Eine beispielhafte „open-loop"-Modus-Entscheidung für einen Sprachcodec wird in dem U.S.-Patent Nr. 5,414,796 beschrieben, das dem Anmelder der vorliegenden Erfindung erteilt wurde.
Eine Multimodus-Codierung kann mit fester Rate erfolgen, unter Verwendung derselben Anzahl von Bits N_o für jeden Rahmen, oder mit variabler Rate, wobei unterschiedliche Bitraten für unterschiedliche Modi verwendet werden. Das Ziel bei einer Codierung mit einer variablen Rate liegt darin, nur die Menge von Bits zu verwenden, die zum Codieren der Codec-Parameter auf einen Grad erforderlich sind, der zum Erreichen der Zielqualität angemessen ist. Als Ergebnis kann dieselbe angestrebte Sprachqualität wie die eines Codierers mit fester, höherer Rate mit einer signifikant geringeren Durchschnittsrate unter Verwendung von variable-Bitraten(VBR)-Techniken erreicht werden. Ein beispielhafter Sprachcodierer mit variabler Rate wird in dem U.S.-Patent Nr. 5,414,796 beschrieben, das dem Anmelder der vorliegenden Erfindung erteilt wurde.
Stimmhafte Sprachsegmente werden als quasiperiodisch bezeichnet, da derartige Segmente in Pitch-Prototypen oder kleine Segmente aufgeteilt werden können, deren Länge L(n) mit der Zeit variiert, da die Pitch- oder Grundfrequenz einer Periodizität mit der Zeit variiert. Derartige Segmente oder Pitch-Prototypen haben einen starken Korrelationsgrad, d.h. sie sind sich sehr ähnlich. Dies trifft besonders auf benachbarte Pitch-Prototypen zu. Es ist vorteilhaft bei der Gestaltung eines effizienten Multimodus-VBR-Codierers, der eine hohe Sprachqualität bei einer niedrigen Durchschnittsrate liefert, die quasiperiodischen stimmhaften Sprachsegmente mit einem Modus einer niedrigen Rate darzustellen.
Es wäre wünschenswert, ein Sprachmodell oder ein Analyse-Synthese-Verfahren vorzusehen, das quasiperiodische stimmhafte Segmente von Sprache darstellt. Es wäre weiter wünschenswert, ein Modell zu gestalten, das eine Synthese mit hoher Qualität liefert, wodurch Sprache mit einer hohen Sprachqualität erzeugt wird. Es wäre noch weiter wünschenswert, dass das Modell einen geringen Satz von Parametern aufweist, um so zugänglich zu sein für ein Codieren mit einem geringen Satz von Bits. Somit gibt es die Notwendigkeit für ein Verfahren einer zeitsynchronen Signalform-Interpolation für stimmhafte Sprachsegmente, das eine minimale Menge von Bits zur Codierung erfordert und eine Sprachsynthese von hoher Qualität liefert.
Zusammenfassung der Erfindung
Die vorliegende Erfindung betrifft ein Verfahren einer zeitsynchronen Signalform-Interpolation für stimmhafte Sprachsegmente, das eine minimale Menge von Bits zur Codierung erfordert und eine Sprachsynthese von hoher Qualität liefert. Demgemäß umfasst in einem Aspekt der Erfindung ein Verfahren zur Synthetisierung von Sprache aus Pitchprototypsignalformen durch zeitsynchrone Signalform-Interpolation vorteilhafterweise Extrahieren von zumindest einem Pitchprototyp pro Rahmen aus einem Signal; Anwenden einer Phasenverschiebung auf den extrahierten Pitchprototyp relativ zu einem vorher extrahierten Pitchprototyp; Höherabtasten (upsampling) des Pitchprototyps für jeden Abtastpunkt innerhalb des Rahmens; Konstruieren einer zweidimensionalen prototyp-evolvierenden Oberfläche; und Wieder-Abtasten (re-sampling) der zweidimensionalen Oberfläche, um einen eindimensionalen synthetisierten Signalrahmen zu erzeugen, wobei die Wieder-Abtastpunkte durch stückweise bzw. abschnittsweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus Pitchverzögerungen (pitch lags) und Ausrichtungsphasenverschiebungen, addiert zu dem extrahierten Pitchprototyp, berechnet werden.
In einem weiteren Aspekt der Erfindung umfasst eine Vorrichtung zum Synthetisieren von Sprache aus Pitchprototypsignalformen durch eine zeitsynchrone Signalform-Interpolation vorteilhafterweise Mittel zum Extrahieren zumindest eines Pitchprototyps pro Rahmen aus einem Signal; Mittel zum Anwenden einer Phasenverschiebung auf den extrahierten Pitchprototyp relativ zu einem vorher extrahierten Pitchprototyp; Mittel zum Höherabtasten (upsampling) des Pitchprototyps für jeden Abtastpunkt innerhalb des Rahmens; Mittel zum Konstruieren einer zweidimensionalen prototypevolvierenden Oberfläche; und Mittel zum Wieder-Abtasten (re-sampling) der zweidimensionalen Oberfläche, um einen eindimensionalen synthetisierten Signalrahmen zu erzeugen, wobei die Wieder-Abtastpunkte durch stückweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus Pitchverzögerungen (pitch lags) und Ausrichtungsphasenverschiebungen, addiert zu dem extrahierten Pitchprototyp, berechnet werden.
Die Vorrichtung zum Synthetisieren von Sprache aus Pitchprototypsignalformen durch eine zeitsynchrone Signalform-Interpolation umfasst vorteilhafterweise ein Modul, das konfiguriert ist, zumindest einen Pitchprototyp pro Rahmen aus einem Signal zu extrahieren; ein Modul, das konfiguriert ist, eine Phasenverschiebung auf den extrahierten Pitchprototyp relativ zu einem vorher extrahierten Pitchprototyp anzuwenden; ein Modul, das konfiguriert ist, den Pitchprototyp für jeden Abtastpunkt innerhalb des Rahmens höher abzutasten; ein Modul, das konfiguriert ist, eine zweidimensionale prototypevolvierende Oberfläche zu konstruieren; und ein Modul, das konfiguriert ist, die zweidimensionale Oberfläche wieder bzw. erneut abzutasten, um einen eindimensionalen synthetisierten Signalrahmen zu erzeugen, wobei die Wieder-Abtastpunkte durch stückweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus Pitchverzögerungen (pitch lags) und Ausrichtungsphasenverschiebungen, addiert zu dem extrahierten Pitchprototyp, berechnet werden.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm eines Kommunikationskanals, der an jedem Ende von Sprachcodierern begrenzt wird.
2 ist ein Blockdiagramm eines Codierers.
3 ist ein Blockdiagramm eines Decodierers.
4A–C sind jeweils Darstellungen einer Signalamplitude gegenüber einem diskreten Zeitindex, einer extrahierten Prototypenamplitude gegenüber einem diskreten Zeitindex und eine TSWI-rekonstruierte Signalamplitude gegenüber einem diskreten Zeitindex.
5 ist ein funktionales Blockdiagramm, das eine Vorrichtung zum Synthetisieren von Sprache aus Pitchprototypsignalformen durch eine zeitsynchrone Signalforminterpolation (TSWI) darstellt.
6A ist eine Darstellung einer verzerrten (wrapped) kubischen Phasenkontur gegenüber einem diskreten Zeitindex und 6B ist eine zweidimen sionale Flächendarstellung einer rekonstruierten Sprachsignalamplitude gegenüber der überlagerten Darstellung von 6A.
7 ist eine Darstellung von entzerrten (unwrapped) quadratischen und kubischen Phasenkonturen gegenüber einem diskreten Zeitindex.
Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
In 1 empfängt ein erster Codierer 10 digitalisierte Sprachabtastwerte s(n) und codiert die Abtastwerte s(n) zur Übertragung auf einem Übertragungsmedium 12, oder Kommunikationskanal 12, an einen ersten Decodierer 14. Der Decodierer 14 decodiert die codierten Sprachabtastwerte und synthetisiert ein Ausgabesprachsignal s_SYNTH(n). Zur Übertragung in die entgegengesetzte Richtung codiert ein zweiter Codierer 16 digitalisierte Sprachabtastwerte s(n), die auf einem Kommunikationskanal 18 übertragen werden. Ein zweiter Decodierer 20 empfängt und decodiert die codierten Sprachabtastwerte, wodurch er ein synthetisiertes Ausgabesprachsignal s_SYNTH(n) erzeugt.
Die Sprachabtastwerte s(n) stellen Sprachsignale dar, die gemäß einem Verfahren von verschiedenen in der Technik bekannten Verfahren, einschließlich zum Beispiel einer Pulscode-Modulation (PCM – pulse code modulation), einem kompandierten μ-Gesetz oder einem A-Gesetz, digitalisiert und quantisiert wurden. Wie in dem Stand der Technik bekannt ist, werden die Sprachabtastwerte s(n) in Rahmen von Eingabedaten organisiert, wobei jeder Rahmen eine vorgegebene Anzahl von digitalisierten Sprachabtastwerten s(n) aufweist. In einem beispielhaften Ausführungsbeispiel wird eine Abtastrate von 8 kH eingesetzt, wobei jeder „20 ms"-Rahmen 160 Abtastwerte aufweist. In den im Folgenden beschriebenen Ausführungsbeispielen kann die Datenübertragungsrate vorteilhaft auf einer Rahmen-zu-Rahmen-Basis von 8 kbps (volle Rate) bis 4 kbps (halbe Rate) bis 2 kbps (viertel Rate) bis 1 kbps (achtel Rate) variiert werden. Ein Variieren der Datenübertragungsrate ist vorteilhaft, da niedrigere Bitraten selektiv für Rahmen eingesetzt werden können, die relativ wenig Sprachinformation enthalten. Wie für Fachleute offensichtlich ist, können andere Abtastraten, Rahmengrößen und Datenübertragungsraten verwendet werden.
Der erste Codierer 10 und der zweite Decodierer 20 weisen zusammen einen ersten Sprachcodierer oder Sprachcodec auf. Ähnlich weisen der zweite Codierer 16 und der erste Decodierer 14 zusammen einen zweiten Sprachcodierer auf. Es ist für Fachleute offensichtlich, dass Sprachcodierer mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – application-specific integrated circuit), einer diskreten Gate-Logik, einer Firmware oder einem herkömmlichen programmierbaren Software-Modul und einem Mikroprozessor implementiert werden können. Das Software-Modul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen Form von im Stand der Technik bekannten beschreibbaren Speichermedium befinden. Alternativ kann ein herkömmlicher Prozessor, eine Steuereinrichtung oder eine Zustandsmaschine den Mikroprozessor ersetzen. Beispielhafte ASICs, die speziell zur Sprachcodierung gestaltet wurden, werden in dem U.S.-Patent Nr. 5,727,123, das der Anmelderin der vorliegenden Erfindung erteilt wurde, und dem U.S.-Patent 5,784,532, das der Anmelderin der vorliegenden Erfindung erteilt wurde, beschrieben.
In 2 umfasst ein Codierer 100, der in einem Sprachcodierer verwendet werden kann, ein Modus-Entscheidungsmodul 102, ein Pitch-Schätzungsmodul 104, ein LP-Analysemodul 106, einen LP-Analysefilter 108, ein LP-Quantisierungsmodul 110 und ein Rest-Quantisierungsmodul 112. Eingabe-Sprachrahmen s(n) werden an das Modus-Entscheidungsmodul 102, das Pitch-Schätzungsmodul 104, das LP-Analysemodul 106 und den LP-Analysefilter 108 geliefert. Das Modus-Entscheidungsmodul 102 erzeugt einen Modus-Index I_M und einen Modus M basierend auf der Periodizität jedes eingegebenen Sprachrahmens s(n). Verschiedene Verfahren zum Klassifizieren von Sprachrahmen gemäß einer Periodizität werden in dem U.S.-Patent Nr. 5,911,128 mit dem Titel „METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING", angemeldet 11. März 1997, beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde. Derartige Verfahren sind auch in den Industrie-Interim-Standards TIA/EIA IS-127 und TIA/EIA IS-733 der „Telecommunications Industry Association" enthalten.
Das Pitch-Schätzungsmodul 104 erzeugt einen Pitch-Index I_P und einen Verzögerungswert P_Q basierend auf jedem Eingabe-Sprachrahmen s(n). Das LP-Analysemodul 106 führt eine lineare prädiktive Analyse jedes Eingabe-Sprachrahmens s(n) durch, um einen LP-Parameter a zu erzeugen. Der LP-Parameter a wird an das LP-Quantisierungsmodul 110 geliefert. Das LP-Quantisierungsmodul 110 empfängt auch den Modus M. Das LP-Quantisierungsmodul 110 erzeugt einen LP-Index I_LP und einen quantisierten LP-Parameter â. Der LP-Analysefilter 108 empfängt den quantisierten LP-Parameter â zusätzlich zu dem Eingabe-Sprachrahmen s(n). Der LP-Analysefilter 108 erzeugt ein LP-Restsignal R[n], das den Fehler zwischen den Eingabe-Sprachrahmen s(n) und den quantisierten LP-Parametern â darstellt. Das LP-Restsignal R[n], der Modus M und der quantisierte LP-Parameter â werden an das Rest-Quantisierungsmodul 112 geliefert. Basierend auf diesen Werten erzeugt das Rest-Quantisierungsmodul 112 einen Rest-Index I_R und ein quantisiertes Restsignal R ^[n].
In 3 umfasst ein Decodierer 200, der in einem Sprachcodierer verwendet werden kann, ein LP-Parameter-Decodierungsmodul 202, ein Rest-Decodierungsmodul 204, ein Modus-Decodierungsmodul 206 und einen LP-Synthesefilter 208. Das Modus-Decodierungsmodul 206 empfängt und decodiert einen Modus-Index I_M und erzeugt daraus einen Modus M. Das LP-Parameter-Decodierungsmodul 202 empfängt den Modus M und einen LP-Index I_LP. Das LP-Parameter-Decodierungsmodul 202 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter â zu erzeugen. Das Rest-Decodierungsmodul 204 empfängt einen Rest-Index I_R, einen Pitch-Index I_P und den Modus-Index I_M. Das Rest-Decodierungsmodul 204 decodiert die empfangenen Werte, um ein quantisiertes Restsignal R ^[n] zu er zeugen. Das quantisierte Restsignal R ^[n] und der quantisierte LP-Parameter â werden an den LP-Synthesefilter 208 geliefert, der daraus ein decodiertes Ausgabe-Sprachsignal ŝ[n] synthetisiert.
Betrieb und Implementierung der verschiedenen Module des Codierers 100 von 2 und des Decodiertes von 3 sind in dem Stand der Technik bekannt. Ein beispielhafter Codierer und ein beispielhafter Decodierer werden in dem U.S.-Patent Nr. 5,414,796 beschrieben.
In einem Ausführungsbeispiel werden quasi-periodische stimmhafte Segmente von Sprache durch Extrahieren von Pitchprototypsignalformen aus dem aktuellen Sprachrahmen S_cur und Synthetisieren des aktuellen Sprachrahmens aus den Pitchprototypsignalformen durch eine zeitsynchrone Signalforminterpolation (TSWI) modelliert. Durch Extrahieren und Beibehalten nur einer Anzahl M von Pitchprototypsignalformen W_m, wobei m = 1, 2, ..., M ist und jede Pitchprototypsignalform W_m eine Länge L_cur aufweist, wobei L_cur die aktuelle Pitchperiode von dem aktuellen Sprachrahmen S_cur ist, wird die Menge an Information, die codiert werden muss, von N Abtastwerten auf das Produkt aus M und L_cur Abtastwerten reduziert. Der Anzahl M kann entweder ein Wert von 1 oder ein diskreter Wert basierend auf der Pitchverzögerung gegeben werden. Ein höherer Wert von M ist oft erforderlich für einen kleinen Wert von L_cur, um zu verhindern, dass das rekonstruierte stimmhafte Signal übermäßig periodisch wird. In einem beispielhaften Ausführungsbeispiel wird M gleich 1 gesetzt, wenn die Pitchverzögerung größer als 60 ist. Ansonsten wird M gleich 2 gesetzt. Die M aktuellen Prototypen und der endgültige Pitchprototyp W_o mit einer Länge L_o aus dem vorherigen Rahmen werden verwendet, um eine Modell-Darstellung S_{cur_model} des aktuellen Sprachrahmens durch Einsatz einer unten detailliert beschriebenen TSWI-Technik wiederherzustellen. Es sei angemerkt, dass als eine Alternative zur Wahl aktueller Prototypen W_m mit derselben Länge L_cur die aktuellen Prototypen W_m stattdessen Längen L_m aufweisen können, wobei die lokale Pitchperiode L_m entweder durch Schätzen der wahren Pitchperiode an dem pertinenten diskreten Zeitort n_m oder durch Anwenden einer herkömmlichen In terpolations-Technik zwischen der aktuellen Pitchperiode L_cur und der letzten Pitchperiode L_o geschätzt werden kann. Die verwendete Interpolations-Technik kann zum Beispiel eine einfache lineare Interpolation sein: Lm = (1 – nm/N)*Lo + (nm/N)*Lcur,wobei der Zeitindex n_m der Mittelpunkt des m-ten Segments ist, wobei m = 1, 2, ..., M ist.
Die obigen Beziehungen sind in den Darstellungen der 4A–C dargestellt. In 4A, die eine Signalamplitude gegenüber einem diskreten Zeitindex (z.B. Abtastanzahl) zeigt, stellt eine Rahmenlänge N die Anzahl von Abtastwerte pro Rahmen dar. In dem gezeigten Ausführungsbeispiel ist N 160. Die Werte L_cur (die aktuelle Pitchperiode in dem Rahmen) und L_o (die letzte Pitchperiode in dem vorhergehenden Rahmen) werden ebenfalls gezeigt. Es sollte darauf hingewiesen werden, dass die Signalamplitude entweder eine Sprachsignalamplitude oder eine Restsignalamplitude sein kann, wie gewünscht. In 4B, die eine Prototypenamplitude gegenüber einem diskreten Zeitindex für den Fall M = 1 zeigt, werden die Werte W_cur (der aktuelle Prototyp) und W_o (der letzte Prototyp des vorhergehenden Rahmens) dargestellt. Die Darstellung von 4C zeigt die Amplitude des rekonstruierten Signals S_{cur_model} nach einer TSWI-Synthese gegenüber einem diskreten Zeitindex.
Die Mittelpunkte n_m in der obigen Interpolationsgleichung werden vorteilhaft derart gewählt, dass die Entfernungen zwischen benachbarten Mittelpunkten annähernd gleich sind. Zum Beispiel, M = 3, N = 160, L_o = 40 und L_cur = 42 liefert n₀ = –20 und n₃ = 139, somit ist n₁ = 33 und n₂ = 86, wobei die Entfernung zwischen benachbarten Segmenten [139 – (–20)/3] oder 53 ist.
Der letzte Prototyp des aktuellen Rahmens W_M wird durch Auswählen der letzten L_cur-Abtastwerte des aktuellen Rahmens extrahiert. Andere mittlere Prototypen W_m werden durch Auswählen von (L_m)/2-Abtastwerten um die Mittelpunkte n_m herum extrahiert.
Die Prototypextraktion kann durch Ermöglichen einer dynamischen Verschiebung von D_m für jeden Prototyp W_m weiter verfeinert werden, so dass alle L_m-Abtastwerte aus dem Bereich {n_m – 0.5*L_m – D_m, n_m + 0.5*L_m + D_m} ausgewählt werden können, um den Prototyp zu bilden. Es ist wünschenswert, Segmente mit hoher Energie an der Prototypgrenze zu vermeiden. Der Wert D_m kann variabel über m sein oder er kann für jeden Prototyp fest sein.
Es sollte angemerkt werden, dass eine von Null verschiedene dynamische Verschiebung D_m notwendigerweise die Zeitsynchronität zwischen den extrahierten Prototypen W_m und dem ursprünglichen Signal zerstören würde. Eine einfache Lösung für dieses Problem ist, eine ringförmige Verschiebung auf den Prototyp W_m anzuwenden, um den Offset anzupassen, den die dynamische Verschiebung eingeführt hat. Wenn zum Beispiel die dynamische Verschiebung auf Null gesetzt ist, beginnt die Prototyp-Extraktion bei einem Zeitindex n = 100. Andererseits, wenn D_m angewendet wird, beginnt die Prototyp-Extraktion bei n = 98. Um die Zeitsynchronität zwischen dem Prototyp und dem ursprünglichen Signal beizubehalten, kann der Prototyp kreisförmig nach rechts um zwei Abtastwerte (d.h. 100–98 Abtastwerte) verschoben werden, nachdem der Prototyp extrahiert ist.
Um Verschiebungen bzw. ungewollte Unterschiede an den Rahmengrenzen zu vermeiden, ist es wichtig, eine Zeitsynchronität der synthetisierten Sprache beizubehalten. Es ist deswegen wünschenswert, dass die mit dem Analyse-Synthese-Prozess synthetisierte Sprache mit der eingegebenen Sprache gut ausgerichtet wird. In einem Ausführungsbeispiel wird das obige Ziel durch explizites Steuern der Grenzwerte der Phasenspur (phase track) erreicht, wie unten beschrieben wird. Eine Zeitsynchronität ist auch insbesondere entscheidend für einen linear prädiktiv-basierten Multimodus-Sprachcodierer, in dem ein Modus CELP sein kann und ein anderer Modus eine Prototyp-basierte Analyse-Synthese sein kann. Für einen mit CELP co dierten Rahmen kann, wenn der vorige Rahmen mit einem Prototyp-basierten Verfahren bei einer Abwesenheit einer Zeitausrichtung oder einer Zeitsynchronität codiert wird, die Analyse-durch-Synthese-Signalform-Übereinstimmungsleistung von CELP nicht nutzbar gemacht werden. Durch jede Unterbrechung der Zeitsynchronität in der letzten Signalform kann sich CELP für die Prädiktion nicht auf einen Speicher verlassen, da der Speicher aufgrund eines Fehlens einer Zeitsynchronität mit der ursprünglichen Sprache nicht ausgerichtet ist.
Das Blockdiagramm von 5 zeigt eine Vorrichtung für eine Sprachsynthese mit TSWI gemäß einem Ausführungsbeispiel. Beginnend mit einem Rahmen der Größe N werden M Prototypen W₁, W₂, ..., W_M einer Länge L₁, L₂, ... L_M in Block 300 extrahiert. In dem Extraktionsvorgang wird eine dynamische Verschiebung für jede Extraktion verwendet, um eine hohe Energie an der Prototypgrenze zu vermeiden. Dann wird eine geeignete kreisförmige Verschiebung auf jeden extrahierten Prototyp angewendet, um die Zeitsynchronität zwischen den extrahierten Prototypen und dem entsprechenden Segment des ursprünglichen Signals zu maximieren. Der m-te Prototyp W_m hat L_m Abtastwerte, indiziert mit einer k Abtastanzahl, d.h. k = 1, 2, ..., L_m. Dieser Index k kann normalisiert und auf einen neuen Phasenindex φ neu abgebildet sein, der von 0 bis 2π reicht. In Block 301 werden Pitchschätzung und Interpolation eingesetzt, um Pitchverzögerungen zu erzeugen.
Die Positionen der Endpunkte der Prototypen werden als n₁, n₂, ..., n_M markiert, wobei 0 < n₁ < n₂ < ... < n_M = N ist. Die Prototypen können nun gemäß ihrer Endpunkte wie folgt dargestellt werden: X (n1, ϕ) = W1 X (n2, ϕ) = W2 ... X (nM, ϕ) = WM
Es sei angemerkt, dass X (n₀, φ) den letzten extrahierten Prototyp in dem vorherigen Rahmen darstellt und dass X (n₀, φ) eine Länge von L₀ aufweist.
Es sollte weiter angemerkt werden, dass {n₁, n₂, ..., n_M} über den aktuellen Rahmen in gleichem Abstand angeordnet sein kann oder nicht.
In Block 302, in dem der Ausrichtungsvorgang durchgeführt wird, wird eine Phasenverschiebung ψ auf jeden Prototyp X angewendet, so dass die aufeinander folgenden Prototypen maximal ausgerichtet sind. Insbesondere, W (n1, ϕ) = X (n1, ϕ + ψ1) W (n2, ϕ) = X (n2, ϕ + ψ2)... W (nM, ϕ) = X (nM, ϕ + ψM)wobei W die ausgerichtete Version von X darstellt und die Ausrichtungsverschiebung ψ berechnet werden kann durch:
Z[X, W] stellt die Kreuzkorrelation zwischen X und W dar.
Die M Prototypen werden in Block 303 höher abgetastet/aufgetastet (upsampled) auf N Prototypen durch eine herkömmliche Interpolationstechnik. Die verwendete Interpolationstechnik kann zum Beispiel eine einfache lineare Interpolation sein:
Der Satz von N Prototypen W (n_i, φ), wobei i = 1, 2, ..., N ist, bildet eine zweidimensionale (2-D) prototyp-evolvierende Oberfläche, wie in 6B gezeigt.
Der Block 304 führt die Berechnung der Phasenspur durch. In einer Signalforminterpolation wird eine Phasenspur Φ[N] verwendet, um die 2-D prototyp-evolvierende Oberfläche zurück in ein 1-D-Signal zu wandeln. Herkömmlicherweise wird eine derartige Phasenkontur auf einer Abtast-zu-Abtast-Basis unter Verwendung von interpolierten Frequenzwerten wie folgt berechnet:
wobei n = 1, 2, ..., N. Die Frequenzkontur F[n] kann berechnet werden unter Verwendung der interpolierten Pitchspur, insbesondere F[n] = 1/L[n], wobei L[n] die interpolierte Version von {L₁, L₂, ..., L_M} darstellt. Die obige Phasenkonturfunktion wird typischerweise einmal pro Rahmen mit dem anfänglichen Phasenwert Φ₀ = Φ und nicht mit dem Endwert Φ_N = Φ[N] abgeleitet. Ferner berücksichtigt die Phasenkonturfunktion nicht die aus dem Ausrichtungsvorgang resultierende Phasenverschiebung ψ. Aus diesem Grund ist nicht garantiert, dass die rekonstruierte Signalform zeitsynchron zu dem ursprünglichen Signal ist. Es sollte angemerkt werden, dass, wenn die Frequenzkontur als linear über die Zeit evolvierend angenommen wird, die resultierende Phasenspur Φ[n] eine quadratische Funktion des Zeitindexes (n) ist.
In dem Ausführungsbeispiel von 5 ist die Phasenkontur vorteilhafterweise in einer stückweisen Art konstruiert, wobei die anfänglichen und die letzten Grenzphasenwerte mit den Ausrichtungsverschiebungswerten nah abgestimmt sind. Angenommen, es ist gewünscht, dass eine Zeitsynchronität beibehalten wird bei p Zeitpunkten in dem aktuellen Rahmen, n_α1, n_α2, ..., n_αp, wobei n_α1 < n_α2 < ... < n_αp und α₁ ∊ {1, 2, ..., M}, i = 1, 2, ..., p. Das resultierende Φ[n], n = 1, 2, ..., N besteht aus p stückweisen kontinuierlichen Phasenfunktionen, die wie folgt geschrieben werden können:
Es sollte angemerkt werden, dass n_αp typischerweise auf n_M gesetzt wird, so dass Φ[n] für den gesamten Rahmen berechnet werden kann, d.h. für n = 1, 2, ..., N. Die Koeffizienten {a, b, c, d} jeder stückweisen Phasenfunktion können durch vier Grenzbedingungen berechnet werden: jeweils die anfängli chen und die letzten Pitchverzögerungen L_α1-1 und L_α1, und die anfänglichen und die letzten Ausrichtungsverschiebungen ψ_α1-1 und ψ_α1. Insbesondere die Koeffizienten können gelöst werden durch:
wobei i = 1, 2, ..., p ist. Da die Ausrichtungsverschiebung ψ durch Modulo 2π erhalten wird, wird der Faktor ξ verwendet, um die Phasenverschiebungen derart zu entzerren, dass die resultierende Phasenfunktion maximal glatt ist. Der Wert ξ kann wie folgt berechnet werden:
wobei i = 1, 2, ..., p ist und die Funktion round[x] die zu x nächste Ganzzahl findet. Zum Beispiel ist round[1.4] gleich 1.
Eine beispielhafte entzerrte Phasenspur wird in 7 für den Fall M = p = 1 und L_o = 40, L_m = 46 dargestellt. Ein Folgen der kubischen Phasenkontur (im Gegensatz zum Verbleiben bei der herkömmlichen quadratischen Phasenkontur, die mit einer gestrichelten Linie gezeigt wird) garantiert eine Zeitsynchronität der synthetisierten Signalform S_{cur_model} mit dem ursprünglichen Rahmen der Sprache S_cur an der Rahmengrenze.
In Block 305 wird eine eindimensionale (1-D) Zeitdomain-Signalform aus der 2-D-Oberfläche gebildet. Die synthetisierte Signalform S_{cur_model}[n], wobei n = 1, 2, ..., N ist, wird gebildet durch: Scur_model[n] = W(n, Φ[n])
Graphisch ist die obige Transformation äquivalent zu einem Überlagern der in 6A gezeigten verzerrten Phasenspur auf die 2-D-Oberfläche, wie in 6B gezeigt. Die Projektion des Schnittpunkts (wo die Phasenspur auf die 2-D-Oberfläche trifft) auf die Ebene senkrecht zu der Phasenachse ist S_{cur_model}[n].
In einem Ausführungsbeispiel wird der Prozess einer Prototypextraktion und einer TSWI-basierten Analyse-Synthese auf den Sprachbereich angewendet. In einem alternativen Ausführungsbeispiel wird der Prozess einer Prototypextraktion und einer TSWI-basierten Analyse-Synthese auf den LP-Restbereich angewendet sowie auf den hier beschriebene Sprachbereich.
In einem Ausführungsbeispiel wird ein Pitchprototyp-basiertes Analyse-Synthese-Modell nach einem Vorauswahlprozess angewendet, in dem festgestellt wird, ob der aktuelle Rahmen „periodisch genug" ist. Die Periodizität PF_m zwischen benachbarten extrahierten Prototypen W_m und W_m+1 kann berechnet werden als:
wobei L_max das Maximum von [L_m, L_m+1], das Maximum der Längen der Prototypen W_m und W_m+1 ist.
Die M Sätze von Periodizitäten PF_m können mit einem Satz von Schwellen verglichen werden, um festzustellen, ob die Prototypen des aktuellen Rahmens extrem ähnlich sind, oder ob der aktuelle Rahmen hoch periodisch ist. Der Mittelwert des Satzes von Periodizitäten PF_m kann vorteilhafterweise mit einer vorgegebenen Schwelle verglichen werden, um zu der obigen Entscheidung zu kommen. Wenn der aktuelle Rahmen nicht periodisch genug ist, dann kann stattdessen ein anderer Algorithmus mit höherer Rate (d.h. einer, der nicht Pitchprototyp-basiert ist) verwendet werden, um den aktuellen Rahmen zu codieren.
In einem Ausführungsbeispiel kann ein Nachauswahl-Filter angewendet werden, um eine Leistung zu evaluieren. Somit wird nach der Codierung des aktuellen Rahmens mit einem Pitchprototyp-basierten Analyse-Synthese-Modus eine Entscheidung getroffen, ob die Leistung gut genug ist. Die Entscheidung wird getroffen durch Erlangen eines Qualitätsmaßes, wie beispielsweise PSNR, wobei PSNR wie folgt definiert ist:
wobei x[n] = h[n]*R[n] und e(n) = h[n]*qR[n], wobei „*" einen Faltungs- oder Filtervorgang anzeigt, h(n) ein wahrnehmbar gewichteter LP-Filter ist, R[n] der ursprüngliche Sprachrest ist und qR[n] der Rest ist, der von dem Pitchprototyp-basierten Analyse-Synthese-Modus erlangt wird. Die obige Gleichung für PSNR ist gültig, wenn eine Pitchprototyp-basierte Analyse-Synthese-Codierung auf das LP-Restsignal angewendet wird. Wenn andererseits die Pitchprototyp-basierte Analyse-Synthese-Technik auf den ursprünglichen Rahmen angewendet wird anstatt auf den LP-Rest, kann PSNR definiert werden als:
wobei x[n] der ursprüngliche Sprachrahmen ist, e[n] das von der Pitchprototyp-basierten Analyse-Synthese-Technik modellierte Sprachsignal ist und w[n] Wahrnehmungsgewichtungsfaktoren sind. Wenn in beiden Fällen PSNR unter einer vorgegebenen Schwelle ist, ist der Rahmen nicht geeignet für eine Analyse-Synthese-Technik und ein anderer Algorithmus, möglicherweise mit einer höheren Bitrate, kann stattdessen verwendet werden, um den aktuellen Rahmen zu erfassen. Für Fachleute ist offensichtlich, dass jedes herkömmliche Leistungsmaß, einschließlich des oben beschriebenen beispielhaften PSNR-Maßes, für die Nachverarbeitungs-Entscheidung hinsichtlich einer Algorithmus-Leistung verwendet werden kann.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Es ist für Fachleute offensichtlich, dass zahlreiche Veränderungen dieser Ausführungsbeispiele gemacht werden können. Folglich ist die vorliegende Erfindung nicht begrenzt, außer gemäß den folgenden Ansprüchen.

Claims

Verfahren zur Synthetisierung von Sprache aus Pitch oder Tonhöhenprototypwellen- bzw. Signalformen durch zeitsynchrone Wellenforminterpolation, wobei das Verfahren folgendes vorsieht: Extrahieren (300) von mindestens einem Pitchprototyp (Tonhöhenprototyp) pro Rahmen aus einem Signal; Anwenden (302) einer Phasenverschiebung auf den extrahierten Pitchprototyp relativ zu dem zuvor extrahierten Pitchprototyp; Auftasten bzw. up-sampeln (303) des Pitchprototyps für jeden Tastpunkt innerhalb des Rahmens; Konstruieren (304) einer zweidimensionalen prototyp-evolvierenden Oberfläche; und Wieder-Abtasten (re-sampling) (305) der zweidimensionalen Oberfläche zur Erzeugung eines eindimensionalen synthetisierten Signalrahmens, wobei die Wiederabtastungspunkte durch stückweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus den Pitchverzögerungen und den Ausrichtungsphasenverschiebungen addiert zu dem extrahierten Pitchprototyp berechnet werden.
Verfahren nach Anspruch 1, wobei das Signal ein Sprachsignal aufweist bzw. ist.
Verfahren nach Anspruch 1, wobei das Signal ein Restsignal ist bzw. aufweist.
Verfahren nach Anspruch 1, wobei die endgültige Pitchprototypwellenform Verzögerungsabtastungen des vorherigen Rahmens aufweist.
Verfahren nach Anspruch 1, wobei ferner die Berechnung der Periodizität eines laufenden bzw. aktuellen Rahmens vorgesehen ist, und zwar zur Bestimmung, ob die verbleibenden Schritte durchgeführt werden sollen.
Verfahren nach Anspruch 1, wobei ferner der Erhalt eines Nachverarbeitungsperformancemaßes vorgesehen ist und das Vergleichen des Nachverarbeitungsperformancemaßes mit einer vorbestimmten Schwelle.
Verfahren nach Anspruch 1, wobei das Extrahieren (300) das Extrahieren nur eines einzigen Pitchprototyps aufweist.
Verfahren nach Anspruch 1, wobei das Extrahieren (300) das Extrahieren einer Anzahl von Pitchprototypen aufweist, deren Anzahl eine Funktion der Pitchverzögerung ist.
Vorrichtung zum Synthetisieren von Sprache aus Pitchprototypwellenformen durch zeitsynchrone Wellenforminterpolation, wobei die Vorrichtung folgendes aufweist: Mittel zum Extrahieren (300) von mindestens einem Pitchprototyp pro Rahmen aus einem Signal; Mittel zum Anlegen (302) einer Phasenverschiebung an den extrahierten Pitchprototyp relativ zu dem zuvor extrahierten Pitchprototyp; Mittel zur Höherabtastung (up-sampling) (303) des Pitchprototyps für jeden Tastpunkt innerhalb des Rahmens; Mittel zum Konstruieren (304) einer zweidimensionalen prototypevolvierenden Oberfläche; und Mittel zur Wiederabtastung (305) der zweidimensionalen Oberfläche zur Erzeugung eines eindimensionalen synthetisierten Signalrahmens, wobei die Wiederabtastungspunkte durch stückweise kontinuierliche kubische Phasenkonturfunktionen definiert sind, wobei die Phasenkonturfunktionen aus Pitchverzögerungen und Ausrichtungsphasenverschiebungen hinzuaddiert zu dem extrahierten Pitchprototyp berechnet werden.
Vorrichtung nach Anspruch 9, wobei das Signal ein Sprachsignal ist oder ein solches aufweist.
Vorrichtung nach Anspruch 9, wobei das Signal ein Restsignal ist oder aufweist.
Vorrichtung nach Anspruch 9, wobei die finale bzw. endgültige Pitchprototypwellenform Verzögerungsabtastungen des vorhergehenden Rahmens aufweist.
Vorrichtung nach Anspruch 9. wobei ferner Mittel vorgesehen sind zur Berechnung der Periodizität eines laufenden (aktuellen) Rahmens.
Vorrichtung nach Anspruch 9, wobei ferner Mittel vorgesehen sind zum Erhalt eines Nachverarbeitungsperformancemaßes und Mittel zum Vergleich des Nachverarbeitungsperformancemaßes mit einer vorbestimmten Schwelle.
Vorrichtung nach Anspruch 9, wobei die Extrahiermittel (300) Mittel zum Extrahieren von nur einem Pitchprototyp aufweisen.
Vorrichtung nach Anspruch 9, wobei die Extrahiermittel (300) Mittel aufweisen zum Extrahieren einer Anzahl von Pitchprototypen, wobei die Anzahl eine Funktion der Pitchverzögerung ist.