DE69525508T2

DE69525508T2 - System zur Schätzung der Grundfrequenz

Info

Publication number: DE69525508T2
Application number: DE69525508T
Authority: DE
Inventors: Tom Hong Li; Huan-Yu Su
Original assignee: Conexant Systems LLC
Current assignee: Conexant Systems LLC
Priority date: 1994-11-21
Filing date: 1995-11-17
Publication date: 2002-06-20
Anticipated expiration: 2015-11-18
Also published as: EP0713208A2; JPH08211895A; EP0713208B1; EP0713208A3; DE69525508D1

Description

Signalmodellierung und Parameterschätzung spielen zunehmend bedeutende Rollen bei der Kompression, bei der Dekompression und beim Kodieren von Daten. Um grundlegende Sprachlaute zu modellieren, müssen Sprachsignale als diskrete Wellenform abgetastet werden, um digital verarbeitet werden zu können. Bei einer Art der Signalkodierungsverfahren, genannt Lineare Vorhersagekodierung bzw. Linearvorhersehungskodierung (linear prediction coding) (LPC), wird der Signalwert zu einem bestimmten Zeitindex als eine lineare Funktion vorhergehender Werte modelliert. Ein folgendes Signal wird daher anhand eines früheren Wertes linear vorhergesagt. Demzufolge können effiziente Signalrepräsentationen durch Schätzen und Anwenden bestimmter Vorhersageparameter bestimmt werden, um das Signal zu repräsentieren. Derzeit werden LPC-Verfahren für die Sprachkodierung verwendet, die codeerregte lineare Vorhersage (code excited linear prediction) (CELP) umfassen.
Es ist bekannt, daß die Pitch-Information für Kodierungszwecke ein zuverlässiger Indikator und charakteristisch für Laute ist. Der Pitch beschreibt ein Schlüsselmerkmal oder einen Schlüsselparameter der Stimme eines Sprechers. Da menschliche Sprache im allgemeinen nicht einfach mathematisch quantifizierbar ist, liefern Sprachschätzungsmodelle, welche die Pitch-Daten effektiv schätzen können, eine akkuratere und präzisere kodierte und dekodierte Sprache. In aktuellen Sprachkodiermodellen, wie z.B. bestimmten CELP (d.h. vektorsummenerregte lineare Vorhersage (VSELP), Multipulse-, Regelpuls-, algebraische CELP, etc.) (vector sum excited linear prediction (VSELP), multipulse, regular pulse, algebraic CELP) und MBE Kodierern/Dekodierern ("codecs"), ist die Pitch-Schätzung oftmals schwierig aufgrund der Forderung nach hoher Präzision und geringer Komplexität des Pitch-Schätzungsalgorithmus.
Verschiedene Schemata für die Schätzung der Pitch-Verzögerung bzw. des Pitch-Lag werden im Zusammenhang mit den o.g. Codecs benutzt: ein Zeitbereichs-Ansatz (time domain approach), ein Frequenzbereichs-Ansatz (frequency domain approach) und ein Cepstrumbereichs-Ansatz (cepstrum domain approach). Die Präzision der Pitch-Schätzung hat aufgrund der engen Beziehung zwischen der Pitch-Verzögerung und der Sprachwiedergabe einen direkten Einfluß auf die Sprachqualität. In CELP Kodierern basiert die Spracherzeugung auf Vorhersagen - Langzeit-Pitch-Vorhersage und Kurzzeit- Linearvorhersage. Fig. 1 zeigt ein Blockdiagramm der Sprachregeneration eines typischen CELP Kodierers.
Um Sprachdaten zu komprimieren, ist es wünschenswert, nur essentielle Informationen zu extrahieren, um das Übertragen von Redundanzen zu vermeiden. Sprache kann in kurze Blöcke gruppiert werden, wobei repräsentative Parameter in allen Blöcken identifiziert werden können. Wie in Fig. 1 angegeben, muß ein CELP Sprachkodierer zum Erzeugen von Sprache guter Qualität LPC Parameter 110, Pitch-Verzögerungsparameter 112 (inklusive Verzögerung und deren Koeffizient) und einen optimalen Innovationscodevektor 114 mit dessen Verstärkungsparameter 116 aus der zu kodierenden Eingabesprache extrahieren. Der Kodierer quantisiert die LPC Parameter durch implementieren geeigneter Codierschemata. Die Indizes der Quantisierung jedes Parameters enthalten die zu speichernden oder die zum Sprachdecoder zu übertragenden Informationen. In CELP Codecs wird in die Bestimmung der Pitch- Vorhersageparameter (Pitch-Verzögerung und Pitch-Koeffizienten) im Zeitbereich durchgeführt, wohingegen die Pitch-Parameter in MBE Codecs im Frequenzbereich geschätzt werden.
Nach der LPC Analyse bestimmt der CELP Kodierer ein passendes LPC Filter 110 für den aktuellen Sprachkodierrahmen (gewöhnlich etwa 10-40 ms genommen). Das LPC Filter ist durch die Gleichung gegeben:
A(z) = 1 - a&sub1;z&supmin;¹ - a&sub2;z&supmin;² - ... - anpz-np
oder das n-te Sample bzw. der n-te Abtastwert kann vorhergesagt werden durch
(n) = ak * y(n - k)
worin np die LPC Vorhersage-Ordnung (gewöhnlich ungefähr 10), y(n) sind abgetastete Sprachdaten, und n repräsentiert den Zeitindex. Die vorstehenden LPC Gleichungen beschreiben die Schätzung des aktuellen Abtastwertes entsprechend der Linearkombination der vergangenen Abtastwerte. Ein auf dem LPC Filter basierendes Wahrnehmungs-wichtendes Filter, welches die Empfindlichkeit des menschlichen Ohres modelliert, wird dann definiert durch
W(Z) = A(z/γ&sub1;)/A(z/γ&sub2;) worin 0 < γ&sub2; < γ&sub1; ≤ 1
Um die gesuchten Pitch-Parameter zu extrahieren, müssen für jeden Kodierunterrahmen die Pitch-Parameter berechnet werden, welche die folgende gewichtete Kodierungsfehler-Energie minimieren, wobei ein Kodierrahmen für Analyse und Kodierung in mehrere Kodierunterrahmen aufgeteilt sein kann:
d = T - βPlagH - αCiH ²
worin T das Zielsignal ist, welches das Wahrnehmungs-gefilterte Eingabesignal repräsentiert, und H ist die Impulsantwort-Matrix des Filters W(z)/A(z). Plag ist der Beitrag der Pitch-Vorhersage mit einer Pitch-Verzögerung "Lag" und einem Vorhersagekoeffizienten β, welcher für eine gegebene Verzögerung eindeutig definiert ist, und Ci ist der mit dem Index i im Codebook assoziierte Codebook-Beitrag und dessen korrespondierende Verstärkung α. Typischerweise variiert der Pitch menschlicher Sprache von 2 ms-20 ms. Wenn die Sprache mit einer Abtastrate von 8 kHz abgetastet wird, entspricht die Pitch-Verzögerung also etwa 20-147 Abtastwerten bzw. Samples. Außerdem nimmt i Werte zwischen 0 und Nc-1 an, wobei Nc die Größe des Innovationscodebooks ist.
Ein Ein-Abgriff-Pitch-Vorhersager bzw. Ein-Tap-Pitch-Vorhersager und ein Innovationscodebook werden vorausgesetzt. Typischerweise allerdings ist die allgemeine Formen des Pitch-Vorhersagers ein Multi-Tap-Schema, und die allgemeine Form des Innovationscodebooks ist eine Multi-Level Vektorquantisierung oder verwendet mehrere Innovationscodebooks. Insbesondere weist ein Ein-Tap Pitch-Vorhersager darauf hin, daß der aktuelle Sprach-Abtastwert aus einem vergangenen Sprach-Abtastwert vorhergesagt werden kann, wohingegen der Multi-Tap Vorhersager bedeutet, daß der aktuelle Sprach- Abtastwert aus mehreren vergangenen Sprach-Abtastwerten vorhergesagt werden kann.
Aufgrund von Komplexitätserwägungen wurden sub-optimale Ansätze in Sprachkodier-Schemata verwendet. Beispielsweise kann die Schätzung der Pitch-Verzögerung durch einfaches Auswerten der möglichen Verzögerungswerte im Bereich zwischen L&sub1; und L&sub2; Abtastwerten durchgeführt werden, um 2,5 ms-18,5 ms abzudecken. Folglich wird der geschätzte Pitch-Verzögerungswert durch maximieren des Folgenden bestimmt:
Obwohl dieser Ansatz im Zeitbereich die Bestimmung der tatsächlichen Pitch- Verzögerung ermöglichen kann, kann für weibliche Sprache mit einer hohen Pitch-Frequenz die durch Gleichung (1) gefundene Pitch-Verzögerung nicht die tatsächliche Verzögerung, sondern ein Vielfaches der tatsächlichen Verzögerung sein. Um diesen Schätzfehler zu vermeiden, sind zusätzliche Prozesse erforderlich, um unter Inkaufnahme unerwünschter Komplexität den Schätzfehler zu korrigieren (zum Beispiel Verzögerungsglättung).
Dieser Komplexitäts-Mehraufwand ist jedoch ein signifikanter Nachteil der Verwendung des Zeitbereichs-Ansatzes. Zum Beispiel benötigt der Zeitbereichs-Ansatz mindestens 3 Millionen Operationen pro Sekunde (MOPs), um unter Verwendung lediglich ganzzahliger Verzögerung die Verzögerung zu bestimmen. Falls darüberhinaus Glättung der Pitch-Verzögerung und eine gebrochene Pitch-Verzögerung verwendet werden, beträgt die Komplexität sehr wahrscheinlich ungefähr 4 MOPs. in der Praxis werden ungefähr 6 Millionen Digitalsignal-Verarbeitungs-Maschineninstruktionen pro Sekunde (DSP MIPs) benötigt, um ganzumfängliche Pitch-Verzögerungsschätzung mit akzeptabler Präzision zu implementieren. Es daher allgemein anerkannt, daß Pitch- Schätzungen 4-6 DSP MIPs benötigt. Obgleich andere Ansätze existieren, welche die Komplexität der Pitch-Schätzung reduzieren, opfern solche Ansätze oft Qualität.
In MBE Kodierern, einem wichtigen Vertreter der Klasse der Sinus-Kodierer, werden die Kodier-Parameter im Frequenzbereich extrahiert und quantisiert. Das MBE Sprachmodell ist in den Fig. 2-4 dargestellt. Im MBE Sprachkodierer/dekodierer ("Vocoder"), beschrieben in Fig. 2 und 3, werden die Grundfrequenz (oder Pitch-Verzögerung) 210, die stimmhaft/stimmlos- Entscheidung 212, und die spektrale Einhüllende 214 aus der Eingabesprache im Frequenzbereich extrahiert. Die Parameter werden dann quantisiert und in einen Bitstrom kodiert, welcher gespeichert oder übertragen werden kann.
Im MBE Vocoder muß die Grundfrequenz mit hoher Präzision geschätzt werden, um eine hohe Sprachqualität zu erreichen. Die Schätzung der Grundfrequenz wird in zwei Stufen ausgeführt. Zuerst wird innerhalb des Bereichs von 21 Abtastwerten bis 114 Abtastwerten zum Abdecken von 2,6-14,25 ms bei einer Abtastrate von 8000 Hertz eine anfängliche Pitch-Verzögerung gesucht, indem eine Gleichung für den gewichteten mittleren quadratischen Fehler 310 (Fig. 3) zwischen der Eingabesprache 216 und der synthetisierten Sprache 218 im Frequenzbereich minimiert wird. Der mittlere quadratische Fehler zwischen der originalen Sprache und der synthetisierten Sprache ist durch die Gleichung gegeben:
E = 1/2π G(ω) S(ω) - (ω) dω
worin S(ω) das Spektrum der originalen Sprache ist, (ω) ist das Spektrum der synthetisierten Sprache, und G(ω) ist eine frequenzabhängige Gewichtsfunktion. Wie in Fig. 4 gezeigt, wird ein Algorithmus zum Pitch-Tracking 410 verwendet, um die anfängliche Pitch-Verzögerungsschätzung 412 durch Verwenden der Pitch-Information benachbarter Rahmen zu aktualisieren.
Die Motivation für die Verwendung dieses Ansatzes basiert auf der Annahme, daß die Grundfrequenz sich zwischen benachbarten Rahmen nicht abrupt ändern sollte. Die Pitch-Schätzungen der zwei vergangenen und der zwei zukünftigen benachbarten Rahmen werden für das Pitch-Tracking verwendet. Der mittlere quadratische Fehler (inklusive zweier vergangener und zukünftiger Rahmen) wird dann minimiert, um einen neuen Pitch-Verzögerungswert für den aktuellen Rahmen zu finden. Nach dem Tracking der anfänglichen Pitch-Verzögerung wird ein Vielfach-Pitch-Verzögerung Testschema 414 angewendet, um die Vielfach-Pitch-Verzögerung zu eliminieren und dabei die Pitch-Verzögerung zu glätten.
Mit Bezug auf Fig. 4, in der zweiten Stufe der Grundfrequenz-Schätzung wird Pitch-Verzögerung-Verfeinerung 416 angewendet, um die Präzision der Pitch- Schätzung zu erhöhen. Die zur Auswahl stehenden Pitch-Verzögerungswerte werden auf Basis der anfänglichen Schätzung der Pitch-Verzögerung gebildet (d.h. die neuen zur Auswahl stehenden Pitch-Verzögerungswerte werden durch Addieren oder Subtrahieren einer gebrochenen Zahl zu bzw. von der anfänglichen Schätzung der Pitch-Verzögerung gebildet). Entsprechend kann eine verfeinerte Schätzung der Pitch-Verzögerung 418 unter den zur Auswahl stehenden Pitch-Verzögerungen durch Minimieren der mittleren quadratischen Fehlerfunktion bestimmt werden.
Allerdings hat die Pitch-Schätzung im Frequenzbereich bestimmte Nachteile. Erstens ist die Komplexität sehr hoch. Zweitens muß die Pitch-Verzögerung innerhalb des Bereiches von 20 und 114 Abtastwerten, der lediglich 2,5-14,25 ms abdeckt, gesucht werde, um die Fenstergröße auf 256 Abtastwerte zu begrenzen, um eine 256-Punkt FFT durchzuführen. Es ist allerdings unmöglich, für Sprecher mit sehr niedriger Pitch-Frequenz oder für Sprache mit einer Pitch-Verzögerung jenseits von 14,25 ms eine ausreichende Anzahl von Abtastwerte innerhalb eines Fensters von 256 Abtastwerten zu sammeln. Darüberhinaus wird nur eine gemittelte Pitch-Verzögerung über einen Sprachrahmen geschätzt.
Unter Verwendung der Schätzung der Pitch-Verzögerung im Cepstrumbereich (Fig. 5), welche 1967 von A. M. Noll vorgeschlagen wurde, wurden andere modifizierte Verfahren vorgeschlagen. Bei der Schätzung der Pitch- Verzögerung im Cepstrumbereich werden ungefähr 37 ms Sprache abgetastet 510, sodaß mindestens zwei Perioden der maximal möglichen Pitch- Verzögerung (d.h. 18,5 ms) abgedeckt werden. Eine 512-Punkt FFT wird dann auf den Ausschnitt des Sprachrahmens angewendet (in Block 512), um das Frequenzspektrum zu erhalten. Mit der Logarithmus-Amplitude 514 des Frequenzspektrums wird eine weitere 512-Punkt inverse FFT 516 angewendet, um das Cepstrum zu erhalten. Eine Gewichtsfunktion 518 wird auf das Cepstrum angewendet, und der maximale Wert des Cepstrums wird detektiert 520, um die Pitch-Verzögerung zu bestimmen. Ein Tracking-Algorithmus 522 wird dann implementiert, um Pitch-Vielfache zu eliminieren.
Allerdings können mehrere Nachteile des Cepstrum-Pitch-Detektionverfahrens beobachtet werden. Beispielsweise ist die Anforderung an die Rechenleistung hoch. Um einen Pitch-Bereich zwischen 20 und 147 Abtastwerten bei einer Abtastfrequenz von 8 kHz abzudecken, muß die 512-Punkt FFT zweimal ausgeführt werden. Die Präzision der Schätzung ist inadäquat, da die Cepstrum- Pitch-Schätzung nur die Schätzung einer gemittelten Pitch-Verzögerung über den Analyserahmen liefern wird. Für die Sprachkodierung mit geringer Bitrate ist es jedoch entscheidend, daß der Pitch-Verzögerungswert über eine kürzere Zeitperiode geschätzt wird. Daher wird heute die Cepstrum-Pitch- Schätzung für Sprachkodierung mit hoher Qualität und niedriger Bitrate so gut wie nie verwendet. Aufgrund der Einschränkungen eines jeden zuvor genannten Ansatzes, wird eine Methode für effiziente Schätzung der Pitch- Verzögerung gesucht, welche die Erfordernisse der Sprachkodierung mit hoher Qualität und niedrige Bitrate erfüllt.
Es sei auf das Dokument mit dem Titel "Application of a Digital Inverse Filter for Automatic Formant and FO Analysis", IEEE Tr. on Audio and Electroacustics, Vol. AU-21, No.3, Juni 1973, Seiten 154-160 hingewiesen, welches einen neuen Algorithmus offenbart, der auf der Einstellung inverser Digitalfilter für das automatische Bestimmen einer stimmhaft-stimmlos Entscheidung und der Frequenzen der ersten drei Formanten als eine Funktion der Zeit basiert.
Es sei weiterhin auf die Europäische Patentanmeldung EP-A-415163 hingewiesen, welche ein Verfahren und eine Vorrichtung zur Bestimmung der Verzögerung eines Langzeit-Filters in einem Sprachkodierer mit codeerregter linearer Vorhersage offenbart. Zuerst wird unter Verwendung einer Autokorrelationsfunktion eine offene Schleifenverzögerung bestimmt. Die offene Schleifenverzögerung wird verwendet, um einen begrenzten Bereich zu erzeugen, über welchen eine geschlossene Schleifensuche ausgeführt wird. Der Bereich für geeignete Werte umfaßt Verzögerungen, die harmonisch mit offener Schleifenverzögerung in Bezug stehen, und ebenfalls angrenzende Verzögerung.
In Übereinstimmung mit der vorliegenden Erfindung wird eine Sprachkodiervorrichtung zum Reproduzieren und zum Kodieren von Eingabesprache, wie in Anspruch 1 dargelegt, und ein Sprachkodierverfahren zum Reproduzieren und Kodieren von Eingabesprache, wie in Anspruch 11 dargelegt, vorgesehen. Bevorzugte Ausführungsbeispiele der Erfindung sind in den abhängigen Ansprüchen offenbart.
Dementsprechend ist es ein Ziel der vorliegenden Erfindung, ein System zur Pitch-Schätzung vorzusehen, welches eine Mehrfachauflösungs-Analyse zur Sprachkodierung einschließt, minimale Komplexität und größere Präzision erfordert. In speziellen Ausführungsbeispielen wird die vorliegende Erfindung auf eine Vorrichtung und Verfahren zur Sprachkodierung unter Verwendung von CELP-Methoden gerichtet, ebenso wie eine Anzahl weiterer Sprachkodierungs- und -erkennungssysteme. Folglich werden mit geringeren Rechenressourcen bessere Ergebnisse geliefert, während die notwendige hohe Präzision erhalten bleibt.
Diese und andere Ziele werden gemäß eines Ausführungsbeispiels der Erfindung durch ein System bzw. Schema zur Schätzung der Pitch-Verzögerung bzw. des Pitch-Lag erreicht, welches die akkurate Reproduktion und Regeneration von Sprache schnell und effizient ermöglicht. Die Pitch-Verzögerung wird für einen gegebenen Sprachrahmen extrahiert und dann für jeden Subrahmen verfeinert. Nachdem eine minimale Anzahl von Sprach- Abtastwerten durch direktes Abtasten von Sprache erhalten wurden, wird eine Diskrete Fourier-Transformation (DFT) angewendet, und die resultierende Amplitude wird quadriert. Eine zweite DFT wird dann ausgeführt. Entsprechend kann eine akkurate anfängliche Pitch-Verzögerung für die Sprach- Abtastwerte innerhalb des Rahmens zwischen dem möglichen Minimalwert von 20 Abtastwerten und dem maximalen Verzögerungswert von 147 Abtastwerten bei einer Abtastrate von 8 kHz bestimmt werden. Nach dem Erhalt der anfänglichen Schätzung der Pitch-Verzögerung muß eine Zeitbereichs- Verfeinerung für jeden Subrahmen ausgeführt werden, um die Präzision der Schätzung weiter zu verbessern.
Fig. 1 ist ein Blockdiagramm eines CELP Sprachmodells.
Fig. 2 ist ein Blockdiagramm eines MBE Sprachmodells.
Fig. 3 ist ein Blockdiagramm eines MBE Kodierers.
Fig. 4 ist ein Blockdiagramm der Schätzung der Pitch-Verzögerung in einem MBE Vocoder.
Fig. 5 ist ein Blockdiagramm eines Cepstrum-basierten Systems bzw. Schemas zur Detektion der Pitch-Verzögerung.
Fig. 6 ist ein Betriebsflußdiagramm der Schätzung der Pitch-Verzögerung gemäß eines Ausführungsbeispiels der vorliegenden Erfindung.
Fig. 7 ist ein Flußdiagramm der Schätzung der Pitch-Verzögerung gemäß eines weiteren Ausführungsbeispiels der vorliegenden Erfindung.
Fig. 8 ist eine Diagramm-Ansicht der Sprachkodierung gemäß des Ausführungsbeispiels aus Fig. 6.
Ein System bzw. Schema zur Schätzung der Pitch-Verzögerung in Übereinstimmung mit einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist allgemein in den Fig. 6, 7, und 8 angegeben. Zunächst werden N Sprach-Abtastwerte {x(n), n = 0, 1, ..., N - 1} erfaßt. (Schritt 602 aus Fig. 6) Beispielsweise kann N gleich 320 Sprach-Abtastwerte sein, um ein typisches 40 ms Sprachfenster bei einer Abtastrate von 8000 Hz aufzunehmen. Der Wert für N wird durch die annähernd geschätzte Sprachperiode bestimmt, worin im allgemeinen wenigstens zwei Perioden erforderlich sind, um das Sprachspektrum zu erzeugen. Daher muß N größer als das Doppelte der der maximal möglichen Pitch-Verzögerung sein, wobei {x(n), n = 0, 1, ..., N - 1 }. Zusätzlich ist vorzugsweise ein Hamming Fenster 604 oder ein anderes Fenster, welches wenigstens zwei Pitch-Perioden überdeckt, implementiert.
Eine N-Punkt DFT wird im Schritt 606 über {x(n), n = 0, 1, ..., N - 1} angewendet, um die Amplitude {Y(f), F = 0, 1, ..., N - 1} zu erhalten, wobei
Y(f) = x(n)e für f = 0, 1, ..., N - 1 (2).
Y(f) wird dann in Schritt 608 quadriert gemäß:
G(f) = Y(f) ² für f = 0, 1, ..., N - 1 (3).
Eine zweite N-Punkt DFT wird in Schritt 610 auf G(f) angewendet, um zu erhalten
C(n) = G(f)e für n = 0, 1, ..., N - 1 (4).
Es ist klar zu erkennen, daß entsprechend der Ausführungsbeispiele der vorliegenden Erfindung C(n) verschieden von der konventionellen Cepstrum- Transformation ist, in welcher der Logarithmus von G(f) in Gleichung (4) anstelle der Funktion G(f) verwendet wird. Dieser Unterschied ist allgemein Komplexitätserwägungen zuzuschreiben. Es ist wünschenswert, die Komplexität durch eliminieren der logarithmischen Funktion zu reduzieren, welche anderenfalls wesentlich größere Rechenressourcen erfordert. Außerdem wurden bei Vergleich mit Systemen bzw. Schemas zur Schätzung der Pitch- Verzögerung, die das Cepstrum oder die C(n) Funktion verwenden, abweichende Ergebnisse nur für stimmlose Segmente oder Übergangssegmente der Sprache festgestellt. Beispielsweise ist für stimmlose oder Übergangssprache die Definition des Pitch unklar. Es ist festgestellt worden, daß in Übergangssprache kein Pitch existiert, während Andere sagen, daß etwas Schätzung stets bestimmt werden kann, um den Fehler zu minimieren.
Dementsprechend kann, sobald C(n) bestimmt wurde (Schritt 610), die Pitch- Verzögerung für den gegebenen Sprachrahmen in Schritt 614 gefunden werden durch Lösen des folgenden:
Lag = arg[ C(i) W(i - n + M)] (5)
worin arg [ ] die Variable n bestimmt, welche die innere Optimierungsfunktion erfüllt. L&sub1; und L&sub2; sind definiert als die minimal und maximal mögliche Pitch- Verzögerung. Zur Vereinfachung der Sprachkodierung ist es wünschenswert, daß die Differenz zwischen L&sub2; und L&sub1; eine Potenz von 2 für die binäre Darstellung ist. In bevorzugten Ausführungsbeispielen nehmen L&sub1; und L&sub2; die Werte 20 und 147 an, um den typischen Bereich der Pitch-Verzögerung menschlicher Sprache von 2,5 bis 18,375 ms abzudecken, wobei der Abstand zwischen L&sub1; und L&sub2; eine Potenz von 2 ist. W(i) ist eine Gewichtsfunktion, und 2M + 1 repräsentiert die Fenstergröße. Vorzugsweise ist {W(i) = 1, i = 0, 1, ..., 2M} und M = 1.
Obgleich die resultierende Pitch-Verzögerung ein gemittelter Wert ist, hat sie sich als zuverlässig und akkurat erwiesen. Der mittelnde Effekt wird durch die relativ große Analysefenstergröße bedingt; für eine Verzögerung von 147 Abtastwerten sollte die Fenstergröße mindestens zweimal so groß wie der Verzögerungswert sein. Allerdings können mit solch einem großen Fenster Signale von einigen Sprechern, wie z.B. weiblichen Sprechern, welche typischerweise eine kleine Pitch-Verzögerung aufweisen, 4-10 Pitch-Perioden enthalten. Falls eine Änderung in der Pitch-Verzögerung vorliegt, erzeugt die vorgeschlagene Schätzung der Pitch-Verzögerung lediglich eine gemittelte Pitch-Verzögerung. Als ein Ergebnis könnte die Verwendung einer solchen gemittelten Pitch-Verzögerung zur Sprachkodierung erhebliche Verschlechterung bei der Sprachschätzung und Sprachregeneration verursachen.
Aufgrund relativ schneller Änderungen der Pitch-Information in Sprache evaluieren und übertragen die meisten auf dem CELP Modell basierenden Sprachkodiersysteme die Pitch-Verzögerung einmal pro Subrahmen. Daher wird bei der Sprachkodierung vom CELP Typ, bei der ein Sprachrahmen in mehrere Sprach-Subrahmen aufgeteilt wird, die typischerweise 2-10 ms (16- 80 Abtastwerte) lang sind, die Pitch-Information in jedem der Subrahmen aktualisiert. Dementsprechend werden korrekte Werte für die Pitch-Verzögerung nur für die Subrahmen benötigt. Die entsprechend dem obigen System bzw. Schema geschätzte Pitch-Verzögerung hat allerdings aufgrund des mittelnden Effekts nicht die erforderliche Präzision für akkurate Sprachkodierung.
Daher wird in speziellen Ausführungsbeispielen der vorliegenden Erfindung basierend auf der anfänglichen Schätzung der Pitch-Verzögerung eine verfeinerte Suche im Zeitbereich (Schritt 618) ausgeführt, um die Präzision der Schätzung zu verbessern. Ein einfaches Autokorrelationsverfahren wird um den gemittelten Lag-Wert für die spezielle Kodierperiode oder Subrahmen ausgeführt:
worin arg [ ] die Variable n bestimmt, welche die innere Optimierungsfunktion erfüllt, k bezeichnet den ersten Abtastwert des Subrahmens, I repräsentiert die Größe des Verfeinerungsfensters und m ist ein Suchbereich. Um einen akkuraten Pitch-Verzögerungswert zu bestimmen, sollte die Größe des Verfeinerungsfensters mindestens eine Pitch-Periode betragen. Das Fenster sollte allerdings nicht zu groß sein, um die Effekte des Mittelns zu vermeiden. Zum Beispiel sind vorzugsweise I = Lag + 10 und m = 5. Daher kann entsprechend der Verfeinerung im Zeitbereich nach Gleichung 6 eine präzisere Pitch- Verzögerung geschätzt und für das Kodieren des Subrahmens angewendet werden.
Obwohl die Schnelle Fourier-Transformation (FFT) mitunter rechentechnisch effizienter als die allgemeine DFT ist, besteht der Nachteil bei der Verwendung einer FFT in Betrieb darin, daß die Fenstergröße eine Potenz von 2 sein muß. Zum Beispiel wurde gezeigt, daß die maximale Pitch-Verzögerung von 147 Abtastwerten keine Potenz von 2 ist. Um die maximale Pitch-Verzögerung einzuschließen, wird eine Fenstergröße von 512 Abtastwerten benötigt. Dies resultiert allerdings in einer schlechten Schätzung der Pitch-Verzögerung für weibliche Stimmen aufgrund des mittelnden Effekts, oben erläutert, und aufgrund der erforderlichen großen Menge an Berechnungen. Falls eine Fenstergröße von 256 Abtastwerten benutzt wird, wird der mittelnde Effekt reduziert und die Komplexität ist geringer. Um jedoch ein solches Fenster zu verwenden, kann einer Pitch-Verzögerung größer als 128 Abtastwerte in der Sprache nicht Rechnung getragen werden.
Um einige dieser Probleme zu überwinden, verwendet ein alternatives bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung eine 256-Punkt FFT zur Verringerung der Komplexität, und verwendet ein modifiziertes Signal zur Schätzung der Pitch-Verzögerung. Die Modifikation des Signals ist ein Downsampling-Prozeß. Unter Bezug auf Fig. 7 werden N Sprach-Abtastwerte gesammelt (Schritt 702), wobei N größer als das Doppelte der maximalen Pitch- Verzögerung ist, {x(n), n = 0, 1, ..., N - 1 }. Die N Sprach-Abtastwerte werden dann mittels Downsampling in 256 neue Analyse-Abtastwerte (Schritt 704) unter Verwendung linearer Interpolation umgewandelt, entsprechend:
Y(i) = X([i λ]) + {x([i λ] + 1) - x([i λ])}(i λ [i λ]) für i = 0,1, ..., 255
wobei λ = N/256, und die Werte innerhalb der Klammern, d.h. [i λ], bezeichnen den größten ganzzahligen Wert, der nicht größer ist als i λ. Ein Hamming-Fenster oder ein anderes Fenster wird dann auf die interpolierten Daten in Schritt 705 angewendet.
In Schritt 706 wird unter Verwendung einer 256-Punkt FFT die Schätzung der Pitch-Verzögerung über y(i) ausgeführt, um die Amplitude Y(f) zu erzeugen. Schritte 708-710 werden dann ähnlich zu jenen in Zusammenhang mit Fig. 6 beschriebenen ausgeführt. Zusätzlich wird jedoch G(f) gefiltert (Schritt 709), um die hochfrequenten Komponenten von G(f) zu reduzieren, welche für die Pitch-Detektion nicht brauchbar sind. Sobald die Verzögerung von y(i), d.h. Lagy entsprechend der Gleichung 5 gefunden wurde (Schritt 714), wird sie in Schritt 716 neu skaliert, um die Schätzung der Pitch-Verzögerung zu bestimmen:
Lag = Lagy λ
Zusammenfassend ergibt sich die obige Prozedur zum Finden einer anfänglichen Pitch-Schätzung für den Kodierrahmen wie folgt:
(1) Unterteilen des 40 ms Standard-Kodierrahmens in Pitch-Subrahmen 802 und 804, wobei jeder Pitch-Subrahmen ungefähr 20 ms lang ist;
(2) Verwenden von N = 320 Sprach-Abtastwerten derart, daß das Pitch-Analysefenster 806 in der Mitte des letzten Subrahmens positioniert ist, und Finden der Verzögerung für diesen Subrahmen unter Verwendung des vorgeschlagenen Algorithmus; und
(3) bestimmen anfänglicher Werte für die Pitch-Verzögerung für die Pitch-Subrahmen.
Verfeinerung im Zeitbereich wird dann über die originalen Sprach-Abtastwerte x(n) in Schritt 718 ausgeführt. Daher können in Ausführungsbeispielen der vorliegenden Erfindung die Werte der Pitch-Verzögerung akkurat geschätzt werden, bei Verringerung der Komplexität und Aufrechterhalten guter Präzision. Unter Verwendung von FFT-Ausführungsbeispielen der vorliegenden Erfindung besteht keine Schwierigkeit der Behandlung von Werten der Pitch-Verzögerung größer als 120.
Insbesondere wird Verfeinerung im Zeitbereich über die originalen Sprach- Abtastwerte ausgeführt. Beispielsweise wird zuerst der 40 ms Kodierrahmen in acht 5 ms Kodier-Subrahmen 808 unterteilt, wie in Fig. 8 dargestellt. Anfängliche Schätzungen der Pitch-Verzögerung lag&sub1; und lag&sub2; sind die Schätzungen der Verzögerung für den letzten Kodier-Subrahmen eines jeden Pitch- Subrahmen im aktuellen Kodierrahmen. lag&sub0; ist die verfeinerte Schätzung der Verzögerung des zweiten Pitch-Subrahmen im vorhergehenden. Kodierrahmen. Die Beziehung zwischen lag&sub1;, lag&sub2; und lag&sub0; ist in Fig. 8 dargestellt. Die anfänglichen Pitch-Verzögerungen lag und lag&sub2; werden zunächst verfeinert, um deren Präzision zu verbessern (Schritt 718 in Fig. 7), entsprechend:
worin Ni der Index des Anfangs-Abtastwertes im Pitch-Subrahmen für seine Pitch-Verzögerung lage ist. Vorzugsweise wird M als gleich 10 gewählt, L ist lagi + 10, und i bezeichnet den Index der Pitch-Subrahmens.
Wenn die Verfeinerung der anfänglichen Pitch-Verzögerungen beendet ist, können die Pitch-Verzögerungen der Kodier-Subrahmen bestimmt werden. Die Pitch-Verzögerungen der Kodier-Subrahmen werden durch lineares Interpolieren von lag&sub1;, lag&sub2; und lag&sub0; geschätzt. Die Präzision der Schätzungen der Pitch-Verzögerung der Kodier-Subrahmen wird durch Verfeinern der interpolierten Pitch-Verzögerung eines jeden Kodier-Subrahmens entsprechend der folgenden Prozedur verbessert. Falls {lagI(i), i = 0, 1, ..., 7} die interpolierten Pitch-Verzögerungen von Kodier-Subrahmen basierend auf den verfeinerten anfänglichen Pitch-Schätzungen lag&sub1;, lag&sub2; und lag&sub0; repräsentieren, dann wird lagI(i) bestimmt durch:
Da die Präzision der Schätzungen der Pitch-Verzögerung, die durch die lineare Interpolation gegeben ist, nicht ausreichend ist, kann eine weitere Verbesserung erforderlich sein. Für die gegebenen Schätzungen der Pitch-Verzögerung {lagI(i), i = 0, 1, ..., 7} wird jede lagI(i) weiter verfeinert (Schritt 722) durch:
i = 0, 1, ..., 7
worin Ni der Index des Anfangs-Abtastwertes im Kodier-Subrahmen für Pitch- Verzögerung (i) ist. Im Beispiel wird M als gleich 3 gewählt, und L ist gleich 40.
Des weiteren ist die lineare Interpolation der Pitch-Verzögerung wichtig für stimmlose Segmente von Sprache. Die durch irgendeine Analyse Methode gefundene Pitch-Verzögerung pflegt für stimmlose Sprache zufällig verteilt zu sein. Aufgrund der relativ großen Größe der Pitch-Subrahmen wird allerdings eine künstliche Periodizität hinzugefügt, die ursprünglich nicht in der Sprache war, falls die Verzögerung für jeden Subrahmen zu nah an der ursprünglich bestimmten Subrahmen-Verzögerung (gefunden in Schritt (2) oben) ist. Darüberhinaus liefert lineare Interpolation eine einfache Lösung für im Zusammenhang mit stimmloser Sprache schlechter Qualität stehenden Probleme.
Da die Subrahmen-Verzögerung zufällig zu sein pflegt, ist die Verzögerung für jeden Subrahmen nach Interpolation ebenfalls sehr zufällig verteilt, was Stimmqualität garantiert.

Claims

1. Eine Sprachcodiervorrichtung zum Reproduzieren und zum Codieren von Eingabesprache, wobei die Sprachcodiervorrichtung mit Parametern zur Linearvorhersehungs-Codierung (linear prediction coding) (LPC) und einem Innovationscodebook betrieben wird, das eine Vielzahl von Vektoren repräsentiert, auf die Bezug genommen wird, um Sprachreproduzierung zu erregen, um Sprache zu erzeugen, wobei die Sprachcodiervorrichtung folgendes aufweist:

Spracheingabemittel (602) zum Empfangen der Eingabesprache;

einen Computer zum Verarbeiten der Eingabesprache, wobei der Computer folgendes aufweist:

Mittel zum Isolieren eines gegenwärtigen Codierrahmens innerhalb der Eingabesprache,

Mittel zum Aufteilen des Codierrahmens in eine Vielzahl von Pitch- Unterrahmen (pitch subframes) (802, 804),

Mittel zum Definieren eines Pitch-Analysefensters (806) mit N Sprachabtastungen, wobei das Pitch-Analysefenster sich über die Pitch-Unterrahmen (802, 804) erstreckt,

Mittel zum Schätzen eines anfänglichen Pitch-Verzögerungswertes (initial pitch lag value) (714) für jeden Pitch-Unterrahmen (802, 804), Mittel zum Unterteilen eines jeden Pitch-Unterrahmens (802, 804) in mehrere Codierunterrahmen (808),

wobei die anfängliche Pitch-Verzögerungsschätzung für jeden Pitch- Unterrahmen (802, 804) die Verzögerungsschätzung für den letzten Codierunterrahmen (808) eines jeden Pitch-Unterrahmens (802, 804) in dem gegenwärtigen Codierrahmen darstellt, und

Mittel zum linearen Interpolieren (720) des geschätzten Pitch- Verzögerungswertes (714) zwischen den Pitch-Unterrahmen (802, 804), um eine Pitch-Verzögerungsschätzung für jeden Codierunterrahmen (808) zu bestimmen, und

Mittel zum Verbessern (722) des linear interpolierten Verzögerungswertes (720) eines jeden Codierunterrahmens; und

Sprachausgabemittel zum Ausgeben der Sprache, die gemäß dem verbesserten Pitch-Verzögerungswert (722) reproduziert wurde.

2. Die Vorrichtung nach Anspruch 1, die weiterhin Abtast- bzw. Samplingmittel aufweist, die die Eingabesprache mit einer Abtastrate R abtasten, wobei die N Sprachabtastungen gemäß der Gleichung N = R * X bestimmt werden, und wobei X ein Downsampling-Wert für Darstellungen mit geringeren Abtastungen ist.

3. Die Vorrichtung nach Anspruch 2, wobei X = 25 ms, R = 8000 Hz und N = 320 Abtastungen ist.

4. Die Vorrichtung nach Anspruch 1, wobei jeder Codierrahmen eine Länge von ungefähr 40 ms hat.

5. Ein System nach Anspruch 1, das weiterhin folgendes aufweist:

Mittel zum Anwender einer ersten diskreten Fouriertransformation (606) (Discrete Fourier Transform: DFT) auf die Abtastungen, wobei die erste DFT eine zugeordnete Amplitude hat;

Mittel zum Quadrieren der Amplitude (608) der ersten DFT (606);

Mittel zum Anwenden einer zweiten DFT (610) auf die quadrierte Amplitude (608).

6. Das System nach Anspruch 5, wobei der anfängliche Pitch- Verzögerungswert einen zugeordneten Vorhersehungsfehler hat und die Mittel zum Verbessern des Pitch-Verzögerungswertes den zugeordneten Vorsehungsfehler minimieren.

7. Das System nach Anspruch 5, das weiterhin folgendes aufweist:

Mittel zum Schätzen der anfänglichen Pitch-Verzögerungsschätzung lag&sub1; und lag&sub2; (714), welche jeweils die Verzögerungsschätzungen für den letzten Codierunterrahmen (808) eines jeden Pitch-Unterrahmens in dem gegenwärtigen Codierrahmen darstellen;

Mittel zum Verbessern (718) der Pitch-Verzögerungsschätzung lag&sub0; des zweiten

Pitch-Unterrahmens in dem vorhergehenden Codierrahmen;

Mittel zum linearen Interpolieren (720) von lag&sub1;, lag&sub2; und lag&sub0; um Pitch- Verzögerungswerte (714) der Codierunterrahmen (808) zu schätzen; und.

8. Das System nach Anspruch 1, das weiterhin Mittel zum Downsampling (704) der Sprachabtastungen zu einem Downsampling-Wert für angenäherte Darstellungen bzw. Repräsentationen mit weniger Abtastungen aufweist.

9. Das System nach Anspruch 8, wobei der anfängliche Pitch- Verzögerungswert gemäß der Gleichung lagskaliert = Anzahl der Sprachabtastungen/Downsampling-Wert, skaliert wird.

10. Das System nach Anspruch 5, wobei die Mittel zum Verbessern des anfänglichen Pitch-Verzögerungswertes Autokorrelation aufweisen.

11. Ein Sprachcodierverfahren zum Reproduzieren und Codieren von Eingabesprache, wobei die Sprachcodiervorrichtung mit Parametern der linearen Vorhersehungscodierung (linear prediction coding) (LPC) und ein Innovations- Codebook betrieben wird, das pseudo-statistische Signale darstellt, die eine Vielzahl von Vektoren bilden, auf die Bezug genommen wird, um Sprachreproduzierung zu erregen, um Sprache zu erzeugen, wobei das Sprachcodierverfahren die folgenden Schritte aufweist:

Empfangen (602) und Verarbeiten der Eingabesprache;

Verarbeiten der Eingabesprache, wobei der Schritt des Verarbeitens folgendes aufweist:

Bestimmen eines Sprachcodierrahmens innerhalb der Eingabesprache, Unterteilen des Codierrahmens in mehrere Pitch-Unterrahmen (802, 804), Definieren eines Pitch-Analysefensters (806) mit N Sprachabtastungen, wobei sich das Pitch-Analysefenster über die Pitch-Unterrahmen (802, 804) erstreckt,

grobes (roughly) Schätzen eines anfänglichen Pitch-Verzögerungswertes (714) für jeden Pitch-Unterrahmen (802, 804),

Unterteilen jedes Pitch-Unterrahmens (802, 804) in mehrere Codierunterrahmen (808), so dass die anfängliche Pitch-Verzögerungsschätzung für jeden Pitch-Unterrahmen (802, 804) die Verzögerungsschätzung für den letzten Codierunterrahmen (808) eines jeden Pitch-Unterrahmens (802, 804) darstellt, und

lineares Interpolieren (720) der geschätzten Pitch-Verzögerungswerte (714) zwischen dem Pitch-Unterrahmen (802, 804) zum Bestimmen einer Pitch- Verzögerungsschätzung für jeden Codierunterrahmen (808) und

Verbessern (722) der linear interpolierten Verzögerungswerte (720), und

Ausgeben von Sprache, die gemäß dem verbesserten Pitch- Verzögerungswert (722) reproduziert wurde.

12. Das Verfahren nach Anspruch 11, das weiterhin die Schritte des Abfastens der Eingabesprache mit einer bestimmten Abtastrate R aufweist, so dass die N Sprachabtastungen gemäß der vorliegenden Gleichung bestimmt werden:

N = R * X, wobei X ein Downsampling-Wert für eine Darstellung mit weniger Abtastungen ist.

13. Das Verfahren nach Anspruch 11, das weiterhin die folgenden Schritte aufweist:

Anwenden einer ersten diskreten Fouriertransformation (606) (Discrete Frourier Transform) (DFT) auf die Abtastungen, wobei die erste DFT eine zugeordnete Amplitude hat;

Quadrieren der Amplitude (608) der ersten DFT (606);

Anwenden einer zweiten DFT (610) auf die quadrierte Amplitude (608) der ersten DFT (606);

wobei der anfängliche Pitch-Verzögerungswert einen zugeordneten Vorhersehungsfehler hat; und

der Schritt des Verbesserns des anfänglichen Pitch-Verzögerungswertes Autokorrelation einsetzt, um den zugehörigen Vorhersehungsfehler zu minimieren.

14. Das Verfahren nach Anspruch 13, das weiterhin folgende Schritte aufweist:

Schätzen der anfänglichen Pitch-Verzögerungsschätzungen lag&sub1; und lag&sub2; (714), die jeweils die Verzögerungsschätzungen für den letzten Codierunterrahmen (808) eines jeden Pitch-Unterrahmens (802, 804) in dem gegenwärtigen Codierrahmen darstellen;

Verbessern (718) der Pitch-Verzögerungsschätzung lag&sub0; des zweiten Pitch- Unterrahmens in dem vorhergehenden Codierrahmen;

lineares Interpolieren (720) der lag&sub1;, lag&sub2; und lag&sub0; um die Pitch- Verzögerungswerte (714) der Codierunterrahmen (808) zu schätzen; und.

15. Das Verfahren nach Anspruch 11, das weiterhin den Schritt des Downsamplings (704) der Sprachabtastungen auf einen Downsampling-Wert für ungefähre Darstellungen mit weniger Abtastungen aufweist.

16. Das Verfahren nach Anspruch 11, das weiterhin den Schritt des Skalierens (716) des anfänglichen Pitch-Verzögerungswertes aufweist, und zwar gemäß der folgenden Gleichung: lagskaliert = Anzahl der Sprachabtastungen/Downsampling-Wert.