DE3041423C1

DE3041423C1 - Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals

Info

Publication number: DE3041423C1
Application number: DE3041423A
Authority: DE
Inventors: Atal Bishnu Saroop
Original assignee: AT&T Technologies Inc
Current assignee: AT&T Corp
Priority date: 1979-03-30
Filing date: 1980-03-24
Publication date: 1987-04-16
Also published as: FR2452756B1; JPS56500314A; GB2058523A; NL8020114A; GB2058523B; SE8008245L; FR2452756A1; JPS5936275B2; US4220819A; SE422377B; WO1980002211A1

Description

Die Erfindung betrifft ein Verfahren zur Verarbeitung eines Sprachsignals gemäß dem Oberbegriff des Patentanspruchs 1 sowie eine Sprachverarbeitungsschaltung zur Durchführung dieses Verfahrens gemäß dem Oberbegriff des Patentanspruchs.

Die effiziente Verwendung von Übertragungskanälen ist von erheblicher Bedeutung in digitalen Nachrichtensystemen mit großer Bandbreite der Kanäle. Demzufolge wurden Codier-, Decodier- und Multiplex-Einrichtungen entwickelt, um die Bitrate jedes auf den Kanal gegebenen Signals zu minimieren. Die Verringerung der Signalbitrate erlaubt eine Reduzierung der Kanalbandbreite oder eine Erhöhung der Anzahl der Signale, die im Multiplexbetrieb auf den Kanal gegeben werden können.

Wenn Sprachsignale auf einem digitalen Kanal übertragen werden, kann die Kanaleffektivität durch Kompression des Sprachsignals vor der Übertragung und durch eine Nachbildung der Sprache aus dem komprimierten Sprachsignal nach der Übertragung verbessert werden. Eine Sprachkompression für digitale Kanäle entfernt Redundanzen im Sprachsignal, so daß die wesentliche Sprachinformation mit reduzierter Bitrate codiert werden kann. Die Bitrate der Sprachübertragung kann dabei zur Beibehaltung einer gewünschten Sprachqualität gewählt werden.

Die aus der US-PS 6 24 302 bekannte Einrichtung zur digitalen Sprachcodierung schließt eine lineare Voraussageanalyse des Eingangssprachsignals ein, bei der die Sprache in aufeinanderfolgende Intervalle unterteilt und ein Satz von Parametersignalen erzeugt wird, die für das Sprachintervall repräsentativ sind. Diese Parametersignale umfassen einen Satz von linearen Voraussagekoeffizienten entsprechend der spektralen Hüllkurve des Sprachintervalls, sowie Grundton- und Stimmhaft-Stimmlos- Signale, die der Spracherregung entsprechen. Die Parametersignale werden mit einer wesentlich niedrigeren Bitrate codiert als es zur Codierung des Sprachsignals als Ganzes notwendig ist. Die codierten Parametersignale werden über einen digitalen Kanal zu einem Bestimmungsort übertragen, an dem eine Nachbildung des Eingangssprachsignals durch Synthese aus den Parametersignalen gebildet wird. Die Synthetisiereinrichtung umfaßt die Erzeugung eines Erregungssignals aus den decodierten Grundfrequenz- und Stimmhaft-Stimmlos-Signalen sowie die Modifizierung des Erregungssignals durch die Hüllkurve, die repräsentativ für die Voraussagekoeffizienten in einem Voraussagefilter ist.

Während die vorstehende Grundton-erregte lineare Voraussagecodierung sehr effizient hinsichtlich einer Reduzierung der Bitrate ist, weist die Sprachnachbildung mittels des Synthetisierers eine mit der menschlichen Sprache noch nicht vergleichbare Qualität auf. Die Synthetisierungsqualität beruht im allgemeinen auf Ungenauigkeiten in den erzeugten Signalen für die linearen Voraussagekoeffizienten, welche die spektrale Voraussage- Hüllkurve erzeugen, die von der tatsächlichen spektralen Hüllkurve abweicht und zu Ungenauigkeiten in den Grundton- und Stimmhaft-Stimmlos-Signalen führt. Diese Abweichungen treten als Ergebnis von Differenzen zwischen dem menschlichen Stimmtrakt und dem Allpolfiltermodell des Codierers und infolge von Differenzen zwischen der menschlichen Spracherregung und den Einrichtungen des Codierers für den Grundton und den Stimmhaft-Stimmlos- Zustand auf. Eine Verbesserung der Sprachqualität machte es bisher erforderlich, eine Codiertechnik verfügbar zu haben, die bei weitaus größeren Bitraten arbeitet als dies das Grundton-erregte lineare Voraussagecodierschema leistet.

Aus der US-PS 38 75 587 ist auch ein Sprachprozessor in Form eines Vocoders bekannt, bei dem ein Signal für die Grundfrequenzperiode unter Ansprechen auf ein Vorhersagefehlersignal erzeugt wird. Dabei wird auch erläutert, auf welche Weise sich große Änderungen des Signals für die Grundfrequenzperiode außerhalb der Intervallgrenzen verhindern lassen. Bekannt ist schließlich auch ein Verfahren zur Beeinflussung von Erregungsimpulsen in einem LPC-Sprachsynthetisierer zur Verringerung von Brummeffekten, vergl. US-Journal of the Acoustical Society of America, 1978, Heft 3, Seiten 918 bis 924.

Der Erfindung liegt ausgehend vom Stand der Technik die Aufgabe zugrunde, einen natürlichen Sprachklang in einem digitalen Sprachcodierer bei relativ niedrigen Bitraten zu erzeugen.

Die Lösung der Aufgabe ist im Patentanspruch 1 angegeben. Weiterbildungen des Verfahrens sowie Schaltungsanordnungen zur Durchführung des Verfahrens sind Gegenstand der Unteransprüche.

Die von dem Synthetisierer erzeugte Erregung während stimmhafter Abschnitte des Sprachsignals ist eine Folge von nach der Grundtonperiode separierten Impulsen. Es wurde erkannt, daß Änderungen im Verlauf des Erregungsimpulses die Qualität der synthetisierten Sprachnachbildung beeinflussen. Ein fester bzw. bestimmter Verlauf des Erregungsimpulses beeinflußt jedoch nicht eine natürliche Nachbildung des Sprachklangs. Aber besondere Erregungsimpulsformen bewirken eine Verbesserung ausgewählter Besonderheiten. Es wurde gefunden, daß Ungenauigkeiten in den die linearen Voraussagekoeffizienten betreffenden Signalen, die im Voraussageanalysator erzeugt werden, durch Umformung des Erregungssignals aus dem Voraussagesynthetisierer derart korrigiert werden können, daß die Fehler in den Voraussagekoeffizienten kompensiert werden. Die sich daraus ergebende Codiereinrichtung erzeugt Nachbildungen der Sprachsignale mit natürlicher Klangfarbe bei Bitraten, die wesentlich niedriger als bei anderen Codiersystemen sind, wie z. B. bei PCM oder bei der adaptiven Voraussagecodierung.

Ein Ausführungsbeispiel der Erfindung wird anhand der Fig. 1 bis 8 erläutert.

Fig. 1 stellt ein Blockdiagramm einer Sprachsignal-Codierschaltung zur Erläuterung der Erfindung dar;

Fig. 2 stellt ein Blockdiagramm einer Sprachsignal-Decodierschaltung zur Erläuterung der Erfindung dar;

Fig. 3 zeigt ein Blockdiagramm eines Voraussagefehler- Signalgenerators, wie er in der Schaltung nach Fig. 1 verwendbar ist;

Fig. 4 zeigt ein Blockdiagramm eines Sprachintervall-Parameterrechners, wie er in der Schaltung nach Fig. 1 verwendbar ist;

Fig. 5 zeigt ein Blockdiagramm eines Rechners für ein spektrales Voraussagefehlersignal, der in der Schaltung nach Fig. 1 verwendbar ist;

Fig. 6 zeigt ein Blockdiagramm eines Sprachsignal-Erregungsgenerators, wie er in der Schaltung nach Fig. 2 verwendbar ist;

Fig. 7 zeigt ein detailliertes Blockdiagramm eines Generators für spektrale Voraussagefehler-Koeffizienten nach Fig. 2, und

Fig. 8 zeigt Impulsdiagramme, welche die Arbeitsweise des Rechners für die Sprachintervallparameter gemäß Fig. 4 erläutern.

Eine Sprachsignal-Codierschaltung zur Erläuterung der Erfindung ist in Fig. 1 dargestellt. Eine Sprachsignalquelle 101, die ein Mikrophon, ein Telefon oder andere akustische Wandler enthält, erzeugt ein Sprachsignal. Das Sprachsignal s(t) aus der Sprachsignalquelle 101 wird einem Filter und einer Abtastschaltung 103 zugeführt, wobei das Signal s(t) gefiltert und bei einer vorbestimmten Rate abgetastet wird. Die Schaltung 103 kann z. B. ein Tiefpaßfilter mit einer Grenzfrequenz von 4 kHz und einen Abtaster für eine Abtastfrequenz von mindestens 8 kHz aufweisen. Die Folge der Signalabtastwerte S _n wird einem Analog-Digitalwandler 105 zugeführt, wobei jeder Abtastwert in einen digitalen Code s _n umgesetzt wird, der für den Codierer geeignet ist. Der A/D-Wandler 105 bewirkt auch die Unterteilung der codierten Signalabtastwerte in aufeinanderfolgende Zeitintervalle oder Rahmen mit einer Dauer von 10 ms.

Die Signalproben S _n von dem A/D-Wandler 105 werden auf den Eingang eines Voraussagefehlersignalgenerators 122 über eine Verzögerung 120 und über die Leitung 107 auf den Eingang eines Intervallparameterrechners 130 gegeben. Der Parameterrechner 130 bildet einen Satz von Signalen, der die Eingangssprache charakterisiert, jedoch bei einer wesentlich kleineren Bitrate als das Sprachsignal selbst übertragen werden kann. Die Reduzierung der Bitrate ist möglich, weil die natürliche Sprache quasistationär über Intervalle von 10 bis 20 ms verteilt ist. Für jedes Intervall in diesem Bereich kann ein einzelner Satz von Signalen erzeugt werden, welche den Informationsinhalt des Sprachintervalls repräsentieren. Bekanntlich können die die Sprache repäsentierenden Signale einen Satz von Vorhersage-Koeffizientensignalen sowie das Grundtonsignal und das Stimmhaft-Stimmlos-Signal enthalten. Die Vorhersage- Koeffizientensignale charakterisieren den Stimmtrakt während des Sprachintervalls, während die Grundton- und Stimmhaft-Stimmlos-Signale die impulsförmige Erregung der Stimmritze für den Stimmtrakt charakterisieren.

Der Intervallparameterrechner 130 ist genauer in Fig. 4 dargestellt. Die Schaltung gemäß Fig. 4 enthält eine Steuerschaltung 401 und einen Prozessor 410. Der Prozessor 410 empfängt die Sprachabtastwerte S _n jedes der aufeinanderfolgenden Intervalle und erzeugt einen Satz von die linearen Vorhersagekoeffizienten betreffenden Signalen, einen Satz von Reflexionskoeffizientensignalen, ein Grundfrequenzsignal und ein Stimmhaft-Stimmlos-Signal in Abhängigkeit von den Sprachabtastwerten des Intervalls. Die erzeugten Signale werden in den Speichern 430, 432, 434 bzw. 436 gespeichert. Der Prozessor 410 kann bekannte Prozessoren oder Mikroprozessoren enthalten. Der Arbeitsablauf des Prozessors 410 wird von dem in den Festwertspeichern 403, 405 und 407 gespeicherten Programm gesteuert.

Die Steuerschaltung 401 in Fig. 4 ist so ausgelegt, daß sie jedes Sprachintervall von 10 ms in eine Folge von mindestens vier vorbestimmten Zeitabschnitten unterteilt. Jedem Zeitabschnitt ist eine besondere Betriebsart zugeordnet. Die Folge der Betriebsarten ist in Fig. 8 illustriert. Die Kurve 801 zeigt die Taktimpulse CL1, die mit der Abtastrate erscheinen. Die Kurve 803 zeigt die Taktimpulse CL2, die am Anfang jedes Sprachintervalls erscheinen. Die zum Zeitpunkt t₁ erscheinenden Taktimpulse CL1 bringen die Steuereinrichtung 401 in die für den Dateneingang vorgesehene Betriebsart, wie die Kurve 805 zeigt. Während des Dateneingangs ist die Steuereinrichtung 401 mit dem Prozessor 410 und dem Sprachsignalspeicher 409 verbunden. In Abhängigkeit von den Steuersignalen der Steuerschaltung 401 werden die 80 während des vorausgehenden Sprachintervalls von 10 ms im Sprachsignalspeicher eingespeicherten Abtastcodes über die Eingangs/Ausgangsschnittstellenschaltung 420 in den Datenspeicher 418 überführt. Während die gespeicherten 80 Abtastwerte des vorhergehenden Sprachintervalls in den Datenspeicher 418 überführt werden, werden die Abtastwerte des augenblicklichen Sprachintervalls über die Leitung 107 in den Sprachsignalspeicher 409 eingespeichert.

Zur Überführung der Abtastwerte des vorausgehenden Intervalls in den Datenspeicher 418 schaltet die Steuerschaltung in Abhängigkeit vom Taktimpuls CL1 zur Zeit t₂ in ihre Betriebsweise zur Erzeugung eines Vorhersagekoeffizienten. Zwischen den Zeitpunkten t₂ und t₃ ist die Steuerschaltung mit dem LPC-Programmspeicher 403 und über die Steuerschaltungsschnittstelle 412 mit dem Zentralprozessor 414 und dem arithmetischen Prozessor 416 verbunden. Auf diese Weise ist der LPC-Programmspeicher 402 mit dem Prozessor 410 verbunden. Ansprechend auf die permanent gespeicherten Befehle im Festwertspeicher 403 erzeugt der Prozessor 410 Korrelationskoeffizientensignale R = r₁, r₂, . . ., r₁₂, und Vorhersage-Koeffizientensignale A = a₁, a₂, . . ., a₁₂. Bekanntlich ist der partielle Korrelationskoeffizient das Negative des Reflexionskoeffizienten. Die Signale R und A werden vom Prozessor 410 über die Eingangs-Ausgangs- Schnittstelle 420 in den Speicher 432 bzw. 430 überführt. Die im ROM 403 gespeicherten Instruktionen für die Erzeugung der den Reflexionskoeffizienten und linearen Vorhersagekoeffizienten betreffenden Signale sind im Anhang 1 in der Programmiersprache Fortran aufgelistet. Bekanntlich werden die Reflexionskoeffizientensignale R dadurch erzeugt, daß zunächst die co-variante Matrix P mit den Gliedern: und Sprachkorrelationsfaktoren: gebildet wird. Dann werden Faktoren g₁ bis g₁₀ berechnet entsprechend: wobei T die untere Dreiecksmatrix ist, die durch die Dreiecksauflösung von erhalten wird. Die partiellen Korrelationskoeffizienten werden dann gemäß: erzeugt.

c₀ entspricht der Energie des Sprachsignals im 10-ms-Intervall. Lineare Vorhersagekoeffizientensignale A = a₁, a₂, . . ., a₁₂ werden dann von den partiellen Vorhersagekoeffizientensignalen r _m gemäß der rekursiven Formel:

a₁ (m) = a _i(m-1) + r _m a _m-1(m-1) j = 1, 2, . . ., 12

berechnet.

Die den partiellen Korrelationskoeffizienten betreffenden Signale R und die den linearen Vorhersagekoeffizienten betreffenden Signale A werden in dem Prozessor 410 erzeugt, während die Daten für die Betriebsweise zur Erzeugung des linearen Vorhersagekoeffizienten vom Datenspeicher 418 in die Speicher 430 und 432 zur nachfolgenden Verwendung überführt werden.

Nachdem die den partiellen Korrelationskoeffizienten betreffenden Signale R und die den linearen Vorhersagekoeffizienten betreffenden Signale A in den Speichern 430 und 432 zur Zeit t₃ untergebracht sind, ist die Betriebsweise zur Erzeugung des linearen Vorhersagekoeffizienten beendet, und es beginnt die Betriebsweise zur Erzeugung der periodischen Grundfrequenzsignals. Zu diesem Zeitpunkt ist die Steuerschaltung in ihre Grundfrequenzbetriebsweise geschaltet, wie die Kurve 809 zeigt. Bei dieser Betriebsweise ist der Speicher 405 für das Grundfrequenzprogramm mit der Steuerschaltungsschnittstelle 412 des Prozessors 410 verbunden. Der Prozessor 410 wird dann durch die im ROM 405 permanent gespeicherten Befehle gesteuert, so daß ein den Grundton repräsentierendes Signal für das vorausgehende Sprachintervall in Abhängigkeit von den Sprachabtastwerten im Datenspeicher 418 erzeugt wird. Die im ROM 405 permanent gespeicherten Befehle sind im Anhang 2 in der Programmsprache Fortran aufgelistet. Das durch die Operationen des zentralen Prozessors 414 und des arithmetischen Prozessors 416 erzeugte, den Grundton repräsentierende Signal wird über die Eingangs/Ausgangsschnittstelle 420 vom Datenspeicher 418 zum Grundfrequenzsignalspeicher 434 überführt. Zum Zeitpunkt t₄ ist das die Grundfrequenz repräsentierende Signal in den Speicher 434 gespeichert und die Betriebsweise für die Grundfrequenz beendet.

Zum Zeitpunkt t₄ wird die Steuerschaltung 401 von ihrer Grundton-Betriebsweise in ihre Betriebsweise für das Stimmhaft- Stimmlos-Signal, die die Kurve 811 zeigt, umgeschaltet. Zwischen den Zeitpunkten t₄ und t₅ ist der ROM 407 mit dem Prozessor 410 verbunden. Der ROM 407 enthält permanent gespeicherte Signale, die einer Folge von Steuerbefehlen zur Bestimmung des Stimmhaft-Stimmlos-Charakters entsprechen, und zwar von einer Analyse der Sprachabtastwerte des vorausgehenden Sprachintervalls. Das im ROM 407 permanent gespeicherte Programm ist im Anhang 3 in der Programmsprache Fortran aufgelistet. Ansprechend auf die Befehle des ROM 407 analysiert der Prozessor 410 die Sprachabtastwerte des vorausgehenden Intervalls, wie es im Aufsatz "A Pattern- Recognition Approach to Voiced-Unvoiced-Silence Classification with Applications to Speech Rocognition" von B. S. Atal und L. R. Rabiner, veröffentlicht in IEEE Transactions on Acoustics, Speech and Signal Processing, Band ASSP-24, Nr. 3, Juni 1976, beschrieben ist. Im arithmetischen Prozessor 416 wird dann ein Signal V erzeugt, welches das Sprachintervall als stimmhaftes oder stimmloses Intervall charakterisiert. Das resultierende Signal wird im Datenspeicher 418 untergebracht und von dort zum Zeitpunkt t₅ über die Eingangs/Ausgangsschnittstelle 420 in den Speicher 436 für die Stimmhaft- Stimmlos-Signale überführt. Die Steuerschaltung 401 trennt zum Zeitpunkt t₅ den ROM 407 vom Prozessor 410, und die Betriebsweise zur Erzeugung des Sprachsignals ist damit beendet, was durch die Wellenform 811 angezeigt ist. Die Reflexionskoeffizientensignale R und die Grundfrequenz- und Stimmhaft-Stimmlos-Signale P und V aus den Speichern 432, 434 und 436 werden über die Verzögerungseinrichtungen 137, 138 und 139 in Abhängigkeit von den Taktimpulsen CL2, die zur Zeit t₆ erscheinen, dem Parametersignalcodierer 140 in Fig. 1 zugeführt. Während die Nachbildung der Eingangssprache aus den Signalen für den Reflexionskoeffizienten, die Grundfrequenz und den Stimmhaft-Stimmlos-Zustand, die von dem Parameterrechner 130 erhalten werden, synthetisiert werden kann, weist die resultierende Sprache nicht die natürlichen Eigenschaften der menschlichen Stimme auf. Der künstliche Charakter der aus den vorgenannten Signalen des Rechners 130 abgeleiteten Sprache ist in erster Linie das Ergebnis von Fehlern in den Vorhersage-Reflexionskoeffizienten, die im Parameterrechner 130 erzeugt werden. Gemäß der Erfindung werden diese Fehler in den Vorhersagekoeffizienten im Vorhersage- Fehlergenerator 122 erfaßt. Signale, die das Spektrum des Vorhersagefehlers für jedes Intervall repräsentieren, werden im Generator 124 und dem Codierer 126 für die spektralen Vorhersagefehlersignale erzeugt bzw. codiert. Die spektralen Codierersignale werden zusammen mit den Signalen für den Reflexionskoeffizienten, die Grundfrequenz und den Stimmhaft- Stimmlos-Zustand des Parametercodierers 140 im Multiplexer 150 verarbeitet. Die Einbeziehung der spektralen Vorhersage- Fehlersignale in das codierte Ausgangssignal des Sprachcodierers in Fig. 1 für jedes Sprachintervall erlaubt die Kompensation der Fehler in den linearen Vorhersageparametern während der Codierung im Sprachcodierer nach Fig. 2. Die resultierende Sprachnachbildung aus dem Codierer gemäß Fig. 2 weist einen natürlichen Klang auf.

Das Vorhersagefehlersignal wird im Generator 122 erzeugt, der im Detail in Fig. 3 dargestellt ist. In der Schaltung gemäß Fig. 3 werden die Signalabtastwerte vom A/D-Wandler 105 auf der Leitung 312 empfangen, nachdem die Signalabtastwerte in der Verzögerungseinrichtung 120 um ein Sprachintervall verzögert wurden. Die verzögerten Signalabtastwerte werden auf das Schieberegister 301 gegeben, das die eingehenden Abtastwerte mit der Taktfrequenz CL1 von 8 kHz verschiebt. Jede Stufe des Schieberegisters 301 gibt ein Ausgangssignal auf einen der Multiplizierer 303-1 bis 303-12. Die den linearen Vorhersagekoeffizienten repräsentierenden Signale für die Intervalle a₁, a₂ . . . , a₁₂, die den dem Schieberegister 301 zugeführten Abtastwerten entsprechen, werden vom Speicher 430 über die Leitung 315 auf die Multiplizierer 303-1 bis 303-12 gegeben. Die Ausgangssignale der Multiplizierer 303-1 bis 303-12 werden in den Addierern 305-2 bis 305-12 aufsummiert, so daß das Ausgangssignal des Addierers 305-12 das vorausgesagte Sprachsignal darstellt.

Der Subtrahierer 320 empfängt die aufeinanderfolgenden Sprachsignalabtastwerte s _n von der Leitung 312 und den vorausgesagten Wert für die aufeinanderfolgenden Sprachabtastwerte vom Ausgang des Addierers 305-12 und bildet ein Differenzsignal d _n, das dem Voraussagefehler entspricht.

Die Folge der Voraussagefehlersignale für jedes Sprachintervall wird vom Subtrahierer 320 dem Generator 124 für das spektrale Vorhersagefehlersignal zugeführt. Der Signalgenerator 124, der im Detail in 5 dargestellt ist, weist einen Spektralanalysator 504 und Spektralabtaster 513 auf. In Abhängigkeit vom Vorhersage-Fehlerabtastwert d _n auf der Leitung 501 erzeugt der Analysator 504 einen Satz von 10 Signalen, c(f₁), c(f₂), . . ., c(f10). Jedes dieser Signale stellt eine spektrale Komponente des Voraussagefehlersignals dar. Die spektralen Frequenzkomponenten f₁, f₂, . . ., f₁₀ werden vorbestimmt und festgelegt. Diese vorbestimmten Frequenzen werden so gewählt, daß sie den Frequenzbereich des Sprachsignals gleichmäßig überdecken. Für jede vorbestimmte Frequenz f _i wird die Folge der Abtastwerte d _n des Vorhersagefehlersignals des Sprachintervalls auf den Eingang eines Cosinusfilters, das eine Mittenfrequenz f _k und eine Impulscharakteristik aufweist, die gegeben ist durch: wenn T = Abtastintervall = 125 µsec,
f₀ = Frequenzabstand der Mittenfrequenz des Filters = 300 Hz,
k = 0, 1, . . ., 26,
und auf den Eingang eines Sinusfilters der gleichen Mittenfrequenz und einer Impulscharakteristik von gegeben.

Das Cosinusfilter 503-1 und das Sinusfilter 505-1 haben die Mittenfrequenz f₁, die 300 Hz betragen kann. Das Cosinusfilter 503-2 und das Sinusfilter 502-2 haben eine gemeinsame Mittenfrequenz f₂, die 600 Hz betragen kann. Das Cosinusfilter 503-10 und das Sinusfilter 505-10 haben eine Mittenfrequenz f₁₀, die 3000 Hz betragen kann.

Das Ausgangssignal des Cosinusfilters 503-1 wird im Quadrierer 507-1 mit sich selbst multipliziert, während das Ausgangssignal des Sinusfilters 505-1 im Quadrierer 509-1 mit sich selbst multipliziert wird. Die Summe der in den Schaltungen 507-1 und 509-1 quadrierten Signale wird im Addierer 510-1 gebildet, und die Quadratwurzelschaltung 512-1 erzeugt das spektrale Komponentensignal, das der Frequenz f₁ entspricht. In ähnlicher Weise wirken die Filter 503-2, 505-2, die Quadrierer 507-2 und 509-2, der Addierer 510-2 und die Quadratwurzelschaltung 512-2 zusammen, um die der Frequenz f₁ entsprechende spektrale Komponente c(f₂) zu bilden. In ähnlicher Weise wird das der Frequenz f₁₀ zugeordnete spektrale Komponentensignal von der Quadratwurzelschaltung 512-10 erhalten. Die spektralen Vorhersagefehlersignale von den Ausgängen der Schaltungen 512-1 bis 512-10 werden den Abtastern 513-1 bis 513-10 zugeführt.

In jeder Abtastschaltung wird das spektrale Vorhersagefehlersignal am Ende jedes Sprachintervalls durch das Taktsignal CL2 abgetastet und gespeichert. Der Satz von spektralen Vorhersagefehlersignalen der Abtaster 513-1 bis 513-10 werden parallel dem Signalcodierer 126 zugeführt, dessen Ausgangssignale zum Multiplexer 150 überführt werden. Auf diese Weise empfängt der Multiplexer 150 Reflexionskoeffizientensignale R sowie Grundfrequenz- und Stimmhaft-Stimmlos- Signale P und V für jedes Sprachintervall vom Parametersignalcodierer 140 und auch die codierten spektralen Vorhersagefehlersignale c(f _n) für das gleiche Intervall vom Signalcodierer 126. Die dem Multiplexer 150 zugeführten Signale definieren die Sprache jedes Intervalls in Form einer multiplexierten Kombination von Parametersignalen. Die multiplexierten Parametersignale werden über den Kanal 180 mit einer wesentlich niedrigeren Bitrate übertragen als die codierten 8 kHz Sprachsignalabtastwerte, von denen die Parametersignale abgeleitet werden.

Die nach dem Multiplexverfahren auf dem Nachrichtenkanal 180 übertragenen codierten Parametersignale werden dem Sprachdecodierer nach Fig. 2 zugeführt, wobei eine Nachbildung des Sprachsignals aus der Sprachquelle 101 durch Synthese gebildet wird. Der Übertragungskanal 180 ist mit dem Eingang des Demultiplexers 201 verbunden, der die codierten Parametersignale jedes Sprachintervalls auswählt. Die codierten spektralen Vorhersagefehlersignale des Intervalls werden auf den Decodierer 203 gegeben. Das codierte Grundfrequenzsignal wird dem Decodierer 205 zugeführt, das codierte Stimmhaft-Stimmlos- Signal wird auf den Decodierer 207 und die codierten Reflexionskoeffizientensignale des Intervalls auf den Decodierer 209 gegeben.

Die spektralen Signale vom Decodierer 203, das Grundfrequenzsignal vom Decodierer 205 und das Signal vom Decodierer 207 werden in den Speichern 213, 215 bzw. 217 gespeichert. Die Ausgangssignale dieser Speicher werden dann im Erregungssignalgenerator 220 kombiniert, der ein den Vorhersagefehler kompensierendes Erregungssignal an den Eingang des Synthetisierers für den linearen Vorhersagekoeffizienten liefert. Der Synthetisierer empfängt Vorhersagekoeffizientensignale a₁, a₂, . . ., a₁₂ vom Koeffizientenwandler und Speicher 219, dessen Koeffizienten von den Reflexionskoeffizientensignalen des Decodierers 209 abgeleitet sind.

Der Erregungssignalgenerator 220 ist im Detail in Fig. 6 dargestellt. Die Schaltung gemäß Fig. 6 weist einen Erregungsimpulsgenerator 618 und einen Erregungsimpulsformer 650 auf. Der Erregungsimpulsgenerator empfängt die den Grundton repräsentierenden Signale vom Speicher 215, welche Signale dem Impulsgenerator 620 zugeführt werden. Ansprechend auf das Grundfrequenzsignal liefert der Impulsgenerator eine Folge gleichförmiger Impulse. Diese gleichförmigen Impulse werden durch die Grundfrequenzperioden separiert, die durch das die Grundfrequenz repräsentierende Signal vom Speicher 215 definiert sind. Das Ausgangssignal des Impulsgenerators 620 wird auf den Schalter 624 gegeben, der auch die Ausgangssignale des Generators 622 für weißes Rauschen empfängt. Der Schalter 624 spricht auf das Stimmhaft-Stimmlos-Signal vom Speicher 217 an. Für den Fall, daß das Stimmhaft-Stimmlos-Signal in einem Zustand ist, der einen stimmhaften Intervall entspricht, wird der Ausgang des Impulsgenerators 620 mit dem Eingang des Impulsformers 650 verbunden. Wenn das Stimmhaft-Stimmlos- Signal ein stimmloses Signal anzeigt, verbindet der Schalter 624 den Ausgang des Rauschgenerators 622 mit dem Eingang der Schaltung 650 zur Formung des Erregungsimpulses.

Das Erregungssignal vom Schalter 624 wird dem Generator 603 für die Erzeugung der spektralen Komponenten zugeführt, der ein Filterpaar für jede vorbestimmte Frequenz f₁, f₂, . . ., f₁₀ aufweist. Das Filterpaar besteht aus einem Cosinusfilter mit einer Charakteristik gemäß Gleichung (8) und einem Sinusfilter mit einer Charakteristik gemäß Gleichung (9). Das Cosinusfilter 603-11 und das Sinusfilter 603-12 liefern spektrale Komponentensignale für die vorbestimmte Frequenz f₁. In ähnlicher Weise liefern das Cosinusfilter 603-21 und das Sinusfilter 603-22 die spektralen Komponentensignale für die Frequenz f₂ und schließlich das Cosinusfilter 603- n 1 und das Sinusfilter 603-n 2 die spektralen Komponenten für die Frequenz f₁₀.

Die spektralen Vorhersagefehlersignale vom Sprachcodierer nach Fig. 1 werden zusammen mit dem Grundfrequenzsignal vom Codierer auf den Generator 601 für den Filteramplitudenkoeffizienten gegeben. Der im Detail in Fig. 7 dargestellte Generator 601 erzeugt einen Satz von spektralen Koeffizientensignalen für jedes Sprachintervall. Diese spektralen Koeffizientensignale definieren das Spektrum des Vorhersagefehlersignals für das Sprachintervall. Die Schaltung 610 kombiniert die spektralen Komponentensignale des Komponentengenerators 603 mit den spektralen Koeffizientensignalen des Koeffizientengenerators 601. Das von der Schaltung 610 kombinierte Signal ist eine Folge von den Vorhersagefehler kompensierenden Erregungsimpulsen, die der Synthetisiererschaltung 630 zugeführt werden.

Der Koeffizientengenerator gemäß Fig. 7 weist einen Gruppenverzögerungsspeicher 707, einen Phasensignalgenerator 703 und einen Generator 705 für spektrale Koeffizienten auf. Der Gruppenverzögerungsspeicher 701 speichert einen Satz vorbestimmter Verzögerungszeiten τ₁, τ₂, . . ., τ₁₀. Diese Verzögerungen werden experimentell durch eine Analyse der repräsentativen Sprechweise ausgewählt. Die Verzögerungen entsprechen einer mittleren Gruppenverzögerungscharakteristik einer repräsentativen Aussprache, die als ebenso gut für andere Aussprachen gefunden wurde.

Der Phasensignalgenerator 703 erzeugt eine Gruppe von Phasensignalen Φ₁, Φ₂, . . ., Φ₁₀ entsprechend dem Ausdruck: und zwar in Abhängigkeit von dem die Grundfrequenz repräsentierenden Signal auf der Leitung 710 und den Gruppenverzögerungssignalen τ₁, τ₂, . . ., τ₁₀ des Speichers 701. Wie aus Gleichung (10) ersichtlich, sind die Phasen für die spektralen Koeffizientensignale eine Funktion der Gruppenverzögerungssignale und des Grundfrequenz-Periodensignals vom Sprachcodierer in Fig. 1. Die Phasensignale Φ₁, Φ₂, . . ., Φ₁₀ werden dem Koeffizientengenerator 705 über die Leitung 730 zugeführt. Der Generator 705 empfängt vom Speicher 213 über die Leitung 720 auch die spektralen Vorhersagefehlersignale. Im Generator 705 wird für jede vorbestimmte Frequenz ein spektrales Koeffizientensignal gemäß:

H _i,1 = C(f _i) cos Φ _i i = 1, 2, . . ., 10

und gebildet.

Wie aus den Gleichungen (10) und (11) hervorgeht, können der Phasensignalgenerator 703 und der Koeffizientengenerator 705 bekannte arithmetische Schaltungen umfassen.

Die Ausgangssignale des Koeffizientengenerators 705 werden über die Leitung 740 der Kombinierschaltung 610 zugeführt. In der Schaltung 610 wird das spektrale Komponentensignal vom Cosinusfilter 603-11 in dem Multiplizierer 607-11 mit dem spektralen Koeffizientensignal H _1,1 und das spektrale Komponentensignal vom Sinusfilter 603-12 im Multiplizierer 607-12 mit dem spektralen Koeffizientensignal H _1,2 multipliziert. In ähnlicher Weise kombiniert der Multiplizierer 607-21 das spektrale Komponentensignal vom Cosinusfilter 603-21 und das spektrale Koeffizientensignal H _2,1 von der Schaltung 601, während der Multiplizierer 607-22 das spektrale Komponentensignal vom Sinusfilter 603-22 und das spektrale Koeffizientensignal H _2,2 kombiniert. In gleicher Weise werden die Komponenten- und Koeffizientensignale der vorbestimmten Frequenz f₁₀ in den Multiplizierern 607-n 1 und 607-n 2 kombiniert. Die Ausgangssignale der Multiplizierer in der Schaltung 610 werden auf Addierer 609-11 bis 609-n 2 gegeben, so daß die kumulative Summe sämtlicher Multiplizierer gebildet wird und auf der Ader 670 verfügbar ist. Das Signal auf der Ader 670 kann dargestellt werden durch: wobei C(f _k) die Amplitude jeder vorbestimmten Frequenzkomponente, f _k die vorbestimmte Frequenz der Cosinus- und Sinusfilter und Φ _k die Phase der vorbestimmten Frequenzkomponente gemäß Gleichung (10) ist. Das Erregungssignal der Gleichung (12) ist eine Funktion des Vorhersagefehlers des Sprachintervalls, von dem er abgeleitet ist, und kann Fehler in den linearen Vorhersagekoeffizienten kompensieren, die dem Synthetisierer 230 während des betreffenden Sprachintervalls zugeführt werden.

Der LPC-Synthetisierer 230 kann eine bekannte Allpol-Filterschaltung enthalten, um eine LPC-Synthese durchzuführen, wie sie im Aufsatz "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave" von B. S. Atal und S. L. Hanauer, veröffentlicht in "Journal of the Acoustical Society of America", Band 50, Teil 2, Seiten 637-655, August 1971, beschrieben ist. Gemeinsam ansprechend auf die den Vorhersagefehler kompensierenden Erregungsimpulse und die linearen Vorhersagekoeffizienten für die aufeinanderfolgenden Sprachintervalle erzeugt der Synthetisierer 230 eine Folge von codierten Sprachsignalabtastwerten _n, die auf den Eingang des D/A-Wandlers 240 gegeben werden. Der D/A-Wandler 240 erzeugt ein abgetastetes Signal _n, das eine Nachbildung des Sprachsignals ist, das den Sprachcodierer der Fig. 2 zugeführt wird. Das abgetastete Signal vom Wandler 240 wird in einem Tiefpaß 250 gefiltert, und das Ausgangssignal (t) des Filters 250 wird als analoge Nachbildung über den Verstärker 252 auf den Lautsprecher 254 gegeben.

Claims

1. Verfahren zur Verarbeitung eines Sprachsignals mit folgenden Schritten:

a) Analysieren des Sprachsignals einschließlich Unterteilung des Sprachsignals in aufeinanderfolgende Zeitintervalle und Erzeugen eines Satzes von ersten Signalen, die die Voraussageparameter, die Grundfrequenz und den Stimmhaft- Stimmlos-Zustand des Sprachsignals für jedes Intervall repräsentieren;
b) Erzeugen eines Voraussagefehlersignals in Abhängigkeit vom Sprachsignal und den ersten Signalen des Intervalls;
c) Synthetisieren einer Nachbildung des Sprachsignals unter Erzeugen eines Erregungssignals in Abhängigkeit vom Grundfrequenzsignal und dem Stimmhaft-Stimmlos-Signals und Kombinieren des Erregungssignals mit den ersten Signalen,

dadurch gekennzeichnet, daß beim Schritt a) ein Satz von zweiten Signalen erzeugt wird, die die Spektralkomponenten des Vorhersagefehlersignals repräsentieren und daß beim Schritt c) das Erregungssignal zusätzlich in Abhängigkeit von den zweiten Signalen gebildet wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim Schritt c) zunächst ein vorläufiges Erregungssignal in Abhängigkeit von den Grundfrequenz- und Stimmhaft-Stimmlos-Signalen gebildet wird, das dann unter Verwendung der zweiten Signale zum endgültigen Erregungssignal umgeformt wird.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß zunächst eine Folge von vorläufigen Erregungsimpulsen in Abhängigkeit von den Grundfrequenz- und Stimmhaft-Stimmlos-Signalen gebildet wird, die dann unter Verwendung der zweiten Signale zu einer Folge von endgültigen Erregungsimpulsen umgeformt werden.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß bei der Erzeugung des zweiten Signals eine Vielzahl von Spektralkomponenten des Vorhersagefehlersignals jeweils für eine vorbestimmte Frequenz erzeugt wird und daß die Spektralkomponenten während des Intervalls abgetastet werden, um die zweiten Signale zu erzeugen.

5. Verfahren nach Anspruch 3 und 4, dadurch gekennzeichnet, daß die Umformung der vorläufigen Erregungsimpulse die Bildung einer Vielzahl von Spektralkomponenten des Erregungssignals umfaßt, die den vorbestimmten Frequenzen entsprechen, daß eine Vielzahl von den vorbestimmten Frequenzen entsprechenden Spektralkomponenten eines Vorhersagefehler-Koeffizientensignals in Abhängigkeit von dem Grundfrequenzsignal und den zweiten Signalen erzeugt wird, und daß die Spektralkomponenten das Erregungssignal mit den Spektralkomponenten des Vorhersagefehler-Koeffizientensignals kombiniert werden, um die endgültigen Erregungsimpulse zu bilden.

6. Sprachverarbeitungsschaltung zur Durchführung des Verfahrens nach Anspruch 1, mit einem Sprachanalysator, der eine Einrichtung zur Unterteilung des Sprachsignals in die aufeinanderfolgenden Zeitintervalle und eine Einrichtung aufweist, die in Abhängigkeit vom Sprachsignal jedes Intervalls den Satz von ersten Signalen erzeugt, welche die Voraussageparameter, die Grundfrequenz und den Stimmhaft-Stimmlos-Zustand des Sprachsignals repräsentieren, mit einer Einrichtung, die abhängig vom Sprachsignal und den ersten Signalen für jedes Intervall das Voraussagefehlersignal erzeugt, mit einem Sprachsynthetisierer einschließlich eines Erregungsgenerators, der in Abhängigkeit von dem Grundfrequenz- und dem Stimmhaft-Stimmlos-Signal das Erregungssignal erzeugt, und mit einer Einrichtung, die abhängig von dem Erregungssignal und den ersten Signalen die Nachbildung des Sprachsignals erzeugt, dadurch gekennzeichnet, daß der Sprachanalysator eine Einrichtung (124, 126) aufweist, die ansprechend auf das Voraussagefehlersignal den Satz von zweiten Signalen erzeugt, die die Spektralkomponenten des Vorhersagefehlersignals repräsentieren, und daß der Erregungsgenerator (220) unter Ansprechen auf das Grundfrequenz- und das Stimmhaft-Stimmlos-Signal sowie die zweiten Signale das Erregungssignal erzeugt.

7. Sprachverarbeitungsschaltung nach Anspruch 6, dadurch gekennzeichnet, daß der Erregungsgenerator (220) eine Einrichtung (618) aufweist, die ansprechend auf das Grundfrequenz- und das Stimmhaft-Stimmlos- Signal ein vorläufiges Erregungssignal erzeugt, und daß eine Einrichtung (650) vorgesehen ist, die in Abhängigkeit von den zweiten Signalen das vorläufige Erregungssignal zum endgültigen Erregungssignal umformt.

8. Sprachverarbeitungsschaltung nach Anspruch 7, dadurch gekennzeichnet, daß die das vorläufige Erregungssignal erzeugende Einrichtung (618) Einrichtungen (620, 622, 624) umfaßt, die unter Ansprechen auf das Grundfrequenz- und das Stimmhaft-Stimmlos-Signal eine Folge von Erregungsimpulsen erzeugen und daß die Einrichtung (650) zur Signalformung eine Einrichtung (601, 603, 610) umfaßt, die ansprechend auf das zweite Signal die vorläufigen Erregungsimpulse in eine Folge von endgültigen Erregungsimpulsen umformt.

9. Sprachverarbeitungsschaltung nach Anspruch 8, dadurch gekennzeichnet, daß die Einrichtung (124, 126) zur Erzeugung des zweiten Signals eine Einrichtung (504) aufweist, die eine Vielzahl von Spektralkomponenten des Vorhersagefehlersignals für jeweils eine vorbestimmte Frequenz erzeugt und daß eine Einrichtung (513) zum Abtasten der Spektralkomponenten während des Intervalls vorgesehen ist, die die zweiten Signale erzeugt.

10. Sprachverarbeitungsschaltung nach Anspruch 8 und 9, dadurch gekennzeichnet, daß die Einrichtung (601, 603, 610) zum Umformen der vorläufigen Erregungsimpulse eine Einrichtung (603) aufweist, die eine Vielzahl von Spektralkomponenten des Erregungssignals entsprechend den vorbestimmten Frequenzen bildet, daß eine Einrichtung (601) vorgesehen ist, die ansprechend auf das Grundfrequenzsignal und die zweiten Signale eine Vielzahl von Spektralkomponenten des Vorhersagefehler-Koeffizientensignals entsprechend den vorbestimmten Frequenzen erzeugt, und daß eine Einrichtung (610) zum Kombinieren der Spektralkomponenten des Erregungssignals mit den Spektralkomponenten des Vorhersagefehler-Koeffizientensignals vorgesehen ist, um die endgültigen Erregungsimpulse zu erzeugen.