DE3244476C2

DE3244476C2 -

Info

Publication number: DE3244476C2
Application number: DE3244476A
Authority: DE
Inventors: Bishnu Saroop Murray Hill N.J. Us Atal; Joel Richard Elizabeth N.J. Us Remde
Original assignee: AT&T Technologies Inc
Current assignee: AT&T Corp
Priority date: 1981-12-01
Filing date: 1982-12-01
Publication date: 1988-01-21
Also published as: US4472832A; FR2517452A1; JPS6156400A; NL193037C; JPS6046440B2; FR2517452B1; CA1181854A; SE8704178L; SE467429B; GB2110906B; GB2110906A; SE8704178D0; NL8204641A; JPS58105300A; DE3244476A1; SE8206641D0; NL193037B; JPH0650437B2; SE456618B; SE8206641L

Description

Die Erfindung betrifft ein Verfahren zum Verarbeiten eines Sprachmusters nach dem Oberbegriff des Anspruchs 1.

Digital arbeitende Sprach-Nachrichtensysteme mit Sprachspeicher- und Sprachausgabeeinrichtungen setzen Signalkompression ein, um die zum Speichern und/oder Übertragen benötigte Bitrate zu verringern. Ein Sprachmuster enthält bekanntlich Redundanz, die für seine nach außen in Erscheinung tretende Qualität nicht entscheidend ist. Das Entfernen von redundanten Komponenten des Sprachmusters verringert die zum Zusammensetzen einer Kopie der Sprache benötigte Anzahl von Digitalcodes beträchtlich. Die subjektiv empfundene Qualität der Sprachkopie hängt jedoch von den Kompressions- und Codierungsmethoden ab.

Ein bekanntes digitales Sprachcodierungssystem, wie es z. B. in der US-PS 36 24 302 beschrieben ist, beinhaltet die lineare Voraussage- oder Prädiktoranalyse eines eingegebenen Sprachsignals. Das Sprachsignal wird in aufeinanderfolgende Intervalle aufgeteilt, und es wird ein für die Sprache in dem Intervall repräsentativer Satz von Parametern erzeugt. Der Parametersatz enthält lineare Prädiktorkoeffizientensignale, die kennzeichnend sind für die Spektralhüllkurve der Sprache in dem Intervall, sowie Tonhöhen- und Stimmhaftigkeitssignale, die der Spracherregung entsprechen. Diese Parametersignale können mit einer viel geringeren Bitrate codiert werden als die Sprachsignal-Wellenform selbst. Aus den Parametersignalcodes wird durch Synthese eine Kopie des eingegebenen Sprachsignals gebildet. Die Syntheseeinrichtung enthält im allgemeinen ein Modell oder eine Nachbildung des Mundhohlraums. In dem Modell werden die Erregungsimpulse in einem Allpol-Voraussagefilter durch die für die Spektralhüllkurve repräsentativen Prädiktorkoeffizienten modifiziert.

Die oben erläuterte tonhöhenerregte lineare Prädiktor- oder Voraussagecodierung ist äußerst wirksam. Die erzeugte Sprachkopie klingt jedoch synthetisch und ist häufig schwierig zu verstehen. Im allgemeinen resultiert die geringe Sprachqualität aus einem Mangel an Entsprechung zwischen Sprachmuster und dem verwendeten linearen Voraussagemodell. Fehler im Tonhöhencode oder Fehler bei der Bestimmung, ob das Sprachintervall stimmhaft oder stimmlos ist, bewirken, daß die Kopie der Sprache gestört oder unnatürlich klingt. Ähnliche Probleme ergeben sich auch bei der Formantcodierung von Sprache. Andere Codierungsanordnungen, bei denen die Spracherregung aus dem nach der Voraussage erhaltenen Rest erhalten wird, z. B. ADPCM oder APC, schaffen eine spürbare Verbesserung, da die Erregung nicht von einem ungenauen Modell abhängt. Bei diesen Systemen liegt die Erregungs-Bitrate jedoch wenigstens um eine Größenordnung höher als bei dem linearen Voraussagemodell. Versuche, die Erregungs- Bitrate in den Rest-Systemen zu senken, haben durchwegs zu einer wesentlichen Qualitätsverschlechterung geführt.

Die DE-OS 24 35 654 zeigt in Übereinstimmung mit dem Oberbegriff des Anspruchs 1 ein Verfahren zum Verarbeiten eines Sprachmusters, bei dem für jedes Intervall ein Satz von Digitalwerten zwischengespeichert wird, woraufhin die zwischengespeicherten Werte wiederholt mit einem künstlichen Sprachmuster verglichen werden, um anhand des Vergleichsergebnisses Sprach-Parameter zu gewinnen, die dem Sprachmuster in dem Intervall möglichst nahe kommen. Mit Hilfe eines "Pitch-Detektors" wird unterschieden zwischen stimmhaften und stimmlosen Sprachlauten. Bei stimmhaften Sprachlauten wird als künstliches Sprachsignal eine Folge von Einheitsimpulsen erzeugt, bei stimmlosen Sprachlauten wird als künstliches Sprachsignal weißes Rauschen erzeugt. Diese künstlichen Sprachmuster werden in einem Vokaltrakt-Modell unter Steuerung eines Parameterrechners in ein künstliches Vergleichs- Sprachmuster umgesetzt, welches mit dem Intervall-Sprachmuster verglichen wird.

Mit Hilfe eines rekursiven Verfahrens werden die von dem Vokaltrakt-Modell unter Steuerung des Parameterrechners erzeugten Sprach-Parameter so geändert, daß die beiden verglichenen Sprachsignale, also das (natürliche) Sprachsignal aus dem jeweiligen Intervall, und das künstlich gewonnene Sprachsignal möglichst gut übereinstimmen. Bei einem gewissen Grad an Übereinstimmung wird ein Befehlssignal erzeugt, aufgrund dessen die dann von dem Vokaltrakt-Modell erzeugten Sprach-Parameter als Erregungssignale zusammen mit einem Entscheidungssignal "stimmhaft/stimmlos" von einem Kodierer auf einen Übertragungskanal gegeben werden. Der Vergleich der natürlichen Sprachsignale mit den künstlichen Sprachsignalen beruht also auf einer Ja/Nein-Entscheidung bezüglich der Frage, ob die Sprachlaute stimmhaft oder stimmlos sind. Die mit solchen Verfahren gewonnenen Sprachmuster-Kopien haben die Eigenschaft, daß die Sprache relativ künstlich klingt, was wohl darauf zurückzuführen ist, daß die zu dem Vergleich mit dem natürlichen Sprachmuster herangezogenen Signale als einzige Information aus den ursprünglichen Sprachsignalen die Information "stimmhaft oder stimmlos" übernehmen. In der Praxis jedoch gibt es bei den meisten gesprochenen Wörtern keine deutlichen Grenzen zwischen den Gruppen "stimmlos" und "stimmhaft", sondern die Grenzen sind mehr oder weniger fließend.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Verarbeiten eines Sprachmusters zu schaffen, das eine Sprachmuster-Kopie zu liefern vermag, die der natürlichen Sprache sehr nahe kommt, indem Signale verarbeitet werden, die von dem ursprünglichen Signal abgeleitet sind.

Diese Aufgabe wird durch die im Anspruch 1 angegebene Erfindung gelöst.

Ein Grundgedanke der Erfindung ist demnach darin zu sehen, daß für den Vergleich, der eine möglichst genaue Annäherung des künstlichen Signals an das natürliche Signal feststellen und herbeiführen soll, Signale herangezogen werden, die beide von dem ursprünglichen Signal abgeleitet sind. Das erste Signal wird auf der Grundlage der Intervall-Sprachmustersignale und der Differenz-Signale für dieses Intervall erzeugt. Das zweite Signal wird auf der Grundlage der Intervall-Signale erzeugt. Demgemäß berücksichtigt das erfindungsgemäße Verfahren in stärkerer Weise als das bekannte Verfahren das tatsächlich zu kopierende Sprachmuster. Es erfolgt eine Verarbeitung des gesamten Sprachsignals, während bei dem bekannten Verfahren das dem Vergleich zugrunde gelegte künstliche Signal mit dem ursprünglichen Signal nur dadurch zusammenhängt, daß das ursprüngliche Signal hinsichtlich stimmlos/stimmhaft untersucht wird.

Im folgenden werden Ausführungsbeispiele der Erfindung anhand der Zeichnung näher erläutert. Es zeigt

Fig. 1 ein Blockdiagramm einer Sprachprozessorschaltung, mit deren Hilfe das erfindungsgemäße Verfahren durchgeführt werden kann,

Fig. 2 ein Blockdiagramm eines Prozessors zum Bilden eines Erregungssignals, der in der Schaltung nach Fig. 1 einsetzbar ist,

Fig. 3 ein Flußdiagramm, das die Arbeitsweise der Schaltung zum Bilden des Erregungssignals gemäß Fig. 1 veranschaulicht,

Fig. 4 und 5 Flußdiagramme, die die Arbeitsweise der in Fig. 1 gezeigten Schaltung veranschaulichen,

Fig. 6 ein Zeitdiagramm, welches die Arbeitsweise der Schaltung zum Bilden eines Erregungssignals, die in den Fig. 1 und 2 dargestellt ist, veranschaulicht, und

Fig. 7 Wellenzüge, die die Sprachverarbeitung nach der Erfindung veranschaulichen.

Gemäß Fig. 1 wird ein Sprachmuster, beispielsweise eine gesprochene Nachricht, von einem Mikrophon 101 empfangen. Das von diesem abgegebene analoge Sprachsignal wird in einer Filter- und Abtastschaltung 113 eines Voraussageanalysators 110 bandbegrenzt und in eine Folge von Impulsabtastwerten umgesetzt. Durch die Filterung können Frequenzanteile des Sprachsignals oberhalb von 4,0 kHz herausgefiltert werden, wobei die Abtastrate in bekannter Weise 8,0 kHz beträgt. Die zeitliche Steuerung der Abtastungen wird durch einen von einem Taktgeber 103 gelieferten Abtasttakt CL gesteuert. Jeder von der Schaltung 113 kommende Abtastwert wird in einem Analog/ Digital-Umsetzer 115 in einen Digitalcode umgesetzt, der kennzeichnend für die Amplitude des Abtastwertes ist.

Die Folge der Sprach-Abtastwerte gelangt an einen Prädiktorparameter-Rechner (LPC-Rechner) 119, der in bekannter Weise die Sprachsignale in 10 bis 20 ms lange Intervalle unterteilt und als Intervall-Signale einen Satz von linearen Prädiktorkoeffizientensignalen a _k, k = 1, 2, . . ., p erzeugt, die kennzeichnend sind für das vorausgesagte Kurzzeitspektrum der N»p Sprachabtastwerte jedes Intervalls. Die von dem A/D-Umsetzer 115 kommenden Sprachabtastwerte werden in einer Verzögerungsschaltung 117 verzögert, um Zeit für die Bildung der Intervall-Signale a _k zu schaffen. Die verzögerten Abtastwerte gelangen an den Eingang eines Voraussagerestgenerators 118. Der Voraussagerestgenerator spricht in an sich bekannter Weise auf die verzögerten Sprachabtastwerte und die Prädiktorparameter a _k an, um ein der Differenz zwischen den beiden Signalen entsprechendes Unterschieds-Signal zu bilden. Die für jeden Rahmen in dem Voraussageanalysator 110 erfolgende Bildung der Prädiktor- oder Voraussageparameter sowie des Voraussagerestsignals kann z. B. mit der in der US-PS 37 40 476 beschriebenen Anordnung durchgeführt werden.

Während die Prädiktorparametersignale a _k eine effiziente Darstellung des Kurzzeit-Sprachspektrums bilden, unterliegt das Restsignal im allgemeinen großen Schwankungen von Intervall zu Intervall und weist eine hohe Bitrate auf, die für viele Anwendungsfälle ungeeignet ist. In dem tonhöhenerregten Vocoder werden nur die Spitzen des Restsignals als Tonhöhenimpulscodes übertragen. Die sich hierbei ergebende Qualität ist im allgemeinen jedoch schlecht. Der Wellenzug 701 in Fig. 7 veranschaulicht ein typisches, sich über zwei Zeitrahmen erstreckendes Sprachmuster. Der Wellenzug 703 zeigt das Voraussagerestsignal, das von dem Muster des Wellenzugs 701 und den Prädiktorparametern der Rahmen abgeleitet ist. Wie man leicht sieht, ist der Wellenzug 703 relativ kompliziert, so daß den Spitzen entsprechende Codierungs-Tonhöhenimpulse keine angemessene Approximation des Voraussagerests schaffen. Erfindungsgemäß empfängt ein Erregungscodeprozessor 120 das Unterschieds- oder Restsignal d _k und als Intervall-Signal die Prädiktorparameter a _k des Rahmens und erzeugt einen Intervall- Erregungscode, der eine vorbestimmte Anzahl von Bitstellen hat. Der sich ergebende Erregungscode gemäß Wellenzug 705 weist eine relativ niedrige und konstante Bitrate auf. Der Wellenzug 707 zeigt eine Kopie des Sprachmusters des Wellenzugs 701, die aus dem Erregungscode und den Prädiktorparametern der Rahmen zusammengesetzt ist. Wie man anhand eines Vergleichs der Wellenzüge 701 und 702 sieht, wird bei viel niedrigeren Bitraten ein Sprachverlauf höherer Qualität durch die anpassende Voraussagecodierung erhalten.

Das Restsignal d _k und die Prädiktorparametersignale a _k jedes aufeinanderfolgenden Rahmens werden von der Schaltung 110 zu Beginn jedes aufeinanderfolgenden Rahmens an die zum Bilden eines Erregungssignals dienende Schaltung 120 gegeben. Die Schaltung 120 erzeugt ein mehrere Elemente enthaltenden Rahmen-Erregungscode EC mit einer vorbestimmten Anzahl von Bitstellen für jeden Rahmen. Jeder Erregungscode entspricht einer Folge von 1i I Impulsen, die kennzeichnend sind für die Erregungsfunktion des Rahmens. Die Amplitude β _i und die Stelle m _i jedes Impulses innerhalb des Rahmens wird in der zum Bilden des Erregungssignals dienenden Schaltung festgelegt, so daß das Zusammensetzen einer Kopie des Rahmen-Sprachsignals aus dem Erregungssignal und den Prädiktorparametersignalen des Rahmens möglich ist. In einem Codierer 131 werden die Signale β _i und m _i codiert und mit den Prädiktorparametersignalen des Rahmens in einem Multiplexer 135 einer Multiplexbildung unterworfen, um ein dem Rahmen-Sprachmuster entsprechendes digitales Signal zu erhalten.

In der zum Bilden des Erregungssignals dienenden Schaltung 120 werden das Unterschieds- oder Restsignal d _k und die Intervall- oder Prädiktorparametersignale a _k eines Rahmens über Verknüpfungsglieder 122 bzw. 124 an ein Filter 121 gelegt. Zu Beginn jedes Rahmens öffnet ein Rahmentaktsignal FC die Gatter 122 und 124, wodurch die Signale d _k an das Filter 121 und die Signale a _k an die Filter 121 und 123 gelangen. Das Filter 121 ist derart ausgebildet, daß es das Signal d _k so modifiziert, daß das Quantisierungsspektrum des Fehlersignals in dessen Formantbereichen konzentriert wird. Wie in der US-PS 41 33 976 beschrieben ist, bewirkt diese Filteranordnung, daß der Fehler in den Signalbereichen hoher Energie des Spektrums maskiert wird.

Die Übertragungsfunktion des Filters 121 ist in der Schreibweise der z-Transformation:

wobei B(z) durch die Rahmen-Prädiktorparameter a _k gesteuert wird.

Das Voraussagefilter 123 empfängt vom Rechner 119 die Rahmen-Prädiktorparametersignale a _k und von dem Erregungssignalprozessor 127 ein künstliches Erregungssignal EC. Das Filter 123 hat eine Übertragungsfunktion gemäß Gleichung (1). Das Filter 121 bildet ansprechend auf das Unterschieds-Signal d _k ein gewichtetes Rahmen- Sprachsignal (erstes Signal) y, während das Filter 123 ansprechend auf das von dem Signalprozessor 127 kommende Erregungssignal ein gewichtetes künstliches Sprachsignal (zweites Signal) erzeugt. Die Signale y und werden in einem Korrelationsprozessor 125 korreliert, wobei der Korrelationsprozessor 125 ein der gewichteten Differenz zwischen den Signalen entsprechendes Differenzsignal E erzeugt. Das Signal E wird an den Signalprozessor 127 gelegt, um das Erregungssignal EC so einzustellen, daß die Differenzen zwischen dem vom Filter 121 kommenden, für die gewichtete Sprache repräsentativen Signal und dem vom Filter 123 kommenden, für die gewichtete künstliche Sprache repräsentativen Signal verringert werden.

Das Erregungssignal ist eine Folge von 1i I Impulsen. Jeder Impuls besitzt eine Amplitude b _i und eine Stelle m _i. Der Prozessor 127 bildet sukzessiv die Signale β _i, m _i, die die Differenzen zwischen dem gewichteten Rahmen- Sprachsignal vom Filter 121 und dem gewichteten Rahmen- Kunstsprachsignal vom Filter 123 verringern. Das gewichtete Rahmen-Sprachsignal beträgt

und das gewichtete Kunstsprache-Signal des Rahmens beträgt

wobei h _n die Impulsantwort des Filters 121 oder des Filters 123 ist.

Das in der Schaltung 120 gebildete Erregungssignal ist ein codiertes Signal mit den Elementen β _i, m _i, i = 1, 2, . . ., I. Jedes Element stellt einen Impuls in dem Zeitrahmen dar. β _i ist die Amplitude des Impulses und m _i ist die Stelle des Impulses innerhalb des Rahmens. Der Korrelationssignalgenerator 125 erzeugt sukzessive ein Korrelationssignal für jedes Element. Jedes Element kann zu einer Zeit 1q Q innerhalb des Zeitrahmens angeordnet sein. Folglich bildet der Korrelationsprozessor Q mögliche Kandidaten für das Element i nach Maßgabe der Gleichung (4):

wobei

Der Erregungssignalgenerator 127 empfängt die Signale C _iq von dem Korrelationssignalgenerator, wählt dasjenige Signal C _iq aus, das den größten Absolutwert aufweist, und bildet das i-te Element des codierten Signals.

wobei q* die Stelle desjenigen Korrelationssignals ist, das den größten Absolutwert aufweist. Der Index i wird auf i+1 erhöht, und das Signal _n am Ausgang des Voraussagefilters 123 wird modifiziert. Die Verarbeitung entsprechend den Gleichungen (4), (5) und (6) wird wiederholt, um das Element β _i+1, m _i+1 zu bilden. Nach der Bildung des Elements β _I, m _I wird das Signal mit den Elementen b₁, m₁, β₂, m₂, . . ., β _i, m₁ zum Codierer 131 übertragen. In an sich bekannter Weise quantisiert der Codierer 131 die Elemente β _i m _i und bildet ein codiertes Signal, das sich für die Übertragung zu einem Verbindungsnetz 140 eignet.

Jedes der Filter 121 und 123 in Fig. 1 kann ein Transversalfilter von dem Typ sein, wie er in der US-PS 41 33 976 beschrieben ist. Jeder der Prozessoren 125 und 127 kann eine der an sich bekannten Prozessoranordnungen sein, die sich zum Berechnen der Gleichungen (4) und (6) eignen, beispielsweise kann es sich um das C.S.P., Inc. Macro Arithmetic Processor System 100 oder eine andere bekannte Prozessoranordnung handeln. Der Prozessor 125 enthält einen Festspeicher, der permanent Programmbefehle zum Steuern der Bildung der Signale C _iq nach Maßgabe der Gleichung (4) speichert. Der Prozessor 127 enthält einen Festspeicher, der dauernd Programmbefehle zum Auswählen der Signalelemente β _i, m _i nach Gleichung (6) speichert, wie es an sich bekannt ist.

Fig. 3 zeigt ein Flußdiagramm, welches die Arbeitsweise der Prozessoren 125 und 127 für jeden Zeitrahmen veranschaulicht. Gemäß Fig. 3 werden in dem Kästchen 305 die Impulsantwortsignale h _k ansprechend auf die Rahmen-Prädiktorparameter für die Übertragungsfunktion nach Gleichung (1) erzeugt. Dies geschieht nach Empfang des Signals FC vom Taktgeber 103 in Fig. 1, was durch das Wartekästchen 303 angedeutet ist. In dem Kästchen 307 werden der Elementindex i und der Erregungsimpuls-Stellenindex q auf 1 voreingestellt (initialisiert). Nach Erhalt der Signale y _n und _{n, i-1} von den Voraussagefiltern 121 bzw. 123 wird gemäß Kästchen 309 das Signal C _iq gebildet. Der Stellenindex q wird im Kästchen 311 erhöht, und es erfolgt die Bildung der nächsten Stelle C _iq.

Nachdem für das Erregungssignalelement i im Prozessor 125 das Signal C _iQ gebildet ist, wird der Prozessor 127 aktiviert. Der Index q wird in dem Prozessor 127 gemäß Kästchen 315 zu Beginn auf 1 eingestellt, während der Index i sowie die Signale C _iq, die in dem Prozessor 125 gebildet wurden, zum Prozessor 127 übertragen werden. Das Signal C _iq*, das das Signal C _iq mit dem größten Absolutwert darstellt, wird ebenso wie dessen Stelle q* im Kästchen 317 auf Null eingestellt. Die Absolutwerte der Signale C _iq werden mit dem Signal C _iq* verglichen, und der größte dieser Absolutwerte wird als Signal C _iq* in der die Kästchen 319, 321, 323 und 325 umfassenden Schleife gespeichert.

Nachdem das Signal C _iQ vom Prozessor 125 verarbeitet ist, wird vom Kästchen 325 aus das Kästchen 327 betreten. Die Stelle m _i des Erregungscodeelements wird auf q* eingestellt, und die Amplitude β _i des Erregungscodeelements wird nach Maßgabe der Gleichung (6) erzeugt. Das Element β _i m _i wird gemäß Kästchen 328 an das Voraussagefilter 123 gegeben, und im Kästchen 329 wird der Index i erhöht. Nach Bildung des Elements β _I m _I des Rahmens wird von dem Entscheidungskästchen 331 aus erneut das Wartekästchen 303 betreten.

Die Prozessoren 125 und 127 gelangen dann bis zu dem Rahmentaktimpuls FC des nächsten Rahmens in den Wartezustand.

Der Erregungscode in dem Prozessor 127 gelangt außerdem an den Codierer 131. Der Codierer setzt den vom Prozessor 127 kommenden Erregungscode in eine zur Verwendung in dem Netzwerk 140 geeignete Form um. Die Prädiktorparametersignale a _k für den Rahmen werden über eine Verzögerungsschaltung 133 an einen Eingang des Multiplexers 135 gelegt. Das vom Codierer 131 kommende Erregungscodesignal EC gelangt an den anderen Eingang des Multiplexers. Die im Multiplexbetrieb verarbeiteten Erregungs- und Prädiktorparametercodes für den Rahmen werden dann zum Netzwerk 140 gesendet.

Bei dem Netzwerk 140 kann es sich um ein Nachrichtensystem, den Nachrichtenspeicher einer Sprachspeicheranordnung oder um eine Vorrichtung handeln, die zum Speichern einer vollständigen Nachricht oder des Vokabulars vorgeschriebener Nachrichteneinheiten, z. B. von Worten, Phonemen usw. dient, die in Sprachsynthesevorrichtungen eingesetzt werden. Unabhängig davon, um welche Nachrichteneinheit es sich handelt, wird die von der Schaltung 120 kommende Folge von Rahmencodes über das Netzwerk 140 zu der Sprachsynthesevorrichtung 150 übertragen. Die Synthesevorrichtung verwendet ihrerseits die von der Schaltung 120 kommenden Rahmen-Erregungscodes sowie die Rahmen-Prädiktorparametercodes, um eine Kopie des Sprachmusters zusammenzusetzen.

Ein in der Synthesevorrichtung 150 enthaltener Demultiplexer 152 separiert den Erregungscode EC eines Rahmens von dessen Prädiktorparametern a _k. Nachdem der Erregungscode in einem Decoder 153 in eine Folge von Erregungsimpulsen decodiert ist, wird er an den Erregungseingang eines Sprachsynthesefilters 154 gegeben. An die Parametereingänge des Filters 154 werden die a _k-Codes gegeben. Das Filter 154 bildet in Abhängigkeit der Erregungssignale und der Prädiktorparametersignale eine codierte Kopie des Rahmen-Sprachsignals, wie es an sich bekannt ist. Ein D/A-Umsetzer 156 setzt die codierte Kopie in ein Analogsignal um, das über ein Tiefpaßfilter 158 gegeben und von einem Wandler 160 in ein Sprachmuster umgewandelt wird.

Eine alternative Anordnung zum Bilden des Erregungscodes in der Schaltung 120 kann auf dem gewichteten mittleren Fehlerquadrat zwischen den Signalen y _n und _n beruhen. Nach Bildung der Werte β _i und m _i für den i-ten Erregungssignalimpuls beträgt dieses gewichtete mittlere Fehlerquadrat

wobei h _n die n-te Abtastung der Impulsantwort von H(z), m _j die Stelle des j-ten Impulses des Erregungscodesignals und β _j die Amplitude des j-ten Impulses ist.

Die Impulsstelle und die Impulsamplitude werden sequentiell erzeugt. Das i-te Element der Erregung bestimmt sich durch die Minimierung von E _i in Gleichung (7). Die Gleichung (7) kann man umschreiben zu

so daß die β _i, m _i vorausgehenden bekannten Erregungscodeelemente nur in dem ersten Term auftreten.

Wie bekannt ist, kann der den Wert E _i minimierende Wert von β _i durch Differenzieren der Gleichung (8) nach b _i und Setzen von

erhalten werden. Folglich beträgt der optimale Wert für β _i

wobei

die Autokorrelationskoeffizienten des Impulsantwortsignals h _k des Voraussagefilters sind.

β _i in Gleichung (10) ist eine Funktion der Impulsstelle und wird für jeden möglichen Wert bestimmt. Dann wird der größte der β _i-Werte an den in Frage kommenden Impulsstellen ausgewählt. Nach dem Erhalt der Werte β _i und m _i werden die Werte β _i+1, m _i+1 erzeugt, indem die Gleichung (10) in ähnlicher Weise gelöst wird. Der erste Term der Gleichung (10), d. h.

entspricht dem für die Sprache repräsentativen Signal des Rahmens am Ausgang des Voraussagefilters 121. Der zweite Term in Gleichung (10), d. h.

entspricht dem für die künstliche Sprache repräsentativen Signal des Rahmens am Ausgang des Voraussagefilters 123. β _i ist die Amplitude eines Erregungsimpulses an der Stelle m _i, der die Differenz zwischen dem ersten und dem zweiten Term minimiert.

Die in Fig. 2 dargestellte Datenverarbeitungsschaltung stellt eine alternative Anordnung bezüglich der in Fig. 1 dargestellten Schaltung 120 zum Bilden des Erregungssignals dar. Die Schaltung nach Fig. 2 liefert ansprechend auf das Rahmen-Voraussagerestsignal d _k und die Rahmen-Prädiktorparametersignale a _k nach Maßgabe der Gleichung (10) den Erregungscode für jeden Rahmen des Sprachmusters, und sie kann das oben erwähnte C.S.P., Inc. Macro Arithmetic Processor System 100 oder eine andere bekannte Prozessoranordnung enthalten.

Gemäß Fig. 2 empfängt der Prozessor 210 die Prädiktorparametersignale a _k und die Voraussagerestsignale d _n für jeden aufeinanderfolgenden Rahmen des Sprachmusters von der Schaltung 110 über den Speicher 218. Der Prozessor bildet die Erregungscode-Signalelemente b₁m₁, β₂m₂, . . ., β _I m _I unter Steuerung von Befehlen, die dauernd in einem Festspeicher für ein Voraussagefilter-Unterprogramm und einem Festspeicher 205 für ein Unterprogramm zur Erregungsverarbeitung gespeichert sind.

Der Prozessor 210 enthält einen gemeinsamen Bus 225, einen Datenspeicher 230, einen Zentralprozessor 240, eine Steuerungsschnittstelle 220, und eine Eingabe/ Ausgabe-(E/A-)Schnittstelle 260. In an sich bekannter Weise steuert der Zentralprozessor 240 die Arbeitsabfolge der anderen Einheiten des Prozessors 210 in Abhängigkeit von von der Steuerung 215 kommenden codierten Befehlen. Der Arithmetikprozessor 250 führt die arithmetischen Rechnungen der von dem Datenspeicher 230 kommenden codierten Signale in Abhängigkeit von vom Zentralprozessor 240 kommenden Steuersignalen durch. Der Datenspeicher 230 speichert nach Anweisung des Zentralprozessors 240 Signale und liefert diese Signale an den Arithmetikprozessor 250 und an die E/A-Schnittstelle 260. Die Steuerungsschnittstelle 220 bildet eine Nachrichtenverbindung für die Programmbefehle im ROM 201 und im ROM 205 mit dem Zentralprozessor 240 über die Steuerung 215, und die E/A-Schnittstelle 260 ermöglicht es, daß die Signale d _k und a _k in den Datenspeicher 230 gelangen, und sie gibt die Ausgangssignale β _i und m _i von dem Datenspeicher an den Codierer 131 in Fig. 1.

Die Arbeitsweise der Schaltung nach Fig. 2 ist in dem in Fig. 4 dargestellten Flußdiagramm für die Filterparameterverarbeitung, in dem in Fig. 5 gezeigten Flußdiagramm für die Erregungscodeverarbeitung und in dem in Fig. 6 gezeigten Zeitdiagramm veranschaulicht. Beim Start des Sprachsignals wird das Kästchen 410 in Fig. 4 über das Kästchen 405 betreten, und der Rahmenzähler r wird durch einen vom Taktgeber 103 kommenden einzelnen Impuls ST auf den ersten Rahmen eingestellt. Fig. 6 zeigt die Arbeitsweise der Schaltung nach Fig. 1 und 2 für zwei aufeinanderfolgende Rahmen. Zwischen den Zeitpunkten t₀ und t₇ in dem ersten Rahmen bildet der Voraussageanalysator 110 die Sprachmusterabtastungen des Rahmens r+2 gemäß Wellenform 605 unter Steuerung der Abtasttaktimpulse des Wellenzugs 601. Der Analysator 110 erzeugt die Signale a _k entsprechend dem Rahmen r+1 zwischen den Zeitpunkten t₀ und t₃, und er bildet zwischen den Zeitpunkten t₃ und t₆ das Restsignal d _k, wie es durch den Wellenzug 607 angedeutet ist. Zwischen den Zeitpunkten t₀ und t₁ tritt das Signal FC (Wellenform 603) auf. Die Signale d _k von dem Restsignalgenerator 118, die zuvor während des vorausgehenden Rahmens im Speicher 218 gespeichert wurden, werden über die E/A- Schnittstelle 260 und den gemeinsamen Bus 225 unter Steuerung des Zentralprozessors 240 in den Datenspeicher 230 gegeben. Wie in Fig. 4 durch das Kästchen 415 angedeutet ist, erfolgen diese Tätigkeiten in Abhängigkeit des Rahmentaktsignals FC. Die Rahmen- Prädiktorparametersignale a _k von dem Prädiktorparameterrechner 119, die zuvor während des vorausgehenden Rahmens im Speicher 218 gespeichert wurden, werden ebenfalls in den Speicher 230 eingegeben, wie durch das Kästchen 420 angedeutet ist. Diese Arbeitsschritte erfolgen zwischen den Zeitpunkten t₀ und t₁ in Fig. 6.

Nachdem die Signale d _k und a _k in den Speicher 230 eingegeben sind, werden die Voraussagefilterkoeffizienten b _k entsprechend der Übertragungsfunktion der Gleichung (1)

in dem Arithmetikprozessor 250 erzeugt und in den Datenspeicher 230 eingegeben. Bei einer Abtastrate von 8 kHz beträgt p typischerweise 16 und α typischerweise 0,85. Dann werden in dem Arithmetikprozessor 250 die Voraussagefilter- Impulsantwortsignale h _k

berechnet und in dem Datenspeicher 230 gespeichert. Wenn das Impulsantwortsignal h _k gespeichert ist, werden die Voraussagefilter- Autokorrelationssignale gemäß Gleichung (11) erzeugt und gespeichert.

Im Zeitpunkt t₂ in Fig. 6 trennt die Steuerung 215 das ROM 201 von der Schnittstelle 220 und verbindet das ROM 205, das das Unterprogramm für die Erregungsverarbeitung speichert, mit der Schnittstelle. Dann wird die Bildung der Erregungsimpulscodes β _i, m _i eingeleitet, wie aus dem Flußdiagramm nach Fig. 5 hervorgeht. Zwischen den Zeitpunkten t₂ und t₄ in Fig. 6 wird die Folge der Erregungsimpulse gebildet. Am Anfang wird der Erregungsimpulsindex i auf 1 eingestellt, während der Impulsstellenindex q auf 1 eingestellt wird (Kästchen 505). β₁ wird im Kästchen 510 auf Null eingestellt, und es wird im Kästchen 515 β _iq = β₁₁ bestimmt. β₁₁ ist der optimale Erregungsimpuls an der Stelle q=1 des Rahmens. Dann wird der Absolutwert von β₁₁ mit dem zuvor gespeicherten Wert β₁ im Entscheidungskästchen 520 verglichen. Da β₁ zu Beginn den Wert Null hat, wird der Code m _i auf q=1 eingestellt, und der Code β _i wird auf β₁₁ eingestellt (Kästchen 525).

Dann wird im Kästchen 530 der Stellenindex q erhöht, und es wird über das Entscheidungskästchen 535 das Kästchen 515 betreten, um das Signal β₁₂ zu erzeugen. Für sämtliche Impulsstellenwerte 1q Q wird die die Kästchen 515, 520, 525, 530 und 535 umfassende Schleife wiederholt durchlaufen. Nach der Q-ten Iteration sind die erste Erregungsimpulsamplitude β₁ = β _iq* und die zugehörige Stelle m₁ = q* in dem Speicher 230 gespeichert. Auf diese Weise wird der erste der I Erregungsimpulse bestimmt. Gemäß dem in Fig. 7 gezeigten Wellenzug 705 tritt der Rahmen r zwischen den Zeitpunkten t₀ und t₁ auf. Der Erregungscode für den Rahmen besteht aus acht Impulsen. Der erste Impuls mit der Amplitude β₁ und der Stelle m₁ tritt im Zeitpunkt t _m1 in Fig. 7 auf, wie es für den Index i=1 gemäß dem in Fig. 5 gezeigten Flußdiagramm bestimmt wird.

In dem Kästchen 545 wird der Index i auf den nachfolgenden Erregungsimpuls erhöht, und über die Kästchen 550 und 510 wird das Tätigkeitskästchen 515 betreten. Nach Abschluß jeder Iteration der Schleife zwischen den Kästchen 510 und 550 wird das Erregungssignal modifiziert, um das Signal gemäß Gleichung (7) weiter zu verringern. Nach Abschluß der zweiten Iteration wird der Impuls β₂m₂ (Zeitpunkt t _m2 im Wellenzug 705) gebildet. Dann werden sukzessive mit dem Erhöhen des Index i die Erregungsimpulse β₃m₃ (Zeitpunkt t _m3), β₄m₄ (Zeitpunkt t _m4), β₅m₅ (Zeitpunkt t _m5), β₆m₆ (Zeitpunkt t _m6), β₇m₇ (Zeitpunkt t _m7) und b₈m₈ (Zeitpunkt t _m8) gebildet.

Nach der I-ten Iteration (Wellenzug 609 bei t₄) wird vom Entscheidungskästchen 550 aus das Kästchen 555 betreten, und dort wird der laufende Rahmen-Erregungscode β₁m₁, β₂m₂, . . ., b _I m _I erzeugt. In dem Kästchen 560 wird der Rahmenindex erhöht, und im Zeitpunkt t₇ gemäß Fig. 6 werden im Kästchen 415 die Voraussagefilter- Verarbeitungsschritte gemäß Fig. 4 für den nächsten Rahmen durchgeführt. Nach dem Auftreten des Taktsignals FC für den nächsten Rahmen im Zeitpunkt t₇ in Fig. 6 werden die Prädiktorparametersignale für den Rahmen r+3 gebildet (Wellenzug 605 zwischen den Zeitpunkten t₇ und t₁₄), es werden für den Rahmen r+2 die Signale a _k und d _k gebildet (Wellenzug 607 zwischen den Zeitpunkten t₇ und t₁₃), und es wird für den Rahmen r+1 der Erregungscode gebildet (Wellenzug 609 zwischen den Zeitpunkten t₇ und t₁₂).

Von dem Prozessor nach Fig. 2 wird über die E/A- Schnittstelle 260 der Rahmen-Erregungscode an den in Fig. 1 gezeigten Codierer 131 gegeben. Der Codierer 131 arbeitet in der oben geschilderten Weise, indem er den Erregungscode zur Beaufschlagung des Netzwerks 140 quantisiert und formatiert. Die Prädiktorparametersignale a _k des Rahmens gelangen über die Verzögerungsschaltung 133 an den einen Eingang des Multiplexers 135, so daß der Rahmen-Erregungscode vom Codierer 131 mit ihnen in geeigneter Weise gemultiplext wird.

Bei den hier beschriebenen Ausführungsbeispielen werden lineare Prädiktorparameter und ein Prädiktor- oder Voraussagerest verwendet. Die linearen Prädiktorparameter können durch Formantparameter oder andere bekannte Sprachparameter ersetzt werden. Die Voraussagefilter können dann so angeordnet sein, daß sie auf die verwendeten Sprachparameter und das Sprachsignal ansprechen, so daß das in der Schaltung 120 nach Fig. 1 gebildete Erregungssignal in Kombination mit den Sprachparametersignalen dazu verwendet wird, eine Kopie des Sprachmusters zusammenzusetzen.

Claims

1. Verfahren zum Verarbeiten eines Sprachmusters, bei dem

- das Sprachmuster in aufeinanderfolgende Zeitintervalle unterteilt wird,
- ein Satz von Intervall-Signalen (a _k) erzeugt wird, die repräsentativ sind für das Sprachmuster in jedem Intervall,
- ein Unterschieds-Signal (d _k) erzeugt wird, das repräsentativ ist für die Unterschiede zwischen dem Sprachmuster und den Intervall-Signalen, und
- ein Erregungssignal erzeugt wird, das für die Erregung des Intervall-Sprachmusters repräsentativ ist,

dadurch gekennzeichnet, daß zum Erzeugen des Erregungssignals

- ansprechend auf die Intervall-Signale (a _k) und die Unterschieds-Signale (d _k) ein erstes Signal (y) erzeugt wird,
- ansprechend auf die Intervall-Signale (a _k) ein zweites Signal () erzeugt wird,
- ein Differenz-Signal erzeugt wird, das der Differenz zwischen dem ersten Signal und dem zweiten Signal entspricht, und
- das Erregungs-Signal (EC) dadurch gewonnen wird, daß das zweite Signal geändert wird, um das Differenz-Signal zu reduzieren.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Satz von Intervall-Signalen (a _k) dadurch erzeugt wird, daß ein Satz von Intervall-Sprachparametersignalen erzeugt wird, daß das erste Signal (y) ansprechend auf die Intervall-Sprachparametersignale und die Unterschieds- Signale (d _k) erzeugt wird, und daß das zweite Signal () ansprechend auf die Intervall-Sprachparametersignale erzeugt wird.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Intervall-Sprachparametersignale erzeugt werden, indem ein Satz von Intervall-Sprachspektrum-Signalen erzeugt wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß das Erregungssignal (EC) erzeugt wird, indem ein codiertes Signal mit mindestens einem Element ansprechend auf das Unterschieds-Signal erzeugt wird und das zweite Signal ansprechend auf das Element des codierten Signals modifiziert wird.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß das codierte Signal dadurch erzeugt wird, daß ansprechend auf das Unterschieds-Signal (d _k) mit einer bestimmten Häufigkeit ein codiertes Signalelement erzeugt wird, und daß das zweite Signal ansprechend auf die codierten Signalelemente modifiziert wird.

6. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Differenzsignal dadurch erzeugt wird, daß ein der Korrelation des ersten und des zweiten Signals (y, ) entsprechendes Signal erzeugt wird.

7. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Differenz-Signal dadurch erzeugt wird, daß ein Signal erzeugt wird, welches kennzeichnend ist für das mittlere Differenzquadrat zwischen dem ersten und dem zweiten Signal.

8. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß das codierte Signal und die Intervall-Sprachparametersignale kombiniert werden, um ein für das Sprachmuster repräsentatives codiertes Signal zu erzeugen.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß jedes Code-Element ein für die Element-Amplitude (β _i) und ein für die Element-Lage (m _i) innerhalb des Intervalls repräsentatives Signal aufweist, und daß das Kombinieren der Signale zur Erzeugung eines codierten Signals darin besteht, daß die Signale für die Element-Amplitude und die Element-Lage kombiniert werden, um eine Folge von Impulsen zu erzeugen, die repräsentativ ist für das Erregungssignal des Zeitintervalls.

10. Verfahren nach einem der Ansprüche 2 bis 9, dadurch gekennzeichnet, daß die Sprachparametersignale Prädiktorparametersignale (a _k) sind und das Unterschieds-Signal ein Voraussage-Restsignal (d _k) ist.