DE2435654C2

DE2435654C2 - Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache

Info

Publication number: DE2435654C2
Application number: DE19742435654
Authority: DE
Inventors: Louis-Sepp Dipl.-El.-Ing. Eschenbach Willimann
Original assignee: Gretag AG
Current assignee: Gretag AG
Priority date: 1974-07-24
Filing date: 1974-07-24
Publication date: 1983-11-17
Also published as: DE2435654A1

Description

periode und Mitteln zur Bestimmung des Stimmhaftigkeitscharakters des ursprünglichen Sprachsignals ausgestattet ist.

Diese Vorrichtung ist dadurch gekennzeichnet, daß die Mittel zur Festlegung der Parameter des Synthese-Vokaltraltmodells aus einem mit dem letzteren identischen Analyse-Vokaltraktmodell, aus einer mit der Impuls/ Rausch-Quelle des Syntheseteils identischen Impuls/ Rausch-Quelle, aus einem Abschnittspeicher für die abschnittweise Speicherung des ursprünglichen Sprach- ι ο signal, aus einem Vergleicher fur den Vergleich des Ausgangssignals des Analyse-Vokaltraktmodells mit dem im Abschnittspeicher gespeicherten Signal und aus einem Parameterrechner zur Minircalisierung der im Vergleicher ermittelten Abweichung zwischen den beiden Signalen gebildet sind.

Da somit bei der erfindungsgemäßen Vorrichtung die wesentlichen Bestandteile von Analyse- und Syntheseteil identisch sind, kann diese, beispielsweise bei der Übermittlung von Sprachsignalen, ohne großen zusätzlichen Aufwand im wechselweisen Sende-Empfangsbetrieb verwendet werden. Ein weiterer Vorteil gegenüber der nach dem bekannten Verfahren arbeitenden Vorrichtung liegt darin, daß Analyse- und Syuthese-Vokaltraktmodell durch ein beliebiges lineares Digitalfilter gebildet sind und daher ein solches mit geringer Quantisierungsempfindlichkeit verwendet werden kann. Bei der bekannten Vorrichtung wird hingegen ein ganz bestimmtes rekursives Filter verwendet, nämlich die sogenannte Frobenius-Form, bei welcher die Rückkopplung aus einem Transversalfilter besteht. Es ist bekannt, daß die Koeffizienten dieser Form extrem quantisierungsempfindlich sind.

Im folgenden wird die Erfindung anhand eines in den Figuren dargestellten Ausfuhrungsbeispiels näher erläutert; es zeigen:

Fig. 1 ein Blockschema einer Einrichtung zur Sprachanalyse und Sprachsynthese.

Fig. 2a ein Detail von Fig. 1 in Blockschaltbilddarstellung,

Fig. 2 b ein vereinfachtes Blockschema der Anordnung gemäß Fig. 2a,

Fig. 3a ein weiteres Detail von Fig. 1 in Blockschaltbilddarstellung,

Fig. 3b eine Variante der Schaltung gemäß Fig. 3a ebenfalls in Blockschaltbilddarstellung. und

Fig. 4 ein weiteres Detail von Fig. 1 in Blockschaltbilddarstellung.

Gemäß Fig. 1 besteht eine vollständige Einrichtung zur Sprachanalyse und Sprachsynthese aus einem Analyseteil A and einem Syntheseteil S. Zwischen dem Ausgang des Anclyseteiis und dem Eingang des Syntheseteils wirkt darstellungsgemäß ein Übertragung^- oder Speichermedium 14, beispielsweise ein digitaler Übertragungskanal oder ein digitaler Speicher.

Der Analyseteil A besteht aus einer Sprachquelle I₁ einem Tiefpaßfilter 2, einem Analog/Digital-Wandler 3, einer Taktquelle 15, welche den gesamten Analyseteil A taktet, einem Pitchdetektor 4, einem Abschnittspeicher 5, einer Impuls/Rausch-Quelle 6, einem Analyse-Vokaltraktmodell 7, einem Vergleicher 8, einem Parametefrechner 9 und aus einem Codierer 10.

Der Syntheseteil 5 besteht aus einem Decodierer U, einer Impuls/Rausch-Quelle 6', einem Synthese-Vokaltraktmodell 7', einem Digital/Analog-Wandler 12, einem Tiefpaßfilter 2' und aus einer Sprachsenke 13, beispielsweise einem Lautsprecher Die Tiefpaßfilter 2, 2', die Impuls/Rausch-Quellen 6, 6' und die Vokaltraktmodelle 7, T von Analyseteil A und Synthesetefl S sind jeweils identisch aufgebaut. Mit entsprechenden Umschaltmöglichkeiten auf Analyse oder Synthese braucht jede dieser drei Vorrichtungen nur einmal vorhanden zusein.

Analyseteil

Das zu analysierende Sprachsignal gelangt von der Quelle 1, beispielsweise einem Mikrofon oder Analogspeicher, zum Tiefpaßfilter 2. Letzteres weist auf eine bestimmte Grenzfrequenz fg, beispielsweise 3 bis 5 kHz auf. Das Ausgangssignal des Tiefpaßfilters 2 wird im Analog/Digital-Wandler 3 mit einer Abtastfrequenz 2 fg. beispielsweise also 6 bis 10 kHz abgetastet und digitalisiert. Die dabei entstehende Folge von Abtastwerten {s„} gelangt einerseits in den Pitchdetektor 4 und anderseits in den Abschnittspeicher 5.

Im Abschnittspeicher 5 wird ein kurzer Abschnitt des zu analysierenden Signals für {s„} für wiederholten Abruf zwischengespeichert. Die Läng/ des Abschnitts Hegt in der Größenordnung von einer bis ?.u mehreren Pitchperioden, beträgt also etwa 10 bis 30 msec. Sie braucht aber nicht ein ganzes Vielfaches einer Pitchperiode zu sein.

Im Pitci'detektor 4 wird nach bekannten Verfahren, beispielsweise so wie in Vocodern klassischer Bauart, bestimmt, ob der jeweilige Sprachabschnitt stimmhaft ist oder nicht. Ist der Abschnitt stimmhaft, so wird gleichzeitig Länge und Lage der Pitchpericden bestimmt, wobei man unter einer Pitchperiode die Zeitspanne zwischen zwei von den Stimmbändern bei stimmhaften Lauten erzeugten Druckpulsen versteht. Der Pitchdetektor 4 gibt seine Information, nämlich ein die stimmhaft/stimmlos-Entscheidung repräsentierendes Signal g sowie bei Vorliegen stimmhafter Abschnitte auch Länge und Lage der Pitchperiode darstellende Pitchperioden-Signale M. einerseits direkt an den Codierer 10 und andererseits an die Impuls/Rauschqudle 6 im Analyseteil weiter.

Die Impuls/Rausch-Quelle 6 gibt, gesteuert durch den Pitchcietektor 4, während stimmlosen Abschnitten im Sprachsignal weißes Rauschen und während stimmhaften Abschnitten im Sprachsignal impulsformige Signale im Abstand der Pitchperiode ab. Das weiße Rauschen wird durch einen Pseudozufallsgenerator bekannter Bauart erzeugt und weist eine annähernd konstante Leistung auf. Die v/ährend stimmhaften Abschnitten im Sprachsignal von der Impuls/Rausch-Quelle 6 abgegebenen Impulse sind im einfachsten FaI! einfache Einheitsimpidse. sie können jedoch auch eine andere Form, beispielsweise Dreieckform, aufweisen. Die Leistung der Impulsfolge ist ebenfalls etwa konstant und ist Jrich jener des weißen Rauschens.

Das aus weißem Rauschen oder aus Impulsen im Abstand der Pitchpei;ode gebildete Ausgangsr.gnal der Impuls/Rausch-Quelle 6 bildet das Anregungssignal für das Analyse-Vokaltraktmodell 7.

Unter Vokaltrak.t versteht man das System von Röhren variabler Querschniitsflächen zwischen Kehlkopf und Lippen sowie zwischen Velum und Nasenöffnungen. Dieser Vokaltrakt wird beim Sprechen während den Vokalen durch periodische Pulse, die Piichpulse, welche durch die Stimmritze erzeugt werden, angeregt. Bei Konsonanten wird d^r Vokaltrakt durch annähernd weißes Rauschen angeregt. Letzteres wird durch einen Luftstrom erzeugt, welcher durch eine Verengung im Lokaltrakt, beim Konsonanten / beispielsweise durch

die Verengung zwischen Oberzähnen und Unterlippe, gepreßt wird.

Das Modell 7 des menschlichen Vokaltrakts ist durch ein lineares Digitalfilter beliebiger Struktur gebildet. Lineare Digitalfilter sind beispielsweise in H. W. Schüssler: »Digitale Systeme zur Signalverarbeitung«. Springer 1973, beschrieben.

Lineare Digitalfilter gestatten, aus einer Eingangsfolge {.v.} eine Ausgangsfolge {r„! nach folgendem Gesetz zu erzeugen:

V_n = C^T ■ U₁₁ + J ■ X₁₁

Hierbei ist i/„ der n-ie Zustandsvektor der Dimension /V. U₀ ist vorgegeben und ist in den meisten Fällen der Nullvektor. Durch die Λ'.νΛ'-matrix A, die beiden /V-dimensionalen Vektoren b und c sowie durch den Skaiar d ist das Modeii vollständig beschrieben.

Wie schon ausgeführt, ist die Eingangsfolge {.y„[ während stimmhaften Abschnitten des Sprachsignals durch eine Folge von Impulsen im Abstand der Pitchperiode und während stimmlosen Abschnitten im Sprachsignal durch weißes Rauschen gebildet.

Das Anaiyse-Vokaitraktmodeil 7. welches in den Fig. 2a und 2b näher erläutert wird, gibt bei Anregung auf die genannte Art ein erstes, noch rohes Sprachsignal {.v„} an den Vergleicher 8 weiter, in welchem dieses Näherungssignal mit dem im Abschnittspeicher 5 gespeicherten Abschnitt des ursprünglichen Sprachsignals {.?„! verglichen wird.

Das Vergleichskriterium, welches ein mathematisches Maß für die Abweichung zwischen den beiden Folgen {.»·„} und [.s. J darstellt und in der Bewertung dem physiologischen Empfinden des menschlichen Ohres möglichst ähnlich sein soll, kann an sich beliebig gewählt werden. Cin besonders wegen seiner analytischer. Einfachheit bevorzugtes Maß ist die quadratische Abweichune.

wenn L die Länge des Sprachabschnitts ist.

Aufgrund der Ergebnisse dieses Vergleichs werden im Parameterrechner 9 die erforderlichen Änderungen am Analyse-Vokaltraktmodell 7 derart bestimmt, daß beim nächsten Vergleich die Abweichung gemäß Formel (2) zwischen dem synthetischen Signal {V₁₁J und dem ursprünglichen Sprachsignal [.t„[ kleiner ist.

Zu diesem Zweck bestimmt der Parameterrechner 9 den Gradienten des Fehlermaßes bezüglich der Parameter des Analyse-Vokaltraktmodells 7. Die Parameter des Analyse-Vokaltraktmodells 7 stellen diejenige Gruppe aller Komponenten dieses Modells dar. an welchen die genannten Änderungen vorgenommen werden, also die variablen Komponenten. Nicht variable Komponenten, also beispielsweise feste elektrische Verbindungen, werden nicht verändert und werden infolgedessen bei der Bestimmung des Gradienten des Fehlermaßes nicht berücksichtigt. Der Gradient ist ein Vektor, welcher in Richtung des steilsten Anstiegs des Fehlers weist und dessen Absolutbetrag die lokale Steilheit in dieser Richtung angibt. Die Berechnung des Gradienten wird weiter unten anhand der Fig. 3a und 3b näher erläutert.

Nach erfolgter Berechnung des Gradienten werden die neuen Parameter für das Analyse-Vokaltraktmodell 7 so festgelegt, daß ein kleiner Schritt in der zur Gradientenrichtung entgegengesetzten Richtung erfolgt. In dieser Richtung nimmt der Fehler naturgemäß am stärksten ab. Wenn nun jj_k der Vektor tller Parameter des Analyse-Vokaltraktmodells 7 nach der k-ien Iteration ist, so werden bei der nächsten Iteration die Parameter gemäß folgender Formel bestimmt:

Δ» stellt eine feste oder jedesmal neu zu bestimmende,

ίο kleine positive Schrittweise dar.

Beim Iterationsverfahren gemäß Formel (3) nimmt der Fehler bei jedem Schritt ab. Sobald der Vergleicher 8 feststellt, daß der Fehler einen vorgegebenen Schwellenwert unterschreitet, also tolerierbar geworden ist. gibt er ein Befehlssignal B an den Codierer 10 ab, die aktuellen Parameter P₁ des Analyse-Vokaltraktmodells 7 zu übernehmen und zusammen mit der Information des Pitchdetektors 4. also stimmhaft/stimmlos-Signale g und gegebenenfalls riiCupcrioderiäignaic A/, für die binäre Übertragung oder Speicherung vorzubereiten. Von diesem Augenblick an ist der Analyseteil für die Analyse des nächstfolgenden Sprachabschnitts bereit.

Gemäß Fig. 2a, welche ein Blockschema des Analyse-Vokaltraktmodells 7 für die Ordnung /V = 8 zeigt, besteht das Vokaltraktmodcll aus einem Speicher 21 mit 8 Speicherplätzen, aus einer Rückkopplungsmatrix 22. aus einer Stufe 23 mit 8 ersten Multiplikatoren, aus einer .itiife 24 mit 8 zweiten Multiplikatoren, aus einem Multiplikator 25. aus einer Stufe 26 mit 8 Addiergliedern

jo und aus einem Summierglied 27. Die Rückkopplungsmatrix 22 ist aus Addiergliedern und Multiplikatoren aufgebaut.

Den Stufen 23 und 24. dem Multiplikator 25 und der RUckkopplungsmatrix 22 ist j» ein zusätzlicher Speicher (nicht dargestellt) zugeordnet, in welchem jeweils die aktuellen Parameter dieser Stufen, also ihre variablen Komponenten b_t. i\. i\ und «_fi. welche zusammen den Parametersatz p, (Fig. 1) bilden, gespeichert sind. Die sp gespeicherten Parameter pj können durch das Befehlssignal B des Vergleichers 8 (Fig. I) auf einfache Weise aus dem Vokaltraktmodell 7 ausgelesen und in den Codierer 10 eingespeist werden.

Wie schon ausgeführt wurde, ist das Vokaltraktmodell ein lineares Digitalfilter, welches dem rekursiven Vektorgleichungspaar (1 a) und (1 b) gehorcht.

y. = £^T-ä* + d-x. (Ib)

In Komponentenform geschrieben lauten die Gleichungen (la) und (I b) folgendermaßen:

.v
1/,¹I₁=X A_iJ-ii^ + b_i-.\„ für alle/mit (la¹)

ν_Β= Σ

Der Inhalt der 8 Speicherplätze des Speichers 21 bildet den Zustandsvektor i/„ des Modells beim /i-ten Takt.

Aus diesen 8 Speicherwerten u. bis u_a werden mit Hilfe der Rückkopplungsmatrix 22 8 Linearkombinationen gebildet. Dies entspricht jeweils dem ersten Summanden der rechten Seite von Gleichung (la) oder (Ia'). Zu jeder dieser Linearkombinationen A_u...A_ls bis A_sl...A_as wird in der Addierstufe 26 jeweils der n-te Abtastwert der Anregungsfolge .r„ multipliziert mit einer Komponente des EinkoppJungsvektors b addiert. Die Multiplikation der Abtastwerte der Anregungsfolge X_n mit

den Komponenten />, bis Λ, des Einkopplungsvektors b erfolgt mit den ersten Multiplikatoren der Stufe 23. Die Addition der Linearkombinationen A_xx...A_xa bis A_Hl...A_as mit dem Produkt aus Abtastwert der Folge v„ mal Komponente des Einkopplungsvektors h entspricht jeweils dem zweiten Summanden der rechten Seite von Gleichung (1 a) oder (Ia').

Die k·; der genannten Addition entstehenden Summen bilden die neuen Speicherwerte, welche beim nächsten, also beim (/i+l)-ten Takt in den Zustandsspeicher 21 übernommen werden.

Der /i-te Antwort-Ahuistwert v„ vvird als Lincarkombination der Speicherwerk im Speicher 21 berechnet. Die verwendeten Koeffizienten bilden den Auskopplung>vektor c. mit dessen Komponenten t·, bis <₈ die Ausgangssignale der einzelnen Speicherplätze des Speichers 21 durch die zweiten Multiplikatoren der Stufe 24 multipliziert werden. Die Linearkombination de! Aüsgangssignalc der zweiter·. Muliipüka'.oren tier Stufe 24. in welche außerdem noch das in der Multiplizierstufe 25 mit dem Durchgangskoeffizienten </ multiplizierte Eingangssignal x„ miteinbezogen wird, erfolgt im Summierglied 27.

Die Komponenten der Matrix A und der Vektoren b und _<· sowie eventuell der Skalar ti lassen sich in 3 Gruppen einteilen. Die Komponenten der ersten Gruppe sind fest vorgewählt. Sie haben meist einfache Werte wie 0. d.h. die entsprechende Verbindung ist gar nicht vorhanden, oder I. d.h.. das entsprechende Signal geht ohne zusätzliche Multiplikation rein additiv in die Line.ι kombination ein. oder — I. d. h. reine Subtraktion. Die Komponenten dieser Gruppe werden durch den Optimierungsvorgang also nicht beeinflußt. Die zweite Gruppe umfaßt jene Komponenten, welche bei jedem Optimicrungsschritt verändert werden. Die Komponenten der dritten Gruppe schließlich sind Linearkombinationen von veränderlichen und unveränderlichen Teilkomponenten. So mag beispielsweise die Matrix A eine Komponente der Form A_u=\+p_t haben. Hier würde p_k bei jedem Optimierungsschritt verändert werden und 1 würde eine feste Verdrahtung bedeuten. Der Signalpfad, svelcher die /-te Komponente des »-ten Zustandsvektors u_n auf die /-te Komponente von U_{n + 1} zurückkoppelt, würde also aus einem festen und aus einem veränderlichen Teilpfad bestehen.

Die festen Komponenten, also jene der ersten Gruppe und die festen Teile der dritten Gruppe legen die Struktur des Vokaltraktmodells fest. Die veränderlichen Komponenten, also jene der zweiten Gruppe und die veränderlichen Teile der dritten Gruppe bilden die über den Kanal 14 zu übertragenden Parameter ρ j (Fig. 1) des Vokaltraktmodells.

In Fig. 2b ist das Vokaltraktmodell von Fig. 2a vereinfacht dargestellt, wobei die einzelnen Stufen der Schaltung nur noch mit den entsprechenden Signalen bzw. Signalkomponenten bezeichnet sind.

In den Fig. 3a und 3b ist je ein Blockschaltbild des Parameterrechners 9 (Fig. 1) dargestellt.

Wie schon ausgeführt wurde, hat der Parameterrechner 9 bei jedem Optimierungsschritt einen Satz von neuen Parametern p_k+l nach der Formel (3) zu berechnen : ~

A₊1 = Pt - A₄ · grad,. (£}

sie kann jedoch auch für jeden Optimierungsschritt neu bestimmt werden.

Im Artikel von L. S. Willimann: »Computation of the Response-Error Gradient of Linear Discrete Filters«, IEEE Transactions, vol. ASSP-22. No. 1. February 1974« ist auch gezeigt, daß die Berechnung von grad* (£) in zwei Schritte zerfällt. Der erste Schritt ist sehr einfach und mathematisch elementar und hängt nur von der Art des Fehlermaßes E ab, hingegen nicht von der Wahl

ίο der Struktur des Vokaltraktmodells. Der zweite Schritt hängt nur von der Struktur des Vokaltraktmodells, nicht aber vom Fehlermaß ab.

In der erwähnten Publikation von L. S. Willimann wird weiter mit Hilfe eines Dualitätslheorems gezeigt, daß der Parameterrreehner 9 gleichzeitig die Funktion des Filters und damit des Vokaltraktmodells 7 (Fig. 1) übernehmen kann.

Fig. 3a zeigt eine erste Version eines kombinierten P;ir:imeterrechners 9 und Vokaltraktmodells 7 gemäß Fig. 2a bzw. 2b wobei die Ordnung /V wiederum gleich 8 ist.

Gemäß Fig. 3a besteht der Parameterrechner 9 aus einem ersten primären Modell 29, aus einer Baugruppe 30. sowie aus /V =8 weiteren primären Teilmodellen 31 bis 38. Das erste primäre Modell 29 ist mit dem in Fig. 2a bzw. 2b dargestellten Vokaltraktmodell identisch, wie ein Vergleich der Fig. 2b und 3a zeigt.

Das erste primäre Modell 29 wird durch die Impuls/ Rausch-Quelle 6 (Fig. l") angeregt und liefert neben dem synthetischen Sprachsignal {.)·„} die partiellen Ableitungen PyJcc_x...PyJcc_a sowie Cyjdd. Die Ableitung cyjci'i ist gerade gleich der i'-ten Komponente des Zustandsvektors u (Gleichung 1 a). Die mathematische Begründung für diesen und die folgenden Zusammenhänge vvird in der erwähnten Dissertation gegeben. Weiter ist die Ableitung (Empfindlichkeit) Pyjcd des Modellausgangs y„ bezüglich des Durchgangskoeffizienten d gleich dem entsprechenden Giied der Anregungsfolge {.Y„i.

Die Baugruppe 30, welche ebenfalls durch die Impuls/ Rausch-Quelle 6 (Fig. 1) angeregt wird, ist ein Teil des zum ersten primären Modell 29 und damit zum Vokaltraktmodell 7 sogenannten dualen Modells. Es läßt sich nämlich zeigen, daß es ein zu den Gleichungen (la) und (Ib) äquivalentes Gleichungssystem (4a) und (4b) gibt, welches auf eine gleiche Anregungsfolge {.v„} die gleiche Antwortfolge {yj\ liefert wie das primäre Modell:

In dieser Formel ist p_k der Vektor der alten Parameter, A_t ist eine kleine positive Schrittweite. Diese kann bei iedem Schritt gleich gewählt werden, also A_t=Δ für alle k;

Vn ₊ I =ά^Τ· In+SL-Xn (⁴^)

y_n = b^T-v„ + d-x_n (4b)

Die Rückkopplungsmatrix des dualen Modells ist die Transponierte A^T der Rückkopplungsmatrix A des primären Modells. Der primäre Auskopplungsvektor c wird Einkopplungsvektor im dualen Modell und der primäre Einkopplungsvektor b wird Auskopplungsvektor. Der Durchgangskoeffizient d ist in beiden Modellen gleich.

Die Baugruppe 30 repräsentiert die Gleichung (4 a). Die Komponenten des Zustandsvektors υ dieses dualen Modells sind die partiellen Ableitungen ByJBb₁ ...ByJBb₉ des aktuellen Gliedes >·„ der Ausgangsfolge nach den Komponenten des" Einkopplungsvektors b_x...b_%.

Die Komponenten des Zustandsvektors ν des dualen Teilmodells 3Q regen wieder je ein primäres TeiimodeU 31 bis 38 an. Die Zustandsvektoren k'.-m™ dieser primären Teilmodelle liefern die partiellen Ableitungen des aktuel-

len Gliedes y„ der Ausgangsfolge nach den Elementen A,j der Rückkopplungsmatrix A in der angegebenen Art.

Eine zweite, gleichwertige Anordnung ist in Fig. 3b gestellt. Auch hier regt die Eingangsfolge {.v„} ein vollständiges primäres Modell 39 und ein duales Teilmodcll 40 an. im Unterschied zu Fig. 3a werden jedoch hier die Komponenten des Zustandsvektors u des primären Modells verwendet, um N =8 weitere duale Teilmodelle41 bis48anzuregen. Die Modellantwort {)■„} sowie die gesuchten partiellen Ableitungen nach den Modellparametern 0yJ0A,j, CyJOb₁, OyJdC₁ und SyJOiI findet man wie in der Fig. eingetragen.

Die am Ausgang des Parameterrechners 9 erhältlichen partiellen Ableitungen SyjSil, ByJSc,, SyJSb₁ und SyJSA₁J werden so wie in Fig. 4 dargestellt ist, einer Rechenstufe 49 zugeführt und in dieser einer vom gewählten Fehlerma3 E abhängigen Rechenoperation unterworfen. Die auf diese Weise veränderten partiellen Ableitungen SE]Sa. SEjSc₁ , SEjSb₁ und S EjS A^ werden vom Ausgang der Rechenstufe 49 so wie in den Fig. 3a, 3b und 4 angedeutet ist, an die entsprechenden Multiplikatoren ti, C₁. bj und Au des Parameterrechners 9 und somit auch des Vokaltraktmodells 7 zurückgeführt und verändern deren Koeffizienten bei jedem Optimierungsschritl in Abhängigkeit von der im Vergleicher 8 (Fig. 1) festgestellten Abweichung zwischen den Folgen }.v„] und {.r„;.

Wenn als Fehlermaß die quadratische Abweichung gemäß Formel (2) gewählt wird, und wenn man die partiellen Ableitungen am Ausgang des Parameterrechners 9 mit SyJSp₁ bezeichnet, dann ergibt sich für die Rechenoperation in der Stufe 49 folgende Formel:

c Pi

■ = 2

L-!

B = O

Es sei in diesem Zusammenhang auf die weiter oben gegebene Definition der Parameter verwiesen. Diese steilen ja nur einen Teil alier Komponenten el, c_i% b_t und A₁J des Parameterrechners 9 dar. Es versteht sich von selbst, daß beim Optimierungsvorgang nur diejenigen Komponenten verändert werden, welche tatsächlich Parameter darstellen. Intolgedessen brauchen auch nur diejenigen partiellen Ableitungen der Stufe 49 und dem Parameterrechner 9 zugeführt zu werden, welche tatsächlichen Parametern zugeordnet sind. In der Praxis bedeutet dies, daß anstelle der möglichen 81 Modellparameter (1 Parameter el+ 8 Parameter c, + 8 Parameter ö, + 8x8 Parameter A_n) bei geeigneter Modellstruktur i5 Parameter ausreichend sind.

Es sei nochmals erwähnt, daß. wie die Fig. 3a und 3b zeigen, der Parameterrechner ein vollständiges Vokaltraktmodell enthält. Bei der praktischen Ausführung der beschriebenen Analyse- und Syntheseeinrichtung ist das Vokaltraktmodell 7 im Parameterrechner 9 (Fig. 1) enthalten. Die getrennte Darstellung der beiden Elemente in Fig. 1 erfolgte nur aus Gründen der einfacheren Beschreibung.

Syntheseteil

Der Decodierer 11 (Fig. 1) zerlegt sein Eingangssignal in die entsprechenden Signale, aus denen es aufgebaut ist, d.h. er gewinnt aus dem Kanalsignal oder aus den gespeicherten digitalen Signalen die Modellparameter Pj. die Stimmhaftigkeitsinformation g und, falls vorhanden, die Pitchperiodeninformation M.

Mit der Stimmhaftigkeitsinformation und der Länge der Fitchperiode wird die Impuls/Rausch-Quelle 6' angesteuert, welche mit der Impuls/Rausch-Quelle 6 des Analyseteils identisch ist. Die Impuls/Rausch-Quelle 6' liefert die Anregungsfolge für das Synthese-Vokaltraktmodell 7', welches ebenfalls mit dem Analyse-Vokaltraktmodell 7 identisch ist. Da das Synthese-Vokaltraktmodell 7' die gleiche Struktur aufweist wie das Analyse-Vokaltraktmodell 7, da es anhand der gleichen Parameter eingestellt und da es außerdem von der gleichen Anregungsfolge {.v„} angeregt wird, liefert es die gleiche Antwort- folge {>·„}. Wegen des im Analyseteil angewandten

Optimierungsalgorithmus weicht diese Antwortfolge {>·„} nur unwesentlich, d.h. für das Ohr kaum wahrnehmbar, vom ursprünglichen, abgetasteten Sprachsignal {.s„j ab.

Die Ausgangsfolge {y„) des Synthese-Vokaltraktmo-

!5 dells Ύ wird im Digital/Analog-Wandler 12 in ein Analogsignal umgewandelt, welches im anschließenden Tiefpaßfilter 2' demoduliert wird. Das Demodulationsfiller 2' ist gleich ausgelegt wie das Eingangsfilter 2 des Analyseieiis. Das so syniuctisierie Spracusignal wird der Senke 13 zugeführt, welche im allgemeinen ein Lautsprecher oder ein Analogspeicher ist.

Die wesentlichen Elemente des Syntheseteils, nämlich die Impuls/Rausch-Quelle 6', das Vokaltraktmodell 7' und das Filter 2' sind somit in identischer Form auch im Analyseteil enthalten. Da außerdem Analog/Digital-Wandler gebräuchlicher Bauart in ihrem Rückkopplungskreis meistens einen Digilal/Analog-Wandler aufweisen, ist auch der Digital/Analog-Wandler 12 bereits im Analyseteil vorhanden. Diese Umstände gestatten einen besonders einfachen Einsatz des Geräts im HaIbduplexbetrieb.

Praktische Versuche haben ergeben, daß die zu übertragenden bzw. abzuspeichernden Größen. Stimmhaftigkeitsinformation, Pitchperiode und Modellparameter.

etwa 30mal pro Sekunde neu bestimmt werden müssen, um eine annehmbare Qualität der synthetischen Sprache zu erhalten. Weiter hat sich gezeigt., daß bei einer Abtastfrequenz von 6 kHz die Modellordnung /V =8 genügt. Außerdem sind bei geeigneter Modellstruktur 15 Modellparameter zu je 8 Bit ausreichend. Beachtet man, daß die Stimmhaftigkeitsinformation 1 Bit beansprucht und rechnet man für die Pitchperiode mit 10 Bit, so erhält man eine Übertragungsrate von 30- (15 · 8 + 10+ 1) Bit/ see 5:4000 Bit/sec. Gegenüber der herkömmlichen Übertragungsart durch PCM verringert sich somit die benötigte Kanalkapazität um etwa 90%.

1. Verfahren nach Anspruch 1. dadurch gekennzeichnet, daß zur Minimalisierung der Abweichung zwischen deren ursprünglichen Sprachsignal und dem Ausgangsso signal des Analyse-Vokaltraktmodells (7) der Gradient des die Abweichung darstellenden Fehlermaßes bezüglich der Parameter des Analyse-Vokaltraktmodells bestimmt wird und daß die Parameter des Analyse-Vokaltraktmodells in der zur Gradientenrichtung entgegengesetzter Richtung verändert werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß nach jeder Bestimmung des die Abweichung zwischen dem ursprünglichen Sprachsignal und dem Ausgangssignal des Analyse-Vokaltraktmodells (7) darstellenden Fehlermaßes die Parameter des Analyse-Vokaltraktmodells in einem kleinen Schritt verändert werden.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Weite des Schritts bei der Veränderung der

&5 Parameter des Analyse-Vokaltraktmodells (T) fest gewählt wird.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das das weiße Rauschen darstellende Signal

und die Folge von Impulsen, mit welchen Signalen das Analyse-Vokaltraktmodell (7) während stimmlosen bzw. stimmhaften Abschnitten des ursprünglichen Sprachsijnals angeregt wird, annähernd konstante und annähernd gleiche Leistung aufweisen.

5. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Folge von Impulsen, mit welchen das Analyse-Vokaltraktmodell (7) während stimmhaften Abschnitten des ursprünglichen Sprachsignals angeregt wird, durch einfache Einheitsimpulse gebildet wird.

6. Vorrichtung zur Durchführung des Verfahrens gemäß Anspruch 1. bei welcher der Syntheseteil ein Synthese-Vokaltraktmodell und eine Impuls/Rausch-Quellc umfaßt und der Analyseteil mit Mitteln zur Festlegung der Parameter dieses Synthese-Vokaltraktmodells, Mitteln zur Bestimmung der Pitchperiode und Mitteln zur Bestimmung des Stimmhaftigkeitscharakters des ursprünglichen Sprachsignals ausgestaltet ist. dadurch gekennzeichnet, daß die Mittel zur Festlegung der Parameter d-i> Synthese-Vokaltrakimodells (7') aus einem mit dem '.stzteren identischen Analyse-Vokaltraktmodell (7). aus einer mit der Impuls/Rausch-Quelle (6') des Syntheseteils (S) identisches Impuls/Rausch-Quelle (6), aus einem Abschnittspeicher (5) für die abschnittweise Speicherung des ursprünglichen Sprachsignals, aus einem Vergleicher (S) für den Vergleich des Ausgangssignals des Analyse-Vokaltraktmodells mit dem im Abschnittspeicher gespeicherten Signal und aus einem Parameterrechner (69) zur Minimalisierung der im Vergleicher ermittelten Abweichung zwischen den beiden Signalen gebildet sind.

7. Vorrichtung nach Anspruch 6. dadurch gekennzeichnet, daß das Analyse-Vokaltraktmodell (7) und das Synthese-Vokaltraktmodell (7') je durch ein lineares Digitalfilter gebildet sind.

8. Vorrichtung nach Anspruch 6 oder 7. dadurch cekennzeichnet. daß der Parameterrechner (9) so ausgebildet ist, daß sein Ausgangssignal bei Anregung durch das Signal der Impuls/Rauüch-Quelle (6) dem Gradienten des die im Vergleicher (8) festgestellte Abweichung darstellenden Fehlermaßes entspricht.

9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Parameterrechner (9) und di -· Vokaltraktmodell (7) gemeinsam gebildet si.id: aus einem mit dem Vokaltraktmodell identischen primären Modell (29), aus einem Teil eines zu diesem primären Modell

ίο dualen Modells (30) und aus einer der Anzahl der Komponenten des Zustandsvektors des primären M odells bzw. des dualen Teilmodells entsprechenden Anzahl vonweiterenTeilmodcllen (31— 38)desprimärenModells, daß der Eingang des primären Modells und derjenige des dualen Teilmodells an den Ausgang der Impuls/ Rausch-Quelle (6) angeschlossen sind, und daß jedes der weiteren primären Teilmodelle mit seinem Eingang an je einen derjenigen Ausgänge des dualen Teilmodells angeschlossen ist, welche die Komponenten des Zu-Standsvektors dieses dualen Teilmodells helern.

10. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Parameterrechner (8) und das Vokaltraktmodell (7) gemeinsam gebildet sind: aus einem mit dem Vokaltraktmodell identischen primären Modell (39), aus einem Teil eines zu diesem primären Modell ersten dualen Modells (40) und aus einer der Anzahl der Komponenten des Zustandsvektors des primären Modells bzw. des dualen Teilmodells entsprechenden Anzahl von weiteren dualen Teilmodellen (41—48);

jo daß der Eingang des primären Modells und derjenige des ersten dualen Teilmodells an den Ausgang der Impuls/Rausch-Quelle (6) angeschlossen sind, und daß jedes der weiteren dualen Teilmodelle mit seinem Eingang an einen derjenigen Ausgänge des primären Modells angeschlossen ist, welche die Komponenten des Zustandsvektors dieses primären Teilmodells liefern.

Hierzu 5 Blatt Zeichnungen

Claims

Patentansprüche:

1. Verfahren zur Analyse und Synthese von Sprache, bei welchem zur Analyse folgende Verfahrensschritte dienen:

a) Unterteilung des ursprünglichen Sprachsignals in Abschnitte,

b) Ableitungen von drei das jeweilige Sprachsignal repräsentierenden Gruppen von Signalen für jeden Abschnitt, wobei die erste Gruppe von Signalen die Parameter eines dem menschlichen Volkaltrakt funktionsmäßig entsprechenden und im wesentlichen aus einem diskreten linearen Filter aufgebauten Synthese-Vokaltraktmodells darstellt und die zweite und dritte Gruppe von Signalen den im folgenden als Pitchperiode bezeichneten Kehrwert der Grundfrequenz bzw. den Stimmhaftigkeitscharakter des ursprünglichen Sprachsignals für den jeweiligen Abschnitt repräsentieren, und bei welchem zur Synthese folgende Verfahrensschritte dienen:

c) Einstellen des Synthese-Vokaltraktmodells anhand der ersten Gruppe von Signalen

d) Anregung des eingestellten Synthese-Vokaltraktsmodells

a) während stimmhaften Abschnitten des ursprünglichen Sprachsignals durch eine Folge von Impulsen im Abstand der Pitchpe>.ode

ß) während sUTnmlosi'i Abschnitten des ur-, sprünglichen Sprachsignals durch weißes Rauschen,

so daß am Ausgang des Synthese-Vokaltraktmodells ein dem ursprünglichen Sprachsignal ähnliches, künstliches Sprachsignal erzeugt wird,

dadurch gekennzeichnet, daß bei der Analyse zur Gewinnung der die Parameter des Synthese-Vokaltraktmodells (7') darstellenden Signale (d.h. der ersten Gruppe von Signalen) ein mit dem Synthese-Vokaitraktmodel! identisches Analyse-Vokaltraktmodell (7) verwendet wird,
mit dem folgende weitere Verfahrensschritte durchgeführt werden:

e) Anregung des Analyse-Vokaltraktmodells (7) α) während stimmhaften Abschnitten des ursprünglichen Sprachsignals durch eine Folge von Impulsen im Abstand der Pitchperiode,

ß) während stimmlosen Abschnitten des ursprünglichen Sprachsignals durch weißes Rauschen.

f) Abschnittsweises Vergleichen des Ausgangssignals des Analyse-Vokaltraktmodells mit dem ursprünglichen Sprachsignal,

g) Verändern der Parameter des Analyse-Vokaltraktmodells bis die Abweichung zwischen den beiden unter 0 genannten Signalen minimal ist,

h) Verwendung derjeniger unter g) ermittelter Parameter des Analyse-Vokaltraktmodells, bei welchen die Abweichung einen vorgegebenen Schwellenwert unterschreitet, direkt als Gruppe von Signalen.

Die Erfindung bezieht sich auf ein Verfahren zur Analyse und Synthese von Sprache nach dem Oberbegriff des Patentanspruchs 1.

Bei der Übertragung von Sprachsignalen, insbesondere in digitaler oder pulsamplitudenmodulierter Form über Kanäle begrenzter Bandbreite oder bei der möglichst platzsparenden Speicherung von Sprachsignalen beispielsweise in Computern, ergibt sich das Preblem, den Umfang der Sprachinformation durch Elimination von

ίο deren Redundanz zu reduzieren.

Zur Lösung dieses Problems wurden im wesentlichen zwei Verfahren vorgeschlagen; die nach diesen Verfahren arbeitenden Vorrichtungen sind unter der Bezeichnung »Vocoder« bzw. »Predictor« bekannt.

Beim »Vocoder« wird die gegenseitige Abhängigkeit der Spektralkomponenten eines Lautes zur Redundanzverminderung ausgenützt. Dies ist deswegen möglich, weil die stimmhaften Laute, beispielsweise die Vokale eines Sprachsignals, quasiperiodischen Charakter besitzen.

Das zugehörige Frequenzspektrum ist demnach linienförmig, wobei die einzelnen Spektraiiinien um eine bestimmte Grundfrequenz. die sogenannte Pitch-Frequenz, auseinanderliegen. Leider hat das durch Vocoder synthetisierte Sprachsignal eine schlechte Qualität.

Beim »Predictor« wird zur Redundanzverminderung die statistische Abhängigkeit aufeinanderfolgender Momentanwerte der Sprachinformation als Funktion der Zeit ausgenützt, indem nur solche Momentanwerte übertragen werden, welche voneinander relativ unabhängig sind und außerhaib eines bestimmten Toleranzintervalls liegen. Hierzu wird für jeden zu übertragenden Momentanwert auf der Sendeseite bestimmt, ob er von den bereits übertragenen vorangegangenen Momentanwerten relativ unabhängig ist und auf der Empfangsseite werden die nicht übertragenen, abhängigen Momentanwerte ermittelt bzw. interpoliert. Das durch einen Predictor synthetisierte Sprachsignal hat eine sehr gute Qualität, die Bestimmung des zu übertragenden Momentanwertes kann jedoch unter Umständen einen relativ großen Aufwand erfordern.

Die vorliegende Erfindung liegt, wie dies die Merkmale des Oberbegriffs des Patentanspruchs 1 zeigen, auf dem letztgenannten Gebiet.

Bei einem aus der US-Patentschrift Nr. 36 24 302 bekannten Verfahren dieser Art wird die erste Gruppe von Signalen, die sogenannten Predictorparameter. aus dem statistischen Zusammenhang von beispielsweise 12 aufeinanderfolgendei; Abtastwerten des ursprünglichen Sprachsignals arithmetisch berechnet. Da hierzu ein lineares Gleichungssystem aufgelöst werden muß und die Nullstellen eines Polynoms 12. Grades bestimmt werden müssen, liegt der Rechenaufwand außerordentlich hoch und kann nur von einem Computer bewältigt werden. Außerdem muß bei diesem Verfahren für jeden Abschnitt auch die Energie des ursprünglichen Sprachsignals bestimmt werden.

Der Erfindung liegt daher die Aufgabe zugrunde, bei einem Verfahren der im Oberbegriff des Anspruchs 1 genannten Art den Rechenaufwand zu verringern.

Gemäß der Erfindung wird diese Aufgabe durch die Merkmale des kennzeichnenden Teils des Patentanspruchs 1 gelöst.

Die Erfindung betrifft weiter eine Vorrichtung zur Durchführung des genannten Verfahrens, bei welcher der Syntheseteil ein Synthese-Vokaltraktmodell und eine Impuls/Rausch-Quellc umfaßt und der Analyseteil mit Mitteln zur Festlegung der Parameter des Synthese-Vokaltraktmodells. Mitteln zur Bestimmung der Pitch-