DE2752607A1

DE2752607A1 - Verfahren zur erkennung von sprache

Info

Publication number: DE2752607A1
Application number: DE19772752607
Authority: DE
Inventors: Edward Henry Hafer
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1976-11-26
Filing date: 1977-11-25
Publication date: 1978-06-01
Also published as: BE861046A; NL7712792A; FR2515850A1; IT1089157B; AU507146B2; GB1589493A; JPS53105102A; US4087632A; AU3084277A; SE7712943L; ES464487A1; FR2372485A1; CA1085960A

Description

BLUMBACH . WE3ER · BERGEN · KRAMER

PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN

Patentconsult RadeckestraOe 43 8000 München 60 Telelon (089) 883603/883604 Telex 05-212313 Telegramme Patentconsult Palentconsull Sonnenberger Straße 43 4200 Wiesbaden Telefon (06121) 562943/561998 Telex 04-186 237 Telegramme Patöntconsult

WESTERN ELECTRIC COMPANY Hafer, E.H. 1

Incorporated

NEW YORK N.Y. 10038 USA

Verfahren zur Erkennung von Sprache

Die Erfindung betrifft ein Verfahren zur Erkennung von Sprache durch Entwickeln von Kennwerten, die die zu erkennenden Sprachlaute darstellen, und Vergleichen der Kennwerte mit vorbestimmten, bekannte Sprachlaute darstellenden Kennwerten.

Ein Haupthindernis für Fortschritte auf dem Gebiet der automatischen Spracherkennung ist die große Variationsbreite von Sprechchrakteristiken beim Menschen, insbesondere zwischen Männern, Frauen und Kindern. Zur Überwindung dieses Hindernisses wurden Systeme entwickelt, die bei jedem Sprecher funktionieren, die aber nur ein begrenztes Vokabular erkennen.

Ein solches System,wurde beschrieben von T.R.Martin in einer Arbeit "Acoustic Recognition of a Limited Vocabulary in Continuous Speech",

München: R. Ktamer Dipl.-lng. · W. Weser Dipl.-Phys. Dr. rer. nat. · P. Hirsch Dipl.-lng. . H. P. Brehm Dipl.-Chem. Or. phil. nal. Wiesbaden: P. G. Blumbach Dipl.-lng . P. Bergen Dipl.-lng. Dr. jur. · G. Zwirner Dipl.-lng. Dipl.-W.-lng.

809822/0864

University of Pennsylvania, Ph. D. Thesis, 1970. Diese Arbeit ist erhältlich bei University Microfilms Ltd., High Wepcomb, England, und bei University Microfilms, Ann Arbor, Michigan, U.S.A. Dieses von Martin beschriebene System erkennt ein begrenztes Vokabular durch Gewinnen bestimmter Kennwerte oder Merkmale aus dem Sprachsignal und Vergleichen der abgeleiteten Folge von Kennwerten mit einer vorgewählten Gruppe von Kenntwertfolgen, die das zu erkennende Vokabular darstellen. Die gewählten Kennwerte sind charakteristisch fUr die elementaren Laute der Sprache.

Auf dem Gebiet des physiologischen Studiums von Sprache wurde festgestellt, daß die Zungenbahnen unterschiedlicher Sprecher, die das gleiche ausdrucken, sehr ähnlich sind. Das gilt insbesondere mit Bezug auf die Vielposition bei der Zungenbewegung.

Durch Bestimmung der Zungenposition, beispielsweise mit Hilfe eines auf der Zungenspitze eines Sprechers angebrachten, strahlenden Elementes ist es also möglich, und zwar insbesondere in Kombination mit Systemen der von Martin entwickelten Art, gesprochene Worte automatisch ,d.h. mit Hilfe einer Maschine zu erkennen.

• ■

Schwierigkeiten mit solchen kombinierten Systemen und insbesondere in
Verbindung mit den bisher bekannten Hilfsmitteln zur Bestimmung der

809822/086/.

27526Ü7

Zungenposition des Sprechers (mit einem Mittel, das direkt auf der Zunge des Sprechers befestigt ist) bestehen darin, daß solche Systeme kompliziert und unpraktisch sind.

Die Erfindung will diese Schwierigkeiten im wesentlichen Überwinden. Sie geht dazu aus von einem Verfahren der eingangs genannten Art und ist gekennzeichnet durch Identifizieren der Formanten in den zu erkennenden Sprachlauten; Umwandeln der identifizierten Formanten in Zungenpositions- und -Bewegungskennwerte entsprechend einem Stimmtraktmode IV, Vergleichen der Zungenpositions- und-Bewegungskennwerte mit vorbestimmten Zungenkennwerten dieser Art, die bekannte Sprachlaute darstellen.

Generell wird mit der vorliegenden Erfindung verbundene Sprache eines begrenzten Vokabulars, beispielsweise die zehn Ziffern dadurch erkennt, daß aus dem Signal eines gesprochenen Ausdrucks eine Anzahl von Kennwerten einschließlich eines Kennwertes fUr die Zungenkörperbahn abgeleitet wird und daraus die gesprochenen Wörter entziffert werden. Genauer gesagt, wird das Sprachsignai zur Erzeugung einer Anzahl von Kennwerten ähnlich den in der Vergangenheit benutzten Kennwerten zuzUglich eines neuen Kennwertes analysiert, der die Zungenposition und -Bewegung des Sprechers kennzeichnet. Die Ableitung der Zungenposition wird erreicht durch

809822/0884

Bestimmen der Formantfrequenzen der Sprache und Verwendung eines bekannten menschlichen Stimmtraktmodells, um diejenige Zungenposition aufzufinden, die am besten mit den berechneten Formanten Übereinstimmt. Nach Gewinnung der Sprach ke nnwer te wird die Folge von Kennwerten mit den Kennwertfolgen gewählter Wörter verglichen und aus dem Vergleich werden dann die gesprochenen Wörter erkannt.

Nachfolgend wird die Erfindung anhand der Zeichnungen genauer beschrieben. Es zeigen:

Fig. 1 einen Querschnitt des Mundraumes mit einem

χ-y-Koordinatensystem;

Fig. 2 die Zungenkörperbahn für die englischen Ziffern

"eight", "two", "one" und "five" indem Koordinatensystem gemäß Fig. 1;

Fig. 3 ein unterteiltes x-y-Koordinatensystem zur Einordnung

von Zungenkörperpositionen in Bereiche, die charakteristisch für vokalähnliche Laute sind;

Fig. 4 das Blockschaltbild eines Ausfuhrungsbeispiels

der Erfindung;

809822/0004

Fig. 5 das Zustandsdiagramm der Aufnahmeeinrichtung 300

in Fig. 4 beim Sprechen des englischen Ausdrucks " two eight";

Fig. 6 das Blockschaltbild des in der Aufnahmeeinrichtung

300 erforderlichen Speichers;

Fig. 7 das Blockschaltbild einer Vorrichtung zur Verwirklichung

des Zustandsdiagramms gemäß Fig. 5.

In Fig. 1 ist im Querschnitt eine Mundhöhle mit einem überlagerten x-y-Achsensystem dargestellt. D ie Achsen x, / nachfolgender Figuren beziehen sich auf die Achsen x, y in Fig. 1.

Ein Studium der Zungenkörperbewegungen zeigt, daß unabhängig davon, ob der Sprecher ein Mann, eine Frau oder ein Kind ist, der Zungenkörper im großen und ganzen die gleiche Bahn durchläuft , wenn eine bestimmte Ziffer zwischen 0 und 9 gesprochen wird. Fig. 2 gibt Beispiele solcher Zungenkörperbahnen für bestimmte englische Ziffern, aus denen sich das \ folgende ableiten läßt. Die Kurve 10 für die Ziffer "eight" ist dadurch gekennzeichnet, daß sich der Zungenkörper in allgemeiner Richtung nach vorne und oben bewegt und dabei in der Mitte des oberen vorderen Quadranten

809822/0864

27526U7 7

in der Mundhöhle startet. Die Kurve 20 für die Ziffer "two" ist dadurch gekennzeichnet, daß der Zungenkörper in der Mitte oben der Mundhöhle startet, sich horizontal nach hinten bewegt und darm im hinteren Teil des Mundes nach unten fällt. Die Kurve 30 für die Ziffer "one" ist dadurch gekennzeichnet, daß sich der Zungenkörper im hinteren Teil des Mundes im wesentlichen nach unten bewegt und dann seine Richtung umkehrt und nach oben geht. Schließlich ist die Kurve 40 für die Ziffer"five" dadurch gekennzeichnet, daß sich der Zungenkörper im hinteren unteren Quadranten der Mundhöhle nach unten bewegt und dort eine Bewegung nach vorne und oben in Richtung auf die Mitte der Mundhöhle ausfuhrt.

Aus den obigen Bahnbeschreibungen läßt sich erkennen, daß die besonderen ZungenkOrperbahnen für verschiedene gesprochene Ziffern bei Verwendung zusätzlich zu anderen Kennwerten der Sprache die Erkennung gesprochener Ziffern wesentlich verbessern kann. Demgemäß wird mit dem erfindungsgemäßen Lösungsvorschlag für die Spracherkennung die Zungenkörperbahn eines Sprechers als Merkmal oder Kennwert des Spracherkennungssystems zusammen mit einem Ruhekennwert, einem Burst- oder einem Stop-Konsonantenkennwert und einem Rausch- oder rauschähnlichen Reibelaut-Kennwert (einen für stimmhafte und einen für stimmlose Reibelaute).

Für den Zungenkörperbahn-Kennwert wurde gefunden, daß in einer Anlage

8Ο9822/Ο0Θ4

27526Ü7

zur Erkennung von Ziffern die genaue ZungenkörperposiHon und -bahn für die richtige Kennzeichnung des Zungenkörperbahn-Kennwertes oder -zeichens nicht erforderlich ist. Ein Zeichen (token) ist in Verbindung mit der vorliegenden Erfindung das Signal, das den Kennwert darstellt. Stattdessen muß nur der generelle Bereich, in dem sich der Zungenkörper befindet, und seine allgemeine Bewegungsrichtung bekannt sein. Demgemäß werden bei dem Zungenkörperbahn-Zeichen in dem hier beschriebenen Ausführungsbeispiel nur bestimmte Bereiche der Mundhöhle unterschieden. Fig. 3 zeigt die verschiedenen Bereiche, die in einem System zur Feststellung gesprochener Ziffern als zweckmäßig gefunden wurden, wobei jeder Bereich die Wahrscheinlichkeit angibt, daß die Vokale einer bestimmten Ziffer gesprochen worden sind. Beispielsweise gibt ein Zungenkörper in dem mit einer 8 in einem Kreis markierten Bereich an, daß der Anfangsvokal laut der Ziffer "eight" mit großer Wahrscheinlichkeit gesprochen worden ist.

Zur Erzeugung des Zeichens für die Zungenkörperbahn muß die Position und Bewegungsrichtung des Zungenkörpers festgestellt werden. Die Bewegungsrichtung wird durch einen Vergleich aufeinander folgender Zungenkörperpositionen gewonnen. Die Zungenkröperpositionen gewinnt man durch Extrahieren der Formanrfrequenzen für die analysierte Sprache und durch Transformieren der berechneten Formantfrequenzen in Zungenkörper-

809822/0864

27526U7

Positionen mit Hilfe des Coker-Stimmtraktmodells. Unter "Stimmtraktmodell" wird ein physikalisches Modell des Stimmtraktes verstanden, das auf steuerbare Weise geändert werden kann, um eine Anzahl von Signalformantgruppen zu erzeugen, die charakteristisch fUr die menschliche Sprache sind. Im einzelnen erzeugen für jede Stimmtraktlänge und Zungenposition solche Modelle eine Gruppe von Formanten, die den Klang kennzeichnen, der von einem menschlichen Sprecher erzeugt würde. Ein solches Modell wird von CH. Coker in einem Aufsatz "A Model of Articulator/ Dynamics and Control", Proceedings of the IEEE, Band 64, Nr. 4, 1967, sowie das US-Patent 3 530 248 (22. Sept. 1970). Die Verwendung beispielsweise des Coker-Modells wird nachfolgend genauer in Verbindung mit der zur praktischen Durchfuhrung der Erfindung verwendeten Einrichtung erläutert.

Das Blockschaltbild einer Einrichtung zur Erkennung gesprochener Ziffern nach den Grundgedanken der Erfindung ist in Fig. 4 gezeigt. Ein ankommendes, zu analysierendes und zu erkennendes Sprachsignal wird an ein Tiefpassfilter 210 Üblicher Ausbildung mit einem Durchlaßbereich von 4 kHz angelegt. Dem Filter 210 folgt ein Abtaster und Analog-Digitalwandler 220, der das zugeführte Signal abtastet, in ein Digitalformat umwandelt und das umgewandelte Signal in Zeitabschnitten, die Rahmen genannt werden, zur weiteren Verarbeitung abgibt. Der Ana log-Digital -wandler 220 wird durch eine Steuereinrichtung 200 gesteuert, die dem

609822/0864

ΛΟ

Wandler 220 einen entsprechenden Abtastakt (beispielsweise 10 kHz) sowie weitere Signale liefert, die der jeweils gewählte Analog-Digitalwandler benötigt. Es lassen sich beliebige Wandler aus einer Anzahl von kommerziell verfügbaren Analog-Digitalwandlern benutzen, beispielsweise das Modell 4130 der Firma Teledyne Philbrick, Incorporated.

Dem Analog-Digita!wandler 220 folgt ein Kennwert-Extraktor 230, der einen Ruhedetektor 240, einen Burst-Detektor 250, einen Reibelaut-Detektor 260 und einen Formant-Prozessor 270 enthält.

Der Ruhedetektor 240 stellt, wie sein Name sagt, Ruhepausen im geprüften Rahmen fest. Der Ruhedetektor 240 läßt sich dadurch verwirklichen, daß das geprüfte Signal gleichgerichtet und integriert wird, und zwar im wesentlichen ähnlich wie ein normaler Empfänger ankommende Signale gleichrichtet ■jnd integriert, und das integrierte Signal mit einem festen Schwellenwert verglichen wird. Alternativ kann ein Sprachdetektor verwendet werden, um das NichtVorhandensein von Sprache festzustellen, beispielsweise das Bauteil 24 in der US-Patentschrift 3 723 667 (Park et al., 27. März 1973). In Verbindung mit der vorliegenden Erfindung wird, wenn eine Ruhepause festgestellt wird, ein Ruhe-Zeichen erzeugt und an eine Aufnahmeeinrichtung gegeben. Dabei handelt es sich um eine Ja-Nein-Entscheidung. Das Ruhe-Zeichen ist ein Signal mit einem vorbestimmten Format, beispieIs-

809822/0864

weise ein 3-Bit-Binärwort mit dem Wert 1_(OO1).

Ein Burst, der zwischen gewissen Laut-zu-Laut-übergängen auftritt, ist durch ein verhältnismäßig plötzliches Ansteigen der Energie innerhalb des Sprachspektrums gekennzeichnet. Daher ist zur Feststellung eines Burst ein Maß fUr die Geschwindigkeit des Energieanstiegs im Sprachband erforderlich. Dies wird im Burst-Detektor 250 dadurch erreicht, daß das 4-kHz-Band in eine Vielzahl von benachbarten Unterbändern unterteilt und jeweils die Energie in den Unterbändern richtig gemessen wird. Die Messung der Energie erfolgt durch Gleichrichten und Integrieren der Energie in jedem Unterband, Begrenzen der Energie in jedem Unterband auf einen vorgegebenen Wert und durch Summieren und Differenzieren der Ausgangssignale begrenzter Energie für die Unterbänder. Wegen des Begrenzungsverfahrens kann ein großer Anstieg fUr die Energie eines Unterbandes zu keinem großen differenzierten Summensignal fuhren, während ein plötzlicher, mäßiger Anstieg Über das 4-kHz-Band ein großes differenziertes Summensignal erzeugen kann. Das differenzierte Summensignal läßt sich also auf bequeme Weise zur Anzeige der Energieanstiegsgeschwindigkeit im 4-kHz-Gesamtband verwenden.

Die praktische Verwirklichung des Burst-Detektors 250 erfolgt auf konventionelle Weise, da die dort ausgeführten Verarbeitungsoperationen

809822/0884

bekannt und übersichtlich sind. Beispielsweise kann der Detektor eine Gruppe von benachbarten Bandpaßfiltern, die auf das Sprachsignal ansprechen, einen Gleichrichter, einen an einen Schwellenwertbegrenzer am Ausgang jedes Bandpaßfilters angeschalteten Integrator sowie einen Addierer enthalten, dem ein Differentiator folgt, der auf jeden der Schwellenwertbegrenzer anspricht. Legt man das Ausgangssignal des Differentiators an eine weitere Schwellenwertschaltung an, so ergibt sich ein binäres Ausgangssignal, das das Vorhandensein oder Nichtvorhandensein eines Burst darstellt. Bei Auftreten eines Burst wird dann ein Burst-Zeichen erzeugt.

Wie bei dem Ruhezeichen wird das Burst-Zeichen an die Aufnahmeeinrichtung 300 gegeben. Das Burst-Zeichen kann das gleiche Format wie das Ruhezeichen haben, beispielsweise ein 3-Bit-Binärwort, hat aber einen anderen Wert als das Ruhezeichen, beispielsweise 2_ (ΟΙΟ). Verschiedene Auslegungen von Schaltungen zur VeiwirMichung des Detektors 250 finden sich in dem Buch von Millman und Taub "Pulse Digital and Switching Waveforms", McGraw-Hill 1965.

Der Reibelautdetektor 260 erzeugt ein Zeichen immer dann, wenn der analysierte Rah'men einen stimmhaften rauschähnlichen Konsonanten enthält, beispielsweise die Laute, die beim Sprechen der englischen

N09822/0864

yt

Buchstaben ζ und ν erzeugt werden, oder einen stimmlosen rauschähnlichen Konsonanten, beispielsweise in englischen Buchstaben s, f, t, k. Stimmlose rauschähnliche Konsonanten sind durch eine Konzentration rauschähnlicher Energie bei hohen Frequenzen gekennzeichnet, während stimmhafte rauschähnliche Konsonanten eine kräftige Energiekomponente bei niedrigen Frequenzen haben, beispielsweise bei etwa 500 Hz. In der oben genannten Doktorarbeit von T.H. Martin werden Schaltungsanordnungen zur Erkennung des Auftretens stimmhafter und stimmloser rauschähnlicher Konsonanten beschrieben. Diese Schaltungsanordnungen lassen sich zweckmäßig bei der praktischen Verwirklichung der vorliegenden Erfindung verwenden. Sie müssen dann unter Anwendung üblicher Verfahren so abgeändert werden, daß sie ein Ausgangssignal in einem binären Mehrbitformat liefern, ähnlich dem Format des Burst-Zeichens. Beispielsweise kann das an die Aufnahmeeinrichtung 300 gegebene Reibelaut-Zeichen den Wert Z^ (011) und A~ (100) haben, wenn ein stimmhafter bzw. stimmloser Reibelaut angegeben wird. Im vorliegenden Fall haben die Ruhe-, Burst- und Reibelaut-Zeichen alle ein 3-Bit-Format, ihre Werte sind jedoch verschieden. Die von den Bauteilen 240, 250 und 260 ausgehenden Sammelleitungen mit 3 Bits können daher zu einer einzigen Sammelleitung mit 3 Bits zusammengefaßt werden. Natürlich sind auch andere Signalformate möglich.

809822/0864

27526Ü7

Der Formantprozessor 270 analysiert die Rahmensignale und gewinnt daraus Formantfrequenzen. Dieses sind betonte Einzelfrequenzkomponenten im Sprachspektrum, die besonders ausgeprägt dann vorhanden sind, wenn Vokale gesprochen werden. Die Formantgewinnung ist zwar keine einfache Aufgabe, sie ist aber grundlegend für die Sprachanalyse und -synthese und daher in der Literatur umfangreich beschrieben. Zweckmäßige Verfahren und Vorrichtungen zur Verwirklichung des Formantprozessors 270 sind u.a. in den folgenden Literaturstellen angegeben:

1 . B.S. Atal und S.L. Hanauer "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave", JASA, Band 50, 1971, Seiten 637-655;

2. US-Patent 3 624 302 (30. November 1971);

3. S.S.McCandless "An Algorithm for Automatic Formant Extraction Using Linear Prediction Spectra", IEEE Transactions on Acoustic Speech and Signal Processing, Band ASSP 22, Nr. 2, April 1974, Seiten 135-141;

4. J.D. Markel "Digital Inverse Filtering - A New Tool for Formant Trajectory Estimation", IEEE Transactions Audio Electric

809822/086Λ

27526U7 κ

Acoustics, Band Au-2, 1971, Seiten 129-137;

5. B. Gold und L.R. Rabiner "Parallel Processing Techniques for Estimating Pitch Periods of Speech in the Time Domain", JASA, Band 46, 1969;

6. US-Patent 3 649 765 (14. März 1972);

7. L.R. Rabiner et al "A Hardware Realization of a Digital Formant Synthesizer", IEEE Trans. Comm. Tech., Band COM-19, November 1971, Seiten 1016-1020.

Nach Gewinnung der Formantfrequenzen, beispielsweise unter Verwendung der Einrichtungen, die von Rabiner et al in der oben angegebenen Veröffentlichung 7) beschrieben worden ist, wandelt ein Transformationsprozessor 280 dfe gewonnenen Formantfrequenzen in Zungenkörperpositionen um, und aus aufeinanderfolgenden Zungenkörperpositionen erzeugt der Prozessor 280 dann die Zungenkörperbahn-Zeichen. Der Formantprozessor 270 gibt ein Signal an den Transformationsprozessor 280, das die drei Formanten mit den niedrigsten Frequenzen darstellt, die im Sprachsignal aufgefunden worden sind. Diese drei Formanten werden vorzugsweise gleichzeitig parallel abgegeben und bilden ein einzelnes nebeneinander-

809822/0864

27526Ü7

liegendes Feld.Wenn jeder Formant also durch einen Code oder ein Feld mit 8 Bits definiert wird, so ist das beieinanderliegende Ausgangsfeld des Prozessors 270 ein Feld mit 24 Bits. Das Ausgangssignal des Prozessors 280 ist ein paralleles Binärfeld, das das Zungenkörperpositions-Zeichen darstellt. Im einzelnen wird der Mundhöhlenbereich entsprechend der Definition in Fig. 3 sowie die Bewegungsrichtung des Zungenkörpers angegeben.

Wie oben erläutert, erfolgt die Erzeugung der Zungenkörperposition und der Zungenkörperbahn entsprechend dem Coker-Stimmtraktmodell. Bei Coker werden die Formanten erzeugt, die sich aus jeder Zungenkörperposition ergeben. Hier wird das Coker-Modell umgekehrt benutzt, um eine Zungenkörperposition aus einer Gruppe mit den drei niedrigsten Formantfrequenzen zu erzeugen.

Eine vereinfachte Erläuterung des Coker-Modells und dessen Verwendung zur Erzeugung einer Zungenkörperposition entsprecherdeiner Gruppe von angegebenen Formanten findet sich in einer Master-Dissertation von E.H. Hafer "Speech Analysis by Articulatory Synthesis", Northwestern University Computer Sciences Department; Evanston, Illinois, Juni 1974. Diese Dissertation steht zur Einsicht und Kopie in der Bücherei der Northwestern University zur Verfügung. Die Seiten 10-18 der genannten Dissertation

809822/0864

27526Ü7

Wr

und die Anhänge 1 -4 sind von besonderem Interesse. Der Text erläutert das Modell und das Verfahren zur Ableitung der geeigneten Formanten aus dem Modell. In den Anhängen 2-4 werden die FORTRAN-Programme angegeben, die in Verbindung mit einem Allzweckrechner zur Erzeugung der gewünschten Informationen benutzt werden können. Da der Prozessor 280 durch einen Allzweckrechner unter Verwendung der in den vorgenannten Anhängen offenbarten Programme gebildet sein kann, wird die genannte Dissertation von E.H. Hafer zum Bestandteil der vorliegenden Offenbarung gemacht. Da außerdem die benutzten Programme fUr die Erstellung der unten beschriebenen Festwertspeicher (ROM)-NachschlagetabeIlen zweckmäßig sind, werden die Programme in einem Anhang zur vorliegenden Beschreibung aufgeführt, um die praktische Verwirklichung der Erfindung zu erleichtern.

Das Modell und seine Verwendung seien kurz zusammengefaßt. Das Stimmtraktmodell ist eine parametrische Darstellung einer sagittalen Mittelebene des menschlichen Stimmapparates. In dem Modell werden sechs Parameter benutzt, um die Position von drei Artikulatoren (Zungenkörper, Zungenspitze und Lippen) anzugeben. Diese Artikulatoren bestimmen den Querschnittsbereich entlang des Traktes. Die Stimmtraktbereichsfunktion wird durch 36, in gleichem Abstand angeordnete Querschnitte angenähert,

809822/0864

die in Ebenen senkrecht zur Mittellinie der Mundhöhle definiert sind. Wie Fig. 1 zeigt, ändert sich der Querschnittsbereich der Mundhöhle mit der Position des Zungenkörpers. Daher kann durch eine Bestimmung des Mundhöhlen-Querschnittsbereiches aus Formantfrequenzen die Zungenkörperposition festgestellt werden. Wenn ein AlIzweckrechner als bevorzugtes Ausfuhrungsbeispiel für den Prozessor 280 benutzt wird, so können die Programme im Anhang zur Bestimmung der Zungenkörperposition eines Sprechers verwendet werden. Die Programme funktionieren auf interaktive Weise. Zunächst wird angenommen, daß der Zungenkörper eine vorgewählte Lage hat, und es wird eine Gruppe von Formanten abgeleitet, die charakteristisch für diese Lage sind. Die angenommene Lage ist die letzte bekannte Position des Zungenkörpers. Die aus der angenommenen Lage des Zungenkörpers abgeleitete Gruppe von Formanten wird mit den (im Prozessor erzeugten) zugeführten Formanten verglichen und eine Fehlerfunktion ausgewertet, um den Unterschied zwischen den abgeleiteten Formanten und den Formanten des Sprechers zu bestimmen. Diese Fehlerfunktion bestimmt die Änderungen, die für den Zustand des Stimmtraktmodells erforderlich sind, um den Wert der Fehlerfunktion zu verringern. Das Modell wird geändert, die Formanten werden berechnet und die Fehlerfunktion wird erneut ausgewertet. Wenn festgestellt ist, daß der Fehler genügend klein ist, so wird die Form des Stimmtraktmodells

809822/0884

analysiert, um eine als brauchbar festgestellte Annäherung der Zungenkörperposition für die meisten Vokale zu erhalten.

In denjenigen Fällen, in denen ein Allzweckrechner nicht die bevorzugte Lösungsmöglichkeit zur Verwirklichung des Transformationsprozessors 280 ist, kann eine andere Verwirklichung für die Zwecke der vorliegenden Erfindung dadurch geschaffen werden, daß mit Hilfe der Programme im Anhang die durch das Coker-Modell erzeugten Formantgruppen für alle Zungenkörperpositionen und interessierenden Stimmtraktlängen im voraus berechnet und die ausgewerteten Formanten in einer Nachschlagetabelle gespeichert werden. Als Nachschlagetabelle kann ein Festwertspeicher benutzt und so ausgelegt wenden, daß das Adressenfeld die Zungenkörperposition und von dem Modell benutzte Stimmtraktlänge angeben und der Inhalt jeder Speicherstelle die Formanten bedeutet, die von dem Modell aufgrund eines durch das Adressenfeld gekennzeichneten Modellzustandes erzeugt werden. Eine solche Nachschlagetabelle wird schrittweise benutzt, da die gewählten Zungenkörperpositionen und Stimmtraktlängen zugeordneten Formanten mit den vom Prozessor 270 abgeleiteten Formanten verglichen werden müssen.

Vorzugsweise wird eine Festwertspeicher-Nachschlagetabelle unter Verwendung von Formanten erzeugt, die die unabhängig Variable statt der abhängigen

809822/0864

Ü752607

Variablen darstellen. Das heißt, die drei von dem Modell abgeleiteten Formanten werden nebeneinander gelegt, so daß sie ein einziges Feld bilden,und dieses Feld dient als Adressenfeld für einen Speicher, dessen Speicherstellen die Zungenkörperpositionen und Stimmtraktlängen enthalten, welche den Formanten entsprechen, die die zugeordneten Adressen bilden. Bei einer solchen Nachschlagetabelle ist ein schrittweiser Betrieb nicht erforderlich.

Das Ausgangssignal des Transformationsprozessors 280 ist ein Zungenkörperbahn-Zeichen, das die Zungenkörperposition und ein Maß für die Zungenbewegung beinhaltet. Die Positionsinformation wird, wie beschrieben, aus der Nachschlagetabelle gewonnen. Die Bewegungsangabe wird durch Vergleichen der erhaltenen Position mit der vorhergehenden Position abgeleitet. Dies kann dadurch geschehen, daß die vorhergehenden x- und y-Koordinatenpositionen gespeichert und von den neu festgestellten x- und y-Koordinatenpositionen subtrahiert werden. Da nur 10 Bereiche zur Gewinnung einer ausreichenden Positionsangabe (mit Fig. 3) unterschieden werden müssen, kann das Format des Zungenkörper-Zeichens ein Binärwort mit 8 Bits sein, bei dem die ersten 4 Bits die Zungenposition, die nächsten 2 Bits die Bewegung in der x-Richtung und die letzten beiden Bits die Bewegung in der y-Richtung angeben.

809822/08Θ4

27526Ü7

Es sei das bevorzugte Ausfuhrungsbeispiel des Prozessors 280 entsprechend der Erläuterung zusammengefaßt. Man benutzt das Coker-Modell in Umkehrung zur Erzeugung einer Tabelle von ZungenkörperposiHonen, die am besten jeder Gruppe von 3 niedrigsten Formanten entsprechen. Die Tabelle wird am einfachsten unter Verwendung des in der Anlage angegebenen Programms erzeugt, da die Prinzipien des Coker-Modells in diesem Programm enthalten sind. Die Verwendung dieses Programms ist jedoch nicht zwingend. Außerdem können anstelle einer gespeicherten Nachschlagetabelle Mittel vorgesehen sein, um das Coker-Modell in Umkehrung auszuwerten. Bei dem hier beschriebenen Ausfuhrungsbeispiel wird eine Tabelle verwendet, da damit die einfachste Verwirklichung zu erreichen ist. Diese Tabelle ist dauernd in einem Festwertspeicher gespeichert. Der Festwertspeicher wird mittels eines einzelnen Feldes adressiert, das aus den drei nebeneinander liegenden Feldern zusammengesetzt ist, die die drei Formanten mit den niedrigsten Frequenzen definieren. Das Ausgangssignal des Prozessors 280 ist ein Feld mit 8 Bits, von denen die ersten vier Bits die Zungenposition, die nächsten zwei Bits die horizontale Zungenkörperbewegung und die letzten beiden Bits die vertikale Zungenkörperbewegung angeben.⁺

Das Ausgangssignal des Prozessors 280 wird ähnlich wie das Ausgangssignal der Bauteile 240, 250 und 260 zur Aufnahmee nrichtung 300

-I- Die Programme im Anhang stellen Beispiele für eine Möglichkeit zur

Verwirklichung der Erfindung dar, der Fachmann auf dem vorliegenden Gebiet ist aber auf der Grundlage der gegebenen Lehren in der Lage, andere Programme

"■**"· 809822/0864

gegeben. Die verschiedenen Sammelleitungen sind in Fig. 4 und 6 mit bezeichnet.

Wenn sicher wäre, daß nur gültigen Ziffern entsprechende Signale an das Worterkennungssystem nach der vorliegenden Erfindung gegeben würden, dann brauchte die Annahmeeinrichtung 300 keine sehr komplizierte Anordnung zu sein. Die Annahmeeinrichtung 300 hätte einen Anfangszustand, aus dem sie auf eine der Folgen von Zeichen abzweigen würde, die die gesprochene Ziffer darstellen. Wenn die Feststellung der Ziffer beendet ist, d.h. die vollständige Zeichenfolge angezeigt ist, würde die Annahmeienrichtung dann wieder in den Anfangszustand zurückgehen und für die Decodierung der nächsten Ziffer bereit sein. Leider muß aber die Annahmeeinrichtung 300 Wörter, Ausdrücke und Laute, die keine gültigen Ziffern sind, aufnehmen können, ohne außer Tätigkeit gebracht zu werden. Demgemäß muß die Annahmeeinrichtung 300 in der Lage sein, anzunehmen, daß jedes Zeichen der Beginn einer gültigen Ziffernfolge ist, und muß auf einen neuen Zeichenanfang zurückgehen können, wenn sie "hängengeblieben" ist. Die Notwendigkeit für das Zurückgehen läßt sich besser anhand des folgenden Beispiels verstehen, bei dem die Zeichenfolgen 110, 011, 101, 111, 110 und 011, 101, 111, 1-001 gültige Folgen sind und die Zeichenfolge 110, 011, 101, 111, 1001 angetroffen wird.

809822/0864

27526U7

Wenn die Annahmeeinrichtung 300 die Zeichen 110, 011, 101, 111 in der angetroffenen Zeichenfolge durchlauft, nimmt sie an, daß die Folge 110, 011, 101, 111, 110 festgestellt wird und folgt daher diesem Weg. Wenn das Zeichen 1001 erreicht wird, muß die Annahmeeinrichtung 300 in der Lage sein, festzustellen, daß die Folge 110, 011, 101, 111, 1001 keine gUltige Folge ist und muß daher auf einen neuen Folgenbeginn zurückgehen. Wenn demgemäß vom Zeichen 1001 auf das Zeichen 011 zurückgegangen wird (das erste Zeichen 110 weggelassen wird), so wird die Folge 011, 101, 111, 1001 von der Annahmeeinrichtung 300 als gültige Folge festgestellt.

Zur Durchfuhrung der erforderlichen Operationen ist die Annahmeeinrichtung 30OaIs sequentielle Schaltungsanordnung mit endlichen Zuständen konstruiert. Sie startet bei einem Anfangszustand und durchläuft eine Anzahl von Zustandsänderungen bis zu einem von 10 erfolgreichen Endzuständen (wobei jeweils eine der 10 Ziffern festgestellt wird). Sequentielle Schaltungsanordnungen, die manchmal auch Folgedetektoren genannt werden, sind bekannt. Der Aufbau solcher Schallungsanordnungen zur Realisierung vorgegebener Zustandsdiagramme ist beispielsweise beschrieben in P.E. Wood, Jr. "Switching Theory", McGraw-Hill Book Co., 1968, Abschnitt 5. Auf dem Sprachgebiet ist eine solche sequentielle Schaltungsanordnung

809822/086^

27526Ü7

in der oben angegebenen Doktor-Dissertation von Martin und außerdem Im US-Patent 3 700 815 (24. Oktober 1972) beschrieben. Jede Abweichung von einem brauchbaren Weg führt zurück zum Anfangszustand. Dies ist für die vorliegende Beschreibung durch das Zustandsdiagramm in Fig. 5 dargestellt, das die Zustandsübergänge beschreibt, die erforderlich sind, um den englischen Ausdruck "two eight" festzustellen. Das vollständige Zustandsdiagramm der Annahmeeinrichtung 300 hängt natürlich von der genauen Liste von Wörtern ab, die festgestellt werden sollen (Ziffern 0-9, Verbindungswörter beispielsweise "hundert" usw.). Das Zustandsdiagramm in Fig. 5 und die Schaltungen zur Verwirklichung gemäß Fig. 7 werden als repräsentativ aufgefaßt.

Der Zustand 1 der Annahmeienrichtung 300, der in Fig. 5 als Ziffer 1 in einem Kreis dargestellt ist, ist der Anfangszustand der Annahmeeinrichtung 300. Dies ist der Zustand, in den die Annahmeeinrichtung 300 immer dann eintritt, wenn eine Prüfung erfolgreich oder nicht erfolgreich beendet worden ist. Die Annahmeeinrichtung 300 bleibt im Zustand 1, bis ein Zeichen ankommt, das dem Anfang eines der erkennbaren Wörter, beispielsweise Ziffern, entspricht. Der Pfeil A in Fig. 5 stellt die Ausgangswege vom Zustand 1 in Richtung auf Ziffern dar, die nicht "two" und "eight¹¹ sind.

809822/08Θ4

"as

Wenn die englische Ziffer "two" gesprochen wird, so fuhrt der Laut /t/ von "two" zu einem Burst-Zeichen, das die Annahmeeinrichtung 300 veranlaßt, auf den Zustand 2 zu gehen. Dies ist in Fig. 5 durch den Pfeil B (für Burst) angegeben, der vom Zustand 1 zum Zustand 2 fuhrt. Die Annahmeeinrichtung 300 bleibt im Zustand 2 , solange ein Burst-Zeichen zugeführt wird. Sie verläßt aber den Zustand 2 über den mit einem

gekennzeichneten Pfeil immer dann, wenn ein Zeichen ankommt, das nicht mit der Fortsetzung für die Aussprache von "two" Übereinstimmt. Ein mit einem bezeichneter Ausgang gibt die Rückkehr auf den Zustand nach Art einer rückwärts verfolgenden Arbeitsweise an. Wenn tatsächlich die Ziffer "two" gesprochen wird, so folgt dem Burst /t/ ein Vokalabschnitt. Der Anfiangsteii des Vokalabschnittes führt zu einer Zungenkörperposition im 2. Bereich in Fig. 3. Demgemäß geht bei einem Zeichen, das eine Zungenkörperposition im Bereich 2 angibt (p = 2) , die Annahmeeinrichtung 300 auf den Zustand 3, wie in Fig. 5 gezeigt. Sie bleibt im Zustand 3, bis der Zungenkörper in den Bereich 6 eintritt und sich in positiver x-Richtung zu beweget beginnt. In diesem Fall wird die Ziffer 2 erkannt, wie in Fig. 5 durch den Pfeil D =2 angegeben. Die Annahmeeinrichtung geht dann zur Vorbereitung für die nächste Ziffer auf den Zustand 1 zurück.

809822/0864

Wie oben gesagt, enthält der zweite Teil des Ausdrucks "two" einen Voka!abschnitt, der bewirkt, daß sich der Zungenkörper im Bereich 6 befindet und in positiver x-Richtung läuft. Da keine Ziffer vorhanden ist, deren Anfangsabschnitt den Zungenkörper in den Bereich 6 bringt, bleibt die Annahmeeinrichtung 300 in ihrem Anfangszustand während des Endabschnittes für den Ausdruck "two" bis zum Beginn des Ausdrucks "eight".

Der englische Ausdruck "eight" beginnt mit einem Vokalabschnitt im Bereich 8. Wenn sich demgemäß der Zungenkörper in den Bereich 8 bewegt, verläßt die Annahmeeinrichtung 300 den Zustand 1 und tritt in den Zustand 4 ein. Beim Weiterlaufen in positiver x- und y-Richtung bewegt sich der Zungenkörper nach oben zum Bereich 3. Dann geht die Annahmeeinrichtung 300 auf den Zustand 5 weiter und verbleibt dort, bis das abschließende Burst-Zeiche η des Ausdrucks "eight" ankommt. Dann wird die Ziffer "eight" erkannt, und die Annahmeeinrichtung kehrt zur Vorbereitung auf die nächste Ziffer in den Zustand 1 zurück.

Zur Verwirklichung der Annahmeeinrichtung 300 müssen zwei Hauptelemente berücksichtigt werden, nämlich eine Einrichtung zur Ermöglichung eines rückwärts verfolgenden Rücklaufens und eine Einrichtung

809822/0864

zur Verwirklichung des Zustandsdiagramms für die Annahme -einrichtung.

Für das rückwärts verfolgende Rücklaufen ist ein Speicher erforderlich, der die der Annahmeeinrichtung 300 zugeführte Zeichenfolge speichert. Der Speicher muß so organisiert sein, daß alte Daten wiedergewonnen und erneut verarbeitet werden können, während neue Daten eingeschrieben werden. Eine solche Anordnung wird dadurch realisiert, daß die zugeführten Zeichen in einem Üblichen Speicher unter Steuerung eines Zeichenadreßzählers eingegeben werden, der mit einer Modulo-Arithmetik arbeitet, die gleich oder kleiner als die Größe des Speichers ist. (Beispielsweise wird für einen Adreßzähler mit 10 Ziffern ein Speicher mit wenigstens 1024 Wörtern benutzt.) Bei einer solchen Anordnung werden die zugeführten Zeichen sequentiell unter Steuerung des Zeichenadreßzählers eingegeben. Wenn beispielsweise die Speicherstelle 1023 des Speichers geschrieben wird (bei Verwendung eines Zählen mit 10 Bits), so ist die nächste, einzuschreibende (unter Löschung der alten Information) Speicherstelle die Speicherstelle 0.

Zwei weitere Zähler, die auf der gleichen Zahlenbasis wie der Zeichenadreßzahler arbeiten, sind zur richtigen Verwendung des Speichers vorgesehen:

809822/0864

Ein Folgestartzähler (Zähler A) und ein Zähler für die augenblickliche Adresse (Zähler B). Der Zähler A gibt die Speicherstelle des ersten Zeichens in der geprüften Folge und der Zähler B die augenblickliche Adresse des Zeichens in der geprüften Folge an. Ein Blockschaltbild dieser Schaltungsanordnung ist in Fig. 6 gezeigt.

Der Speicher 301 (Fig. 6) speichert die der Annahmeeinrichtung 300 auf der Leitung 302 zugeführten Zeichen und gibt die vorher gespeicherten, von der Annahmeeinrichtung 300 genötigten Zeichen auf der Leitung aus. Das Einschreiben und Lesen des Speichers 301 erfolgt in Abhängigkeit von Lese- und Schreibsteuerbefehlen, die eine Steuereinrichtung 200 (Fig. 4) über die Leitungen 303 und 304 liefert. Die richtige Adresse wird dem Speicher 301 durch die Auswahleinheit 305 zugeführt, die wiederum 306 (Zeichenadreßzähler) und Zähler 307 (Zähler B) gesteuert wird. Der Zähler 308 (Zähler A) wirktmit dem Zähler 307 über eine Sammelleitung 309 zusammen, und dieses Zusammenwirken wird unter Steuerung von Leitungen 310, 311, 312 und 313 aufrechterhalten . Ein Signal auf der Steuerleitung 310 schaltet den Zähler 308 um eins weiter, das Signal auf der Steuerleitung 311 verdoppelt den Wert des Zählers 307 im Zähler 308, ein Signal auf der Steuerleitung 312 schaltet den Zähler 307 um eins weiter und ein Signal auf der Steuerleitung 313 verdoppelt den Wert des Zählers 308 im Zähler 307. Die Leitung 314 steuert den Zähler

809822/0864

α*

und schaltet ihn jedesmal dann weiter, wenn ein neues Zeichen zugeführt wird.

Im Betrieb adressieren, wenn die Prüfung einer Folge beginnt, beide Zähler A und B die gleiche Speicherstelle, wodurch das erste Zeichen der geprüften Folge aus dem Speicher 301 gelesen wird. Solange die Prüfung befriedigend weiterläuft, wird der Zähler 307 jedesmal um eins weitergeschaltet, während der Zähler 308 unverändert bleibt. Wenn die Prüfung am Ende einer Folge erfolgreich aufhört, so ist der Zähler 308 auf die Position des Zählers 307 weitergelaufen, und es wird eine neue Prüfung eingeleitet. Wenn die Prüfung erfolglos endet (mit einem """-Eintritt in den Zustand 1), so wird der Zähler 308 um eins weitergeschaltet und der Zähler 307 auf den gleichen Stand wie der Zähler 308 gesetzt, wobei dann eine neue Prüfung beginnt.

Zur Verwirklichung des Zustandsdiagramms für die Annahmeeinrichtung 300 können übliche Verfahren benutzt werden. Im Interesse der Vollständigkeit zeigt Fig. 7 jedoch ein Ausführungsbeispiel zur Verwirklichung des operativen Teils des in Fig. 5 gezeigten Zustandsdiagramms.

Da in Fig. 5 nur fünf Zustände vorhanden sind, zeigt Fig. 7 fünf Flip-

809822/0864

Flops 701-705, die die fünf Zustände darstellen. Jedes Flip-Flop ist an einen zugeordneten Logik-Baustein 711 -715 angeschaltet, die alle an eine vom Speicher 301 (Fig. 6) ausgehende Signalsammelleitung 317 angeschlossen sind.

Jeder der Logik-Bausteine 711-715 erzeugt ein Ausgangssignal mit einer anderen Kombination, die jeweils speziell so ausgebildet Ist, daß sie einen Teil des Zustandsdiagramms verwirklicht. Beispielsweise erzeugt der Logik-Baustein 711 diejenigen Ausgangssignale, welche erforderlich sind, um die Annahmeeinrichtung 300 aus dem Zustand 1 und in den Zustand 2 , 4 oder A zu bringen. Demgemäß liefert der Baustein 711 drei Ausgangssignale: ein Signal, das den Eintritt in den Zustand A angibt (Leitung 721), ein Signal, das den Eintritt in den Zustand 4 angibt (Leitung 722), und ein Signal, das den Eintritt in den Zustand 2 angibt (Leitung 723). Gemäß Fig. 5 soll ein Eintritt in den Zustand 4 nur dann erfolgen, wenn ρ = 8 auftritt. Demgemäß ist der BooIe'sehe Ausdruck für das Ausgangssignal auf der Leitung 722 (Zustand 1) (p = 8). Die erste Variable (Zustand 1) ist vom Flip-Flop 701 abgeleitet, und die zweite Variable (p = 8) wird durch Decodieren der Information auf der Sammelleitung 317·gewonnen. Demgemäß verwendet man ein UND-Gatter mit zwei Eingängen zur Erzeugung des Ausgangssignals auf der Leitung 722. Die Ausgangssignale der Bausteine 711-715 werden auf

809822/0864

entsprechende Weise abgeleitet.

Wie oben angegeben, muß immer dann, wenn das Zustandsdiagramm in Fig. 5 einen -Austritt angibt, die Aufnahmeeinrichtung 300 wieder in den Zustand 1 eintreten und insbesondere den Stand der Zähler 307 und 308 ändern. Zu diesem Zweck sammelt ein ODER-Gatter 731 alle -Austritte und kombiniert zur Bildung eines Ausgangssignals auf der Leitung 732, die die Zähler 307 und 308 steuert. Die D-Austritte erfordern ebenfalls ein Wiedereintreten in den Zustand 1, aber mit einer anderen Abänderung der Zähler 307 und 308 (wie oben beschrieben). Zu diesem Zweck erzeugt ein ODER-Gatter 733 ein Ausgangssignal auf der Leitung 734. Die - und D-Ausgangssteuersignale werden in einem ODER-Gatter 735 kombiniert, das das Eintreten in den Zustand 1 steuert.

Das Eintreten in irgendeinen bestimmten Zustand muß natürlich durch ein Austreten aus allen anderen Zuständen begleitet sein. Wenn demgemäß eines der Flip-Flops 701 -705 eingestellt wird, so müssen alle anderen Flip-Flops rückgestellt werden. Dies wird gemäß Fig. 7 mit Hilfe der Logik-Bausteine 741 -745 und eines ODER-Gatters 746 erreicht. Das ODER-Gatter 746 erzeugt Immer dann ein Signal, wenn ein ZustandsUbergang auftritt, und dieses Signal wird dem R-Eingang

809822/0864

der Logik-Bausteine 741-745 zugeführt. Jeder der Logik-Bausteine 741 -745 ist so ausgelegt, daß er dann ein Ausgangssignal am Anschluß Q liefert, wenn ein Signal an den Eingang R angelegt wird, und ein Ausgangssignal am Anschluß Q , wenn ein Signal an beide Eingänge R und S gegeben wird. Auf diese Weise werden die Bausteine 741 -745 mit dem Gatter 746 kombiniert, um alle Flip-Flops mit Ausnahme desjenigen Flip-Flops zurückzustellen, das gerade eingestellt wird.

Die Steuerung der Anlage gemäß Fig. 4 erfolgt durch eine Steuerung 200. Sie liefert den Abtastakt an den Ana log-Digi ta !wandler 220, die Lese - und Schreibsteuersignale (Leitungen 303 und 304) an den Speicher 301, die Einstell- und Weiterschaltbefehle (Leitungen 310 -314) an die Zähler 306, 307, 308 und alle anderen Steuersignale, die für die richtige Arbeitsweise des Kennwert-Extraktors 230 erforderlich sind. Die Steuerung 200 kann auf Übliche Weise auf gebaut sein und einen astabilen Multivibrator zur Erzeugung eines Haurtalctsignals aufweisen, ferner mit dem Multivibrator verbundene Flip-Flops zur Erzeugung von Bruchteilen des Haupttaktsignals und einer Anzahl von Gattern, die eine geeignete Kombinationslogik für jedes erforderliche Steuersignal bilden. Da die erforderlichen Schaltungen leicht

809822/0864

J»

zu verwirklichen sind, werden die Einzelheiten fUr die Verbindungen der Logik-Gatter dem Fachmann Überlassen.

809822/0864

Anhang FORTRAN-PROGRAMM zur Verwirklichung des Prozessors _. ₍

FUNCTION FUNC (X)

BEAL X(IO) C C MAIN ERROR FUNCTION C c inputs:

C X- PARAMETER VECTOR C POLE - REAL SPEECH FORMANTS (COMMON /MATCH/) C ERR - ERROR DUE TO VIOLATIONS OF CONSTRAINTS

C (COMMON /ERRORS/)

C OUTPUTS:

C FUNC - MEASURE OF FORMANT ERROR

COMMON /ERRORS/ ERR

COMMON /MATCH/ POLE13) C REAL AREAF(6«*) _# POLEF (3)

ERR =0.0 FUNC = C C COMPUTE CROSS SECTIONAL AREA FUHCTIOK

•8098 2.2/00

.· 2 7 b 2 b U

CALLVOCAL (X (2] , Χ(3), Χ(Ί), Χ(5), X(G), Χ(7), 0.01. C AREAF, NSECF) C C COMPUTE FORMANT FREQUENCIES

. CALL FORM (AREAF, NSECF, X(I), POLEF) C

DO 10 1=1,3

D * (POLEF(I) - POLE(I))ZPOLE(I) 10 FUNC = FUNC ♦ D«D C

C ADD ERROR DUE TO VIOLATION OF EXPLICIT AND C IMPLICIT CONSTRMNTS

FÜNC = FUNC ♦ ERR

RETURN .

END ·

«09822/0864

27b2ßU7

SUBROUTINE IVOCAL C C INITIALIZATION SUBROUTINE FOR VOC/iL TRACT C

COMMON/VOCDAT/R1,R2SQ.ZBEND,ACOR,BCOR,RADSEC,RBEND₁

ε χ, γ, ANAUT(UO)^sECT

DATA ARADSC /10.25/ _ C COMPUTE LENGTH OF ONE VOCAL TRACT SECTION

C (34 SEC IN 17 CM)

SECT = 17.0/34.0 C C COMPUTE CONSTANTS TO SET VOCAL TRACT SHAPE

R1 = 3.875 R2SQ =6.25 ZBEND =7.0 ACOR =3.81

BCOR = 0.188 C

RADSEC = SECT*ARADSC/R 1/(14.5 - ZBEND) RBEND = (1.0 ♦ ZBEND/SECT) «RADSEC RADSC1 = RADSEC*ACOR RBeiDi = (1.0 ♦ ZBEND/SECT) *RADSC1

N1 = 4.0/SECT

8098 22/06-64 "'

N2 = 19.0/SECT
DO 10 J=Nl,U2

10 ANAUT(J) = BCOR*COS (FLpAT (J) »RADSC1 - RBENDI) C

RETURN
END .

SUBROUTINE VOCAL (XI, YI, R, Β» LL, WW, C, K₀ 16) C · *

C VOCAL TRACT SUBROUTINE

C INPUTS: ■

C XI- TONGUE BODY HORIZONTAL COORDINATE

C YI- TONGUE BODY VERTICAL COORDINATE "

C R- TONGUE TIP RETROFLEX COORDINATE

C B- TONGUE TIP HEIGHT COORDINATE

C LL- LIP EXTENSION COORDINATE

C MW- LIP CLOSURE COORDINATE

C C- MINItIUM AREA OF A CROSS SECTION

C SECT - LENGTH OF ONE VOCAL TRACT SECTION

C (COMMON /VOCDAT/)

C .

C OUTPUTS:

C A - CROSS SECTIONAL AREAS

C 16 - NUMBER OF SECTIONS IN VOCAL TRACT

809822/0864

C (X, Y) - TOIJGUE BODY POSITION (COXMON /VOCDAT/)

C

COMMON /ERRORS/ ERR COMMON/VOCDAT/RI ,R2SQ, ZBEND, ACOR, BCOR,RADSEC, RBEND, t X, Y ,ANAUT (40), SECT REAL L, LL, A(64)

DATA Z1, Z2B, G2B, Z2, G2, Z3, G3, Zt & /2.0, 5.0, 1.5, 6.0, 2.0, 11.0, 0.31, 13.5/

DATA SC, AGP, ARADCR /3.0, 3.0, 10.25/ C C

C EXPLICIT CONSTRAINTS DXY = ABS (XI) -1.5

IF (DXY .GT. 0.0) ERR = ERR ♦ DXY*DXY*100.0 X = AMAXI (-1.5, AMIN1 (1.5, XI)) C DXY = ABS (YI) -1.5

IF (DXY .GT. 0.0) ERR = ERR ♦ DXY*DXY*100.0 X = AMAXI (-1.5, AMIN1 (1.5, YI)) W = WW C AL=LL L=I.

I1=1.5*Z1/SECT S2B= 1. ♦ (Z2B+G2B* Y)/SECT

809822/0864

S2=1. 5* (Z2<G2<'Y)/SECT I2=S2

12A=MINI (S2B,S2) S3=1.5*(Z3*.7*X+.3*Y)/SECT I3=S3

I5=1-5+15.5/SECT

S5 = FLOAT(I5) - .01

S4 » 1.5 ♦ (Z« ♦ R ♦ X - Ϊ ♦ .25*B)/SECT

SU = AMIN1 (SH, S5)

I6=I5*IFIX((L*1.)/SECT*.5)

Α5=1.125-.3ί»*ϊ A6=(1.08-.89»W*.33*L)*A5 *L/AL

IX) 12 J=KIN, 16 A(J)=A6

IP (I5-I4IN) 30,22,22 DO 24 J=MIN,15

• ·

S *= (FLOAT(I5-J) »SECT) *·2*5 2«» A (J) = 1. 18*SQRT (S/ (4.

TEETH

TONGUE BLADE

8Ό9822/0864

S»»3=SU-S3 AU=CIRCI (S'*, S β ((FLOAT (15) - SU) «SECT) **2*5.0

AUP1 = 1.18*SQRT(5/(U.O ♦ S)) + A5 ε (ANAUT(Ii*) ♦ (ANAUT(MIN) - ANAUT (IU) ) *QU) AT = AU - (AU¹* .250)«B*1.33 AT = AMINl (AT, AUPl) AUU=AT-AU MIN=I3+1

DO 32 J=MlN,IU A(J)=CIRC(J) +AUU «((FLOAT (J)-S3)/SU3) **2

************** TONGUE BODY

MI2=I2+1

DO U2 J=MI2_fI3 H2 A(J)=CIRC(J)

A2=CIRC1(S2,Q2) DO 52 J=I2A,I2 A(J)=A2

A20=A2/2.-.U8-.25«Y A0=A2-A20 PISEC=3.1U16«SECT/U.

DO 5U J=H,12A 5U A(J) =A0*A20*COS (PISEC* (S2B-FLOAT (J)))

M M M *M M * * M M UiRYHX

AI=A(H)/AGP

809822/0864

MAX=Il-I DO 62 J=1.MAX A(J)=AI C ************** CROSS SECTION

CSO=C*♦2

AJERR = 0.0 * C IMPLICIT CONSTRAINTS TO DISALLOW NEGATIVE AREAS DO 100 J=I,16 IP (A(J) .LT. 0.0) AJERR = AJERR - A(J) A(J)=SC* (SQRT (A (J) ^2+CSQ)+A(J))

ERR = ERR '+ AJ"eRR*AJERR*SC*SC _c *************** TONGUE TIP

RH=L-QI

AT«SC«(SQRT(AT**2*CSQ)*AT)

} =A«*A<H*AT/ RETURN END

809822/0864

FUNCTION CIRC(J) TONGUE BOD* AREA FUNCTION COMMON /VOCDAT/R1,R2SQ, ZBEND, ACOI*, BCOR,RADSEC,RBEND, β X, Y,AIiAUT (40) ,SECT ALPH=FLOAT (J)«RADSEC-RBEIJD CO =COS (ALPH) SI =SIN (ALPH) CIRC=R1+X*C0-Y*SI-SQRT(AKAX1(R2SQ-(X*SI+Y*CO)**2,0.)) -

ANAUT (J) RETURN END

FUNCTION CIRC1(S,Q) CIRC LINEAR INTERPOLATION FUNCTION

Q=S-FLOAT (J) CIRCI=(U-Q) «CIRC(J) +Q«CIRC(J+1) JtETURN

809822/0S64·

SUBROUTINE FORM (A, NSEC, ALENF, F)

DIMENSION A (6<l) , F (3) C

C. WEBSTER HORN EQUATION ITERATION SUBROUTINE C

C INPUTS:

C A - CROSS SECTIONAL AREAS C NSEC - NUMBER OF SECTIONS IN VOCAL TRACT C ALENF - VOCAL TRACT LENGTH FACTOR C SECT - LENGTH OF ONE VOCAL TRACT SECTION C (COMMON /VOCDAT/)

C (X, Y) - TONGUE BODX POSITION (COMMON /VOCDAT/) C . ·

C OUTPUTS:
C F- FOI(MANT FREQ. IN HTZ.

• ·

CORMON /ERRORS/ ERR

COMMON/VOCDAT/RI,R2SQ,ZBEND,ACOR,BCOR,RADSEC,RBEND, ε X,Y,ANAUT(UO) ,SECT C

DATA C /33136.0/ C . · ·

C F1 SEARCH REGION — 500 HTZ ♦/- HOO HTZ

809822/0864

C F2 SEMCH KEGlOM — 1500 HTZ */- 000 HTZ C F3 SEAUCH REGION — 2500 HTZ ♦/- 000 HTZ REAL FINC (7), FRSTF (3) , AR (64), FREQ

DATA NFINC, FINC /7, UQO., 200., 100., 50., 25. _m C 12.5, 6.25/

DATA FRSTF /500., 1500., 2500./, AR /64*0./ C

INTEGER INCST(3) .' DATA INCST /2, 1. 1/ C C EXCLUSIVE OR FUNCTION

IEOR (A, B) = XOR (INT (SIGN (1 .0,A) ) ,INT(SIGN(I .0,B) )) C C

C COMPUTE CORRECTED VOCAL TRACT LENGTH FACTOR DXF = ALENF*(14.05 ♦ 1.35*(Y - X))/17.0 i

P1 = 0 DX = SECT

DXCSQ = (39.4784176 * DX * DX) / (C ♦ C)

C COMPUTE AREA RATIOS DO 10 1=2,NSEC

10 AR(I) = A (1-1)/A (I) C C LOOP FOR 1ST THREE RESONANCES

809822/088*

	DO 100	NF=1,3
	DFREQ	= 0.0
	FREQU	= 0.0
	FREQL	= 0.0
	FREQ =	FRSTF (NF)
	IST =■	IKCST (NF)
C
C	BINARY	SEARCH LC

DO 90 I=IST,NFINC · FKEQ = FREQ ♦ DFREQ ' - FDXCSQ - 1.0 - FREQ*FREQ*DXCSQ

PO a 1.0

P1 » FDXCSQ

NZX = 0 .

DFREQ - 0.0 C C ITERATE WEBSTER BORN EQUATION THROUGH VOCAL TRACT DO 80 J=2,NSEC TP = AR(J)*(P1 - PO) PO « PI

P.I β FDXCSQ*P1 ♦ TP C C INCREMENT COUNTER IF HE HAVE PASSED A PRESSURE NODE

IF (IEOR (P1,P0)) 20,80,80 NZX = NZX ♦I IF (NZX - NF) 80,30,30

• 609822/08$*

DFHEQ = -FINC(I) CONTINUE

C «φ**««*««*«** END WEBSTER HORN EQUATION ITERATION LOOP C

IF (DFREQ) 0'», 86, 8<l P1H = PI

FREQiI = FREQ GO TO 90 C

DFREQ = FINC(I) PIL = P1 FREQL = FREQ CONTINUE

_c **»**««««*****««**** END BINARY SEARCH LOOP

IF (1ST - NFINC) 91, 95, CONTINUE IF (FREQH) 93, 93, IF (FREQL) 93, 93, 9H CONTINUE

C IMPLICIT CONSTRAINTS ON FORi-IANT FREQUENCY ERR = ERR ♦ P1*P1*1OO.O GO TO 99

C LINEARLY INTERPOLATE NEW FREQ. AND REITERATE 91» 1ST = NFINC _Λ _ _Λ

809822/0864

FREQ = FIiEQL DF2 = FREQU - FREQL

Pll - PIH PL - PIL

DFREQ = (DF2*PL)/(PL - PH)

DF1 - DFREQ

GO TO 15 C C PARABOLIC INTERPOLATION FOR FINAL FREQ. VALUE

1ST = 1ST ♦ 1 "

X3MX1 * Hi - PI X2MX1 = PL - Pi P1SQ = P1*P1

DX2SQ ~ (PL*PL - PiSQ) C

ACOF = (X3MX1*DF1 - X2MX1*(DF1 - DF2)) / C (X2MX1*(PH*PH - PISQ) - X3MX1*DX2SQ)

BCOF = -DF1 - AC0F*DX2SQ DFREQ = -ACOF^PISQ - BOOF*P1/X2MX1 IF (ABS(DFREQ) .GT. DF2) GO TO

FREQ = FREQ ♦ DFREQ C

CONTINUE

CONTINUE P(NP) β FREQ CONTINUE

_C ******************** EH₀ RESONANCE FREQUENCY LOOP

809822/0864

F(1) = 0.5* ((F(IJ ♦ 100.OJ «·

e SQRT ((F(IJ - 100.0J**2 ♦ 4E0JJ/DXF

P(2) = F(2J/DXF F(3) = (F (3J - 200. OJ/DXF RETURN END

809822/0864

SUBROUTINE ilCLIMB (X)

BEAL X(IO) , OG (10), OX(IO), G(IO) C C FUNCTION FUNIMIZATION SUBROUTINE

C X- VECTOR

C FUKC - FUNC TO BE MINIMIZED C MMI - ITERATION LIMIT (COMMON /CLMDAT/) C EP - MINIMUM ACCEPTABLE ERROR (COMMON /CLMDAT/) C OGI - INITIAL STEP SIZE (COMMON /CLMDAT/) C ILB - LOWER BOUND OF X (COMMON /CLMDAT/) C IUB - UPPER BOUND OF X (COMMON /CLIlDAT/)

COMMON /CLMDAT/ LIM1, EP, DGI, ILB, IUB, ITI, IT2 C C

C INXTIALLIZE STEP, GRADIENT VECTOR, AND PREVIOUS C X VECTOR

IXSS « DGI .

DO 10 1=1,10

OX(I) = X(I) - DGS 10 G(I) = 0.0

ITI

809822/0864

SO .C

COK¹TINUE

FX = FUNC(X) C C QUIT IF MINIMUM FOUND

IF (ABS(FX) .LT. EP) GO TO C C QUIT IF STEP TO SMALL (WE ARE CREEPING)

IF (ABS(DGS) .LT. IE-I) ITI = IT1 ♦ 2000 C C INCREMENT AND QUIT IF ITERATION LIMIT EXCEEDED

ITI = IT1 «· 1 ·

IF (IT1 - LIM1) 250, 250, C C COMPUTE GRADIENT GMAG =0 C DO 290 I=ILB,IUB OG(I) = G(I) SXI = X(I) DG = (X(I) - OX(I))/16.0

IF (ABS(DG) .LT. 1E-5) DG = 1E-5 C . ■

X(I) = SXI ♦ DG

FXP = FUNC (X) t

80.9822/0864

DFX = FX - FXP •C G(I) = DFX/DG GMAG = GIAAG ♦ G(I)*G(I) X(I) = SXI

OX(I) = SXI CONTINUE C C QUIT IF MAGNITUDE OF GRADIENT IS ZERO IF (GMAG) 295, 295, ITI = ITi «· 1000

GO TO C C NORMALIZE AND MODIFy GRADIENT GMAG = SQRT (GMAG) DO 310 I=ILB,IUB G(I) = 0.8*G(I)/GMAG + 0.2*OG(I) C

C STEP IN DIRECTION OF MODIFIED GRADIENT IT2 =0 DG = DGS/»J. DGS - FXP = FX

DO 320 I=ILB,IUB X(I) = X(I) ♦ G(I)* DG

809822/0864

	320	CONTIl	iUE	•
C				♦ 1
C
	000	IT2 =	IT2
		DG3 =	DG2	♦ DG
		PG2 =	DGS
		DGS =	DGS
		FX3 =	FX2	(X)
		FX2 =	FXP
		FXP =	FUNC	DID FUNCTION Il
C
C

DFX -FK- FXP IF (DFX) I»«0, 42 0_# U20 C

C FUNCTION HAS DECREASED. DOUBLE STEP SIZE 420 DG = DG ♦ DG FX = FXP GO TO C C FUNCTION HAS INCREASED. R\CKUP IF 1ST POINT, C INTERPOLATE IF NOT

440 IF (IT2 - 2) 445, 480, 445 DG * (-DG*5.0)/4.0 * C C TAKE A STEP

809822/0864

• ·

DO 160 I=ILD,IUD X(I) = G (I) «DG ♦ X(I) '

GO TO 400
C

C PARABOLIC INTERPOLATION X3MX1 = DG3 - DGS X2MX1 = DG2 - DGS Y2MY1 = FX2 - FXP X1SQ = DGS*DGS X2H1SQ = DG2*DG2 - X1SQ C

ACOF = (X2MX1«(FX3 - FXP) - X3MX1*Y2MY1)/ S (X2MX1*(DG3*DG3 - X1SQ) - X3MX1*X2M1SQ) BCOF = (Y2MY1 - ACOF*X2M1SQ)/X2MX1 POG s BCOF/(2«ACOF) ♦ DGS

IX) 485 I=ILB,IUB ·

X(I) = X(I) - G(I) *PDG

DGS β DGS - PDG

GO TO 100
C "

CONTINUE

RETURN

EHD

S0M22/0M4 I

Claims

BLUMBACH · WESER . BERGEN · KRAMER

PATENTANWÄLTE IN MÜNCHEN UMD WIESBADEN

Petemconsull RadeckestraBe 43 8000 München 60 Telefon (089) 883403/883604 Telex 05-212313 Telegramme Palenlconsult Patentconsull Sonnenberger Straße 43 6200 Wiesbaden Telefon (06121)562943/561998 Telex 04-186237 Telegramme Patentconsull

WESTERN ELECTRIC COMPANY Hafer, E.H. 1

Incorporated

NEW YORK, N.Y. 10038 USA

PATENTANSPRUCH

Verfahren zur Erkennung von Sprache durch Entwickeln von

Kennwerten, die die zu erkennenden Sprachlaute darstellen, und Vergleichen

der Kennwerte mit vorbestimmten, bekannte Sprachlaute darstellenden

Kennwerten,

gekennzeichnet durch

Identifizieren der Formanten in den zu erkennenden Sprach lauten; Umwandeln der identifizierten Formanten in Zungenpositions- und -bewegungskennwerte entsprechend einem Stimmtraktmodell; Vergleichen der Zungenpositions- und -bewegungskennwerte mit vorbestimmten Zungenkennwerten dieser Art, die bekannte Sprach lau te darstellen.

München: R. Kramer Dipl.-Ing. . W. Weser Dipl.-Phys. Dr. rer. nat.. P. Hirsch Dipl.-Ing. . H. P. Brehm Dipl.-Chem. Or. phil. nat. Wiesbaden: P. G. Blumbach Dipl.-Ing. · P. Bergen Dipl.-Ing. Dr. jur.. 6. Zwirner Dipl.-Ing. Dipl.-W. Ing.

809822/0184