DE2752607A1 - Verfahren zur erkennung von sprache - Google Patents

Verfahren zur erkennung von sprache

Info

Publication number
DE2752607A1
DE2752607A1 DE19772752607 DE2752607A DE2752607A1 DE 2752607 A1 DE2752607 A1 DE 2752607A1 DE 19772752607 DE19772752607 DE 19772752607 DE 2752607 A DE2752607 A DE 2752607A DE 2752607 A1 DE2752607 A1 DE 2752607A1
Authority
DE
Germany
Prior art keywords
dipl
tongue body
speech
tongue
ing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19772752607
Other languages
English (en)
Inventor
Edward Henry Hafer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of DE2752607A1 publication Critical patent/DE2752607A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Description

BLUMBACH . WE3ER · BERGEN · KRAMER
PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN
Patentconsult RadeckestraOe 43 8000 München 60 Telelon (089) 883603/883604 Telex 05-212313 Telegramme Patentconsult Palentconsull Sonnenberger Straße 43 4200 Wiesbaden Telefon (06121) 562943/561998 Telex 04-186 237 Telegramme Patöntconsult
WESTERN ELECTRIC COMPANY Hafer, E.H. 1
Incorporated
NEW YORK N.Y. 10038 USA
Verfahren zur Erkennung von Sprache
Die Erfindung betrifft ein Verfahren zur Erkennung von Sprache durch Entwickeln von Kennwerten, die die zu erkennenden Sprachlaute darstellen, und Vergleichen der Kennwerte mit vorbestimmten, bekannte Sprachlaute darstellenden Kennwerten.
Ein Haupthindernis für Fortschritte auf dem Gebiet der automatischen Spracherkennung ist die große Variationsbreite von Sprechchrakteristiken beim Menschen, insbesondere zwischen Männern, Frauen und Kindern. Zur Überwindung dieses Hindernisses wurden Systeme entwickelt, die bei jedem Sprecher funktionieren, die aber nur ein begrenztes Vokabular erkennen.
Ein solches System,wurde beschrieben von T.R.Martin in einer Arbeit "Acoustic Recognition of a Limited Vocabulary in Continuous Speech",
München: R. Ktamer Dipl.-lng. · W. Weser Dipl.-Phys. Dr. rer. nat. · P. Hirsch Dipl.-lng. . H. P. Brehm Dipl.-Chem. Or. phil. nal. Wiesbaden: P. G. Blumbach Dipl.-lng . P. Bergen Dipl.-lng. Dr. jur. · G. Zwirner Dipl.-lng. Dipl.-W.-lng.
809822/0864
University of Pennsylvania, Ph. D. Thesis, 1970. Diese Arbeit ist erhältlich bei University Microfilms Ltd., High Wepcomb, England, und bei University Microfilms, Ann Arbor, Michigan, U.S.A. Dieses von Martin beschriebene System erkennt ein begrenztes Vokabular durch Gewinnen bestimmter Kennwerte oder Merkmale aus dem Sprachsignal und Vergleichen der abgeleiteten Folge von Kennwerten mit einer vorgewählten Gruppe von Kenntwertfolgen, die das zu erkennende Vokabular darstellen. Die gewählten Kennwerte sind charakteristisch fUr die elementaren Laute der Sprache.
Auf dem Gebiet des physiologischen Studiums von Sprache wurde festgestellt, daß die Zungenbahnen unterschiedlicher Sprecher, die das gleiche ausdrucken, sehr ähnlich sind. Das gilt insbesondere mit Bezug auf die Vielposition bei der Zungenbewegung.
Durch Bestimmung der Zungenposition, beispielsweise mit Hilfe eines auf der Zungenspitze eines Sprechers angebrachten, strahlenden Elementes ist es also möglich, und zwar insbesondere in Kombination mit Systemen der von Martin entwickelten Art, gesprochene Worte automatisch ,d.h. mit Hilfe einer Maschine zu erkennen.
• ■
Schwierigkeiten mit solchen kombinierten Systemen und insbesondere in
Verbindung mit den bisher bekannten Hilfsmitteln zur Bestimmung der
809822/086/.
27526Ü7
Zungenposition des Sprechers (mit einem Mittel, das direkt auf der Zunge des Sprechers befestigt ist) bestehen darin, daß solche Systeme kompliziert und unpraktisch sind.
Die Erfindung will diese Schwierigkeiten im wesentlichen Überwinden. Sie geht dazu aus von einem Verfahren der eingangs genannten Art und ist gekennzeichnet durch Identifizieren der Formanten in den zu erkennenden Sprachlauten; Umwandeln der identifizierten Formanten in Zungenpositions- und -Bewegungskennwerte entsprechend einem Stimmtraktmode IV, Vergleichen der Zungenpositions- und-Bewegungskennwerte mit vorbestimmten Zungenkennwerten dieser Art, die bekannte Sprachlaute darstellen.
Generell wird mit der vorliegenden Erfindung verbundene Sprache eines begrenzten Vokabulars, beispielsweise die zehn Ziffern dadurch erkennt, daß aus dem Signal eines gesprochenen Ausdrucks eine Anzahl von Kennwerten einschließlich eines Kennwertes fUr die Zungenkörperbahn abgeleitet wird und daraus die gesprochenen Wörter entziffert werden. Genauer gesagt, wird das Sprachsignai zur Erzeugung einer Anzahl von Kennwerten ähnlich den in der Vergangenheit benutzten Kennwerten zuzUglich eines neuen Kennwertes analysiert, der die Zungenposition und -Bewegung des Sprechers kennzeichnet. Die Ableitung der Zungenposition wird erreicht durch
809822/0884
Bestimmen der Formantfrequenzen der Sprache und Verwendung eines bekannten menschlichen Stimmtraktmodells, um diejenige Zungenposition aufzufinden, die am besten mit den berechneten Formanten Übereinstimmt. Nach Gewinnung der Sprach ke nnwer te wird die Folge von Kennwerten mit den Kennwertfolgen gewählter Wörter verglichen und aus dem Vergleich werden dann die gesprochenen Wörter erkannt.
Nachfolgend wird die Erfindung anhand der Zeichnungen genauer beschrieben. Es zeigen:
Fig. 1 einen Querschnitt des Mundraumes mit einem
χ-y-Koordinatensystem;
Fig. 2 die Zungenkörperbahn für die englischen Ziffern
"eight", "two", "one" und "five" indem Koordinatensystem gemäß Fig. 1;
Fig. 3 ein unterteiltes x-y-Koordinatensystem zur Einordnung
von Zungenkörperpositionen in Bereiche, die charakteristisch für vokalähnliche Laute sind;
Fig. 4 das Blockschaltbild eines Ausfuhrungsbeispiels
der Erfindung;
809822/0004
Fig. 5 das Zustandsdiagramm der Aufnahmeeinrichtung 300
in Fig. 4 beim Sprechen des englischen Ausdrucks " two eight";
Fig. 6 das Blockschaltbild des in der Aufnahmeeinrichtung
300 erforderlichen Speichers;
Fig. 7 das Blockschaltbild einer Vorrichtung zur Verwirklichung
des Zustandsdiagramms gemäß Fig. 5.
In Fig. 1 ist im Querschnitt eine Mundhöhle mit einem überlagerten x-y-Achsensystem dargestellt. D ie Achsen x, / nachfolgender Figuren beziehen sich auf die Achsen x, y in Fig. 1.
Ein Studium der Zungenkörperbewegungen zeigt, daß unabhängig davon, ob der Sprecher ein Mann, eine Frau oder ein Kind ist, der Zungenkörper im großen und ganzen die gleiche Bahn durchläuft , wenn eine bestimmte Ziffer zwischen 0 und 9 gesprochen wird. Fig. 2 gibt Beispiele solcher Zungenkörperbahnen für bestimmte englische Ziffern, aus denen sich das \ folgende ableiten läßt. Die Kurve 10 für die Ziffer "eight" ist dadurch gekennzeichnet, daß sich der Zungenkörper in allgemeiner Richtung nach vorne und oben bewegt und dabei in der Mitte des oberen vorderen Quadranten
809822/0864
27526U7 7
in der Mundhöhle startet. Die Kurve 20 für die Ziffer "two" ist dadurch gekennzeichnet, daß der Zungenkörper in der Mitte oben der Mundhöhle startet, sich horizontal nach hinten bewegt und darm im hinteren Teil des Mundes nach unten fällt. Die Kurve 30 für die Ziffer "one" ist dadurch gekennzeichnet, daß sich der Zungenkörper im hinteren Teil des Mundes im wesentlichen nach unten bewegt und dann seine Richtung umkehrt und nach oben geht. Schließlich ist die Kurve 40 für die Ziffer"five" dadurch gekennzeichnet, daß sich der Zungenkörper im hinteren unteren Quadranten der Mundhöhle nach unten bewegt und dort eine Bewegung nach vorne und oben in Richtung auf die Mitte der Mundhöhle ausfuhrt.
Aus den obigen Bahnbeschreibungen läßt sich erkennen, daß die besonderen ZungenkOrperbahnen für verschiedene gesprochene Ziffern bei Verwendung zusätzlich zu anderen Kennwerten der Sprache die Erkennung gesprochener Ziffern wesentlich verbessern kann. Demgemäß wird mit dem erfindungsgemäßen Lösungsvorschlag für die Spracherkennung die Zungenkörperbahn eines Sprechers als Merkmal oder Kennwert des Spracherkennungssystems zusammen mit einem Ruhekennwert, einem Burst- oder einem Stop-Konsonantenkennwert und einem Rausch- oder rauschähnlichen Reibelaut-Kennwert (einen für stimmhafte und einen für stimmlose Reibelaute).
Für den Zungenkörperbahn-Kennwert wurde gefunden, daß in einer Anlage
8Ο9822/Ο0Θ4
27526Ü7
zur Erkennung von Ziffern die genaue ZungenkörperposiHon und -bahn für die richtige Kennzeichnung des Zungenkörperbahn-Kennwertes oder -zeichens nicht erforderlich ist. Ein Zeichen (token) ist in Verbindung mit der vorliegenden Erfindung das Signal, das den Kennwert darstellt. Stattdessen muß nur der generelle Bereich, in dem sich der Zungenkörper befindet, und seine allgemeine Bewegungsrichtung bekannt sein. Demgemäß werden bei dem Zungenkörperbahn-Zeichen in dem hier beschriebenen Ausführungsbeispiel nur bestimmte Bereiche der Mundhöhle unterschieden. Fig. 3 zeigt die verschiedenen Bereiche, die in einem System zur Feststellung gesprochener Ziffern als zweckmäßig gefunden wurden, wobei jeder Bereich die Wahrscheinlichkeit angibt, daß die Vokale einer bestimmten Ziffer gesprochen worden sind. Beispielsweise gibt ein Zungenkörper in dem mit einer 8 in einem Kreis markierten Bereich an, daß der Anfangsvokal laut der Ziffer "eight" mit großer Wahrscheinlichkeit gesprochen worden ist.
Zur Erzeugung des Zeichens für die Zungenkörperbahn muß die Position und Bewegungsrichtung des Zungenkörpers festgestellt werden. Die Bewegungsrichtung wird durch einen Vergleich aufeinander folgender Zungenkörperpositionen gewonnen. Die Zungenkröperpositionen gewinnt man durch Extrahieren der Formanrfrequenzen für die analysierte Sprache und durch Transformieren der berechneten Formantfrequenzen in Zungenkörper-
809822/0864
27526U7
Positionen mit Hilfe des Coker-Stimmtraktmodells. Unter "Stimmtraktmodell" wird ein physikalisches Modell des Stimmtraktes verstanden, das auf steuerbare Weise geändert werden kann, um eine Anzahl von Signalformantgruppen zu erzeugen, die charakteristisch fUr die menschliche Sprache sind. Im einzelnen erzeugen für jede Stimmtraktlänge und Zungenposition solche Modelle eine Gruppe von Formanten, die den Klang kennzeichnen, der von einem menschlichen Sprecher erzeugt würde. Ein solches Modell wird von CH. Coker in einem Aufsatz "A Model of Articulator/ Dynamics and Control", Proceedings of the IEEE, Band 64, Nr. 4, 1967, sowie das US-Patent 3 530 248 (22. Sept. 1970). Die Verwendung beispielsweise des Coker-Modells wird nachfolgend genauer in Verbindung mit der zur praktischen Durchfuhrung der Erfindung verwendeten Einrichtung erläutert.
Das Blockschaltbild einer Einrichtung zur Erkennung gesprochener Ziffern nach den Grundgedanken der Erfindung ist in Fig. 4 gezeigt. Ein ankommendes, zu analysierendes und zu erkennendes Sprachsignal wird an ein Tiefpassfilter 210 Üblicher Ausbildung mit einem Durchlaßbereich von 4 kHz angelegt. Dem Filter 210 folgt ein Abtaster und Analog-Digitalwandler 220, der das zugeführte Signal abtastet, in ein Digitalformat umwandelt und das umgewandelte Signal in Zeitabschnitten, die Rahmen genannt werden, zur weiteren Verarbeitung abgibt. Der Ana log-Digital -wandler 220 wird durch eine Steuereinrichtung 200 gesteuert, die dem
609822/0864
ΛΟ
Wandler 220 einen entsprechenden Abtastakt (beispielsweise 10 kHz) sowie weitere Signale liefert, die der jeweils gewählte Analog-Digitalwandler benötigt. Es lassen sich beliebige Wandler aus einer Anzahl von kommerziell verfügbaren Analog-Digitalwandlern benutzen, beispielsweise das Modell 4130 der Firma Teledyne Philbrick, Incorporated.
Dem Analog-Digita!wandler 220 folgt ein Kennwert-Extraktor 230, der einen Ruhedetektor 240, einen Burst-Detektor 250, einen Reibelaut-Detektor 260 und einen Formant-Prozessor 270 enthält.
Der Ruhedetektor 240 stellt, wie sein Name sagt, Ruhepausen im geprüften Rahmen fest. Der Ruhedetektor 240 läßt sich dadurch verwirklichen, daß das geprüfte Signal gleichgerichtet und integriert wird, und zwar im wesentlichen ähnlich wie ein normaler Empfänger ankommende Signale gleichrichtet ■jnd integriert, und das integrierte Signal mit einem festen Schwellenwert verglichen wird. Alternativ kann ein Sprachdetektor verwendet werden, um das NichtVorhandensein von Sprache festzustellen, beispielsweise das Bauteil 24 in der US-Patentschrift 3 723 667 (Park et al., 27. März 1973). In Verbindung mit der vorliegenden Erfindung wird, wenn eine Ruhepause festgestellt wird, ein Ruhe-Zeichen erzeugt und an eine Aufnahmeeinrichtung gegeben. Dabei handelt es sich um eine Ja-Nein-Entscheidung. Das Ruhe-Zeichen ist ein Signal mit einem vorbestimmten Format, beispieIs-
809822/0864
weise ein 3-Bit-Binärwort mit dem Wert 1_(OO1).
Ein Burst, der zwischen gewissen Laut-zu-Laut-übergängen auftritt, ist durch ein verhältnismäßig plötzliches Ansteigen der Energie innerhalb des Sprachspektrums gekennzeichnet. Daher ist zur Feststellung eines Burst ein Maß fUr die Geschwindigkeit des Energieanstiegs im Sprachband erforderlich. Dies wird im Burst-Detektor 250 dadurch erreicht, daß das 4-kHz-Band in eine Vielzahl von benachbarten Unterbändern unterteilt und jeweils die Energie in den Unterbändern richtig gemessen wird. Die Messung der Energie erfolgt durch Gleichrichten und Integrieren der Energie in jedem Unterband, Begrenzen der Energie in jedem Unterband auf einen vorgegebenen Wert und durch Summieren und Differenzieren der Ausgangssignale begrenzter Energie für die Unterbänder. Wegen des Begrenzungsverfahrens kann ein großer Anstieg fUr die Energie eines Unterbandes zu keinem großen differenzierten Summensignal fuhren, während ein plötzlicher, mäßiger Anstieg Über das 4-kHz-Band ein großes differenziertes Summensignal erzeugen kann. Das differenzierte Summensignal läßt sich also auf bequeme Weise zur Anzeige der Energieanstiegsgeschwindigkeit im 4-kHz-Gesamtband verwenden.
Die praktische Verwirklichung des Burst-Detektors 250 erfolgt auf konventionelle Weise, da die dort ausgeführten Verarbeitungsoperationen
809822/0884
bekannt und übersichtlich sind. Beispielsweise kann der Detektor eine Gruppe von benachbarten Bandpaßfiltern, die auf das Sprachsignal ansprechen, einen Gleichrichter, einen an einen Schwellenwertbegrenzer am Ausgang jedes Bandpaßfilters angeschalteten Integrator sowie einen Addierer enthalten, dem ein Differentiator folgt, der auf jeden der Schwellenwertbegrenzer anspricht. Legt man das Ausgangssignal des Differentiators an eine weitere Schwellenwertschaltung an, so ergibt sich ein binäres Ausgangssignal, das das Vorhandensein oder Nichtvorhandensein eines Burst darstellt. Bei Auftreten eines Burst wird dann ein Burst-Zeichen erzeugt.
Wie bei dem Ruhezeichen wird das Burst-Zeichen an die Aufnahmeeinrichtung 300 gegeben. Das Burst-Zeichen kann das gleiche Format wie das Ruhezeichen haben, beispielsweise ein 3-Bit-Binärwort, hat aber einen anderen Wert als das Ruhezeichen, beispielsweise 2_ (ΟΙΟ). Verschiedene Auslegungen von Schaltungen zur VeiwirMichung des Detektors 250 finden sich in dem Buch von Millman und Taub "Pulse Digital and Switching Waveforms", McGraw-Hill 1965.
Der Reibelautdetektor 260 erzeugt ein Zeichen immer dann, wenn der analysierte Rah'men einen stimmhaften rauschähnlichen Konsonanten enthält, beispielsweise die Laute, die beim Sprechen der englischen
N09822/0864
yt
Buchstaben ζ und ν erzeugt werden, oder einen stimmlosen rauschähnlichen Konsonanten, beispielsweise in englischen Buchstaben s, f, t, k. Stimmlose rauschähnliche Konsonanten sind durch eine Konzentration rauschähnlicher Energie bei hohen Frequenzen gekennzeichnet, während stimmhafte rauschähnliche Konsonanten eine kräftige Energiekomponente bei niedrigen Frequenzen haben, beispielsweise bei etwa 500 Hz. In der oben genannten Doktorarbeit von T.H. Martin werden Schaltungsanordnungen zur Erkennung des Auftretens stimmhafter und stimmloser rauschähnlicher Konsonanten beschrieben. Diese Schaltungsanordnungen lassen sich zweckmäßig bei der praktischen Verwirklichung der vorliegenden Erfindung verwenden. Sie müssen dann unter Anwendung üblicher Verfahren so abgeändert werden, daß sie ein Ausgangssignal in einem binären Mehrbitformat liefern, ähnlich dem Format des Burst-Zeichens. Beispielsweise kann das an die Aufnahmeeinrichtung 300 gegebene Reibelaut-Zeichen den Wert Z^ (011) und A~ (100) haben, wenn ein stimmhafter bzw. stimmloser Reibelaut angegeben wird. Im vorliegenden Fall haben die Ruhe-, Burst- und Reibelaut-Zeichen alle ein 3-Bit-Format, ihre Werte sind jedoch verschieden. Die von den Bauteilen 240, 250 und 260 ausgehenden Sammelleitungen mit 3 Bits können daher zu einer einzigen Sammelleitung mit 3 Bits zusammengefaßt werden. Natürlich sind auch andere Signalformate möglich.
809822/0864
27526Ü7
Der Formantprozessor 270 analysiert die Rahmensignale und gewinnt daraus Formantfrequenzen. Dieses sind betonte Einzelfrequenzkomponenten im Sprachspektrum, die besonders ausgeprägt dann vorhanden sind, wenn Vokale gesprochen werden. Die Formantgewinnung ist zwar keine einfache Aufgabe, sie ist aber grundlegend für die Sprachanalyse und -synthese und daher in der Literatur umfangreich beschrieben. Zweckmäßige Verfahren und Vorrichtungen zur Verwirklichung des Formantprozessors 270 sind u.a. in den folgenden Literaturstellen angegeben:
1 . B.S. Atal und S.L. Hanauer "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave", JASA, Band 50, 1971, Seiten 637-655;
2. US-Patent 3 624 302 (30. November 1971);
3. S.S.McCandless "An Algorithm for Automatic Formant Extraction Using Linear Prediction Spectra", IEEE Transactions on Acoustic Speech and Signal Processing, Band ASSP 22, Nr. 2, April 1974, Seiten 135-141;
4. J.D. Markel "Digital Inverse Filtering - A New Tool for Formant Trajectory Estimation", IEEE Transactions Audio Electric
809822/086Λ
27526U7 κ
Acoustics, Band Au-2, 1971, Seiten 129-137;
5. B. Gold und L.R. Rabiner "Parallel Processing Techniques for Estimating Pitch Periods of Speech in the Time Domain", JASA, Band 46, 1969;
6. US-Patent 3 649 765 (14. März 1972);
7. L.R. Rabiner et al "A Hardware Realization of a Digital Formant Synthesizer", IEEE Trans. Comm. Tech., Band COM-19, November 1971, Seiten 1016-1020.
Nach Gewinnung der Formantfrequenzen, beispielsweise unter Verwendung der Einrichtungen, die von Rabiner et al in der oben angegebenen Veröffentlichung 7) beschrieben worden ist, wandelt ein Transformationsprozessor 280 dfe gewonnenen Formantfrequenzen in Zungenkörperpositionen um, und aus aufeinanderfolgenden Zungenkörperpositionen erzeugt der Prozessor 280 dann die Zungenkörperbahn-Zeichen. Der Formantprozessor 270 gibt ein Signal an den Transformationsprozessor 280, das die drei Formanten mit den niedrigsten Frequenzen darstellt, die im Sprachsignal aufgefunden worden sind. Diese drei Formanten werden vorzugsweise gleichzeitig parallel abgegeben und bilden ein einzelnes nebeneinander-
809822/0864
27526Ü7
liegendes Feld.Wenn jeder Formant also durch einen Code oder ein Feld mit 8 Bits definiert wird, so ist das beieinanderliegende Ausgangsfeld des Prozessors 270 ein Feld mit 24 Bits. Das Ausgangssignal des Prozessors 280 ist ein paralleles Binärfeld, das das Zungenkörperpositions-Zeichen darstellt. Im einzelnen wird der Mundhöhlenbereich entsprechend der Definition in Fig. 3 sowie die Bewegungsrichtung des Zungenkörpers angegeben.
Wie oben erläutert, erfolgt die Erzeugung der Zungenkörperposition und der Zungenkörperbahn entsprechend dem Coker-Stimmtraktmodell. Bei Coker werden die Formanten erzeugt, die sich aus jeder Zungenkörperposition ergeben. Hier wird das Coker-Modell umgekehrt benutzt, um eine Zungenkörperposition aus einer Gruppe mit den drei niedrigsten Formantfrequenzen zu erzeugen.
Eine vereinfachte Erläuterung des Coker-Modells und dessen Verwendung zur Erzeugung einer Zungenkörperposition entsprecherdeiner Gruppe von angegebenen Formanten findet sich in einer Master-Dissertation von E.H. Hafer "Speech Analysis by Articulatory Synthesis", Northwestern University Computer Sciences Department; Evanston, Illinois, Juni 1974. Diese Dissertation steht zur Einsicht und Kopie in der Bücherei der Northwestern University zur Verfügung. Die Seiten 10-18 der genannten Dissertation
809822/0864
27526Ü7
Wr
und die Anhänge 1 -4 sind von besonderem Interesse. Der Text erläutert das Modell und das Verfahren zur Ableitung der geeigneten Formanten aus dem Modell. In den Anhängen 2-4 werden die FORTRAN-Programme angegeben, die in Verbindung mit einem Allzweckrechner zur Erzeugung der gewünschten Informationen benutzt werden können. Da der Prozessor 280 durch einen Allzweckrechner unter Verwendung der in den vorgenannten Anhängen offenbarten Programme gebildet sein kann, wird die genannte Dissertation von E.H. Hafer zum Bestandteil der vorliegenden Offenbarung gemacht. Da außerdem die benutzten Programme fUr die Erstellung der unten beschriebenen Festwertspeicher (ROM)-NachschlagetabeIlen zweckmäßig sind, werden die Programme in einem Anhang zur vorliegenden Beschreibung aufgeführt, um die praktische Verwirklichung der Erfindung zu erleichtern.
Das Modell und seine Verwendung seien kurz zusammengefaßt. Das Stimmtraktmodell ist eine parametrische Darstellung einer sagittalen Mittelebene des menschlichen Stimmapparates. In dem Modell werden sechs Parameter benutzt, um die Position von drei Artikulatoren (Zungenkörper, Zungenspitze und Lippen) anzugeben. Diese Artikulatoren bestimmen den Querschnittsbereich entlang des Traktes. Die Stimmtraktbereichsfunktion wird durch 36, in gleichem Abstand angeordnete Querschnitte angenähert,
809822/0864
die in Ebenen senkrecht zur Mittellinie der Mundhöhle definiert sind. Wie Fig. 1 zeigt, ändert sich der Querschnittsbereich der Mundhöhle mit der Position des Zungenkörpers. Daher kann durch eine Bestimmung des Mundhöhlen-Querschnittsbereiches aus Formantfrequenzen die Zungenkörperposition festgestellt werden. Wenn ein AlIzweckrechner als bevorzugtes Ausfuhrungsbeispiel für den Prozessor 280 benutzt wird, so können die Programme im Anhang zur Bestimmung der Zungenkörperposition eines Sprechers verwendet werden. Die Programme funktionieren auf interaktive Weise. Zunächst wird angenommen, daß der Zungenkörper eine vorgewählte Lage hat, und es wird eine Gruppe von Formanten abgeleitet, die charakteristisch für diese Lage sind. Die angenommene Lage ist die letzte bekannte Position des Zungenkörpers. Die aus der angenommenen Lage des Zungenkörpers abgeleitete Gruppe von Formanten wird mit den (im Prozessor erzeugten) zugeführten Formanten verglichen und eine Fehlerfunktion ausgewertet, um den Unterschied zwischen den abgeleiteten Formanten und den Formanten des Sprechers zu bestimmen. Diese Fehlerfunktion bestimmt die Änderungen, die für den Zustand des Stimmtraktmodells erforderlich sind, um den Wert der Fehlerfunktion zu verringern. Das Modell wird geändert, die Formanten werden berechnet und die Fehlerfunktion wird erneut ausgewertet. Wenn festgestellt ist, daß der Fehler genügend klein ist, so wird die Form des Stimmtraktmodells
809822/0884
analysiert, um eine als brauchbar festgestellte Annäherung der Zungenkörperposition für die meisten Vokale zu erhalten.
In denjenigen Fällen, in denen ein Allzweckrechner nicht die bevorzugte Lösungsmöglichkeit zur Verwirklichung des Transformationsprozessors 280 ist, kann eine andere Verwirklichung für die Zwecke der vorliegenden Erfindung dadurch geschaffen werden, daß mit Hilfe der Programme im Anhang die durch das Coker-Modell erzeugten Formantgruppen für alle Zungenkörperpositionen und interessierenden Stimmtraktlängen im voraus berechnet und die ausgewerteten Formanten in einer Nachschlagetabelle gespeichert werden. Als Nachschlagetabelle kann ein Festwertspeicher benutzt und so ausgelegt wenden, daß das Adressenfeld die Zungenkörperposition und von dem Modell benutzte Stimmtraktlänge angeben und der Inhalt jeder Speicherstelle die Formanten bedeutet, die von dem Modell aufgrund eines durch das Adressenfeld gekennzeichneten Modellzustandes erzeugt werden. Eine solche Nachschlagetabelle wird schrittweise benutzt, da die gewählten Zungenkörperpositionen und Stimmtraktlängen zugeordneten Formanten mit den vom Prozessor 270 abgeleiteten Formanten verglichen werden müssen.
Vorzugsweise wird eine Festwertspeicher-Nachschlagetabelle unter Verwendung von Formanten erzeugt, die die unabhängig Variable statt der abhängigen
809822/0864
Ü752607
Variablen darstellen. Das heißt, die drei von dem Modell abgeleiteten Formanten werden nebeneinander gelegt, so daß sie ein einziges Feld bilden,und dieses Feld dient als Adressenfeld für einen Speicher, dessen Speicherstellen die Zungenkörperpositionen und Stimmtraktlängen enthalten, welche den Formanten entsprechen, die die zugeordneten Adressen bilden. Bei einer solchen Nachschlagetabelle ist ein schrittweiser Betrieb nicht erforderlich.
Das Ausgangssignal des Transformationsprozessors 280 ist ein Zungenkörperbahn-Zeichen, das die Zungenkörperposition und ein Maß für die Zungenbewegung beinhaltet. Die Positionsinformation wird, wie beschrieben, aus der Nachschlagetabelle gewonnen. Die Bewegungsangabe wird durch Vergleichen der erhaltenen Position mit der vorhergehenden Position abgeleitet. Dies kann dadurch geschehen, daß die vorhergehenden x- und y-Koordinatenpositionen gespeichert und von den neu festgestellten x- und y-Koordinatenpositionen subtrahiert werden. Da nur 10 Bereiche zur Gewinnung einer ausreichenden Positionsangabe (mit Fig. 3) unterschieden werden müssen, kann das Format des Zungenkörper-Zeichens ein Binärwort mit 8 Bits sein, bei dem die ersten 4 Bits die Zungenposition, die nächsten 2 Bits die Bewegung in der x-Richtung und die letzten beiden Bits die Bewegung in der y-Richtung angeben.
809822/08Θ4
27526Ü7
Es sei das bevorzugte Ausfuhrungsbeispiel des Prozessors 280 entsprechend der Erläuterung zusammengefaßt. Man benutzt das Coker-Modell in Umkehrung zur Erzeugung einer Tabelle von ZungenkörperposiHonen, die am besten jeder Gruppe von 3 niedrigsten Formanten entsprechen. Die Tabelle wird am einfachsten unter Verwendung des in der Anlage angegebenen Programms erzeugt, da die Prinzipien des Coker-Modells in diesem Programm enthalten sind. Die Verwendung dieses Programms ist jedoch nicht zwingend. Außerdem können anstelle einer gespeicherten Nachschlagetabelle Mittel vorgesehen sein, um das Coker-Modell in Umkehrung auszuwerten. Bei dem hier beschriebenen Ausfuhrungsbeispiel wird eine Tabelle verwendet, da damit die einfachste Verwirklichung zu erreichen ist. Diese Tabelle ist dauernd in einem Festwertspeicher gespeichert. Der Festwertspeicher wird mittels eines einzelnen Feldes adressiert, das aus den drei nebeneinander liegenden Feldern zusammengesetzt ist, die die drei Formanten mit den niedrigsten Frequenzen definieren. Das Ausgangssignal des Prozessors 280 ist ein Feld mit 8 Bits, von denen die ersten vier Bits die Zungenposition, die nächsten zwei Bits die horizontale Zungenkörperbewegung und die letzten beiden Bits die vertikale Zungenkörperbewegung angeben.+
Das Ausgangssignal des Prozessors 280 wird ähnlich wie das Ausgangssignal der Bauteile 240, 250 und 260 zur Aufnahmee nrichtung 300
-I- Die Programme im Anhang stellen Beispiele für eine Möglichkeit zur
Verwirklichung der Erfindung dar, der Fachmann auf dem vorliegenden Gebiet ist aber auf der Grundlage der gegebenen Lehren in der Lage, andere Programme
"■**"· 809822/0864
gegeben. Die verschiedenen Sammelleitungen sind in Fig. 4 und 6 mit bezeichnet.
Wenn sicher wäre, daß nur gültigen Ziffern entsprechende Signale an das Worterkennungssystem nach der vorliegenden Erfindung gegeben würden, dann brauchte die Annahmeeinrichtung 300 keine sehr komplizierte Anordnung zu sein. Die Annahmeeinrichtung 300 hätte einen Anfangszustand, aus dem sie auf eine der Folgen von Zeichen abzweigen würde, die die gesprochene Ziffer darstellen. Wenn die Feststellung der Ziffer beendet ist, d.h. die vollständige Zeichenfolge angezeigt ist, würde die Annahmeienrichtung dann wieder in den Anfangszustand zurückgehen und für die Decodierung der nächsten Ziffer bereit sein. Leider muß aber die Annahmeeinrichtung 300 Wörter, Ausdrücke und Laute, die keine gültigen Ziffern sind, aufnehmen können, ohne außer Tätigkeit gebracht zu werden. Demgemäß muß die Annahmeeinrichtung 300 in der Lage sein, anzunehmen, daß jedes Zeichen der Beginn einer gültigen Ziffernfolge ist, und muß auf einen neuen Zeichenanfang zurückgehen können, wenn sie "hängengeblieben" ist. Die Notwendigkeit für das Zurückgehen läßt sich besser anhand des folgenden Beispiels verstehen, bei dem die Zeichenfolgen 110, 011, 101, 111, 110 und 011, 101, 111, 1-001 gültige Folgen sind und die Zeichenfolge 110, 011, 101, 111, 1001 angetroffen wird.
809822/0864
27526U7
Wenn die Annahmeeinrichtung 300 die Zeichen 110, 011, 101, 111 in der angetroffenen Zeichenfolge durchlauft, nimmt sie an, daß die Folge 110, 011, 101, 111, 110 festgestellt wird und folgt daher diesem Weg. Wenn das Zeichen 1001 erreicht wird, muß die Annahmeeinrichtung 300 in der Lage sein, festzustellen, daß die Folge 110, 011, 101, 111, 1001 keine gUltige Folge ist und muß daher auf einen neuen Folgenbeginn zurückgehen. Wenn demgemäß vom Zeichen 1001 auf das Zeichen 011 zurückgegangen wird (das erste Zeichen 110 weggelassen wird), so wird die Folge 011, 101, 111, 1001 von der Annahmeeinrichtung 300 als gültige Folge festgestellt.
Zur Durchfuhrung der erforderlichen Operationen ist die Annahmeeinrichtung 30OaIs sequentielle Schaltungsanordnung mit endlichen Zuständen konstruiert. Sie startet bei einem Anfangszustand und durchläuft eine Anzahl von Zustandsänderungen bis zu einem von 10 erfolgreichen Endzuständen (wobei jeweils eine der 10 Ziffern festgestellt wird). Sequentielle Schaltungsanordnungen, die manchmal auch Folgedetektoren genannt werden, sind bekannt. Der Aufbau solcher Schallungsanordnungen zur Realisierung vorgegebener Zustandsdiagramme ist beispielsweise beschrieben in P.E. Wood, Jr. "Switching Theory", McGraw-Hill Book Co., 1968, Abschnitt 5. Auf dem Sprachgebiet ist eine solche sequentielle Schaltungsanordnung
809822/086^
27526Ü7
in der oben angegebenen Doktor-Dissertation von Martin und außerdem Im US-Patent 3 700 815 (24. Oktober 1972) beschrieben. Jede Abweichung von einem brauchbaren Weg führt zurück zum Anfangszustand. Dies ist für die vorliegende Beschreibung durch das Zustandsdiagramm in Fig. 5 dargestellt, das die Zustandsübergänge beschreibt, die erforderlich sind, um den englischen Ausdruck "two eight" festzustellen. Das vollständige Zustandsdiagramm der Annahmeeinrichtung 300 hängt natürlich von der genauen Liste von Wörtern ab, die festgestellt werden sollen (Ziffern 0-9, Verbindungswörter beispielsweise "hundert" usw.). Das Zustandsdiagramm in Fig. 5 und die Schaltungen zur Verwirklichung gemäß Fig. 7 werden als repräsentativ aufgefaßt.
Der Zustand 1 der Annahmeienrichtung 300, der in Fig. 5 als Ziffer 1 in einem Kreis dargestellt ist, ist der Anfangszustand der Annahmeeinrichtung 300. Dies ist der Zustand, in den die Annahmeeinrichtung 300 immer dann eintritt, wenn eine Prüfung erfolgreich oder nicht erfolgreich beendet worden ist. Die Annahmeeinrichtung 300 bleibt im Zustand 1, bis ein Zeichen ankommt, das dem Anfang eines der erkennbaren Wörter, beispielsweise Ziffern, entspricht. Der Pfeil A in Fig. 5 stellt die Ausgangswege vom Zustand 1 in Richtung auf Ziffern dar, die nicht "two" und "eight11 sind.
809822/08Θ4
"as
Wenn die englische Ziffer "two" gesprochen wird, so fuhrt der Laut /t/ von "two" zu einem Burst-Zeichen, das die Annahmeeinrichtung 300 veranlaßt, auf den Zustand 2 zu gehen. Dies ist in Fig. 5 durch den Pfeil B (für Burst) angegeben, der vom Zustand 1 zum Zustand 2 fuhrt. Die Annahmeeinrichtung 300 bleibt im Zustand 2 , solange ein Burst-Zeichen zugeführt wird. Sie verläßt aber den Zustand 2 über den mit einem
gekennzeichneten Pfeil immer dann, wenn ein Zeichen ankommt, das nicht mit der Fortsetzung für die Aussprache von "two" Übereinstimmt. Ein mit einem bezeichneter Ausgang gibt die Rückkehr auf den Zustand nach Art einer rückwärts verfolgenden Arbeitsweise an. Wenn tatsächlich die Ziffer "two" gesprochen wird, so folgt dem Burst /t/ ein Vokalabschnitt. Der Anfiangsteii des Vokalabschnittes führt zu einer Zungenkörperposition im 2. Bereich in Fig. 3. Demgemäß geht bei einem Zeichen, das eine Zungenkörperposition im Bereich 2 angibt (p = 2) , die Annahmeeinrichtung 300 auf den Zustand 3, wie in Fig. 5 gezeigt. Sie bleibt im Zustand 3, bis der Zungenkörper in den Bereich 6 eintritt und sich in positiver x-Richtung zu beweget beginnt. In diesem Fall wird die Ziffer 2 erkannt, wie in Fig. 5 durch den Pfeil D =2 angegeben. Die Annahmeeinrichtung geht dann zur Vorbereitung für die nächste Ziffer auf den Zustand 1 zurück.
809822/0864
Wie oben gesagt, enthält der zweite Teil des Ausdrucks "two" einen Voka!abschnitt, der bewirkt, daß sich der Zungenkörper im Bereich 6 befindet und in positiver x-Richtung läuft. Da keine Ziffer vorhanden ist, deren Anfangsabschnitt den Zungenkörper in den Bereich 6 bringt, bleibt die Annahmeeinrichtung 300 in ihrem Anfangszustand während des Endabschnittes für den Ausdruck "two" bis zum Beginn des Ausdrucks "eight".
Der englische Ausdruck "eight" beginnt mit einem Vokalabschnitt im Bereich 8. Wenn sich demgemäß der Zungenkörper in den Bereich 8 bewegt, verläßt die Annahmeeinrichtung 300 den Zustand 1 und tritt in den Zustand 4 ein. Beim Weiterlaufen in positiver x- und y-Richtung bewegt sich der Zungenkörper nach oben zum Bereich 3. Dann geht die Annahmeeinrichtung 300 auf den Zustand 5 weiter und verbleibt dort, bis das abschließende Burst-Zeiche η des Ausdrucks "eight" ankommt. Dann wird die Ziffer "eight" erkannt, und die Annahmeeinrichtung kehrt zur Vorbereitung auf die nächste Ziffer in den Zustand 1 zurück.
Zur Verwirklichung der Annahmeeinrichtung 300 müssen zwei Hauptelemente berücksichtigt werden, nämlich eine Einrichtung zur Ermöglichung eines rückwärts verfolgenden Rücklaufens und eine Einrichtung
809822/0864
zur Verwirklichung des Zustandsdiagramms für die Annahme -einrichtung.
Für das rückwärts verfolgende Rücklaufen ist ein Speicher erforderlich, der die der Annahmeeinrichtung 300 zugeführte Zeichenfolge speichert. Der Speicher muß so organisiert sein, daß alte Daten wiedergewonnen und erneut verarbeitet werden können, während neue Daten eingeschrieben werden. Eine solche Anordnung wird dadurch realisiert, daß die zugeführten Zeichen in einem Üblichen Speicher unter Steuerung eines Zeichenadreßzählers eingegeben werden, der mit einer Modulo-Arithmetik arbeitet, die gleich oder kleiner als die Größe des Speichers ist. (Beispielsweise wird für einen Adreßzähler mit 10 Ziffern ein Speicher mit wenigstens 1024 Wörtern benutzt.) Bei einer solchen Anordnung werden die zugeführten Zeichen sequentiell unter Steuerung des Zeichenadreßzählers eingegeben. Wenn beispielsweise die Speicherstelle 1023 des Speichers geschrieben wird (bei Verwendung eines Zählen mit 10 Bits), so ist die nächste, einzuschreibende (unter Löschung der alten Information) Speicherstelle die Speicherstelle 0.
Zwei weitere Zähler, die auf der gleichen Zahlenbasis wie der Zeichenadreßzahler arbeiten, sind zur richtigen Verwendung des Speichers vorgesehen:
809822/0864
Ein Folgestartzähler (Zähler A) und ein Zähler für die augenblickliche Adresse (Zähler B). Der Zähler A gibt die Speicherstelle des ersten Zeichens in der geprüften Folge und der Zähler B die augenblickliche Adresse des Zeichens in der geprüften Folge an. Ein Blockschaltbild dieser Schaltungsanordnung ist in Fig. 6 gezeigt.
Der Speicher 301 (Fig. 6) speichert die der Annahmeeinrichtung 300 auf der Leitung 302 zugeführten Zeichen und gibt die vorher gespeicherten, von der Annahmeeinrichtung 300 genötigten Zeichen auf der Leitung aus. Das Einschreiben und Lesen des Speichers 301 erfolgt in Abhängigkeit von Lese- und Schreibsteuerbefehlen, die eine Steuereinrichtung 200 (Fig. 4) über die Leitungen 303 und 304 liefert. Die richtige Adresse wird dem Speicher 301 durch die Auswahleinheit 305 zugeführt, die wiederum 306 (Zeichenadreßzähler) und Zähler 307 (Zähler B) gesteuert wird. Der Zähler 308 (Zähler A) wirktmit dem Zähler 307 über eine Sammelleitung 309 zusammen, und dieses Zusammenwirken wird unter Steuerung von Leitungen 310, 311, 312 und 313 aufrechterhalten . Ein Signal auf der Steuerleitung 310 schaltet den Zähler 308 um eins weiter, das Signal auf der Steuerleitung 311 verdoppelt den Wert des Zählers 307 im Zähler 308, ein Signal auf der Steuerleitung 312 schaltet den Zähler 307 um eins weiter und ein Signal auf der Steuerleitung 313 verdoppelt den Wert des Zählers 308 im Zähler 307. Die Leitung 314 steuert den Zähler
809822/0864
α*
und schaltet ihn jedesmal dann weiter, wenn ein neues Zeichen zugeführt wird.
Im Betrieb adressieren, wenn die Prüfung einer Folge beginnt, beide Zähler A und B die gleiche Speicherstelle, wodurch das erste Zeichen der geprüften Folge aus dem Speicher 301 gelesen wird. Solange die Prüfung befriedigend weiterläuft, wird der Zähler 307 jedesmal um eins weitergeschaltet, während der Zähler 308 unverändert bleibt. Wenn die Prüfung am Ende einer Folge erfolgreich aufhört, so ist der Zähler 308 auf die Position des Zählers 307 weitergelaufen, und es wird eine neue Prüfung eingeleitet. Wenn die Prüfung erfolglos endet (mit einem """-Eintritt in den Zustand 1), so wird der Zähler 308 um eins weitergeschaltet und der Zähler 307 auf den gleichen Stand wie der Zähler 308 gesetzt, wobei dann eine neue Prüfung beginnt.
Zur Verwirklichung des Zustandsdiagramms für die Annahmeeinrichtung 300 können übliche Verfahren benutzt werden. Im Interesse der Vollständigkeit zeigt Fig. 7 jedoch ein Ausführungsbeispiel zur Verwirklichung des operativen Teils des in Fig. 5 gezeigten Zustandsdiagramms.
Da in Fig. 5 nur fünf Zustände vorhanden sind, zeigt Fig. 7 fünf Flip-
809822/0864
Flops 701-705, die die fünf Zustände darstellen. Jedes Flip-Flop ist an einen zugeordneten Logik-Baustein 711 -715 angeschaltet, die alle an eine vom Speicher 301 (Fig. 6) ausgehende Signalsammelleitung 317 angeschlossen sind.
Jeder der Logik-Bausteine 711-715 erzeugt ein Ausgangssignal mit einer anderen Kombination, die jeweils speziell so ausgebildet Ist, daß sie einen Teil des Zustandsdiagramms verwirklicht. Beispielsweise erzeugt der Logik-Baustein 711 diejenigen Ausgangssignale, welche erforderlich sind, um die Annahmeeinrichtung 300 aus dem Zustand 1 und in den Zustand 2 , 4 oder A zu bringen. Demgemäß liefert der Baustein 711 drei Ausgangssignale: ein Signal, das den Eintritt in den Zustand A angibt (Leitung 721), ein Signal, das den Eintritt in den Zustand 4 angibt (Leitung 722), und ein Signal, das den Eintritt in den Zustand 2 angibt (Leitung 723). Gemäß Fig. 5 soll ein Eintritt in den Zustand 4 nur dann erfolgen, wenn ρ = 8 auftritt. Demgemäß ist der BooIe'sehe Ausdruck für das Ausgangssignal auf der Leitung 722 (Zustand 1) (p = 8). Die erste Variable (Zustand 1) ist vom Flip-Flop 701 abgeleitet, und die zweite Variable (p = 8) wird durch Decodieren der Information auf der Sammelleitung 317·gewonnen. Demgemäß verwendet man ein UND-Gatter mit zwei Eingängen zur Erzeugung des Ausgangssignals auf der Leitung 722. Die Ausgangssignale der Bausteine 711-715 werden auf
809822/0864
entsprechende Weise abgeleitet.
Wie oben angegeben, muß immer dann, wenn das Zustandsdiagramm in Fig. 5 einen -Austritt angibt, die Aufnahmeeinrichtung 300 wieder in den Zustand 1 eintreten und insbesondere den Stand der Zähler 307 und 308 ändern. Zu diesem Zweck sammelt ein ODER-Gatter 731 alle -Austritte und kombiniert zur Bildung eines Ausgangssignals auf der Leitung 732, die die Zähler 307 und 308 steuert. Die D-Austritte erfordern ebenfalls ein Wiedereintreten in den Zustand 1, aber mit einer anderen Abänderung der Zähler 307 und 308 (wie oben beschrieben). Zu diesem Zweck erzeugt ein ODER-Gatter 733 ein Ausgangssignal auf der Leitung 734. Die - und D-Ausgangssteuersignale werden in einem ODER-Gatter 735 kombiniert, das das Eintreten in den Zustand 1 steuert.
Das Eintreten in irgendeinen bestimmten Zustand muß natürlich durch ein Austreten aus allen anderen Zuständen begleitet sein. Wenn demgemäß eines der Flip-Flops 701 -705 eingestellt wird, so müssen alle anderen Flip-Flops rückgestellt werden. Dies wird gemäß Fig. 7 mit Hilfe der Logik-Bausteine 741 -745 und eines ODER-Gatters 746 erreicht. Das ODER-Gatter 746 erzeugt Immer dann ein Signal, wenn ein ZustandsUbergang auftritt, und dieses Signal wird dem R-Eingang
809822/0864
der Logik-Bausteine 741-745 zugeführt. Jeder der Logik-Bausteine 741 -745 ist so ausgelegt, daß er dann ein Ausgangssignal am Anschluß Q liefert, wenn ein Signal an den Eingang R angelegt wird, und ein Ausgangssignal am Anschluß Q , wenn ein Signal an beide Eingänge R und S gegeben wird. Auf diese Weise werden die Bausteine 741 -745 mit dem Gatter 746 kombiniert, um alle Flip-Flops mit Ausnahme desjenigen Flip-Flops zurückzustellen, das gerade eingestellt wird.
Die Steuerung der Anlage gemäß Fig. 4 erfolgt durch eine Steuerung 200. Sie liefert den Abtastakt an den Ana log-Digi ta !wandler 220, die Lese - und Schreibsteuersignale (Leitungen 303 und 304) an den Speicher 301, die Einstell- und Weiterschaltbefehle (Leitungen 310 -314) an die Zähler 306, 307, 308 und alle anderen Steuersignale, die für die richtige Arbeitsweise des Kennwert-Extraktors 230 erforderlich sind. Die Steuerung 200 kann auf Übliche Weise auf gebaut sein und einen astabilen Multivibrator zur Erzeugung eines Haurtalctsignals aufweisen, ferner mit dem Multivibrator verbundene Flip-Flops zur Erzeugung von Bruchteilen des Haupttaktsignals und einer Anzahl von Gattern, die eine geeignete Kombinationslogik für jedes erforderliche Steuersignal bilden. Da die erforderlichen Schaltungen leicht
809822/0864
zu verwirklichen sind, werden die Einzelheiten fUr die Verbindungen der Logik-Gatter dem Fachmann Überlassen.
809822/0864
Anhang FORTRAN-PROGRAMM zur Verwirklichung des Prozessors _. (
FUNCTION FUNC (X)
BEAL X(IO) C C MAIN ERROR FUNCTION C c inputs:
C X- PARAMETER VECTOR C POLE - REAL SPEECH FORMANTS (COMMON /MATCH/) C ERR - ERROR DUE TO VIOLATIONS OF CONSTRAINTS
C (COMMON /ERRORS/)
C OUTPUTS:
C FUNC - MEASURE OF FORMANT ERROR
COMMON /ERRORS/ ERR
COMMON /MATCH/ POLE13) C REAL AREAF(6«*) # POLEF (3)
ERR =0.0 FUNC = C C COMPUTE CROSS SECTIONAL AREA FUHCTIOK
•8098 2.2/00
.· 2 7 b 2 b U
CALLVOCAL (X (2] , Χ(3), Χ(Ί), Χ(5), X(G), Χ(7), 0.01. C AREAF, NSECF) C C COMPUTE FORMANT FREQUENCIES
. CALL FORM (AREAF, NSECF, X(I), POLEF) C
DO 10 1=1,3
D * (POLEF(I) - POLE(I))ZPOLE(I) 10 FUNC = FUNC ♦ D«D C
C ADD ERROR DUE TO VIOLATION OF EXPLICIT AND C IMPLICIT CONSTRMNTS
FÜNC = FUNC ♦ ERR
RETURN .
END ·
«09822/0864
27b2ßU7
SUBROUTINE IVOCAL C C INITIALIZATION SUBROUTINE FOR VOC/iL TRACT C
COMMON/VOCDAT/R1,R2SQ.ZBEND,ACOR,BCOR,RADSEC,RBEND1
ε χ, γ, ANAUT(UO)^sECT
DATA ARADSC /10.25/ _ C COMPUTE LENGTH OF ONE VOCAL TRACT SECTION
C (34 SEC IN 17 CM)
SECT = 17.0/34.0 C C COMPUTE CONSTANTS TO SET VOCAL TRACT SHAPE
R1 = 3.875 R2SQ =6.25 ZBEND =7.0 ACOR =3.81
BCOR = 0.188 C
RADSEC = SECT*ARADSC/R 1/(14.5 - ZBEND) RBEND = (1.0 ♦ ZBEND/SECT) «RADSEC RADSC1 = RADSEC*ACOR RBeiDi = (1.0 ♦ ZBEND/SECT) *RADSC1
N1 = 4.0/SECT
8098 22/06-64 "'
N2 = 19.0/SECT
DO 10 J=Nl,U2
10 ANAUT(J) = BCOR*COS (FLpAT (J) »RADSC1 - RBENDI) C
RETURN
END .
SUBROUTINE VOCAL (XI, YI, R, Β» LL, WW, C, K0 16) C · *
C VOCAL TRACT SUBROUTINE
C INPUTS: ■
C XI- TONGUE BODY HORIZONTAL COORDINATE
C YI- TONGUE BODY VERTICAL COORDINATE "
C R- TONGUE TIP RETROFLEX COORDINATE
C B- TONGUE TIP HEIGHT COORDINATE
C LL- LIP EXTENSION COORDINATE
C MW- LIP CLOSURE COORDINATE
C C- MINItIUM AREA OF A CROSS SECTION
C SECT - LENGTH OF ONE VOCAL TRACT SECTION
C (COMMON /VOCDAT/)
C .
C OUTPUTS:
C A - CROSS SECTIONAL AREAS
C 16 - NUMBER OF SECTIONS IN VOCAL TRACT
809822/0864
C (X, Y) - TOIJGUE BODY POSITION (COXMON /VOCDAT/)
C
COMMON /ERRORS/ ERR COMMON/VOCDAT/RI ,R2SQ, ZBEND, ACOR, BCOR,RADSEC, RBEND, t X, Y ,ANAUT (40), SECT REAL L, LL, A(64)
DATA Z1, Z2B, G2B, Z2, G2, Z3, G3, Zt & /2.0, 5.0, 1.5, 6.0, 2.0, 11.0, 0.31, 13.5/
DATA SC, AGP, ARADCR /3.0, 3.0, 10.25/ C C
C EXPLICIT CONSTRAINTS DXY = ABS (XI) -1.5
IF (DXY .GT. 0.0) ERR = ERR ♦ DXY*DXY*100.0 X = AMAXI (-1.5, AMIN1 (1.5, XI)) C DXY = ABS (YI) -1.5
IF (DXY .GT. 0.0) ERR = ERR ♦ DXY*DXY*100.0 X = AMAXI (-1.5, AMIN1 (1.5, YI)) W = WW C AL=LL L=I.
I1=1.5*Z1/SECT S2B= 1. ♦ (Z2B+G2B* Y)/SECT
809822/0864
S2=1. 5* (Z2<G2<'Y)/SECT I2=S2
12A=MINI (S2B,S2) S3=1.5*(Z3*.7*X+.3*Y)/SECT I3=S3
I5=1-5+15.5/SECT
S5 = FLOAT(I5) - .01
S4 » 1.5 ♦ (Z« ♦ R ♦ X - Ϊ ♦ .25*B)/SECT
SU = AMIN1 (SH, S5)
I6=I5*IFIX((L*1.)/SECT*.5)
Α5=1.125-.3ί»*ϊ A6=(1.08-.89»W*.33*L)*A5 *L/AL
IX) 12 J=KIN, 16 A(J)=A6
IP (I5-I4IN) 30,22,22 DO 24 J=MIN,15
• ·
S *= (FLOAT(I5-J) »SECT) *·2*5 2«» A (J) = 1. 18*SQRT (S/ (4.
TEETH
TONGUE BLADE
8Ό9822/0864
S»»3=SU-S3 AU=CIRCI (S'*, S β ((FLOAT (15) - SU) «SECT) **2*5.0
AUP1 = 1.18*SQRT(5/(U.O ♦ S)) + A5 ε (ANAUT(Ii*) ♦ (ANAUT(MIN) - ANAUT (IU) ) *QU) AT = AU - (AU1* .250)«B*1.33 AT = AMINl (AT, AUPl) AUU=AT-AU MIN=I3+1
DO 32 J=MlN,IU A(J)=CIRC(J) +AUU «((FLOAT (J)-S3)/SU3) **2
************** TONGUE BODY
MI2=I2+1
DO U2 J=MI2fI3 H2 A(J)=CIRC(J)
A2=CIRC1(S2,Q2) DO 52 J=I2A,I2 A(J)=A2
A20=A2/2.-.U8-.25«Y A0=A2-A20 PISEC=3.1U16«SECT/U.
DO 5U J=H,12A 5U A(J) =A0*A20*COS (PISEC* (S2B-FLOAT (J)))
M M M *M M * * M M UiRYHX
AI=A(H)/AGP
809822/0864
MAX=Il-I DO 62 J=1.MAX A(J)=AI C ************** CROSS SECTION
CSO=C*♦2
AJERR = 0.0 * C IMPLICIT CONSTRAINTS TO DISALLOW NEGATIVE AREAS DO 100 J=I,16 IP (A(J) .LT. 0.0) AJERR = AJERR - A(J) A(J)=SC* (SQRT (A (J) ^2+CSQ)+A(J))
ERR = ERR '+ AJ"eRR*AJERR*SC*SC c *************** TONGUE TIP
RH=L-QI
AT«SC«(SQRT(AT**2*CSQ)*AT)
} =A«*A<H*AT/ RETURN END
809822/0864
FUNCTION CIRC(J) TONGUE BOD* AREA FUNCTION COMMON /VOCDAT/R1,R2SQ, ZBEND, ACOI*, BCOR,RADSEC,RBEND, β X, Y,AIiAUT (40) ,SECT ALPH=FLOAT (J)«RADSEC-RBEIJD CO =COS (ALPH) SI =SIN (ALPH) CIRC=R1+X*C0-Y*SI-SQRT(AKAX1(R2SQ-(X*SI+Y*CO)**2,0.)) -
ANAUT (J) RETURN END
FUNCTION CIRC1(S,Q) CIRC LINEAR INTERPOLATION FUNCTION
Q=S-FLOAT (J) CIRCI=(U-Q) «CIRC(J) +Q«CIRC(J+1) JtETURN
809822/0S64·
SUBROUTINE FORM (A, NSEC, ALENF, F)
DIMENSION A (6<l) , F (3) C
C. WEBSTER HORN EQUATION ITERATION SUBROUTINE C
C INPUTS:
C A - CROSS SECTIONAL AREAS C NSEC - NUMBER OF SECTIONS IN VOCAL TRACT C ALENF - VOCAL TRACT LENGTH FACTOR C SECT - LENGTH OF ONE VOCAL TRACT SECTION C (COMMON /VOCDAT/)
C (X, Y) - TONGUE BODX POSITION (COMMON /VOCDAT/) C . ·
C OUTPUTS:
C F- FOI(MANT FREQ. IN HTZ.
• ·
CORMON /ERRORS/ ERR
COMMON/VOCDAT/RI,R2SQ,ZBEND,ACOR,BCOR,RADSEC,RBEND, ε X,Y,ANAUT(UO) ,SECT C
DATA C /33136.0/ C . · ·
C F1 SEARCH REGION — 500 HTZ ♦/- HOO HTZ
809822/0864
C F2 SEMCH KEGlOM — 1500 HTZ */- 000 HTZ C F3 SEAUCH REGION — 2500 HTZ ♦/- 000 HTZ REAL FINC (7), FRSTF (3) , AR (64), FREQ
DATA NFINC, FINC /7, UQO., 200., 100., 50., 25. m C 12.5, 6.25/
DATA FRSTF /500., 1500., 2500./, AR /64*0./ C
INTEGER INCST(3) .' DATA INCST /2, 1. 1/ C C EXCLUSIVE OR FUNCTION
IEOR (A, B) = XOR (INT (SIGN (1 .0,A) ) ,INT(SIGN(I .0,B) )) C C
C COMPUTE CORRECTED VOCAL TRACT LENGTH FACTOR DXF = ALENF*(14.05 ♦ 1.35*(Y - X))/17.0 i
P1 = 0 DX = SECT
DXCSQ = (39.4784176 * DX * DX) / (C ♦ C)
C COMPUTE AREA RATIOS DO 10 1=2,NSEC
10 AR(I) = A (1-1)/A (I) C C LOOP FOR 1ST THREE RESONANCES
809822/088*
DO 100 NF=1,3
DFREQ = 0.0
FREQU = 0.0
FREQL = 0.0
FREQ = FRSTF (NF)
IST =■ IKCST (NF)
C
C BINARY SEARCH LC
DO 90 I=IST,NFINC · FKEQ = FREQ ♦ DFREQ ' - FDXCSQ - 1.0 - FREQ*FREQ*DXCSQ
PO a 1.0
P1 » FDXCSQ
NZX = 0 .
DFREQ - 0.0 C C ITERATE WEBSTER BORN EQUATION THROUGH VOCAL TRACT DO 80 J=2,NSEC TP = AR(J)*(P1 - PO) PO « PI
P.I β FDXCSQ*P1 ♦ TP C C INCREMENT COUNTER IF HE HAVE PASSED A PRESSURE NODE
IF (IEOR (P1,P0)) 20,80,80 NZX = NZX ♦I IF (NZX - NF) 80,30,30
• 609822/08$*
DFHEQ = -FINC(I) CONTINUE
C «φ**««*««*«** END WEBSTER HORN EQUATION ITERATION LOOP C
IF (DFREQ) 0'», 86, 8<l P1H = PI
FREQiI = FREQ GO TO 90 C
DFREQ = FINC(I) PIL = P1 FREQL = FREQ CONTINUE
c **»**««««*****««**** END BINARY SEARCH LOOP
IF (1ST - NFINC) 91, 95, CONTINUE IF (FREQH) 93, 93, IF (FREQL) 93, 93, 9H CONTINUE
C IMPLICIT CONSTRAINTS ON FORi-IANT FREQUENCY ERR = ERR ♦ P1*P1*1OO.O GO TO 99
C LINEARLY INTERPOLATE NEW FREQ. AND REITERATE 91» 1ST = NFINC Λ _ Λ
809822/0864
FREQ = FIiEQL DF2 = FREQU - FREQL
Pll - PIH PL - PIL
DFREQ = (DF2*PL)/(PL - PH)
DF1 - DFREQ
GO TO 15 C C PARABOLIC INTERPOLATION FOR FINAL FREQ. VALUE
1ST = 1ST ♦ 1 "
X3MX1 * Hi - PI X2MX1 = PL - Pi P1SQ = P1*P1
DX2SQ ~ (PL*PL - PiSQ) C
ACOF = (X3MX1*DF1 - X2MX1*(DF1 - DF2)) / C (X2MX1*(PH*PH - PISQ) - X3MX1*DX2SQ)
BCOF = -DF1 - AC0F*DX2SQ DFREQ = -ACOF^PISQ - BOOF*P1/X2MX1 IF (ABS(DFREQ) .GT. DF2) GO TO
FREQ = FREQ ♦ DFREQ C
CONTINUE
CONTINUE P(NP) β FREQ CONTINUE
C ******************** EH0 RESONANCE FREQUENCY LOOP
809822/0864
F(1) = 0.5* ((F(IJ ♦ 100.OJ «·
e SQRT ((F(IJ - 100.0J**2 ♦ 4E0JJ/DXF
P(2) = F(2J/DXF F(3) = (F (3J - 200. OJ/DXF RETURN END
809822/0864
SUBROUTINE ilCLIMB (X)
BEAL X(IO) , OG (10), OX(IO), G(IO) C C FUNCTION FUNIMIZATION SUBROUTINE
C X- VECTOR
C FUKC - FUNC TO BE MINIMIZED C MMI - ITERATION LIMIT (COMMON /CLMDAT/) C EP - MINIMUM ACCEPTABLE ERROR (COMMON /CLMDAT/) C OGI - INITIAL STEP SIZE (COMMON /CLMDAT/) C ILB - LOWER BOUND OF X (COMMON /CLMDAT/) C IUB - UPPER BOUND OF X (COMMON /CLIlDAT/)
COMMON /CLMDAT/ LIM1, EP, DGI, ILB, IUB, ITI, IT2 C C
C INXTIALLIZE STEP, GRADIENT VECTOR, AND PREVIOUS C X VECTOR
IXSS « DGI .
DO 10 1=1,10
OX(I) = X(I) - DGS 10 G(I) = 0.0
ITI
809822/0864
SO .C
COK1TINUE
FX = FUNC(X) C C QUIT IF MINIMUM FOUND
IF (ABS(FX) .LT. EP) GO TO C C QUIT IF STEP TO SMALL (WE ARE CREEPING)
IF (ABS(DGS) .LT. IE-I) ITI = IT1 ♦ 2000 C C INCREMENT AND QUIT IF ITERATION LIMIT EXCEEDED
ITI = IT1 «· 1 ·
IF (IT1 - LIM1) 250, 250, C C COMPUTE GRADIENT GMAG =0 C DO 290 I=ILB,IUB OG(I) = G(I) SXI = X(I) DG = (X(I) - OX(I))/16.0
IF (ABS(DG) .LT. 1E-5) DG = 1E-5 C . ■
X(I) = SXI ♦ DG
FXP = FUNC (X) t
80.9822/0864
DFX = FX - FXP •C G(I) = DFX/DG GMAG = GIAAG ♦ G(I)*G(I) X(I) = SXI
OX(I) = SXI CONTINUE C C QUIT IF MAGNITUDE OF GRADIENT IS ZERO IF (GMAG) 295, 295, ITI = ITi «· 1000
GO TO C C NORMALIZE AND MODIFy GRADIENT GMAG = SQRT (GMAG) DO 310 I=ILB,IUB G(I) = 0.8*G(I)/GMAG + 0.2*OG(I) C
C STEP IN DIRECTION OF MODIFIED GRADIENT IT2 =0 DG = DGS/»J. DGS - FXP = FX
DO 320 I=ILB,IUB X(I) = X(I) ♦ G(I)* DG
809822/0864
320 CONTIl iUE
C ♦ 1
C
000 IT2 = IT2
DG3 = DG2 DG
PG2 = DGS
DGS = DGS
FX3 = FX2 (X)
FX2 = FXP
FXP = FUNC DID FUNCTION Il
C
C
DFX -FK- FXP IF (DFX) I»«0, 42 0# U20 C
C FUNCTION HAS DECREASED. DOUBLE STEP SIZE 420 DG = DG ♦ DG FX = FXP GO TO C C FUNCTION HAS INCREASED. R\CKUP IF 1ST POINT, C INTERPOLATE IF NOT
440 IF (IT2 - 2) 445, 480, 445 DG * (-DG*5.0)/4.0 * C C TAKE A STEP
809822/0864
• ·
DO 160 I=ILD,IUD X(I) = G (I) «DG ♦ X(I) '
GO TO 400
C
C PARABOLIC INTERPOLATION X3MX1 = DG3 - DGS X2MX1 = DG2 - DGS Y2MY1 = FX2 - FXP X1SQ = DGS*DGS X2H1SQ = DG2*DG2 - X1SQ C
ACOF = (X2MX1«(FX3 - FXP) - X3MX1*Y2MY1)/ S (X2MX1*(DG3*DG3 - X1SQ) - X3MX1*X2M1SQ) BCOF = (Y2MY1 - ACOF*X2M1SQ)/X2MX1 POG s BCOF/(2«ACOF) ♦ DGS
IX) 485 I=ILB,IUB ·
X(I) = X(I) - G(I) *PDG
DGS β DGS - PDG
GO TO 100
C "
CONTINUE
RETURN
EHD
S0M22/0M4 I

Claims (1)

  1. BLUMBACH · WESER . BERGEN · KRAMER
    PATENTANWÄLTE IN MÜNCHEN UMD WIESBADEN
    Petemconsull RadeckestraBe 43 8000 München 60 Telefon (089) 883403/883604 Telex 05-212313 Telegramme Palenlconsult Patentconsull Sonnenberger Straße 43 6200 Wiesbaden Telefon (06121)562943/561998 Telex 04-186237 Telegramme Patentconsull
    WESTERN ELECTRIC COMPANY Hafer, E.H. 1
    Incorporated
    NEW YORK, N.Y. 10038 USA
    PATENTANSPRUCH
    Verfahren zur Erkennung von Sprache durch Entwickeln von
    Kennwerten, die die zu erkennenden Sprachlaute darstellen, und Vergleichen
    der Kennwerte mit vorbestimmten, bekannte Sprachlaute darstellenden
    Kennwerten,
    gekennzeichnet durch
    Identifizieren der Formanten in den zu erkennenden Sprach lauten; Umwandeln der identifizierten Formanten in Zungenpositions- und -bewegungskennwerte entsprechend einem Stimmtraktmodell; Vergleichen der Zungenpositions- und -bewegungskennwerte mit vorbestimmten Zungenkennwerten dieser Art, die bekannte Sprach lau te darstellen.
    München: R. Kramer Dipl.-Ing. . W. Weser Dipl.-Phys. Dr. rer. nat.. P. Hirsch Dipl.-Ing. . H. P. Brehm Dipl.-Chem. Or. phil. nat. Wiesbaden: P. G. Blumbach Dipl.-Ing. · P. Bergen Dipl.-Ing. Dr. jur.. 6. Zwirner Dipl.-Ing. Dipl.-W. Ing.
    809822/0184
DE19772752607 1976-11-26 1977-11-25 Verfahren zur erkennung von sprache Withdrawn DE2752607A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/745,066 US4087632A (en) 1976-11-26 1976-11-26 Speech recognition system

Publications (1)

Publication Number Publication Date
DE2752607A1 true DE2752607A1 (de) 1978-06-01

Family

ID=24995123

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19772752607 Withdrawn DE2752607A1 (de) 1976-11-26 1977-11-25 Verfahren zur erkennung von sprache

Country Status (12)

Country Link
US (1) US4087632A (de)
JP (1) JPS53105102A (de)
AU (1) AU507146B2 (de)
BE (1) BE861046A (de)
CA (1) CA1085960A (de)
DE (1) DE2752607A1 (de)
ES (1) ES464487A1 (de)
FR (2) FR2372485A1 (de)
GB (1) GB1589493A (de)
IT (1) IT1089157B (de)
NL (1) NL7712792A (de)
SE (1) SE7712943L (de)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5710199A (en) * 1980-06-21 1982-01-19 Tokyo Shibaura Electric Co Voice information extractor
US4388495A (en) * 1981-05-01 1983-06-14 Interstate Electronics Corporation Speech recognition microcomputer
DE3335356A1 (de) * 1983-09-29 1985-04-11 Siemens AG, 1000 Berlin und 8000 München Verfahren zur parameterextraktion in der automatischen spracherkennung und in der sprachcodierung
US4701937A (en) * 1985-05-13 1987-10-20 Industrial Technology Research Institute Republic Of China Signal storage and replay system
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
EP0243479A4 (de) * 1985-10-30 1989-12-13 Central Inst Deaf Sprachverarbeitungsanordnung und -verfahren.
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
WO1989003519A1 (en) * 1987-10-08 1989-04-20 Central Institute For The Deaf Speech processing apparatus and methods for processing burst-friction sounds
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
US5119831A (en) * 1991-01-11 1992-06-09 University Of Iowa Research Foundation System and method for detecting pressure of selected body parts
US5623609A (en) * 1993-06-14 1997-04-22 Hal Trust, L.L.C. Computer system and computer-implemented process for phonology-based automatic speech recognition
US5696878A (en) * 1993-09-17 1997-12-09 Panasonic Technologies, Inc. Speaker normalization using constrained spectra shifts in auditory filter domain
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
GB2319379A (en) * 1996-11-18 1998-05-20 Secr Defence Speech processing system
US6230135B1 (en) 1999-02-02 2001-05-08 Shannon A. Ramsay Tactile communication apparatus and method
US6493744B1 (en) 1999-08-16 2002-12-10 International Business Machines Corporation Automatic rating and filtering of data files for objectionable content
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
WO2008091947A2 (en) * 2007-01-23 2008-07-31 Infoture, Inc. System and method for detection and analysis of speech
CN102629470B (zh) * 2011-02-02 2015-05-20 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
US9190058B2 (en) 2013-01-25 2015-11-17 Microsoft Technology Licensing, Llc Using visual cues to disambiguate speech inputs
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3129287A (en) * 1961-03-20 1964-04-14 Ibm Specimen identification system
US3395249A (en) * 1965-07-23 1968-07-30 Ibm Speech analyzer for speech recognition system
US3530248A (en) * 1967-08-29 1970-09-22 Bell Telephone Labor Inc Synthesis of speech from code signals
US3624302A (en) * 1969-10-29 1971-11-30 Bell Telephone Labor Inc Speech analysis and synthesis by the use of the linear prediction of a speech wave
US3679830A (en) * 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector
US3755627A (en) * 1971-12-22 1973-08-28 Us Navy Programmable feature extractor and speech recognizer
US3723667A (en) * 1972-01-03 1973-03-27 Pkm Corp Apparatus for speech compression

Also Published As

Publication number Publication date
BE861046A (fr) 1978-03-16
NL7712792A (nl) 1978-05-30
FR2515850A1 (fr) 1983-05-06
IT1089157B (it) 1985-06-18
AU507146B2 (en) 1980-02-07
GB1589493A (en) 1981-05-13
JPS53105102A (en) 1978-09-13
US4087632A (en) 1978-05-02
AU3084277A (en) 1979-05-31
SE7712943L (sv) 1978-05-27
ES464487A1 (es) 1979-07-16
FR2372485A1 (fr) 1978-06-23
CA1085960A (en) 1980-09-16

Similar Documents

Publication Publication Date Title
DE2752607A1 (de) Verfahren zur erkennung von sprache
DE3242866C2 (de)
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE2953262C2 (de)
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE2918533C2 (de)
DE69931813T2 (de) Verfahren und vorrichtung zur grundfrequenzermittlung
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE3783154T2 (de) Spracherkennungssystem.
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
Milenkovic Glottal inverse filtering by joint estimation of an AR system with a linear input model
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60124551T2 (de) Verfahren und vorrichtung zur erzeugung der referenzmuster für ein sprecherunabhängiges spracherkennungssystem
DE4436692A1 (de) Trainingssystem für ein Spracherkennungssystem
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP3010014A1 (de) Verfahren zur interpretation von automatischer spracherkennung

Legal Events

Date Code Title Description
OD Request for examination
8130 Withdrawal