DE2752607A1 - Verfahren zur erkennung von sprache - Google Patents
Verfahren zur erkennung von spracheInfo
- Publication number
- DE2752607A1 DE2752607A1 DE19772752607 DE2752607A DE2752607A1 DE 2752607 A1 DE2752607 A1 DE 2752607A1 DE 19772752607 DE19772752607 DE 19772752607 DE 2752607 A DE2752607 A DE 2752607A DE 2752607 A1 DE2752607 A1 DE 2752607A1
- Authority
- DE
- Germany
- Prior art keywords
- dipl
- tongue body
- speech
- tongue
- ing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 9
- 230000001755 vocal effect Effects 0.000 claims abstract description 30
- 235000007319 Avena orientalis Nutrition 0.000 claims description 2
- 241000209761 Avena Species 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 210000000214 mouth Anatomy 0.000 description 13
- 238000012360 testing method Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 7
- 102100021247 BCL-6 corepressor Human genes 0.000 description 6
- 101100165236 Homo sapiens BCOR gene Proteins 0.000 description 6
- 235000014676 Phragmites communis Nutrition 0.000 description 6
- CXENHBSYCFFKJS-OXYODPPFSA-N (Z,E)-alpha-farnesene Chemical compound CC(C)=CCC\C(C)=C\C\C=C(\C)C=C CXENHBSYCFFKJS-OXYODPPFSA-N 0.000 description 3
- 102100037362 Fibronectin Human genes 0.000 description 3
- 101001027128 Homo sapiens Fibronectin Proteins 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 101001020548 Homo sapiens LIM/homeobox protein Lhx1 Proteins 0.000 description 2
- 101000976913 Homo sapiens Lens fiber major intrinsic protein Proteins 0.000 description 2
- 102100023487 Lens fiber major intrinsic protein Human genes 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 244000075850 Avena orientalis Species 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000697929 Homo sapiens Lipid droplet-regulating VLDL assembly factor AUP1 Proteins 0.000 description 1
- 101001082184 Homo sapiens Pyrin and HIN domain-containing protein 1 Proteins 0.000 description 1
- 102100027931 Lipid droplet-regulating VLDL assembly factor AUP1 Human genes 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 102100027365 Pyrin and HIN domain-containing protein 1 Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002065 inelastic X-ray scattering Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000005182 tip of the tongue Anatomy 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Electrically Operated Instructional Devices (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
BLUMBACH . WE3ER · BERGEN · KRAMER
PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN
Patentconsult RadeckestraOe 43 8000 München 60 Telelon (089) 883603/883604 Telex 05-212313 Telegramme Patentconsult
Palentconsull Sonnenberger Straße 43 4200 Wiesbaden Telefon (06121) 562943/561998 Telex 04-186 237 Telegramme Patöntconsult
WESTERN ELECTRIC COMPANY Hafer, E.H. 1
Incorporated
NEW YORK N.Y. 10038 USA
Die Erfindung betrifft ein Verfahren zur Erkennung von Sprache durch Entwickeln
von Kennwerten, die die zu erkennenden Sprachlaute darstellen, und Vergleichen der Kennwerte mit vorbestimmten, bekannte Sprachlaute darstellenden
Kennwerten.
Ein Haupthindernis für Fortschritte auf dem Gebiet der automatischen Spracherkennung
ist die große Variationsbreite von Sprechchrakteristiken beim Menschen, insbesondere zwischen Männern, Frauen und Kindern.
Zur Überwindung dieses Hindernisses wurden Systeme entwickelt, die bei jedem Sprecher funktionieren, die aber nur ein begrenztes Vokabular erkennen.
Ein solches System,wurde beschrieben von T.R.Martin in einer Arbeit
"Acoustic Recognition of a Limited Vocabulary in Continuous Speech",
München: R. Ktamer Dipl.-lng. · W. Weser Dipl.-Phys. Dr. rer. nat. · P. Hirsch Dipl.-lng. . H. P. Brehm Dipl.-Chem. Or. phil. nal.
Wiesbaden: P. G. Blumbach Dipl.-lng . P. Bergen Dipl.-lng. Dr. jur. · G. Zwirner Dipl.-lng. Dipl.-W.-lng.
809822/0864
University of Pennsylvania, Ph. D. Thesis, 1970. Diese Arbeit ist erhältlich
bei University Microfilms Ltd., High Wepcomb, England, und bei University Microfilms, Ann Arbor, Michigan, U.S.A. Dieses von Martin beschriebene
System erkennt ein begrenztes Vokabular durch Gewinnen bestimmter Kennwerte oder Merkmale aus dem Sprachsignal und Vergleichen der abgeleiteten Folge
von Kennwerten mit einer vorgewählten Gruppe von Kenntwertfolgen, die das
zu erkennende Vokabular darstellen. Die gewählten Kennwerte sind charakteristisch
fUr die elementaren Laute der Sprache.
Auf dem Gebiet des physiologischen Studiums von Sprache wurde festgestellt,
daß die Zungenbahnen unterschiedlicher Sprecher, die das gleiche ausdrucken,
sehr ähnlich sind. Das gilt insbesondere mit Bezug auf die Vielposition bei der Zungenbewegung.
Durch Bestimmung der Zungenposition, beispielsweise mit Hilfe eines auf der
Zungenspitze eines Sprechers angebrachten, strahlenden Elementes ist es also möglich, und zwar insbesondere in Kombination mit Systemen der von Martin
entwickelten Art, gesprochene Worte automatisch ,d.h. mit Hilfe einer Maschine
zu erkennen.
• ■
Schwierigkeiten mit solchen kombinierten Systemen und insbesondere in
Verbindung mit den bisher bekannten Hilfsmitteln zur Bestimmung der
Verbindung mit den bisher bekannten Hilfsmitteln zur Bestimmung der
809822/086/.
27526Ü7
Zungenposition des Sprechers (mit einem Mittel, das direkt auf der Zunge des
Sprechers befestigt ist) bestehen darin, daß solche Systeme kompliziert und unpraktisch sind.
Die Erfindung will diese Schwierigkeiten im wesentlichen Überwinden.
Sie geht dazu aus von einem Verfahren der eingangs genannten Art und ist gekennzeichnet durch Identifizieren der Formanten in den zu erkennenden
Sprachlauten; Umwandeln der identifizierten Formanten in Zungenpositions- und -Bewegungskennwerte entsprechend einem Stimmtraktmode IV, Vergleichen
der Zungenpositions- und-Bewegungskennwerte mit vorbestimmten Zungenkennwerten
dieser Art, die bekannte Sprachlaute darstellen.
Generell wird mit der vorliegenden Erfindung verbundene Sprache eines
begrenzten Vokabulars, beispielsweise die zehn Ziffern dadurch erkennt, daß aus dem Signal eines gesprochenen Ausdrucks eine Anzahl von Kennwerten
einschließlich eines Kennwertes fUr die Zungenkörperbahn abgeleitet
wird und daraus die gesprochenen Wörter entziffert werden. Genauer gesagt,
wird das Sprachsignai zur Erzeugung einer Anzahl von Kennwerten ähnlich den in der Vergangenheit benutzten Kennwerten zuzUglich eines neuen
Kennwertes analysiert, der die Zungenposition und -Bewegung des Sprechers
kennzeichnet. Die Ableitung der Zungenposition wird erreicht durch
809822/0884
Bestimmen der Formantfrequenzen der Sprache und Verwendung eines
bekannten menschlichen Stimmtraktmodells, um diejenige Zungenposition aufzufinden, die am besten mit den berechneten Formanten Übereinstimmt.
Nach Gewinnung der Sprach ke nnwer te wird die Folge von Kennwerten mit den Kennwertfolgen gewählter Wörter verglichen und aus dem
Vergleich werden dann die gesprochenen Wörter erkannt.
Nachfolgend wird die Erfindung anhand der Zeichnungen genauer beschrieben. Es zeigen:
χ-y-Koordinatensystem;
"eight", "two", "one" und "five" indem Koordinatensystem gemäß Fig. 1;
von Zungenkörperpositionen in Bereiche, die charakteristisch für vokalähnliche Laute sind;
der Erfindung;
809822/0004
Fig. 5 das Zustandsdiagramm der Aufnahmeeinrichtung 300
in Fig. 4 beim Sprechen des englischen Ausdrucks " two eight";
Fig. 6 das Blockschaltbild des in der Aufnahmeeinrichtung
300 erforderlichen Speichers;
Fig. 7 das Blockschaltbild einer Vorrichtung zur Verwirklichung
des Zustandsdiagramms gemäß Fig. 5.
In Fig. 1 ist im Querschnitt eine Mundhöhle mit einem überlagerten x-y-Achsensystem
dargestellt. D ie Achsen x, / nachfolgender Figuren beziehen sich auf die Achsen x, y in Fig. 1.
Ein Studium der Zungenkörperbewegungen zeigt, daß unabhängig davon,
ob der Sprecher ein Mann, eine Frau oder ein Kind ist, der Zungenkörper im großen und ganzen die gleiche Bahn durchläuft , wenn eine bestimmte
Ziffer zwischen 0 und 9 gesprochen wird. Fig. 2 gibt Beispiele solcher Zungenkörperbahnen für bestimmte englische Ziffern, aus denen sich das \
folgende ableiten läßt. Die Kurve 10 für die Ziffer "eight" ist dadurch gekennzeichnet, daß sich der Zungenkörper in allgemeiner Richtung nach
vorne und oben bewegt und dabei in der Mitte des oberen vorderen Quadranten
809822/0864
27526U7 7
in der Mundhöhle startet. Die Kurve 20 für die Ziffer "two" ist dadurch
gekennzeichnet, daß der Zungenkörper in der Mitte oben der Mundhöhle startet, sich horizontal nach hinten bewegt und darm im hinteren Teil des
Mundes nach unten fällt. Die Kurve 30 für die Ziffer "one" ist dadurch
gekennzeichnet, daß sich der Zungenkörper im hinteren Teil des Mundes
im wesentlichen nach unten bewegt und dann seine Richtung umkehrt und nach oben geht. Schließlich ist die Kurve 40 für die Ziffer"five" dadurch
gekennzeichnet, daß sich der Zungenkörper im hinteren unteren Quadranten der Mundhöhle nach unten bewegt und dort eine Bewegung nach vorne und
oben in Richtung auf die Mitte der Mundhöhle ausfuhrt.
Aus den obigen Bahnbeschreibungen läßt sich erkennen, daß die besonderen
ZungenkOrperbahnen für verschiedene gesprochene Ziffern bei Verwendung
zusätzlich zu anderen Kennwerten der Sprache die Erkennung gesprochener Ziffern wesentlich verbessern kann. Demgemäß wird mit dem erfindungsgemäßen Lösungsvorschlag für die Spracherkennung die Zungenkörperbahn
eines Sprechers als Merkmal oder Kennwert des Spracherkennungssystems
zusammen mit einem Ruhekennwert, einem Burst- oder einem Stop-Konsonantenkennwert und einem Rausch- oder rauschähnlichen Reibelaut-Kennwert
(einen für stimmhafte und einen für stimmlose Reibelaute).
8Ο9822/Ο0Θ4
27526Ü7
zur Erkennung von Ziffern die genaue ZungenkörperposiHon und -bahn
für die richtige Kennzeichnung des Zungenkörperbahn-Kennwertes oder -zeichens nicht erforderlich ist. Ein Zeichen (token) ist in Verbindung mit
der vorliegenden Erfindung das Signal, das den Kennwert darstellt. Stattdessen muß nur der generelle Bereich, in dem sich der Zungenkörper
befindet, und seine allgemeine Bewegungsrichtung bekannt sein.
Demgemäß werden bei dem Zungenkörperbahn-Zeichen in dem hier beschriebenen Ausführungsbeispiel nur bestimmte Bereiche der Mundhöhle
unterschieden. Fig. 3 zeigt die verschiedenen Bereiche, die in einem System zur Feststellung gesprochener Ziffern als zweckmäßig gefunden wurden,
wobei jeder Bereich die Wahrscheinlichkeit angibt, daß die Vokale einer
bestimmten Ziffer gesprochen worden sind. Beispielsweise gibt ein Zungenkörper in dem mit einer 8 in einem Kreis markierten Bereich an, daß der
Anfangsvokal laut der Ziffer "eight" mit großer Wahrscheinlichkeit gesprochen worden ist.
Zur Erzeugung des Zeichens für die Zungenkörperbahn muß die Position und
Bewegungsrichtung des Zungenkörpers festgestellt werden. Die Bewegungsrichtung
wird durch einen Vergleich aufeinander folgender Zungenkörperpositionen
gewonnen. Die Zungenkröperpositionen gewinnt man durch Extrahieren der Formanrfrequenzen für die analysierte Sprache und durch
Transformieren der berechneten Formantfrequenzen in Zungenkörper-
809822/0864
27526U7
Positionen mit Hilfe des Coker-Stimmtraktmodells. Unter "Stimmtraktmodell" wird ein physikalisches Modell des Stimmtraktes verstanden, das
auf steuerbare Weise geändert werden kann, um eine Anzahl von Signalformantgruppen zu erzeugen, die charakteristisch fUr die menschliche Sprache
sind. Im einzelnen erzeugen für jede Stimmtraktlänge und Zungenposition
solche Modelle eine Gruppe von Formanten, die den Klang kennzeichnen, der von einem menschlichen Sprecher erzeugt würde. Ein solches Modell
wird von CH. Coker in einem Aufsatz "A Model of Articulator/ Dynamics
and Control", Proceedings of the IEEE, Band 64, Nr. 4, 1967, sowie das
US-Patent 3 530 248 (22. Sept. 1970). Die Verwendung beispielsweise des Coker-Modells wird nachfolgend genauer in Verbindung mit der zur
praktischen Durchfuhrung der Erfindung verwendeten Einrichtung erläutert.
Das Blockschaltbild einer Einrichtung zur Erkennung gesprochener Ziffern
nach den Grundgedanken der Erfindung ist in Fig. 4 gezeigt. Ein ankommendes, zu analysierendes und zu erkennendes Sprachsignal wird an
ein Tiefpassfilter 210 Üblicher Ausbildung mit einem Durchlaßbereich
von 4 kHz angelegt. Dem Filter 210 folgt ein Abtaster und Analog-Digitalwandler 220, der das zugeführte Signal abtastet, in ein Digitalformat
umwandelt und das umgewandelte Signal in Zeitabschnitten, die Rahmen genannt werden, zur weiteren Verarbeitung abgibt. Der Ana log-Digital -wandler 220 wird durch eine Steuereinrichtung 200 gesteuert, die dem
609822/0864
ΛΟ
Wandler 220 einen entsprechenden Abtastakt (beispielsweise 10 kHz)
sowie weitere Signale liefert, die der jeweils gewählte Analog-Digitalwandler benötigt. Es lassen sich beliebige Wandler aus einer Anzahl von
kommerziell verfügbaren Analog-Digitalwandlern benutzen, beispielsweise
das Modell 4130 der Firma Teledyne Philbrick, Incorporated.
Dem Analog-Digita!wandler 220 folgt ein Kennwert-Extraktor 230, der einen
Ruhedetektor 240, einen Burst-Detektor 250, einen Reibelaut-Detektor 260 und einen Formant-Prozessor 270 enthält.
Der Ruhedetektor 240 stellt, wie sein Name sagt, Ruhepausen im geprüften
Rahmen fest. Der Ruhedetektor 240 läßt sich dadurch verwirklichen, daß das geprüfte Signal gleichgerichtet und integriert wird, und zwar im wesentlichen
ähnlich wie ein normaler Empfänger ankommende Signale gleichrichtet ■jnd integriert, und das integrierte Signal mit einem festen Schwellenwert
verglichen wird. Alternativ kann ein Sprachdetektor verwendet werden, um das NichtVorhandensein von Sprache festzustellen, beispielsweise das
Bauteil 24 in der US-Patentschrift 3 723 667 (Park et al., 27. März 1973).
In Verbindung mit der vorliegenden Erfindung wird, wenn eine Ruhepause
festgestellt wird, ein Ruhe-Zeichen erzeugt und an eine Aufnahmeeinrichtung
gegeben. Dabei handelt es sich um eine Ja-Nein-Entscheidung. Das Ruhe-Zeichen ist ein Signal mit einem vorbestimmten Format, beispieIs-
809822/0864
weise ein 3-Bit-Binärwort mit dem Wert 1_(OO1).
Ein Burst, der zwischen gewissen Laut-zu-Laut-übergängen auftritt,
ist durch ein verhältnismäßig plötzliches Ansteigen der Energie innerhalb des Sprachspektrums gekennzeichnet. Daher ist zur Feststellung eines
Burst ein Maß fUr die Geschwindigkeit des Energieanstiegs im Sprachband
erforderlich. Dies wird im Burst-Detektor 250 dadurch erreicht, daß das
4-kHz-Band in eine Vielzahl von benachbarten Unterbändern unterteilt und jeweils die Energie in den Unterbändern richtig gemessen wird.
Die Messung der Energie erfolgt durch Gleichrichten und Integrieren der Energie in jedem Unterband, Begrenzen der Energie in jedem Unterband auf einen vorgegebenen Wert und durch Summieren und Differenzieren
der Ausgangssignale begrenzter Energie für die Unterbänder. Wegen des Begrenzungsverfahrens kann ein großer Anstieg fUr die Energie eines Unterbandes zu keinem großen differenzierten Summensignal fuhren, während
ein plötzlicher, mäßiger Anstieg Über das 4-kHz-Band ein großes differenziertes Summensignal erzeugen kann. Das differenzierte Summensignal läßt
sich also auf bequeme Weise zur Anzeige der Energieanstiegsgeschwindigkeit im 4-kHz-Gesamtband verwenden.
Die praktische Verwirklichung des Burst-Detektors 250 erfolgt auf
konventionelle Weise, da die dort ausgeführten Verarbeitungsoperationen
809822/0884
bekannt und übersichtlich sind. Beispielsweise kann der Detektor
eine Gruppe von benachbarten Bandpaßfiltern, die auf das Sprachsignal ansprechen, einen Gleichrichter, einen an einen Schwellenwertbegrenzer
am Ausgang jedes Bandpaßfilters angeschalteten Integrator sowie einen
Addierer enthalten, dem ein Differentiator folgt, der auf jeden der Schwellenwertbegrenzer anspricht. Legt man das Ausgangssignal des
Differentiators an eine weitere Schwellenwertschaltung an, so ergibt
sich ein binäres Ausgangssignal, das das Vorhandensein oder Nichtvorhandensein
eines Burst darstellt. Bei Auftreten eines Burst wird dann ein Burst-Zeichen erzeugt.
Wie bei dem Ruhezeichen wird das Burst-Zeichen an die Aufnahmeeinrichtung
300 gegeben. Das Burst-Zeichen kann das gleiche Format wie das Ruhezeichen haben, beispielsweise ein 3-Bit-Binärwort, hat aber
einen anderen Wert als das Ruhezeichen, beispielsweise 2_ (ΟΙΟ).
Verschiedene Auslegungen von Schaltungen zur VeiwirMichung des
Detektors 250 finden sich in dem Buch von Millman und Taub "Pulse Digital and Switching Waveforms", McGraw-Hill 1965.
Der Reibelautdetektor 260 erzeugt ein Zeichen immer dann, wenn der
analysierte Rah'men einen stimmhaften rauschähnlichen Konsonanten
enthält, beispielsweise die Laute, die beim Sprechen der englischen
N09822/0864
yt
Buchstaben ζ und ν erzeugt werden, oder einen stimmlosen rauschähnlichen
Konsonanten, beispielsweise in englischen Buchstaben s, f, t, k.
Stimmlose rauschähnliche Konsonanten sind durch eine Konzentration rauschähnlicher Energie bei hohen Frequenzen gekennzeichnet, während
stimmhafte rauschähnliche Konsonanten eine kräftige Energiekomponente bei niedrigen Frequenzen haben, beispielsweise bei etwa 500 Hz.
In der oben genannten Doktorarbeit von T.H. Martin werden Schaltungsanordnungen zur Erkennung des Auftretens stimmhafter und stimmloser rauschähnlicher Konsonanten beschrieben. Diese Schaltungsanordnungen lassen
sich zweckmäßig bei der praktischen Verwirklichung der vorliegenden
Erfindung verwenden. Sie müssen dann unter Anwendung üblicher Verfahren so abgeändert werden, daß sie ein Ausgangssignal in einem binären Mehrbitformat liefern, ähnlich dem Format des Burst-Zeichens. Beispielsweise
kann das an die Aufnahmeeinrichtung 300 gegebene Reibelaut-Zeichen
den Wert Z^ (011) und A~ (100) haben, wenn ein stimmhafter bzw. stimmloser Reibelaut angegeben wird. Im vorliegenden Fall haben die Ruhe-,
Burst- und Reibelaut-Zeichen alle ein 3-Bit-Format, ihre Werte sind jedoch verschieden. Die von den Bauteilen 240, 250 und 260 ausgehenden
Sammelleitungen mit 3 Bits können daher zu einer einzigen Sammelleitung
mit 3 Bits zusammengefaßt werden. Natürlich sind auch andere Signalformate möglich.
809822/0864
27526Ü7
Der Formantprozessor 270 analysiert die Rahmensignale und gewinnt daraus Formantfrequenzen. Dieses sind betonte Einzelfrequenzkomponenten
im Sprachspektrum, die besonders ausgeprägt dann vorhanden sind, wenn Vokale gesprochen werden. Die Formantgewinnung ist zwar keine einfache
Aufgabe, sie ist aber grundlegend für die Sprachanalyse und -synthese und daher in der Literatur umfangreich beschrieben. Zweckmäßige Verfahren
und Vorrichtungen zur Verwirklichung des Formantprozessors 270 sind u.a. in den folgenden Literaturstellen angegeben:
1 . B.S. Atal und S.L. Hanauer "Speech Analysis and Synthesis
by Linear Prediction of the Speech Wave", JASA, Band 50, 1971,
Seiten 637-655;
2. US-Patent 3 624 302 (30. November 1971);
3. S.S.McCandless "An Algorithm for Automatic Formant
Extraction Using Linear Prediction Spectra", IEEE Transactions on Acoustic Speech and Signal Processing, Band ASSP 22, Nr. 2, April 1974,
Seiten 135-141;
4. J.D. Markel "Digital Inverse Filtering - A New Tool for
Formant Trajectory Estimation", IEEE Transactions Audio Electric
809822/086Λ
27526U7 κ
5. B. Gold und L.R. Rabiner "Parallel Processing Techniques
for Estimating Pitch Periods of Speech in the Time Domain", JASA, Band 46, 1969;
6. US-Patent 3 649 765 (14. März 1972);
7. L.R. Rabiner et al "A Hardware Realization of a Digital
Formant Synthesizer", IEEE Trans. Comm. Tech., Band COM-19,
November 1971, Seiten 1016-1020.
Nach Gewinnung der Formantfrequenzen, beispielsweise unter Verwendung
der Einrichtungen, die von Rabiner et al in der oben angegebenen Veröffentlichung 7) beschrieben worden ist, wandelt ein Transformationsprozessor 280 dfe gewonnenen Formantfrequenzen in Zungenkörperpositionen
um, und aus aufeinanderfolgenden Zungenkörperpositionen erzeugt der Prozessor 280 dann die Zungenkörperbahn-Zeichen. Der Formantprozessor
270 gibt ein Signal an den Transformationsprozessor 280, das die drei Formanten mit den niedrigsten Frequenzen darstellt, die im Sprachsignal
aufgefunden worden sind. Diese drei Formanten werden vorzugsweise gleichzeitig parallel abgegeben und bilden ein einzelnes nebeneinander-
809822/0864
27526Ü7
liegendes Feld.Wenn jeder Formant also durch einen Code oder ein
Feld mit 8 Bits definiert wird, so ist das beieinanderliegende Ausgangsfeld des Prozessors 270 ein Feld mit 24 Bits. Das Ausgangssignal des
Prozessors 280 ist ein paralleles Binärfeld, das das Zungenkörperpositions-Zeichen
darstellt. Im einzelnen wird der Mundhöhlenbereich entsprechend der Definition in Fig. 3 sowie die Bewegungsrichtung des Zungenkörpers
angegeben.
Wie oben erläutert, erfolgt die Erzeugung der Zungenkörperposition
und der Zungenkörperbahn entsprechend dem Coker-Stimmtraktmodell.
Bei Coker werden die Formanten erzeugt, die sich aus jeder Zungenkörperposition
ergeben. Hier wird das Coker-Modell umgekehrt benutzt, um eine
Zungenkörperposition aus einer Gruppe mit den drei niedrigsten Formantfrequenzen
zu erzeugen.
Eine vereinfachte Erläuterung des Coker-Modells und dessen Verwendung
zur Erzeugung einer Zungenkörperposition entsprecherdeiner Gruppe von angegebenen Formanten findet sich in einer Master-Dissertation von E.H.
Hafer "Speech Analysis by Articulatory Synthesis", Northwestern University
Computer Sciences Department; Evanston, Illinois, Juni 1974. Diese
Dissertation steht zur Einsicht und Kopie in der Bücherei der Northwestern
University zur Verfügung. Die Seiten 10-18 der genannten Dissertation
809822/0864
27526Ü7
Wr
und die Anhänge 1 -4 sind von besonderem Interesse. Der Text erläutert
das Modell und das Verfahren zur Ableitung der geeigneten Formanten aus dem Modell. In den Anhängen 2-4 werden die FORTRAN-Programme
angegeben, die in Verbindung mit einem Allzweckrechner zur Erzeugung der gewünschten Informationen benutzt werden können. Da der Prozessor
280 durch einen Allzweckrechner unter Verwendung der in den vorgenannten
Anhängen offenbarten Programme gebildet sein kann, wird die genannte Dissertation von E.H. Hafer zum Bestandteil der vorliegenden Offenbarung
gemacht. Da außerdem die benutzten Programme fUr die Erstellung der unten beschriebenen Festwertspeicher (ROM)-NachschlagetabeIlen zweckmäßig sind, werden die Programme in einem Anhang zur vorliegenden
Beschreibung aufgeführt, um die praktische Verwirklichung der Erfindung
zu erleichtern.
Das Modell und seine Verwendung seien kurz zusammengefaßt. Das Stimmtraktmodell ist eine parametrische Darstellung einer sagittalen Mittelebene des menschlichen Stimmapparates. In dem Modell werden sechs
Parameter benutzt, um die Position von drei Artikulatoren (Zungenkörper, Zungenspitze und Lippen) anzugeben. Diese Artikulatoren bestimmen den
Querschnittsbereich entlang des Traktes. Die Stimmtraktbereichsfunktion
wird durch 36, in gleichem Abstand angeordnete Querschnitte angenähert,
809822/0864
die in Ebenen senkrecht zur Mittellinie der Mundhöhle definiert sind.
Wie Fig. 1 zeigt, ändert sich der Querschnittsbereich der Mundhöhle mit der Position des Zungenkörpers. Daher kann durch eine Bestimmung
des Mundhöhlen-Querschnittsbereiches aus Formantfrequenzen die Zungenkörperposition
festgestellt werden. Wenn ein AlIzweckrechner als bevorzugtes
Ausfuhrungsbeispiel für den Prozessor 280 benutzt wird, so können die Programme im Anhang zur Bestimmung der Zungenkörperposition
eines Sprechers verwendet werden. Die Programme funktionieren auf interaktive Weise. Zunächst wird angenommen, daß der Zungenkörper
eine vorgewählte Lage hat, und es wird eine Gruppe von Formanten abgeleitet, die charakteristisch für diese Lage sind. Die angenommene
Lage ist die letzte bekannte Position des Zungenkörpers. Die aus der angenommenen Lage des Zungenkörpers abgeleitete Gruppe von Formanten
wird mit den (im Prozessor erzeugten) zugeführten Formanten verglichen und eine Fehlerfunktion ausgewertet, um den Unterschied zwischen den
abgeleiteten Formanten und den Formanten des Sprechers zu bestimmen. Diese Fehlerfunktion bestimmt die Änderungen, die für den Zustand des
Stimmtraktmodells erforderlich sind, um den Wert der Fehlerfunktion
zu verringern. Das Modell wird geändert, die Formanten werden berechnet und die Fehlerfunktion wird erneut ausgewertet. Wenn festgestellt ist, daß
der Fehler genügend klein ist, so wird die Form des Stimmtraktmodells
809822/0884
analysiert, um eine als brauchbar festgestellte Annäherung der Zungenkörperposition für die meisten Vokale zu erhalten.
In denjenigen Fällen, in denen ein Allzweckrechner nicht die bevorzugte Lösungsmöglichkeit zur Verwirklichung des Transformationsprozessors
280 ist, kann eine andere Verwirklichung für die Zwecke der vorliegenden
Erfindung dadurch geschaffen werden, daß mit Hilfe der Programme im Anhang die durch das Coker-Modell erzeugten Formantgruppen für alle Zungenkörperpositionen und interessierenden Stimmtraktlängen im voraus berechnet und
die ausgewerteten Formanten in einer Nachschlagetabelle gespeichert
werden. Als Nachschlagetabelle kann ein Festwertspeicher benutzt und so
ausgelegt wenden, daß das Adressenfeld die Zungenkörperposition und von
dem Modell benutzte Stimmtraktlänge angeben und der Inhalt jeder Speicherstelle die Formanten bedeutet, die von dem Modell aufgrund eines durch
das Adressenfeld gekennzeichneten Modellzustandes erzeugt werden. Eine solche Nachschlagetabelle wird schrittweise benutzt, da die gewählten
Zungenkörperpositionen und Stimmtraktlängen zugeordneten Formanten mit den vom Prozessor 270 abgeleiteten Formanten verglichen werden müssen.
Vorzugsweise wird eine Festwertspeicher-Nachschlagetabelle unter Verwendung
von Formanten erzeugt, die die unabhängig Variable statt der abhängigen
809822/0864
Ü752607
Variablen darstellen. Das heißt, die drei von dem Modell abgeleiteten
Formanten werden nebeneinander gelegt, so daß sie ein einziges Feld
bilden,und dieses Feld dient als Adressenfeld für einen Speicher, dessen Speicherstellen die Zungenkörperpositionen und Stimmtraktlängen enthalten,
welche den Formanten entsprechen, die die zugeordneten Adressen bilden. Bei einer solchen Nachschlagetabelle ist ein schrittweiser Betrieb nicht
erforderlich.
Das Ausgangssignal des Transformationsprozessors 280 ist ein Zungenkörperbahn-Zeichen,
das die Zungenkörperposition und ein Maß für die Zungenbewegung
beinhaltet. Die Positionsinformation wird, wie beschrieben, aus der Nachschlagetabelle
gewonnen. Die Bewegungsangabe wird durch Vergleichen der erhaltenen Position mit der vorhergehenden Position abgeleitet.
Dies kann dadurch geschehen, daß die vorhergehenden x- und y-Koordinatenpositionen
gespeichert und von den neu festgestellten x- und y-Koordinatenpositionen
subtrahiert werden. Da nur 10 Bereiche zur Gewinnung einer ausreichenden Positionsangabe (mit Fig. 3) unterschieden werden müssen,
kann das Format des Zungenkörper-Zeichens ein Binärwort mit 8 Bits sein, bei dem die ersten 4 Bits die Zungenposition, die nächsten 2 Bits die Bewegung
in der x-Richtung und die letzten beiden Bits die Bewegung in der y-Richtung
angeben.
809822/08Θ4
27526Ü7
Es sei das bevorzugte Ausfuhrungsbeispiel des Prozessors 280 entsprechend
der Erläuterung zusammengefaßt. Man benutzt das Coker-Modell in Umkehrung zur Erzeugung einer Tabelle von ZungenkörperposiHonen, die am
besten jeder Gruppe von 3 niedrigsten Formanten entsprechen. Die Tabelle wird am einfachsten unter Verwendung des in der Anlage angegebenen
Programms erzeugt, da die Prinzipien des Coker-Modells in diesem Programm enthalten sind. Die Verwendung dieses Programms ist jedoch nicht
zwingend. Außerdem können anstelle einer gespeicherten Nachschlagetabelle Mittel vorgesehen sein, um das Coker-Modell in Umkehrung auszuwerten. Bei dem hier beschriebenen Ausfuhrungsbeispiel wird eine Tabelle
verwendet, da damit die einfachste Verwirklichung zu erreichen ist. Diese Tabelle ist dauernd in einem Festwertspeicher gespeichert.
Der Festwertspeicher wird mittels eines einzelnen Feldes adressiert, das aus den drei nebeneinander liegenden Feldern zusammengesetzt ist, die
die drei Formanten mit den niedrigsten Frequenzen definieren. Das Ausgangssignal des Prozessors 280 ist ein Feld mit 8 Bits, von denen die
ersten vier Bits die Zungenposition, die nächsten zwei Bits die horizontale Zungenkörperbewegung und die letzten beiden Bits die vertikale Zungenkörperbewegung angeben.+
Das Ausgangssignal des Prozessors 280 wird ähnlich wie das Ausgangssignal der Bauteile 240, 250 und 260 zur Aufnahmee nrichtung 300
-I- Die Programme im Anhang stellen Beispiele für eine Möglichkeit zur
Verwirklichung der Erfindung dar, der Fachmann auf dem vorliegenden Gebiet
ist aber auf der Grundlage der gegebenen Lehren in der Lage, andere Programme
"■**"· 809822/0864
gegeben. Die verschiedenen Sammelleitungen sind in Fig. 4 und 6 mit
bezeichnet.
Wenn sicher wäre, daß nur gültigen Ziffern entsprechende Signale an das
Worterkennungssystem nach der vorliegenden Erfindung gegeben würden, dann brauchte die Annahmeeinrichtung 300 keine sehr komplizierte Anordnung
zu sein. Die Annahmeeinrichtung 300 hätte einen Anfangszustand, aus dem sie auf eine der Folgen von Zeichen abzweigen würde, die die gesprochene
Ziffer darstellen. Wenn die Feststellung der Ziffer beendet ist, d.h. die vollständige Zeichenfolge angezeigt ist, würde die Annahmeienrichtung
dann wieder in den Anfangszustand zurückgehen und für die Decodierung
der nächsten Ziffer bereit sein. Leider muß aber die Annahmeeinrichtung 300 Wörter, Ausdrücke und Laute, die keine gültigen Ziffern sind, aufnehmen
können, ohne außer Tätigkeit gebracht zu werden. Demgemäß muß die Annahmeeinrichtung 300 in der Lage sein, anzunehmen, daß jedes
Zeichen der Beginn einer gültigen Ziffernfolge ist, und muß auf einen neuen Zeichenanfang zurückgehen können, wenn sie "hängengeblieben"
ist. Die Notwendigkeit für das Zurückgehen läßt sich besser anhand des folgenden Beispiels verstehen, bei dem die Zeichenfolgen 110, 011, 101,
111, 110 und 011, 101, 111, 1-001 gültige Folgen sind und die Zeichenfolge
110, 011, 101, 111, 1001 angetroffen wird.
809822/0864
27526U7
Wenn die Annahmeeinrichtung 300 die Zeichen 110, 011, 101,
111 in der angetroffenen Zeichenfolge durchlauft, nimmt sie an, daß
die Folge 110, 011, 101, 111, 110 festgestellt wird und folgt daher
diesem Weg. Wenn das Zeichen 1001 erreicht wird, muß die Annahmeeinrichtung 300 in der Lage sein, festzustellen, daß die Folge 110, 011,
101, 111, 1001 keine gUltige Folge ist und muß daher auf einen neuen
Folgenbeginn zurückgehen. Wenn demgemäß vom Zeichen 1001 auf das Zeichen 011 zurückgegangen wird (das erste Zeichen 110 weggelassen
wird), so wird die Folge 011, 101, 111, 1001 von der Annahmeeinrichtung
300 als gültige Folge festgestellt.
Zur Durchfuhrung der erforderlichen Operationen ist die Annahmeeinrichtung
30OaIs sequentielle Schaltungsanordnung mit endlichen Zuständen konstruiert. Sie startet bei einem Anfangszustand und durchläuft eine Anzahl
von Zustandsänderungen bis zu einem von 10 erfolgreichen Endzuständen (wobei jeweils eine der 10 Ziffern festgestellt wird). Sequentielle Schaltungsanordnungen, die manchmal auch Folgedetektoren genannt werden, sind
bekannt. Der Aufbau solcher Schallungsanordnungen zur Realisierung vorgegebener Zustandsdiagramme ist beispielsweise beschrieben in P.E. Wood,
Jr. "Switching Theory", McGraw-Hill Book Co., 1968, Abschnitt 5. Auf dem Sprachgebiet ist eine solche sequentielle Schaltungsanordnung
809822/086^
27526Ü7
in der oben angegebenen Doktor-Dissertation von Martin und außerdem
Im US-Patent 3 700 815 (24. Oktober 1972) beschrieben. Jede Abweichung von einem brauchbaren Weg führt zurück zum Anfangszustand.
Dies ist für die vorliegende Beschreibung durch das Zustandsdiagramm in Fig. 5 dargestellt, das die Zustandsübergänge beschreibt, die erforderlich
sind, um den englischen Ausdruck "two eight" festzustellen. Das
vollständige Zustandsdiagramm der Annahmeeinrichtung 300 hängt natürlich
von der genauen Liste von Wörtern ab, die festgestellt werden sollen (Ziffern 0-9, Verbindungswörter beispielsweise "hundert" usw.). Das
Zustandsdiagramm in Fig. 5 und die Schaltungen zur Verwirklichung gemäß Fig. 7 werden als repräsentativ aufgefaßt.
Der Zustand 1 der Annahmeienrichtung 300, der in Fig. 5 als Ziffer 1
in einem Kreis dargestellt ist, ist der Anfangszustand der Annahmeeinrichtung 300. Dies ist der Zustand, in den die Annahmeeinrichtung
300 immer dann eintritt, wenn eine Prüfung erfolgreich oder nicht erfolgreich beendet worden ist. Die Annahmeeinrichtung 300 bleibt im Zustand 1,
bis ein Zeichen ankommt, das dem Anfang eines der erkennbaren Wörter, beispielsweise Ziffern, entspricht. Der Pfeil A in Fig. 5 stellt die Ausgangswege
vom Zustand 1 in Richtung auf Ziffern dar, die nicht "two" und
"eight11 sind.
809822/08Θ4
"as
Wenn die englische Ziffer "two" gesprochen wird, so fuhrt der Laut
/t/ von "two" zu einem Burst-Zeichen, das die Annahmeeinrichtung 300 veranlaßt, auf den Zustand 2 zu gehen. Dies ist in Fig. 5 durch den
Pfeil B (für Burst) angegeben, der vom Zustand 1 zum Zustand 2 fuhrt.
Die Annahmeeinrichtung 300 bleibt im Zustand 2 , solange ein Burst-Zeichen zugeführt wird. Sie verläßt aber den Zustand 2 über den mit einem
gekennzeichneten Pfeil immer dann, wenn ein Zeichen ankommt, das
nicht mit der Fortsetzung für die Aussprache von "two" Übereinstimmt.
Ein mit einem bezeichneter Ausgang gibt die Rückkehr auf den Zustand nach Art einer rückwärts verfolgenden Arbeitsweise an. Wenn tatsächlich
die Ziffer "two" gesprochen wird, so folgt dem Burst /t/ ein Vokalabschnitt.
Der Anfiangsteii des Vokalabschnittes führt zu einer Zungenkörperposition im 2. Bereich in Fig. 3. Demgemäß geht bei einem Zeichen, das eine
Zungenkörperposition im Bereich 2 angibt (p = 2) , die Annahmeeinrichtung 300 auf den Zustand 3, wie in Fig. 5 gezeigt. Sie bleibt im Zustand 3,
bis der Zungenkörper in den Bereich 6 eintritt und sich in positiver x-Richtung zu beweget beginnt. In diesem Fall wird die Ziffer 2 erkannt,
wie in Fig. 5 durch den Pfeil D =2 angegeben. Die Annahmeeinrichtung geht dann zur Vorbereitung für die nächste Ziffer auf den Zustand 1
zurück.
809822/0864
Wie oben gesagt, enthält der zweite Teil des Ausdrucks "two" einen
Voka!abschnitt, der bewirkt, daß sich der Zungenkörper im Bereich 6
befindet und in positiver x-Richtung läuft. Da keine Ziffer vorhanden ist, deren Anfangsabschnitt den Zungenkörper in den Bereich 6 bringt,
bleibt die Annahmeeinrichtung 300 in ihrem Anfangszustand während des Endabschnittes für den Ausdruck "two" bis zum Beginn des Ausdrucks
"eight".
Der englische Ausdruck "eight" beginnt mit einem Vokalabschnitt im
Bereich 8. Wenn sich demgemäß der Zungenkörper in den Bereich 8 bewegt, verläßt die Annahmeeinrichtung 300 den Zustand 1 und tritt in
den Zustand 4 ein. Beim Weiterlaufen in positiver x- und y-Richtung bewegt sich der Zungenkörper nach oben zum Bereich 3. Dann geht die
Annahmeeinrichtung 300 auf den Zustand 5 weiter und verbleibt dort, bis das abschließende Burst-Zeiche η des Ausdrucks "eight" ankommt.
Dann wird die Ziffer "eight" erkannt, und die Annahmeeinrichtung kehrt zur Vorbereitung auf die nächste Ziffer in den Zustand 1 zurück.
Zur Verwirklichung der Annahmeeinrichtung 300 müssen zwei Hauptelemente
berücksichtigt werden, nämlich eine Einrichtung zur Ermöglichung eines rückwärts verfolgenden Rücklaufens und eine Einrichtung
809822/0864
zur Verwirklichung des Zustandsdiagramms für die Annahme -einrichtung.
Für das rückwärts verfolgende Rücklaufen ist ein Speicher erforderlich,
der die der Annahmeeinrichtung 300 zugeführte Zeichenfolge speichert.
Der Speicher muß so organisiert sein, daß alte Daten wiedergewonnen und erneut verarbeitet werden können, während neue Daten eingeschrieben werden. Eine solche Anordnung wird dadurch realisiert, daß die
zugeführten Zeichen in einem Üblichen Speicher unter Steuerung eines
Zeichenadreßzählers eingegeben werden, der mit einer Modulo-Arithmetik
arbeitet, die gleich oder kleiner als die Größe des Speichers ist. (Beispielsweise wird für einen Adreßzähler mit 10 Ziffern ein Speicher mit
wenigstens 1024 Wörtern benutzt.) Bei einer solchen Anordnung werden
die zugeführten Zeichen sequentiell unter Steuerung des Zeichenadreßzählers eingegeben. Wenn beispielsweise die Speicherstelle 1023 des
Speichers geschrieben wird (bei Verwendung eines Zählen mit 10 Bits),
so ist die nächste, einzuschreibende (unter Löschung der alten Information) Speicherstelle die Speicherstelle 0.
Zwei weitere Zähler, die auf der gleichen Zahlenbasis wie der Zeichenadreßzahler arbeiten, sind zur richtigen Verwendung des Speichers vorgesehen:
809822/0864
Ein Folgestartzähler (Zähler A) und ein Zähler für die augenblickliche
Adresse (Zähler B). Der Zähler A gibt die Speicherstelle des ersten Zeichens in der geprüften Folge und der Zähler B die augenblickliche
Adresse des Zeichens in der geprüften Folge an. Ein Blockschaltbild dieser Schaltungsanordnung ist in Fig. 6 gezeigt.
Der Speicher 301 (Fig. 6) speichert die der Annahmeeinrichtung 300
auf der Leitung 302 zugeführten Zeichen und gibt die vorher gespeicherten, von der Annahmeeinrichtung 300 genötigten Zeichen auf der Leitung
aus. Das Einschreiben und Lesen des Speichers 301 erfolgt in Abhängigkeit von Lese- und Schreibsteuerbefehlen, die eine Steuereinrichtung 200
(Fig. 4) über die Leitungen 303 und 304 liefert. Die richtige Adresse wird dem Speicher 301 durch die Auswahleinheit 305 zugeführt, die wiederum
306 (Zeichenadreßzähler) und Zähler 307 (Zähler B) gesteuert wird. Der Zähler 308 (Zähler A) wirktmit dem Zähler 307 über eine Sammelleitung
309 zusammen, und dieses Zusammenwirken wird unter Steuerung von Leitungen 310, 311, 312 und 313 aufrechterhalten . Ein Signal auf der
Steuerleitung 310 schaltet den Zähler 308 um eins weiter, das Signal auf der Steuerleitung 311 verdoppelt den Wert des Zählers 307 im Zähler
308, ein Signal auf der Steuerleitung 312 schaltet den Zähler 307 um
eins weiter und ein Signal auf der Steuerleitung 313 verdoppelt den Wert des Zählers 308 im Zähler 307. Die Leitung 314 steuert den Zähler
809822/0864
α*
und schaltet ihn jedesmal dann weiter, wenn ein neues Zeichen zugeführt wird.
Im Betrieb adressieren, wenn die Prüfung einer Folge beginnt, beide
Zähler A und B die gleiche Speicherstelle, wodurch das erste Zeichen der geprüften Folge aus dem Speicher 301 gelesen wird. Solange die
Prüfung befriedigend weiterläuft, wird der Zähler 307 jedesmal um eins weitergeschaltet, während der Zähler 308 unverändert bleibt.
Wenn die Prüfung am Ende einer Folge erfolgreich aufhört, so ist der
Zähler 308 auf die Position des Zählers 307 weitergelaufen, und es wird eine neue Prüfung eingeleitet. Wenn die Prüfung erfolglos endet
(mit einem """-Eintritt in den Zustand 1), so wird der Zähler 308 um
eins weitergeschaltet und der Zähler 307 auf den gleichen Stand wie der Zähler 308 gesetzt, wobei dann eine neue Prüfung beginnt.
Zur Verwirklichung des Zustandsdiagramms für die Annahmeeinrichtung
300 können übliche Verfahren benutzt werden. Im Interesse der Vollständigkeit
zeigt Fig. 7 jedoch ein Ausführungsbeispiel zur Verwirklichung des operativen Teils des in Fig. 5 gezeigten Zustandsdiagramms.
Da in Fig. 5 nur fünf Zustände vorhanden sind, zeigt Fig. 7 fünf Flip-
809822/0864
Flops 701-705, die die fünf Zustände darstellen. Jedes Flip-Flop
ist an einen zugeordneten Logik-Baustein 711 -715 angeschaltet,
die alle an eine vom Speicher 301 (Fig. 6) ausgehende Signalsammelleitung
317 angeschlossen sind.
Jeder der Logik-Bausteine 711-715 erzeugt ein Ausgangssignal
mit einer anderen Kombination, die jeweils speziell so ausgebildet Ist, daß sie einen Teil des Zustandsdiagramms verwirklicht. Beispielsweise
erzeugt der Logik-Baustein 711 diejenigen Ausgangssignale, welche
erforderlich sind, um die Annahmeeinrichtung 300 aus dem Zustand 1 und in den Zustand 2 , 4 oder A zu bringen. Demgemäß liefert der
Baustein 711 drei Ausgangssignale: ein Signal, das den Eintritt in den
Zustand A angibt (Leitung 721), ein Signal, das den Eintritt in den Zustand 4 angibt (Leitung 722), und ein Signal, das den Eintritt in den
Zustand 2 angibt (Leitung 723). Gemäß Fig. 5 soll ein Eintritt in den Zustand 4 nur dann erfolgen, wenn ρ = 8 auftritt. Demgemäß ist der
BooIe'sehe Ausdruck für das Ausgangssignal auf der Leitung 722 (Zustand 1)
(p = 8). Die erste Variable (Zustand 1) ist vom Flip-Flop 701 abgeleitet, und die zweite Variable (p = 8) wird durch Decodieren der Information
auf der Sammelleitung 317·gewonnen. Demgemäß verwendet man ein UND-Gatter
mit zwei Eingängen zur Erzeugung des Ausgangssignals auf der Leitung 722. Die Ausgangssignale der Bausteine 711-715 werden auf
809822/0864
entsprechende Weise abgeleitet.
Wie oben angegeben, muß immer dann, wenn das Zustandsdiagramm
in Fig. 5 einen -Austritt angibt, die Aufnahmeeinrichtung 300 wieder in den Zustand 1 eintreten und insbesondere den Stand der
Zähler 307 und 308 ändern. Zu diesem Zweck sammelt ein ODER-Gatter 731 alle -Austritte und kombiniert zur Bildung eines Ausgangssignals auf der Leitung 732, die die Zähler 307 und 308 steuert.
Die D-Austritte erfordern ebenfalls ein Wiedereintreten in den Zustand 1, aber mit einer anderen Abänderung der Zähler 307 und 308 (wie oben
beschrieben). Zu diesem Zweck erzeugt ein ODER-Gatter 733 ein Ausgangssignal auf der Leitung 734. Die - und D-Ausgangssteuersignale
werden in einem ODER-Gatter 735 kombiniert, das das Eintreten in den Zustand 1 steuert.
Das Eintreten in irgendeinen bestimmten Zustand muß natürlich durch
ein Austreten aus allen anderen Zuständen begleitet sein. Wenn demgemäß eines der Flip-Flops 701 -705 eingestellt wird, so müssen alle
anderen Flip-Flops rückgestellt werden. Dies wird gemäß Fig. 7 mit Hilfe der Logik-Bausteine 741 -745 und eines ODER-Gatters 746
erreicht. Das ODER-Gatter 746 erzeugt Immer dann ein Signal, wenn ein ZustandsUbergang auftritt, und dieses Signal wird dem R-Eingang
809822/0864
der Logik-Bausteine 741-745 zugeführt. Jeder der Logik-Bausteine
741 -745 ist so ausgelegt, daß er dann ein Ausgangssignal am Anschluß Q liefert, wenn ein Signal an den Eingang R angelegt wird,
und ein Ausgangssignal am Anschluß Q , wenn ein Signal an beide Eingänge R und S gegeben wird. Auf diese Weise werden die Bausteine
741 -745 mit dem Gatter 746 kombiniert, um alle Flip-Flops mit Ausnahme desjenigen Flip-Flops zurückzustellen, das gerade eingestellt
wird.
Die Steuerung der Anlage gemäß Fig. 4 erfolgt durch eine Steuerung
200. Sie liefert den Abtastakt an den Ana log-Digi ta !wandler 220,
die Lese - und Schreibsteuersignale (Leitungen 303 und 304) an den Speicher 301, die Einstell- und Weiterschaltbefehle (Leitungen 310
-314) an die Zähler 306, 307, 308 und alle anderen Steuersignale, die für die richtige Arbeitsweise des Kennwert-Extraktors 230 erforderlich
sind. Die Steuerung 200 kann auf Übliche Weise auf gebaut
sein und einen astabilen Multivibrator zur Erzeugung eines Haurtalctsignals
aufweisen, ferner mit dem Multivibrator verbundene Flip-Flops zur Erzeugung von Bruchteilen des Haupttaktsignals und einer Anzahl
von Gattern, die eine geeignete Kombinationslogik für jedes erforderliche
Steuersignal bilden. Da die erforderlichen Schaltungen leicht
809822/0864
J»
zu verwirklichen sind, werden die Einzelheiten fUr die Verbindungen der Logik-Gatter dem Fachmann Überlassen.
809822/0864
Anhang
FORTRAN-PROGRAMM zur Verwirklichung des Prozessors
_. (
FUNCTION FUNC (X)
BEAL X(IO) C C MAIN ERROR FUNCTION C c inputs:
C X- PARAMETER VECTOR C POLE - REAL SPEECH FORMANTS (COMMON /MATCH/)
C ERR - ERROR DUE TO VIOLATIONS OF CONSTRAINTS
C (COMMON /ERRORS/)
C OUTPUTS:
COMMON /ERRORS/ ERR
COMMON /MATCH/ POLE13)
C REAL AREAF(6«*) # POLEF (3)
ERR =0.0 FUNC = C C COMPUTE CROSS SECTIONAL AREA FUHCTIOK
•8098 2.2/00
.· 2 7 b 2 b U
CALLVOCAL (X (2] , Χ(3), Χ(Ί), Χ(5), X(G), Χ(7), 0.01.
C AREAF, NSECF) C
C COMPUTE FORMANT FREQUENCIES
. CALL FORM (AREAF, NSECF, X(I), POLEF)
C
DO 10 1=1,3
D * (POLEF(I) - POLE(I))ZPOLE(I) 10 FUNC = FUNC ♦ D«D
C
C ADD ERROR DUE TO VIOLATION OF EXPLICIT AND C IMPLICIT CONSTRMNTS
RETURN .
END ·
«09822/0864
27b2ßU7
SUBROUTINE IVOCAL C
C INITIALIZATION SUBROUTINE FOR VOC/iL TRACT
C
ε χ, γ, ANAUT(UO)^sECT
C (34 SEC IN 17 CM)
SECT = 17.0/34.0 C C COMPUTE CONSTANTS TO SET VOCAL TRACT SHAPE
R1 = 3.875
R2SQ =6.25
ZBEND =7.0
ACOR =3.81
BCOR = 0.188 C
N1 = 4.0/SECT
8098 22/06-64 "'
N2 = 19.0/SECT
DO 10 J=Nl,U2
DO 10 J=Nl,U2
10 ANAUT(J) = BCOR*COS (FLpAT (J) »RADSC1 - RBENDI)
C
RETURN
END .
END .
SUBROUTINE VOCAL (XI, YI, R, Β» LL, WW, C, K0 16)
C · *
C VOCAL TRACT SUBROUTINE
C INPUTS: ■
C XI- TONGUE BODY HORIZONTAL COORDINATE
C YI- TONGUE BODY VERTICAL COORDINATE "
C R- TONGUE TIP RETROFLEX COORDINATE
C B- TONGUE TIP HEIGHT COORDINATE
C LL- LIP EXTENSION COORDINATE
C MW- LIP CLOSURE COORDINATE
C C- MINItIUM AREA OF A CROSS SECTION
C SECT - LENGTH OF ONE VOCAL TRACT SECTION
C (COMMON /VOCDAT/)
C .
C OUTPUTS:
C A - CROSS SECTIONAL AREAS
C 16 - NUMBER OF SECTIONS IN VOCAL TRACT
809822/0864
C
COMMON /ERRORS/ ERR COMMON/VOCDAT/RI ,R2SQ, ZBEND, ACOR, BCOR,RADSEC, RBEND,
t X, Y ,ANAUT (40), SECT
REAL L, LL, A(64)
DATA Z1, Z2B, G2B, Z2, G2, Z3, G3, Zt & /2.0, 5.0, 1.5, 6.0, 2.0, 11.0, 0.31, 13.5/
DATA SC, AGP, ARADCR /3.0, 3.0, 10.25/ C
C
C EXPLICIT CONSTRAINTS DXY = ABS (XI) -1.5
IF (DXY .GT. 0.0) ERR = ERR ♦ DXY*DXY*100.0
X = AMAXI (-1.5, AMIN1 (1.5, XI)) C DXY = ABS (YI) -1.5
IF (DXY .GT. 0.0) ERR = ERR ♦ DXY*DXY*100.0
X = AMAXI (-1.5, AMIN1 (1.5, YI)) W = WW C AL=LL
L=I.
I1=1.5*Z1/SECT S2B= 1. ♦ (Z2B+G2B* Y)/SECT
809822/0864
S2=1. 5* (Z2<G2<'Y)/SECT
I2=S2
12A=MINI (S2B,S2)
S3=1.5*(Z3*.7*X+.3*Y)/SECT
I3=S3
I5=1-5+15.5/SECT
S5 = FLOAT(I5) - .01
SU = AMIN1 (SH, S5)
Α5=1.125-.3ί»*ϊ
A6=(1.08-.89»W*.33*L)*A5 *L/AL
IX) 12 J=KIN, 16
A(J)=A6
IP (I5-I4IN) 30,22,22
DO 24 J=MIN,15
• ·
S *= (FLOAT(I5-J) »SECT) *·2*5
2«» A (J) = 1. 18*SQRT (S/ (4.
TEETH
8Ό9822/0864
S»»3=SU-S3 AU=CIRCI (S'*,
S β ((FLOAT (15) - SU) «SECT) **2*5.0
AUP1 = 1.18*SQRT(5/(U.O ♦ S)) + A5 ε
(ANAUT(Ii*) ♦ (ANAUT(MIN) - ANAUT (IU) ) *QU)
AT = AU - (AU1* .250)«B*1.33
AT = AMINl (AT, AUPl) AUU=AT-AU MIN=I3+1
DO 32 J=MlN,IU A(J)=CIRC(J) +AUU «((FLOAT (J)-S3)/SU3) **2
************** TONGUE BODY
MI2=I2+1
DO U2 J=MI2fI3 H2 A(J)=CIRC(J)
A2=CIRC1(S2,Q2) DO 52 J=I2A,I2 A(J)=A2
A20=A2/2.-.U8-.25«Y A0=A2-A20
PISEC=3.1U16«SECT/U.
DO 5U J=H,12A 5U A(J) =A0*A20*COS (PISEC* (S2B-FLOAT (J)))
AI=A(H)/AGP
809822/0864
MAX=Il-I DO 62 J=1.MAX A(J)=AI
C ************** CROSS SECTION
CSO=C*♦2
AJERR = 0.0 * C IMPLICIT CONSTRAINTS TO DISALLOW NEGATIVE AREAS
DO 100 J=I,16
IP (A(J) .LT. 0.0) AJERR = AJERR - A(J)
A(J)=SC* (SQRT (A (J) ^2+CSQ)+A(J))
ERR = ERR '+ AJ"eRR*AJERR*SC*SC c *************** TONGUE TIP
RH=L-QI
} =A«*A<H*AT/
RETURN END
809822/0864
FUNCTION CIRC(J) TONGUE BOD* AREA FUNCTION COMMON /VOCDAT/R1,R2SQ, ZBEND, ACOI*, BCOR,RADSEC,RBEND,
β X, Y,AIiAUT (40) ,SECT
ALPH=FLOAT (J)«RADSEC-RBEIJD
CO =COS (ALPH) SI =SIN (ALPH) CIRC=R1+X*C0-Y*SI-SQRT(AKAX1(R2SQ-(X*SI+Y*CO)**2,0.)) -
ANAUT (J) RETURN END
FUNCTION CIRC1(S,Q) CIRC LINEAR INTERPOLATION FUNCTION
Q=S-FLOAT (J) CIRCI=(U-Q) «CIRC(J) +Q«CIRC(J+1)
JtETURN
809822/0S64·
SUBROUTINE FORM (A, NSEC, ALENF, F)
DIMENSION A (6<l) , F (3)
C
C. WEBSTER HORN EQUATION ITERATION SUBROUTINE C
C INPUTS:
C A - CROSS SECTIONAL AREAS C NSEC - NUMBER OF SECTIONS IN VOCAL TRACT
C ALENF - VOCAL TRACT LENGTH FACTOR C SECT - LENGTH OF ONE VOCAL TRACT SECTION C (COMMON /VOCDAT/)
C (X, Y) - TONGUE BODX POSITION (COMMON /VOCDAT/) C . ·
C OUTPUTS:
C F- FOI(MANT FREQ. IN HTZ.
C F- FOI(MANT FREQ. IN HTZ.
• ·
COMMON/VOCDAT/RI,R2SQ,ZBEND,ACOR,BCOR,RADSEC,RBEND,
ε X,Y,ANAUT(UO) ,SECT
C
DATA C /33136.0/ C . · ·
809822/0864
C F2 SEMCH KEGlOM — 1500 HTZ */- 000 HTZ C F3 SEAUCH REGION — 2500 HTZ ♦/- 000 HTZ
REAL FINC (7), FRSTF (3) , AR (64), FREQ
DATA NFINC, FINC /7, UQO., 200., 100., 50., 25. m
C 12.5, 6.25/
DATA FRSTF /500., 1500., 2500./, AR /64*0./ C
INTEGER INCST(3) .' DATA INCST /2, 1. 1/
C C EXCLUSIVE OR FUNCTION
IEOR (A, B) = XOR (INT (SIGN (1 .0,A) ) ,INT(SIGN(I .0,B) ))
C
C
P1 = 0
DX = SECT
C COMPUTE AREA RATIOS DO 10 1=2,NSEC
10 AR(I) = A (1-1)/A (I) C C LOOP FOR 1ST THREE RESONANCES
809822/088*
DO 100 | NF=1,3 | |
DFREQ | = 0.0 | |
FREQU | = 0.0 | |
FREQL | = 0.0 | |
FREQ = | FRSTF (NF) | |
IST =■ | IKCST (NF) | |
C | ||
C | BINARY | SEARCH LC |
PO a 1.0
P1 » FDXCSQ
NZX = 0 .
DFREQ - 0.0
C
C ITERATE WEBSTER BORN EQUATION THROUGH VOCAL TRACT
DO 80 J=2,NSEC
TP = AR(J)*(P1 - PO)
PO « PI
P.I β FDXCSQ*P1 ♦ TP
C
C INCREMENT COUNTER IF HE HAVE PASSED A PRESSURE NODE
IF (IEOR (P1,P0)) 20,80,80 NZX = NZX ♦I
IF (NZX - NF) 80,30,30
• 609822/08$*
DFHEQ = -FINC(I) CONTINUE
C «φ**««*««*«** END WEBSTER HORN EQUATION ITERATION LOOP
C
IF (DFREQ) 0'», 86, 8<l P1H = PI
FREQiI = FREQ GO TO 90 C
DFREQ = FINC(I) PIL = P1 FREQL = FREQ
CONTINUE
c **»**««««*****««**** END BINARY SEARCH LOOP
IF (1ST - NFINC) 91, 95, CONTINUE IF (FREQH) 93, 93,
IF (FREQL) 93, 93, 9H CONTINUE
C IMPLICIT CONSTRAINTS ON FORi-IANT FREQUENCY
ERR = ERR ♦ P1*P1*1OO.O
GO TO 99
C LINEARLY INTERPOLATE NEW FREQ. AND REITERATE 91» 1ST = NFINC Λ _ Λ
809822/0864
Pll - PIH
PL - PIL
DF1 - DFREQ
GO TO 15 C
C PARABOLIC INTERPOLATION FOR FINAL FREQ. VALUE
1ST = 1ST ♦ 1 "
X3MX1 * Hi - PI
X2MX1 = PL - Pi
P1SQ = P1*P1
DX2SQ ~ (PL*PL - PiSQ)
C
ACOF = (X3MX1*DF1 - X2MX1*(DF1 - DF2)) /
C (X2MX1*(PH*PH - PISQ) - X3MX1*DX2SQ)
FREQ = FREQ ♦ DFREQ C
CONTINUE
CONTINUE P(NP) β FREQ
CONTINUE
809822/0864
F(1) = 0.5* ((F(IJ ♦ 100.OJ «·
e SQRT ((F(IJ - 100.0J**2 ♦ 4E0JJ/DXF
P(2) = F(2J/DXF
F(3) = (F (3J - 200. OJ/DXF
RETURN
END
809822/0864
BEAL X(IO) , OG (10), OX(IO), G(IO)
C
C FUNCTION FUNIMIZATION SUBROUTINE
C X- VECTOR
COMMON /CLMDAT/ LIM1, EP, DGI, ILB, IUB, ITI, IT2
C
C
C INXTIALLIZE STEP, GRADIENT VECTOR, AND PREVIOUS
C X VECTOR
IXSS « DGI .
DO 10 1=1,10
OX(I) = X(I) - DGS
10 G(I) = 0.0
ITI
809822/0864
SO .C
COK1TINUE
FX = FUNC(X) C C QUIT IF MINIMUM FOUND
IF (ABS(FX) .LT. EP) GO TO C C QUIT IF STEP TO SMALL (WE ARE CREEPING)
IF (ABS(DGS) .LT. IE-I) ITI = IT1 ♦ 2000
C C INCREMENT AND QUIT IF ITERATION LIMIT EXCEEDED
ITI = IT1 «· 1 ·
IF (IT1 - LIM1) 250, 250, C C COMPUTE GRADIENT
GMAG =0 C DO 290 I=ILB,IUB OG(I) = G(I) SXI = X(I)
DG = (X(I) - OX(I))/16.0
IF (ABS(DG) .LT. 1E-5) DG = 1E-5 C . ■
X(I) = SXI ♦ DG
FXP = FUNC (X) t
80.9822/0864
DFX = FX - FXP •C G(I) = DFX/DG
GMAG = GIAAG ♦ G(I)*G(I) X(I) = SXI
OX(I) = SXI CONTINUE C C QUIT IF MAGNITUDE OF GRADIENT IS ZERO
IF (GMAG) 295, 295, ITI = ITi «· 1000
GO TO C C NORMALIZE AND MODIFy GRADIENT
GMAG = SQRT (GMAG) DO 310 I=ILB,IUB G(I) = 0.8*G(I)/GMAG + 0.2*OG(I)
C
C STEP IN DIRECTION OF MODIFIED GRADIENT IT2 =0 DG = DGS/»J.
DGS - FXP = FX
DO 320 I=ILB,IUB X(I) = X(I) ♦ G(I)* DG
809822/0864
320 | CONTIl | iUE | • | |
C | ♦ 1 | |||
C | ||||
000 | IT2 = | IT2 | ||
DG3 = | DG2 | ♦ DG | ||
PG2 = | DGS | |||
DGS = | DGS | |||
FX3 = | FX2 | (X) | ||
FX2 = | FXP | |||
FXP = | FUNC | DID FUNCTION Il | ||
C | ||||
C | ||||
DFX -FK- FXP IF (DFX) I»«0, 42 0# U20
C
C FUNCTION HAS DECREASED. DOUBLE STEP SIZE 420 DG = DG ♦ DG
FX = FXP GO TO C C FUNCTION HAS INCREASED. R\CKUP IF 1ST POINT,
C INTERPOLATE IF NOT
440 IF (IT2 - 2) 445, 480,
445 DG * (-DG*5.0)/4.0 * C C TAKE A STEP
809822/0864
• ·
DO 160 I=ILD,IUD X(I) = G (I) «DG ♦ X(I) '
GO TO 400
C
C
C PARABOLIC INTERPOLATION X3MX1 = DG3 - DGS X2MX1 = DG2 - DGS
Y2MY1 = FX2 - FXP X1SQ = DGS*DGS
X2H1SQ = DG2*DG2 - X1SQ C
ACOF = (X2MX1«(FX3 - FXP) - X3MX1*Y2MY1)/
S (X2MX1*(DG3*DG3 - X1SQ) - X3MX1*X2M1SQ)
BCOF = (Y2MY1 - ACOF*X2M1SQ)/X2MX1
POG s BCOF/(2«ACOF) ♦ DGS
IX) 485 I=ILB,IUB ·
X(I) = X(I) - G(I) *PDG
DGS β DGS - PDG
GO TO 100
C "
C "
CONTINUE
RETURN
EHD
S0M22/0M4 I
Claims (1)
- BLUMBACH · WESER . BERGEN · KRAMERPATENTANWÄLTE IN MÜNCHEN UMD WIESBADENPetemconsull RadeckestraBe 43 8000 München 60 Telefon (089) 883403/883604 Telex 05-212313 Telegramme Palenlconsult Patentconsull Sonnenberger Straße 43 6200 Wiesbaden Telefon (06121)562943/561998 Telex 04-186237 Telegramme PatentconsullWESTERN ELECTRIC COMPANY Hafer, E.H. 1IncorporatedNEW YORK, N.Y. 10038 USAPATENTANSPRUCHVerfahren zur Erkennung von Sprache durch Entwickeln vonKennwerten, die die zu erkennenden Sprachlaute darstellen, und Vergleichender Kennwerte mit vorbestimmten, bekannte Sprachlaute darstellendenKennwerten,gekennzeichnet durchIdentifizieren der Formanten in den zu erkennenden Sprach lauten; Umwandeln der identifizierten Formanten in Zungenpositions- und -bewegungskennwerte entsprechend einem Stimmtraktmodell; Vergleichen der Zungenpositions- und -bewegungskennwerte mit vorbestimmten Zungenkennwerten dieser Art, die bekannte Sprach lau te darstellen.München: R. Kramer Dipl.-Ing. . W. Weser Dipl.-Phys. Dr. rer. nat.. P. Hirsch Dipl.-Ing. . H. P. Brehm Dipl.-Chem. Or. phil. nat. Wiesbaden: P. G. Blumbach Dipl.-Ing. · P. Bergen Dipl.-Ing. Dr. jur.. 6. Zwirner Dipl.-Ing. Dipl.-W. Ing.809822/0184
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/745,066 US4087632A (en) | 1976-11-26 | 1976-11-26 | Speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2752607A1 true DE2752607A1 (de) | 1978-06-01 |
Family
ID=24995123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19772752607 Withdrawn DE2752607A1 (de) | 1976-11-26 | 1977-11-25 | Verfahren zur erkennung von sprache |
Country Status (12)
Country | Link |
---|---|
US (1) | US4087632A (de) |
JP (1) | JPS53105102A (de) |
AU (1) | AU507146B2 (de) |
BE (1) | BE861046A (de) |
CA (1) | CA1085960A (de) |
DE (1) | DE2752607A1 (de) |
ES (1) | ES464487A1 (de) |
FR (2) | FR2372485A1 (de) |
GB (1) | GB1589493A (de) |
IT (1) | IT1089157B (de) |
NL (1) | NL7712792A (de) |
SE (1) | SE7712943L (de) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5710199A (en) * | 1980-06-21 | 1982-01-19 | Tokyo Shibaura Electric Co | Voice information extractor |
US4388495A (en) * | 1981-05-01 | 1983-06-14 | Interstate Electronics Corporation | Speech recognition microcomputer |
DE3335356A1 (de) * | 1983-09-29 | 1985-04-11 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur parameterextraktion in der automatischen spracherkennung und in der sprachcodierung |
US4701937A (en) * | 1985-05-13 | 1987-10-20 | Industrial Technology Research Institute Republic Of China | Signal storage and replay system |
US4827516A (en) * | 1985-10-16 | 1989-05-02 | Toppan Printing Co., Ltd. | Method of analyzing input speech and speech analysis apparatus therefor |
EP0243479A4 (de) * | 1985-10-30 | 1989-12-13 | Central Inst Deaf | Sprachverarbeitungsanordnung und -verfahren. |
US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
WO1989003519A1 (en) * | 1987-10-08 | 1989-04-20 | Central Institute For The Deaf | Speech processing apparatus and methods for processing burst-friction sounds |
US5175793A (en) * | 1989-02-01 | 1992-12-29 | Sharp Kabushiki Kaisha | Recognition apparatus using articulation positions for recognizing a voice |
US5440661A (en) * | 1990-01-31 | 1995-08-08 | The United States Of America As Represented By The United States Department Of Energy | Time series association learning |
US5119831A (en) * | 1991-01-11 | 1992-06-09 | University Of Iowa Research Foundation | System and method for detecting pressure of selected body parts |
US5623609A (en) * | 1993-06-14 | 1997-04-22 | Hal Trust, L.L.C. | Computer system and computer-implemented process for phonology-based automatic speech recognition |
US5696878A (en) * | 1993-09-17 | 1997-12-09 | Panasonic Technologies, Inc. | Speaker normalization using constrained spectra shifts in auditory filter domain |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
GB2319379A (en) * | 1996-11-18 | 1998-05-20 | Secr Defence | Speech processing system |
US6230135B1 (en) | 1999-02-02 | 2001-05-08 | Shannon A. Ramsay | Tactile communication apparatus and method |
US6493744B1 (en) | 1999-08-16 | 2002-12-10 | International Business Machines Corporation | Automatic rating and filtering of data files for objectionable content |
JP3762327B2 (ja) * | 2002-04-24 | 2006-04-05 | 株式会社東芝 | 音声認識方法および音声認識装置および音声認識プログラム |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US8447592B2 (en) * | 2005-09-13 | 2013-05-21 | Nuance Communications, Inc. | Methods and apparatus for formant-based voice systems |
WO2008091947A2 (en) * | 2007-01-23 | 2008-07-31 | Infoture, Inc. | System and method for detection and analysis of speech |
CN102629470B (zh) * | 2011-02-02 | 2015-05-20 | Jvc建伍株式会社 | 辅音区间检测装置及辅音区间检测方法 |
US9190058B2 (en) | 2013-01-25 | 2015-11-17 | Microsoft Technology Licensing, Llc | Using visual cues to disambiguate speech inputs |
US10373608B2 (en) | 2015-10-22 | 2019-08-06 | Texas Instruments Incorporated | Time-based frequency tuning of analog-to-information feature extraction |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3129287A (en) * | 1961-03-20 | 1964-04-14 | Ibm | Specimen identification system |
US3395249A (en) * | 1965-07-23 | 1968-07-30 | Ibm | Speech analyzer for speech recognition system |
US3530248A (en) * | 1967-08-29 | 1970-09-22 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US3624302A (en) * | 1969-10-29 | 1971-11-30 | Bell Telephone Labor Inc | Speech analysis and synthesis by the use of the linear prediction of a speech wave |
US3679830A (en) * | 1970-05-11 | 1972-07-25 | Malcolm R Uffelman | Cohesive zone boundary detector |
US3755627A (en) * | 1971-12-22 | 1973-08-28 | Us Navy | Programmable feature extractor and speech recognizer |
US3723667A (en) * | 1972-01-03 | 1973-03-27 | Pkm Corp | Apparatus for speech compression |
-
1976
- 1976-11-26 US US05/745,066 patent/US4087632A/en not_active Expired - Lifetime
-
1977
- 1977-11-09 CA CA290,503A patent/CA1085960A/en not_active Expired
- 1977-11-16 SE SE7712943A patent/SE7712943L/xx unknown
- 1977-11-21 NL NL7712792A patent/NL7712792A/xx not_active Application Discontinuation
- 1977-11-22 AU AU30842/77A patent/AU507146B2/en not_active Expired
- 1977-11-22 BE BE182804A patent/BE861046A/xx unknown
- 1977-11-23 GB GB48719/77A patent/GB1589493A/en not_active Expired
- 1977-11-24 IT IT30019/77A patent/IT1089157B/it active
- 1977-11-25 ES ES464487A patent/ES464487A1/es not_active Expired
- 1977-11-25 FR FR7735614A patent/FR2372485A1/fr not_active Withdrawn
- 1977-11-25 DE DE19772752607 patent/DE2752607A1/de not_active Withdrawn
- 1977-11-25 JP JP14083477A patent/JPS53105102A/ja active Pending
-
1982
- 1982-12-20 FR FR8221324A patent/FR2515850A1/fr not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
BE861046A (fr) | 1978-03-16 |
NL7712792A (nl) | 1978-05-30 |
FR2515850A1 (fr) | 1983-05-06 |
IT1089157B (it) | 1985-06-18 |
AU507146B2 (en) | 1980-02-07 |
GB1589493A (en) | 1981-05-13 |
JPS53105102A (en) | 1978-09-13 |
US4087632A (en) | 1978-05-02 |
AU3084277A (en) | 1979-05-31 |
SE7712943L (sv) | 1978-05-27 |
ES464487A1 (es) | 1979-07-16 |
FR2372485A1 (fr) | 1978-06-23 |
CA1085960A (en) | 1980-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2752607A1 (de) | Verfahren zur erkennung von sprache | |
DE3242866C2 (de) | ||
DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
DE2953262C2 (de) | ||
DE10042944C2 (de) | Graphem-Phonem-Konvertierung | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69629763T2 (de) | Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) | |
DE2918533C2 (de) | ||
DE69931813T2 (de) | Verfahren und vorrichtung zur grundfrequenzermittlung | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE69327188T2 (de) | Einrichtung für automatische Spracherkennung | |
Milenkovic | Glottal inverse filtering by joint estimation of an AR system with a linear input model | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE60124551T2 (de) | Verfahren und vorrichtung zur erzeugung der referenzmuster für ein sprecherunabhängiges spracherkennungssystem | |
DE4436692A1 (de) | Trainingssystem für ein Spracherkennungssystem | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE10018134A1 (de) | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP3010014A1 (de) | Verfahren zur interpretation von automatischer spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
8130 | Withdrawal |