DE2240557A1 - Spracherkennungsvorrichtung zum steuern von maschinen - Google Patents

Spracherkennungsvorrichtung zum steuern von maschinen

Info

Publication number
DE2240557A1
DE2240557A1 DE2240557A DE2240557A DE2240557A1 DE 2240557 A1 DE2240557 A1 DE 2240557A1 DE 2240557 A DE2240557 A DE 2240557A DE 2240557 A DE2240557 A DE 2240557A DE 2240557 A1 DE2240557 A1 DE 2240557A1
Authority
DE
Germany
Prior art keywords
logic circuit
classes
language elements
elements
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE2240557A
Other languages
English (en)
Inventor
Jean Albert Dreyfus
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of DE2240557A1 publication Critical patent/DE2240557A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Feedback Control In General (AREA)

Description

Vokalen und Konsonanten. Diese bekannten Kodes haben jedoch
1.) Die Kodes können nicht von Personen mit verschiedener Muttersprache gleichmässig ausgesprochen werden. Ein Engländer, ein Franzose^ ein Deutscher, ein Russe, ein Araber und ein Japaner können die bekannten Kodes nicht mit gleicher Leichtigkeit und Fehlerlosigkeit aussprechen',
2.) Die bekannten Spracherkennungsvorrichtungen sind in ihrem - Aufbau kompliziert und können diese Kodes nicht ohne individuelle, vorherige Lernphasen erkennen;
3.) Die bekannten Kodes sind nicht in der Lage, Flüstersprachen zu erkennen. Die Erkennung von Flüstersprachen ist besonders bei den Personen wichtig, welche aus Krankheitsgründen an temporärer oder dauernder Stimmlosigkeit leiden«. Ferner ist die Flüstersprache bei Wahrung von Geheimnissen während der sprachlichen Uebertragung notwendig?
4.) Ferner sind die bekannten Kodes nicht ausbaufähig, was sich besonders dann bemerkbar macht, wenn Vokale Verwendung finden sollen\
5.) Die Worte und Sätze der bekannten Kode können nicht mit maximaler Geschwindigkeit und minimaler Anstrengung ausgesprochen werden,da die phonetischen und linguistischen Regeln nicht auf dieses Ziel gerichtet sind.
309808/1029
Die erfindungagemässe Vorrichtung ist so konstruiert, dass sie die Nachteile der bekannten Vorrichtungen vermeidet. Die Erfindung ist gekennzeichnet durch folgende Merkmale:
a) ein erstes Mittel zum Feststellen der Gesamtenergie der eingegebenen Sprachelemente;
b) ein zweites Mittel zum Feststellen der Steilheit der Anstiegsflanke der Energie der Sprachelemente und somit zum Trennen der Klasse der plosiven Sprachelemente von der Klasse der frikativen Sprachelemente;
c) eine diesen Mitteln nachgeordnete erste logische Schaltung zum Feststellen der zeitlichen Dauer jedes einzelnen Sprachelementes und der Pause zwischen den Sprachelementen;
d) eine zweite logische Schaltung zum Erkennen von Kombinationen der frikativen und plosiven Sprachelemente;
e) Ausgabemittel zum Steuern von Geräten aufgrund der eingegebenen Worte.
Diese Grundausrüstung der erfindungsgemassen Vorrichtung kann vorteilhafterweise ergänzt werden durch Hinzufügen von Mitteln zum Erkennen von in den Kodes zusätzlich aufgenommenen Vokalen. Diese Vokale können entweder stimmhaft sein oder geflüstert werden. Die erfindungsgemässe Weiterentwicklung ist gekennzeichnet durch folgende Merkmale:
a) ein erstes Mittel zum Feststellen der Gesamtenergie der eingegebenen Sprachelemente;
b) ein zweites Mittel zum Feststellen der Steilheit der Anstiegsflanke der Energie der Sprachelemente und somit zum Trennen der Klasse der plosiven Sprachelemente von der Klasse der frikativen Sprachelemente;
c) ein drittes Mittel zum Feststellen von mindestens 2 Frequenz-Bändern unter den hohen, mittleren und tiefen Frequenzen aller eingegebenen Sprachelemente und somit zum Unterteilen der Vokale in mindestens zwei Klassen;
d) eine diesen Mitteln nachgeordnete erste logische Schaltung zum Feststellen der zeitlichen Dauer jedes einzelnen Sprachelementes und der Pause zwischen den Sprachelementen;
309808/1029
tf) Ausgabeaiittel zur Steuerung von Geräten aufgrund der \ Grundworte. . 7
"Ausführungsbeispiele der Erfindung werden anhand der Figuren ,näher erläutert. Es zeigen:
I1Xg. 1 optische und akustische Formen der Zahlen von O "bis 9, Pig. 2 ein prinzipielles Blockschaltbild der Vorrichtung, Fig. 3a,3b eine ausführliche Darstellung der Vorrichtung der pjg2 Fig. 4 die Dämpfungskurven von den in der Fig. 3 gezeichneten
Band-Filtern,
Fig. 5 . eine von der Fig. 3 unterschiedliche Ausführung der
Vorrichtung,
Fig. 6 Erkennungs-Matrizen für die Vorrichtung der Fig. 5, Fig. 7 eine geometrische, farbenmässige und symbolische Darstellung der Grundklassen von Sprachelementen und von Sprachkoden,
Fig. 8 einige Beispiele von Sprachkodes für die Grundziffern.
In der Fig. 1, Zeile 101, sind die optischen Formen bzw. Gestalten der Ziffern null bis neun gezeichnet. Diese Ziffern sind allgemein bekannt und werden von fast allen Menschen gleich verstanden. Im Gegensatz zu der international normalisierten optischen Gestalt der Ziffern ist ihre akustische "Form bzw. Gestalt" in den Zeilen 102 bis 120 der Fig. 1 in verschiedenen Sprachen aufgezeichnet. Diese Beispiele, welche nur den geringsten Teil der akustischen Vielfalt von Formen zeigen, weisen über sechzig verschiedene Phonemen auf. Ein Kode, welcher von Personen mit unterschiedlicher Muttersprache in gleicher Weise aussprechbar ist, ist in Zeile 121 der Fig. 1 gezeigt. Dieser als "SOTINA" bezeichnete Kode wird bei der erfindungs- · gemessen Vorrichtung benutzt. Die einzelnen konstruktiven Schaltungsmerkmale der erfindungsgemässen Vorrichtung, welche sich hierdurch sehr vereinfachen, sind in der Fig. 2 dargestellt. In der Fig. 1, Zeile 122, ist ein noch einfacherer Kode gezeichnet, welcher als "SETE" genannt ist und nur geflüstert wird. Er besitzt im Gegensatz zu dem in der Zeile 121 beschriebenen anderen Kode nur die beiden Klassen S und T der Phoneme. Der Kode "SOTINA" ist gleichzeitig auf der Einfachheit der optischen Formen (Zeile 101) und Sanskrit-Wurzeln (Zeilen 103, 104 basier+'
309808/1029
Bevor die erfindungsgemässe Vorrichtung der Pig. 2 näher diskutiert wird, werden die Definitionen der Klassen der Sprachelemente bzw. Phoneme festgelegt. In der nachfolgenden Tabelle sind die Klassen der Sprachelemente bzw. Phoneme aufgezeichnet, welche international festgelegt wurden. Es handelt sich hierbei um Klassen, die allgemein am bequemsten aussprechbar sind.
Tabelle I
Phonem-Kla ssen
Konsonanten Plosiv Sym
bol
Phoneti
sche Werte
Vokale tief Sym
bol
Phonetische
Werte
U
1. Prikativ T p,t,k 1. mittel 0 o,
2. Nasal S s,sch,f 2. hoch A a e
3. N n, m 3. geflüster" I i, A, I
4. r O,
Die in der Tabelle I definierten Klassen werden durch grosse Buchstaben bezeichnet. Die phonetischen Werte der einzelnen Phoneme bzw. Sprachelemente werden mit kleinen Buchstaben bezeichnet. Die Vokale können auch geflüstert werden. Diese werden allgmein durch den Buchstaben E bezeichnet. Unter Plustern versteht man, dass der Vokal stimmlos ausgesprochen wird. Die ein-
zelnen Vokalklassen 0, A, I werden mit 0, A, I bezeichnet, wenn wenn sie geflüstert werden.
Anhand, der Fig. 2 wird nun zuerst das vereinfachte Beispiel der erfindungsgemässen Vorrichtung besprochen. Die Eingabe 131 kann ein Mikrophon, ein Magnettonband oder ein Vokoder sein. In diesem Ausführungsbeispiel wird angenommen, dass es sich bei der Eingabe 131 um ein Mikrophon handelt. Die Bedienungsperson soll nun das Wort 11SASOTI" in das Mikrophon flüstern. Die elektrischen Signale, die sich hieraus ergeben, gslangen in die entsprechenden nachgeordneten Schaltungsstufen. Der Extractor 132 liefert die gesamte Sprachenergie der Signale,
309808/1029
ζ. 13. im Telephonband 200 bis 3400 Hz, wie es in dem Kurvenzug 133 gezeigt ist. Wenn z.B. das Wort "SASOTI" ausgesprochen wird, so entsteht der Kurvenzug 134, in welchem die gesamte Energie E über die Zeit t aufgetragen ist. Bei dem Kurvenzug 134 stellt die Energie E eine Punktion der Zeit t dar. Die verschiedenen Zeitabschnitte der Phonemsignale ts, t&, tQ ', tQ, tt, ±± sowie der Pausen tz, t ' zwischen ihnen werden festgestellt. Der Diskriminator 135 stellt die Steilheit der Anstiegsflanken der Energien fest und trennt somit die Klasse T der plosiven Konsonanten von der Klasse S der frikativen Konsonanten. Am Ausgang de.s Diskriminators 135 erscheint der Kurvenzug 136 und gelangt über die Leitung 138 auf die erste logische Steuerschaltung 139. Der Kurvenzug 136 gibt die zeitliche· Ableitung dE/dt der Energie in Punktion der Zeit an. Die leitungen 137, 138 bringen somit die notwendige Information (Kurvenzüge 134, 136) auf die erste logische Steuerschaltung 139. In dieser Steuerschaltung werden die Zeitmessungen ausgeführt, welche darin bestehen, dass sowohl die Zeitabschnitte der einzelnen Klassen als auch die Zeitabschnitte zwischen den Klassen festgestellt werden. Anhand dieser Zeitmessungen und der phonetischen Regeln gibt die Logik eine klare Trennung der beiden Klassen T und S. Ueber die Leitungen -140, 141 werden diese'elektrischen Signale der beiden Klassen zur zweiten logischen Steuerschaltung 142 gegeben, in welcher linguistische Regeln angewendet werden und be"-stimmte Kombinationen der Phonemklassen T und S erkannt werden, Diese Kombinationen werden ala Worte bezeichnet. Erfindungsgemäss soll folgende Vorschrift erfüllt werden, dass die einzelnen Worte durch Pausen voneinander getrennt sein müssen. Diese Pausen haben einen Wert, welcher grosser
Uttev ο,ς
ist als z,B. 0,2?Sekunden. Im Gegensatz hierzu sind die sogenannten internen Pausen wie z.B. tz, t2' kleiner als 0,2\otkcOt$ Sekunden und werden in der ersten logischen Steuerschaltung 139 - wie bereits beschrieben - entsprechend berücksichtigt»
V-< dl'·? Bedienungsperson daß Wort" "SASÜl'I" geflüstert hat,
3.0 9 80 8/HU 9
sind die Vokale stimmlos ausgesprochen worden, so dass die Klassen A, 0, I nicht im Wort vorhanden sind. Die Bedienungsperson kann ebenso das Wort "SASOTI" flüstern, als "SASOTI" oder "SESETE". In all diesen Fällen des Flüsterns erkennt die zweite logische Steuerschaltung 142 das Wort als "SESETE". Das von dieser zweiten logischen Steuerschaltung erkannte Wort kann auch als Abkürzung SST geschrieben werden» Wie bereits im Zusammenhang mit der Fig. 1 erwähnt, kann dieses Wort einen Phonokode. bilden. Dieser Phonokode; ist fest in der zweiten logischen Steuerschaltung 142 angeordnet. Ale Beispiel hierfür zeigt die Fig. 2 einen Phonokode, der sowohl binär als auch dezimal verwendet werden kann. In der Tabelle 143 ist dieser Phonokode gezeigt. Der Phonokode vereinfacht sich beträchtlich, da die Pausen zwischen den einzelnen Worten der plosiven und frikativen Klassen festgestellt werden. Diese Vereinfachung ist dadurch dargestellt, dass nur der Phonokode genommen wird, welcher rechts von der linie 14^5 liegt. Die zweite logische Steuerschaltung erkennt den Kode SST als die Ziffer neun. Dies ist durch die Anzeige 14Jf dargestellt. Das Gerät 14$ wird entsprechend der erkannten Ziffer neun gesteuert. Wie bereits erwähnt, kann das Gerät 14^ eine Maschine zum Schreiben oder zum Steuern von weiteren Anlagen sein.
Wenn die erfindungsgemässe Vorrichtung noch weiter ausgebaut werden soll, so wird parallel zum Extractor 132 und zum Diskriminator 3 35 ein weiterer Diskriminator 151 hinzugesohaltet. Dieser Diskriminator stellt die spektrale Verteilung der Sprachenergie in mindestem*? drei Frequenzbändern fest. Diese Frequenzbänder sind links vom Diskriminator 151 als Kurvenzüge 152, 153, 154 mit den zugeordneten Frequenzen 200 Hz bia 800 Hz, 800 Hz bis 1000 Hz, 1600 Hz bis 3000 Hz gezeigt. Diese einzelnen Kurvenzüge entsprechen den tiefen, mittleren, und hohen Vokalklaesen 0, A, I.
Wenn nun die Bediojamgspereou z.B. üau Wort "3AS0TI" aunapricht, 00 wird über den Extractor 132 der bereit» buauhriö-
3 0 9 8 0 8/1029
bene Kurvenzug 134 gebildet. Ferner gibt der erste Diskriminator 155 über die leitung 138 den Kurvenzug 136 ab. Im Diskriminator 151 wird gemäss den drei Frequenzbändern 152, 153* 154 die spektrale Verteilung festgestellt und als Kürvenzüge 155? 156, 157 auf die Leitungen 158, 159, 160 in den Ergänzungsteil der ersten logischen Steuerschaltung 139 gegeben. In der ersten logischen Steuerschaltung werden die phonetischen Regeln angewendet und die Klassen S und T sowie die Klassen 0, Aj I1 S erkannt. Dies erfolgt dadurch, dass in dieser Steuerschaltung die zeitlichen Abschnitte der einzelnen Sprachelemente bzw. Phoneme in jeder Klasse und die zeitlichen Abstände zwischen den einzelnen Phonemen "bzw. Sprachelementen erkannt werden-. Dies gilt sowohl für die Signale über den leitungen 137, als auch für die Kurvenzüge 155, 156, 157 der leitungen 158, 159, 160. Die Signale, welche den Klassen S und T sugeordnet sind, gelangen von der ersten logischen Steuerschaltung 139 auf die zweite logische Steuerschaltung 152..Die Signale, welche den Klassen 0, A, I, S zugeordnet sind, gelangen über die Leitungen 162,' 163, 164 ebenfalls auf die zweite logische Steuerschaltung 142. In dieser Steuerschaltung werden die linguistischen Regeln angewandt und die Worte erkannt. Wie bereits erwähnt, werden hier die zeitlichen Abschnitte zwischen den einzelnen Worten erkannt innerhalb der fünf Klassen T, S, 0, I, A. Das Wort "SASOTI" kann aus den Grundworten = Ziffern bestehen SA=7, S0=5, TI=3. Diese Grundworte sind in einem Phonokode gespeichert. Dieser Phonokode, welcher in der Fig. 2 als Tabelle 163 dargestellt ist, ist in der zweiten logischen Steuerschaltung 142 angeordnet,- Diese Steuerschaltung segmentiert die Grundworte in der Weise sehr einfach·, weil jedes Grundwort mit einem Vokal endet. Somit kann die erkannte Zahl 753 ein Gerät 145 in gewünschter V/eise steuern. Zur beoseren Information ist diese Zahl in der Ausgabe 164 dargestellt. Eine solche Ausgabe-Einheit kann einen Teil der zweiten logischen Steuerschaltung 142 bilden oder etwas von dieser Steuerschaltung entfernt angeordnet sein.
Ea sei darauf hingewiesen, dass verschiedene Phonokodes in
309808/1029
der zweiten logischen Steuerschaltung 142 angeordnet sein können. Der grosse Vorteil eines Phonokodes bestehend aus mindestens fünf Phonemklassen liegt darin, dass er beliebig ausbaufähig ist und ganze Sprachen hiermit entwickelt werden können, welche international und bequem aussprechbar sind. Wie schon gesagt, kann die erfindungsgemässe Vorrichtung solche Kodes sehr leicht erkennen.
In denELg.3a,3bjist die prinzipielle Darstellung der erfindungsgemässen Vorrichtung der Pig. 2 ausführlicher gezeichnet. Die elektrischen Sprachsignale werden entweder durch ein Mikrophon 201 oder durch eine Telephonleitung 202 oder durch ein Magnettonbandgerät 203 oder durch einen Vokoder 204, welche als Eingabe 131 wirken, gemäss Pig. 3 dem Eingangsschalter 200 zugeführt. Mit diesem Schalter 200 soll angedeutet werden, dass die eben genannten verschiedenen Eingabegeräte wahlweise zugeschaltet werden können. Diese Geräte besitzen in der Verbindungsleitung die Filter 205, 206, 207, 208. Diese Filter haben die Aufgabe, die Frequenzkomponenten der verschiedenen Signalquellen bzw. Geräte in ähnlicher Weise wie beim menschlichen Ohr zu normalisieren, d.h. dafür zu sorgen, dass die Prequenzkomponenten zwischen etwa 200 und 3400 Hz normal auf den Schalter 200 gelangen können. Diese Sprachsignale gelangen über den Eingang 209 eines Plosiv-Diskriminator-Kanals C8 sowie über die Eingänge 211 bis 217 in die Spektrum-Diskriminator-Kanäle Cl bis C7. Wie bereits im Zusammenhang mit der Fig. 2 beschrieben, reagiert der Kanal C8 auf die Geschwindigkeit der Energieänderung der Sprachsignale im Frequenzband über 500 Hz. Die Plosiv-Phonemklasse T, in welche die Phoneme bzw. Sprachelemente p, t, k, b, d, g gehören, baut pich in fünf Millisekunden auf,
und zwar nach einer Pause von mindestens fünfzig Millisekunden. Die Frikativ-Phonemklasse S, in welcher die Phoneme bzw. Sprachelemente s, f, sch, z, v, j mindestens zwanzig Millisekunden zum Aufbau benötigen, ist von den Plosivlauten durch die unterschiedliche Aufbauzeit hinreichend getrennt worden. Die Diskriminierung zwischen Ploeiv- und Frikativ-Phonemklassen
309808/1029
G?, S kann auf verschiedene Arten durchgeführt werden, wie z.B. in analoger oder digitaler Weise. Im ausführlichen Beispiel der Pig. 3 ist die analoge Diskriminierung gezeichnet. Diese analoge Vorrichtung enthält im Kanal C8 "den Bandpass 218, welcher das Frequenzband von 1000 Hz bis 4000 Hz durchlässt, den Gleichrichter 219, den Tiefpass 220, welcher die Frequenzen unterhalb 70 Hz durchlässt, und den zeitlichen Energie-Differenziator 22.9. Dieser Differenziator 22# enthält einen Kondensator 221, die Widerstände 222·, 223 und den Gleichrichter 224. Der Gleichrichter sortiert die ansteigenden Planken des Kurvenzuges 225, welcher dem Wort "SATI" entsprechen soll. Es sei angenommen, dass dieses Wort von einem der vier Eingangsgeräte 201 bis 204 über den Schalter 200 auf die gesamte Vorrichtung gegeben wird.
Die Kanäle 01 bis 07 sortieren die charakteristischen qüasistationären Energiebänder der nicht-plosiven Phonemklassen T*. Das Symbol T ist für die nicht-plosiven Phonemklassen definiert. Die Kanäle Cl bis 07, deren Eingänge 211 bis 217 parallel zum Eingang 209 des Kanals 08 liegen, werden dem Spektrum-Extractor zugeordnet. Der Kanal C7 besteht aus dem egalisierenden Sprachfilter 127 für die Frequenzen 100 Hz
und bis 4000 Hz, aus dem Gleichrichter 228 dem Tiefpass 229 mit der Durchlassfrequenz unterhalb von 50 Hz. In diesem Kanal C7 wird der Kurvenzug 26^ des Wortes "SATI" entwickelt. Dieser Kanal 07 zeigt die gesamte Dynamik oder anders ausgedrückt das Vorhandensein des gesprochenen Wortes an und entspricht dem Extractor 132 'der Fig. 1. An dieser Stelle sei darauf hingewiesen, dass der Kanal 08 und die Kurvenzüge 225 bzw. iOb der Fig. 3 dem Diskriminator 135 und dem KurvenzugeoL36> d ■l^ der Fig.l entsprechen. Die Kanäle 01 bis 06 der Fig. 3/T^welche dem Diskriminator 151 mit den Ausgangsleitungen 158 t 159, 160 der Fig. 1 entsprechen, stellen die verschiedenen nicht- ' plosiven Phonemklassen T fest. Diese Kanäle 01 bis C6 der Fig. 3 enthalten Bandpässe für verschiedene Frequenzbänder. Diese Frequenzbänder sind in die Bandpässe 231 "bis 236 ein-
309808/1023
gezeichnet. DieBe Bandpässe entsprechen den wichtigsten Bereichen oder Pormanten der Vokalklassen 0, A, I und der' Konsonantklasse S, in welcher Phonemklasse die frikativen Sprachelemente eingeordnet sind. Im Gegensatz zur Pig. I ist in der Fig. 3 noch ein weiterer Kanal vorgesehen für die nasale Phonemklasse H. Es soll hiermit angedeutet werden, dass in der ausführlichen Einrichtung der Pig. 3 ohne weiteres zusätzliche Kanäle für weitere Phonemklassen eingefügt werden können. Auf diese Art und Weise kann die gesamte erfindungsgemässe Vorrichtung mühelos und leicht zur höchsten Stufe der Entwicklung der Spracherkennung ausgebaut werden. In den genannten Kanälen Cl bis C6 sind ausserdem noch die Gleichrichter 237, 238, 239, 240, 241, 242 und die Tiefpässe 243, 244, 245, 246, 247, 248, welche nur die Frequenzen unterhalb von 50 Hz durchlassen, angeordnet. Der Kanal CO sortiert die Sprachgrundfrequenz, welche zwischen 80 Hz und 400 Hz liegt. Dieser Kanal CO, welcher den Bandpass 249 mit einem Durchlassbereich von 90 Hz bis 150 Hz, den Gleichrichter 250 und den Tiefpass 2-51 mit einer Durchlassfrequenz unterhalb von 50 Hz enthält, wird auch als "Pitch" bezeichnet. Dieser "Fitch"-Kanal gibt an, ob ein Sprachelement bzw. ein Phonem stimmhaft oder stimmlos ist. Daher gestattet dieser Kanal auch die Kodierung der sogenannten PlüBtersprache, wie schon eingangs erwähnt wurde.
Die Bandpässe 231, 232, 233, 234, 235, 236, 249 der Kanäle Cl, C2, C3, C4, C5, C6, CO haben bestimmte Dämpfungen, welche in der Fig. 4 als Kurven 252, 253, 254, 255, 256, 257, 258 gezeichnet sind. Die Reihenfolge der in der Pig. 4 gezeigten Dämpfungekurven ist wie folgt; Die Kurve 252 iat dem Bandpass 231 des Kanals Cl zugeordnet, die Kurve 253 dem Bandpass des Kanals 02, die Kurve 254 dem Bandpass 233 dea Kanals 03, die Kurve 255 dem Bandpaos 234 des Kanals C4, die Kurve dem Bandpas8 235 deo Kanals C5, die Kurve 257 dem Bandpass des Kanals C6 und die Kurve 258 dem Bandpass 249 dea Kanäle CO. Die Grenzen der Durchlassbereiohe der einzelnen Bandpäoee 249,
309808/1029
J ■" " "
Γ' 231, 232, 233, 234, 235, 236 entsprechen den Pormantbereichen 259 der Pho-reraklassen O, A, I, E, Y, S, SH. Me Pormantbereiehe 259 der Phoneniklassen sind auf der linken Seite der Pig. 4 gezeichnet und den einzelnen Kämpfungskurven 253 ^i*3 258 der Bandpässe 231 bis 236 der Pig. 3a zugeordnet. Dies zeigen auch die Matrize in der logischen Schaltung 272 der Pig. 3b sowie die in der Pig. 6 gezeichneten Matrizen 421, 422, 423.
Zur Erklärung der Wirkungsweise der Anordnung der Pig. 3a und 3b wird nun angenommen, dass das Mikrophon 201 über den Schalter 200 an die Kanäle 00 bis 08 angeschlossen sind. Wenn z.B. in das Mikrophon 201 das Wort "SATI" gesprochen wird, so entsteht am Ausgang des Diskriminator 22£Γ, der wie bereits erwähnt im Kanal 08 angeordnet ist: und der Erkennung der plosiven Phonemklasse T dient, der Kurvenzug 260. Da in der Pig. 3a der Kurvenzug 225, der das gesamte Wort 11SATI" zeigt, der besseren Uebersichtlichkeit halber oberhalb des Diskriminators 22# gezeichnet ist, kann man leicht erkennen, dass die Kurve 260, welche am Ausgang des genannten Diskriminator steht, die Steilheit dE/dt der Energie-Anstiegsflanke der plosiven Phonemklasse im Wort "SATI" anzeigt. In ähnlicher V/eise ergeben sich an den Ausgängen der Tiefpässe 245 244, &Ϊ5, 246, 24?, 24β, &£f, 251 die Kurvenzüge 267, 266, 265, 264, 263, 262, 261 und 268. Diese letztgenannten Kurvenzüge, welche in der Pig. 3a unter dem das gesamte Wort "SATI" darstellenden Kurvenzug 225 gezeichnet sind, stellen die wichtigsten Informationselemente über die spektrale Prequenz» verteilung der in diesem V/ort enthaltenen Phonemklassen dar, .Weitere.Kanäle CIl, C12, 013 usw. sind in der Pig. 3a ge-. strichelt dargestellt und sollen andeuten, dass die Vorrichtung nicht auf die Kanäle' beschränkt ist, welche bisher diskutiert wurden. Auf einfache Art und Weise kann also eine Erweiterung stattfinden, um somit Worte zu erkennen, in denen wesentlich mehr Phonemklaseen vorhanden sind. Abechliessend eei noch erwähnt, dass die in der Vorrichtung der Pig. 3a beschriebenen Filter als passive, aktive oder alB digit::"Je
309808/1029
Filter ausgebildet werden können. Es können auch anstelle dieser Filter geeignete Vorrichtungen bzw. Verfahren wie Nulldurchgangsdetektoren, Peakdetektoren, Fourier-Analyijen, Auto-Korrelation, e, digitale Simulation auf Rechenmaschinen, "Predictive Coding" usw. Verwendung finden.
Die in den Kurvenzügen 260 bis 268 vorhandenen Informationselemente des Y/ortes "SATI" gelangen nun über die Verbindungsleitung zwischen den Ausgängen der Tiefpässe bzw. des Diskriminator auf eine erste logische Schaltungsanordnung 271. Die erste logische Schaltung 271, welche der logischen Schaltung 139 und 162 der Fig. 2 entspricht, dient zum Feststellen der zeitlichen Dauer jedes einze]nen Sprachelementes bzw. Phonems und zum Feststellen der Pause zwischen diesen einzelnen Sprachelementen. Daher ist die erste logische Schaltung 271 der Fig. 3a mix?einem" Taktgeber 274 ausgerüstet, welcher eine Quantelung der Kurvenzüge 260 bis 268 entsprechend seiner Taktgeberfrequenz vornimmt. Der Taktgeber 274 "quantelt" die plosive Phonernklasse T mit 200 Hz und die nicht-plosiven Phonemklassen T mit 50 Hz. Ferner ist in der logischen Schaltung 271 ein Analog-Digital-Wandler 275 bzw. eine Triggerschaltung vorgesehen. Hier erfolgt eine linear-logarithmische Umsetzung der durch die Kurvenzüge 260 bis 268 definierten elektrischen Signale, so dass diese Kurven in z.B. vier Pegel bzw. Niveaus aufgeteilt sind. Diese Pegel sind zur besseren Ueberoicht bereits in den Kurven 260 bis 268 eingetragen und mit 0 bis 3 bezeichnet. Ferner enthält die logische Schaltung 271 einen Zeitmesser 276, der die Dauer jedes einzelnen Sprachelementes bzw. Phonems undvPauee zwischen den einzelnen Spracheleinenten bzw, Phonemen misst. Weiterhin ist in der logischen Schaltung 271 ein Abtaster 277 und eine Multiplexanordnung 278 zur Eingabe in einen nicht gezeigten digitalen Rechner vorgesehen. Die so ermittelten Werte über die zeitliche Dauer der einzelnen Sprachelemente bzw. Phoneme und der Pause zwischen den einzelnen Spracheleraenten und Phonemen werden aua der ersten logischen Schaltung 271 in die zweite logische Schal-
309808/1029
timg 272 eingegeben. Die Verbindung zwischen diesen beiden Schaltungen ist durch- den Pfeil 2711 gekennzeichnet»
In den beiden fig. 3a und 3b sind die erste und die zweite logische Schaltung 272, 273 und 274 dargestellt. Die erste logische Schaltung 272 entspricht der ersten logischen Schaltung 139 in Fig. 2. Die zweite-logische Schaltung 273 der Fig. 3b entspricht der zweiten logischen Schaltung 142 der Fig. 2. Die erste logische Schaltung 272 ist nach phonetischen Regeln programmiert. In ihr ist die Matrize 279 zur Unterscheidung der internationalen Phonemklassen L vorgesehen. Die Phonemklassen 280 teilen sich auf in Vokale V und in Konsonanten C. Die Vokale V enthalten tiefe, mittlere, hohe und andere Vokale wie 0,.A, IyE. Die Konsonanten G enthalten plosive, frikative, nasale und andere Phonemklassen T, S, N,.R. Weiter können Unterschiede gemacht werden zwischen betonten Phonemklassen L, geflüsterten Phonemiklassen 1, Phonemklassen mit steigendem oder fallendem Pitch L., Jj. Diese Unterscheidungen werden in der Matrize vorgenommen, welche mit den Kanälen CO, 01, 02, 03> 04, 05, 06, 07 ui|4 CT8 in der Fig. 3a verbunden ist. Die Unterscheidung ist unterhalb der Matrize 279 mit den eben erwähnten Symbolen gezeigt und steht in der Anordnung 280 zur Verfügung für. di* weitere Verarbeitung. In der Anordnung für die Zeitklassen 281 werden folgende Unterschiede für die zeitlichen Dauern vorgenommen. Dies zeigt die Tabelle II.
Tabelle II
Explosion der plosiven Phoneme bzw.
Sprachelemente (p, t, k, b„ d, g) der Phonemklasse T
Interne Pause vor dor Esplosion (oder Pitch bei b, ds g)
Vollständige, zeitliohe Dauer der plosiven Phoneme bzw. Sprachelemente f—©
Vollständige, zeitliche Dauer der nicht·= plosiven Phonemklaseen fwie vokale, frikative, naaaxe und
andere Phonemklaesen (v, S9 I2 H)
5 - 40 ms
T 65 - 200 ms
- 70 - 240 ms
LOO - 300 me
T
309808/102
Durch diese Einteilung in Zeitklassen wird das sogenannte "Knacken" bei der Uebertragung von Nutzinformation eliminiert, so dass ein solches Störgeräusch keine Fehlentscheidung bewirken kann. Die in der Anordnung 281 vorhandene Unterteilung der Phonemklassen in Zeitklassen wird dazu benutzt, daee in der nachgeordneten Anordnung 282 diese Phoneme bzw. Spraohelemente segmentiert werden. Ein solches Segmentieren bedeutet die Aenderung des Spektrums in Verbindung mit dessen froyoho^physikalischen Wirkung (Energie χ Zeit),mit oder ohne Explosion. In der darauf folgenden Anordnung 283 werden die Phoneme erkannt. Ein solches Erkennen erfolgt durch eine Majoritätsentscheidung in der Matrize 279 oder durch Berechnung von Extremwerten der sogenannten vektoriellen Abstände zwischen den einzelnen Phonemen bzw. Sprachelementen.
In der zweiten logischen Schaltung 273 der Fig. 3b, welche der logischen Schaltung 142 der Fig. 2a entspriqht, sind die linguistischen Regeln programmiert. Wi.e bereits im Zusammen* hang mit der Fig. 2 beschrieben, wird in der zweiten logischen Schaltung 273 die Kombination der frikätiven, plosiven · und vokalen Sprachelemente erkannt, ee fryt^ zur Fig. 2 ist, dass die
Fig. 3b auchdi£_Jt©flrtrrriatTon der vokalen Spraohelemente
Im Folgenden werden die einzelnen in der zweiten logischen Schaltung vorgesehenen Anordnungen beschrieben. Die Verbindungen zwischen der ersten und der zweiten logischen Schaltung sind durch den. Pfeil 2721 symbolisiert. - i:
Die zweite logieche Schaltung 273 betrifft ι
- die möglichen Worte, die aus den Phonem-Kombinationen 284 resultieren; man verwendet« K=» zwei bie vier Vokale
01, OA, IA, 0IA, OIA(E)
K0 => zwei bis vier Kotteonenten
TS, TN, SN, TSN, TSN(R)
Mit K = TSy+KQ - vier bis aehn Phonemklaaaen und X* ■ fin bis zehn Phonemen pro Wort kann man theoretieoh 1«!^ Worte bilden. Hiervon sind etwa öle Hälfte be4uia lnter-
309808/1029
--15 -
national aussprechbar aber nur bis zu K = acht Klassen. *' In der folgenden Tabelle III sind einige Beispiele aufgeführt:
K = 4 S 4 VJl Tabelle III 7 8 9 10
6
I VJI 7 8 9 10
1 25 6 49 64 81 100
2 125 36 343 5-12 729 1000
3 16 626 216 2401 4096 6561 10000 ·
'4 64 3125. 1296 16807 32768 59049 100000
5 • 256 7776
-
&UvCq
ein Grundwort 285 enthält möglichst niemals zwei anliegende Konsonanten CC;
eine Kardinalziffer null bis neun- 286 ist ein Grundwort, welches gebildet ist aus einem Vokal V oder aus einer Kombination Konsonant + Yolcal CV; eine Segmentierung erfolgt durch einen Vokal V. Der Punkt innerhalb einer Ziffernfolge oder innerhalb einer Büchstabenfolge bzw. ein Zwischenraum bedeutet eine ; externe Pause, die grosser ist als 0,5 Sekunden; eine Kardinal-Zahl 10 bis unendlich 287 besteht aus ununterbrochenem Aneinanderfügen von Kardinal-Ziffern wie z.B. VCVV... V...;
bei einer Ordinalzahl 288 wird am Ende V der Kardinalzahl ein ΙΊ hinzugefügt wie z.B. VCVV.... VN, oder siehe Instruktionswort; als arithmetischer Operator 289 wird ein VS* oder ein CVS· verwendet;
■bei Vorliegen eines Instrüktionswortes 290 enthält der Kode zwei aufeinanderfolgende Konsonanten wie z.B. VCCV*, VCCVC*, VCVCCV*, ...;
alphabetische Buchstaben 291 lassen sich erkennen, wenn ein Instruktionewort und eine Kardinalzahl 1 bis 26 vorliegen (oder phonetisches System);
die Wortsegmentierung 292 ergibt sich dadurch, dass am Ende eines Grundwortes ein Vokal V vorgeochen ist. Das Ende eines guearnmengeeetzton Y/orteo wird durch eine externe Pause ange-
t, welche grüöBer iot als 0,5 Sekunden*" "i.fe, it*.~$ao)^iv>\isuu~>a 7/)5 trqiU. *itk da iLuxh t ctav» CU
die yfivr iU at, t ofcr S' ieU,^, >^ 3 0 9 8 0 8 / 1 0 2 9
- Speicher S^: a) Wort ohne Doppelkonsonanten CC : bis zu
X Vokalen = Zahl bis zu X Ziffern; b) Wort ab Doppelkonsonanten CC χ bis zu Y Vokalen (Instruktion);
- Speziairegeln 294: a) Kardinalziffer 0 bis 9t Grundwort
der Phonemklassen 0, I oder C+0, I, A; b) die Phonemklasse A, welche am Anfang eines Wortes angeordnet ist, ist reserviert, um Wiederholungen einzusparen;
_, / c) spezielle Doppelkonsonanten ST, SN;
- Wortjerkennung 29-^: Anwendung der in den Speiohern aufgenommenen Wortbildungsregeln. Selbst bei mangelhafter Aussprache werden die Worte noch richtig erkannt, eofern die Phoneme bzw. Schaltelemente in ihren Klassen bleiben, welche mit A, 0, I, (E), T, S, N, (R) bezeichnet sind.
Nach den in kurzen Worten geschilderten linguistiechen Regeln, welche in den einzelnen Vorrichtungen 284,285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295j&er zweiten logischen Schaltung 273 durchgeführt werden, werden die einzelnen Ziffern bzw. Buchstaben erkannt und auf Ausgabegeräte gegeben, wie sie z.B. in der Fig. 2 mit 145- gezeigt sind.
Die erfindungsgemässe Vorrichtung der Fig. 5 zeigt einen zur Pig. 3a unterschiedlichen Analysatorteil, welcher gemäss Pig. 5 die nicht-linearen Gesetze des Ohres bezüglich der Signalenergie nachahmt. Gemäss Pig. 5 sind ein Mikrophon 301, ein Magnettonband 302 und ein Vokoder 303 r welche unterschiedliche Frequenzbänder haben, über einen Schalter 300 wahlweise an die erfindungsgemässe Vorrichtung anschliessbar. Die verschiedenen Frequenzbereiche sind in der Fig. 5 genau wie in der Fig. 3a in die entsprechenden Blöcke eingetragen. Die verschiedenen Eingabegeräte wie ε.B. Mikrophon, Magnettonbandgerät, Vokoder, Bind über ihre Filter 304, 305, 306, welche da& SprachBpektrura zwischen etwa 200 und 3400 Hz normalisieren, an den Schalter 300 wahlweise anschlieesbar. Die
309808/1029
PiIter 304, 305, 306 haben daher eine Filterwirkung, welche den zugeordneten Eingabegeräten angepasst ist. Dies ist in der Fig. 5 durch die diversen Kurvenzüge in den die !"!lter repräsentierenden Blöcke gezeichnet. Im Folgenden sei nun angenommen, dass ein Magnettonband 302 über den Schalter 300 mit der erfindungsgemässen Vorrichtung verbunden ist. Die Sprachsignale aus dem Magnettonbandgerät 302 gelangen auf die parallel geschalteten Eingänge der selektiven Amplitudenkompressoren 307, 308, 309, 310, 311. Ein solcher selektiver Amplitudenkompressor ist bereits in einer früheren Patentanmeldung des gleichen Anmelders (britische Patentanmeldung Ho.23111/71) beschrieben worden. Im Folgenden werden die verschiedenen Ainplitudenkompressoren im Zusammenhang mit der Fig. 5 nur so weit erklärt, wie es für den Zusammenhang des Verständnisses zweckdienlich ist. Der Kompressor 307 dient zum Trennen der plosiven und der frikativen Phonemklassen T und S. In den Amplitudenkompressoren 308, 309, 310 werden die charakteristischen Spektren der Phoneme L von der Dynamik getrennt. Der Kompressor 311 dient zur Trennung der Grundfrequenz (Pitch) von den anderen Frequenzkomponenten. Der plosive Kompressor 307 enthält ein Filter 312, welches als Hochpassfilter mit 800 Hz ausgebildet ist, sowie einen variablen Verstärker, Der variable Verstärker besteht aus einem konstanten Verstärker 313 mit einem Multiplikator 314, einer Rückwärtsschleife mit einem Filter 315, dessen Durchlassfrequenz 500 bis 3500 Hz beträgt., einem Verstärker 316, einem Gleichrichter 317 und einem Tiefpass 318. Der variable Verstärker besitzt ungefähr eine steigende Zeitkonstante T11.* = 10 ms und eine fallende Zeitkonstante T-i-o = 30 ms. Dieser Kompressor reguliert auf verschiedene Art und Weise langsam steigende Phoneme wie z.B. die Phoneme der frikativen und der plosiven Klasse S, T. Wenn a.B. ein Signal, welches dem Wort 11SATI" gejiiUss dem Kurvonzug 32L entspricht, weiter durch den'Uaridpass 318 (Frequem;; BOO Mo 3500. Hu), den Gleichrichter 319 und den TLefpaMa .520 (i'iüquens: 0 bis 70 Ha) behandelt wird, so entsteht die Kurve 321, welche die zeitliche Ver-
309808/1029
teilung der Energie E zeigt. Die Kurve 321 zeigt, dass der Kompressor 307 mit dem Kanal C28 die ploaive Phonemklasse T von der frikativen Phonemklasae S trennt. Der Amplitudenkompressor 307 kann auch einen zweiten variablen Verstärker besitzen, der duroh die folgenden Elemente dargestellt iatt einen konstanten Verstärker 322 mit Multiplikator 3231 eine Vorwärtsschleife mit Verstärker 324» einen Gleichrichter und einen Tiefpass 326, Dieser Tiefpass besitzt eine steigende und eine fallende Zeitkonstante T^v^ Ä %ri bzw. ^Iv2 = ^Ir2* ^er Kompressor mit der einfachen Schleife, welche auch als Rückwärtsschleife bezeichnet wird ("r" = rückwärts) liefert ein einfaches logarithmisches Gesetz der Amplitudenregulierung. Der Kompressor mit zweifacher Schleife, welcher sowohl die Rückwärtsschleife Hr" als auch die Vorwärtseohleife "v" besitzt, liefert ein doppellogarithmiaohes oder Potenz-Gesetz, welches dem Verhalten des Ohres entspricht. Je nach Stellung der Schalter 327 und 32Θ wirkt der Kompressor 307 mit einfacher oder zweifacher Schleife. Die Vorwärtsschleife 324, 325, 326 kann eventuell durch die punktierte Verbindung mit dem Uebertrager 329 ersetzt werden, wandte. /ktsJoaj&Uvcieru^ dir"
Dem selektiven Amplitudenkompressor 307 sind die Bandpässe 331, 332, 333, 334, 335, 336 und die entsprechenden Gleichrichter einschliesslich Tiefpässen in gleicher Weise wie der Gleichrichter 319 und der Tiefpass 320 des Kanals C28 nachgeschaltet. Die Bandpässe 331 bis 336 der KanUle C211 bis C261 trennen die Spektren der ploaiven Phonemklasse T von den Spektren dor Vokale V. Diese Unterscheidung erfolgt auch dann, wenn die Vokale V plötzlich elnnetzen sollten und eine gewisse AehnLluhkolt mit den pLoeiven Phonemen bzw. Sprachelementen haben noilten. Die oaiektlvtn Amplituden·· kompresnoren 30Π, 509, 71.0 Bind In ßielchor TJoliJO aufgebaut wLe der eben beuoltrLubono oelektLvo AmplltudenkontpreDHur 307» Die Kompressoren-'lüH, 509, 310 htibm 'Ho Eingtil|gtirnt,er 3X5 330, 339, «Ue Vor;-türkor 341 bla 'M"., (Uo Jlultipl lit Uoran 347 bia 352» die 7ortvii.rt8uoiilüifon mit· ihm Β'.ιηήρϋΒΐίΒΐι 334 i>ia
■■* ■■ ■.- ' · * ■ '
1QiU
' 355, die Verstärker 356 bis 358, die Gleichrichter 359 ; 361, die Tiefpässe 362 bis 364 und die entsprechenden Vor_ wärtsschleifen 365 bis 373 oder die üebertrager 374 bis 376. Bei den erwähnten Tiefpässen 362, 363, 364, -371, 372, 373 sind die steigenden bzw. fallenden Zeitkonstanten Tp -j » ^PvI* bzw· ^2r2* ^2v2 verscnie^en· Die steigende Zeitkonstante beträgt ungefähr 1 ms und die fallende Zeitkonstante beträgt ungefähr 10 ms. Polglich werden die Explosionen der plosiven Phoneme bzw. Sprachelemente der Klasse T unterdrückt. Nach Behandlung durch die Bandpässe 381 bis jöfi/dlV Gleichrichter wie 3ö2 und die Tiefpässe ^ wie W7 (0 bis 50 Hz) erscheint auf den Kanälen 021 bis C27 das Wort 11SATI" entsprechend der Energiekurven wie sie z.B. nur für den Kanal C27 in der Pig. 5 gezeigt"ist. Hierdurch werden die quasi-stationären Spektren (Pormanten) von der Dynamik 385 getrennt, welche z.B. durch daB Pehlersignal am Ausgang des Tiefpasses 362 erscheint IKa#ui0 C26).
Der selektive Amplitudenkompressor 311 dient zur Extraktion (Pitch) der Grundfrequenz. Dieser Kompressor enthält einen Eingangsfilter 5&e(mit der Durchlassfrequenz von 95 bis 100 Hz), Verstärker 387 t 388, Multiplikatoren 389, 390, Eückwärtsschleifen und Vorwärtsschleifen mit' dem gemeinsamen Bandpass 391, den Verstärkern 392, 393, den Gleichrichtern 394, 395, den Tiefpässen 396, 397. Die steigende Zeitkonstante beträgt bei diesem Kompressor ungefähr 4 ms und die fallende Zeitkonstante beträgt ungefähr 20 ms. Die eben genannten Bauelemente 393, 395, 397 können durch den Üebertrager 398 ersetzt werden. Dem Kompressor 311 nachge-Bchaltet eind die Kanäle C20 und C201. Der Kanal C20 enthält einen Bandpass 401 für die DurchlasBfrequenz von 95 biß 150 Hz, einen Gleichrichter 402 und einen Trigger 403, so dasH eine Anzeige "ja-nein" für die Grundfrequenz angegeben werden kann. Hiermit werden stimmhafte Phoneme L von stimmlosen bzw. geflüsterten Phonemen L getrennt. Der Kanal C20· enthält einen Nulldurchganßö-Detektor 404 und einen Zähler 405, so dass die Grundfrequenz (Pitch oder Melodie)
309808/1029
z.B. von 80 bis 400 Hz gemessen und angezeigt wird. Die Anordnung 386 bis 405 säubert die Grundfrequenz von den höheren Komponenten, wobei der Kompressor 311 jeweils die Energie der Grundfrequenz regeneriert.
Die durch die Vorrichtung 301 bis 405 gewonnenen Informations elemente können den Triggern 406, 407 bzw. den logischen Schaltungsanordnungen 4-öe, 4-69 zugeführt werden. Diese beiden logischen Schaltanordnungen, welche lediglich symbolhaft in der Fig. 5 dargestellt sind, entsprechen den beiden Schaltungen 139 und 142 der Fig. 2 und den logischen Schaltungen 271, 272, 273 der Fig. 3a und 3b. Wie schon im Zusammenhang mit den Fig. 2, 3a, 3b gesagt, werden die Informationselemente in den logischen Schaltungen 40», 4Φ9 der Fig. 5 in gleicher Weise verarbeitet und dienen der Steuerung von bestimmten Maschinen.
Abschliessend sei noch erwähnt, dass bei der Diskussion der Fig. 5 angenommen wurde, dass die Eingabe von dem Magnettongerät 302 erfolge. Wenn nun die Eingabe vom Mikrophon 301 erfolgt, so wird ein Mikrophon verwendet, welches gegen Umgebungsgeräusche nahezu unempfindlich ist. Ferner eliminieren Schwellwerte bei den einzelnen Amplitudenkompressoren 307 bis 311 und Schwellwerte in den logischen Schaltungen 408, 409 die akustische Energie, welche der Sprache nicht entspricht. Die Fig. 6 zeigt vier Entscheidungs-Matrizen 421, 422, 423, 424, welche die binären Informationen der Plosiv- und Spektrum-Kanäle C21, 022, C23, C24, C25,. C26, 027, C28 sowie die Kanäle 021 ·, 022', C231, 024·, C251, 026· der Fig. 5 auswerten. Diese Informationen gelangen auf die Zeilen 425 bis 433 der in der Fig. 6 gezeichneten Entscheidungs-Matrizen. Wie die Fig. 6 zeigt, können mit der Matrize 421 die sechs Phonemklassen 0, A, I, S, T, N voneinander getrennt werden. Die Matrize422 trennt die acht Phonemklassen 0, A, I, E, S, SH, T, N. Wenn der Kanal C30 der Fig. 5 gemäss Zeile 434 der Fig. 6 eingesetzt wird, kann der Zeitabstand zwischen den plosiven Phonemen bzw. Spracheleme.nten der Klasse T
309808/1029
und den nachfolgenden Vokalen der Klasse V angegeben werden. Dieser Zeitabstand ist kleiner nach den Phonemen "p" und "t" (10 ms bis 20 ms) als nach dem Phonem "k" (30 ms bis 40 ms). Die Matrize 423 trennt damit die Phoneme ρ und t (Klasse p) von dem Phonem k (Klasse K). Man kann auch den Vokal U (u) hinzufügen, der aber von ο schwer zu trennen ist, oder den Vokal Y (y), der aber nicht international gültig ist. Wenn nun Kanal 020 der Pig. 5 gemäss Zeile 435 der Pig. 6 in .die Entseheidungs-Matrizenzugefügt wird (Pitch: ja-nein), so kann durch die Anordnung der Matrize 424 auch geflüsterte Sprache kodiert werden. Eventuell kann ein weiterer Kanal C20' (Zeile 436 der Pig. 6) bis zu 128 Tonhöhen der Grundfrequenz angeben (7 bit), und Kanal C29 (Zeile 437) bis zu 64 Betonungsgrade (6 bit) der Dynamik.EV*^W.ci^f^^
Die Pig. 7 zeigt eine geometrische und farbenmässige Darstellung von vier Sprachkodes 425 bis 428, welche Kodes wie folgt bezeichnet sind: OTISA, SOTINA, SOTINAE, SOTINASHE. Diese Kodes haben fünf, sechs, sieben, acht Phonemklassen, was mit L = 5> 6, 7» 8 bezeichnet ist. Diese Klassen sind in einem Fünfeck 429) einem Sechseck 430, einem Siebeneck 431 oder in einem Achteck 432 gezeichnet. Das Vokal-Viereck
433 0, A, I, E kann durch die hellen Farben Rosa, Gelb, Gelbgrün, Grün dargestellt werden. Das Konsonant-Viereck
434 N, SH, S, T kaml· durch die dunklen Farben Braun, Türkis, Blau, Violett dargestellt werden. Das Sechseck 430 kann in ein Vokal-Dreieck 435 und in ein Konsonant-Dreieck 436 aufgeteilt werden. Ein Farbkode kann das Erlernen eines Sprachkodes erleichtern. Die Phoneme vom Kode "SOTINA" können "sotina" ausgesprochen werden. Sie können auch als "shupema" usw. ausgesprochen werden. Wesentlich hierbei ist, dass nur die Klassen der Phoneme respektiert werden, ϊϊϋί,Ιίοάο,
Fig. 8 zeigt einige mögliche Grundworte von Zahlenkodes für hull bis neun wie 0,1, TO, TI, TA, SO, SI, SA, AI, AO oder NO, I, TO, TI, TA, SO, SI, SA, NI, NA usw. gemäss den Zeilen 45? bis Ä.
309808/1029
22A0557
Anhand der folgenden Tabellen IV bis XIII soll gezeigt werden, dass die crfindungsgemässe Vorrichtung der Pig. 2, 3a, 3b und 5 für viele Anwendungsgebiete der Spracherkennung benutzt werden kann. In diesen Tabellen ist ein erweitertes System des schon erwähnten Kodes "SOTINA" aufgeführt. Mit diesem erweiterten System können alle alphabetischen Sprachen kodiert werden.
Tabelle IV
1. Kardinalzahlen; enden mit V, bestehen aus 0,1 oder T,S,N + A,0,I
A= mit (erspart Wiederholungen); NO = frei (event. = null)
1
I
23456789 TO TI TA SO SI SA NI NA
10 20 100 124 1972 IO TOO 100 ITOTA INASATO
Tabelle V
1.000 =
1 mit 3 Nullen
IATIO
10.000 =
1 mit 4 Nullen
IATAO
100.000 =
1 mit 5 Nullen
IASOO
1012=*
1 mit 12 Nullen
IAITOO
Tabelle VI
2. Ordinalzahlen: Kardinalzahlen 5. 6.
• SON· SIN·
+ N + Pause (Pause 10.
ION·
= (·)< C 1,5 sec)
4.
TAN
7.
SAN·
8. 9.
NIN- NAN·
ICOO.
IATAON
342222.
TITAATATON.
O.
ON-
1. 2. 3.
IN· TON· TIN·
Tabelle VII
3. Arithmetische Operatoren: Grundwort + grosser als kleiner als plus mal S + Pause minus durch koma
gleich > < + X Potenz - :
= AS- IS- TOS- TIS- NOS- NIS. ITAS·
OS- TAS-
4. Pausen s Punkte oder Abstände
nach einem Wort (*)J>0,5 sec . nach einem Satz (·.) ^> 2 see
Tabelle VIII
5. Instruktionswort: anfänglich A, zwei anliegende Konsonanten, CC
kardinal
ASTA.
ordinal
ASTAN·
aiphabet ASTASO·
stop ASTOT'
start Berg {Löschen
ASTAT- ANANT
t.ösche:
A SHO ■
Telephon- Nummer ASTANO·
binär
ASTAI· TO TL
oktal
ASTAO'
NO NI TO.TI TA SO SI SA
309808/1029
Tabelle IX
6. Alphabe i I (Zahlenyys kern für Buchstabieren). Instruktion ASTASO'IIi·
bcdefghijklm n ο 2 3 4 5 6 7 8 9 10 11 12 13 14 15 TO TI TA SO Sl SA ITI. NA IO II ITO ITI ITA ISO
pqr
16 17 18
ISI ISA IK
stuv w χ y ζ 19 20 21 22 23 24 25 26-INA TOO TOI TOTO TOTI TOTA TOSO TOSI
Tabelle X ·
7. Alphabet II; Phonetisches System für Buchstabieren.
Instruktion: ASTASO·TOT·
a e
A IA
1 O U
I 0 IO
1 m η r l\T0 NA NI NAO
c f sh SO SA SI STA
j ν w ζ
SOO SAO SAOSA SIO
ρ k q. t TO TA TIA TI
b g d χ y TOO TAO TIO TAS II
Tabelle XI
8. Beispiele; a) Kardinalzahlen. Instruktion ASTA· 700 9000 1 Milliarde ='109 0,000.002 = 2.10"6
SIO SAOO NAATIO
IANAO
0.NAS.SOOTO
Telephon-Nummer: 00 3 3 1 ASTANO- 00 TITI I
2 6 5 7 12 TITOSI SOSAITO
Tabelle XII
b) Buchstabieren, Alphabet I, Instruktion ASTASO.IN
Alphabet II,Instruktion ASTASO.TON
G e η e V e N e TOTI Y O r k
I. SA SO ITA SO TOTO SO ITA SO SAOSA TOSO ISO INI II
II. TAO IA HI IA SAO IA NI IA II 0 NAO TA
B O S t O η
I. TO ISO INA TOO ISO ITA
II. TOO 0 SI TI 0 NI
30 9 8087102
- 24- Tabelle XIII
c) Bergnamen durch Höhenangabe (m), Instruktion ANAKT'
Mont-Blanc 4 6 0 7
TANIOSA
Monte Rosa 4 6J8
TASITINI
4 5 5 4
)TA
Matterhorn 4 4 8 2
TATANITO
Lysskanun 4 4 7 8
TATASANT
Dent-Blanche 4 3 6 4
TASISiTA
Jungfrau 4 16 6
TAISISI
Mönch 4 10 5
TAIOSO
Die nachfolgende Tabelle XIV zeigt eine ausführliche Darstellung des Kodes SETE (Zeile 122 der Fig. 1 und Tabelle 143 der Fig. 2). Damit können auch die Buchstaben des Alphabetes kodiert werden, z.B.
0 9 8 0 8/1029
Tabelle XIV (phonokode SETE, (binär-dezimal); S,T ausgesprochen SE/TE (E=E geflüstert)
1. Kardinal-Zahlen
0123456789 S· T* TS" TT* SS- ST- TTS- TTT- SSS- SST-
10 20 .·..-. 100
T-S*- TS-S·* T-S-S-
1972
T'SST-TTT-TS.
2. Alphabet I (numerisch)
1
T-
2
TS ·
3
TT·
4
SS·
5
ST
S- 6
• TTS·
7
TTT·
8 9
SSS· SST-
i 10
T-S-
11
T-T- T
12
•TS·
26
TS ·
Z
13
T-TT-
14 15
T»SS- T-ST·
■ 16
T-TTS·
17
T·ΤΤΤ·
a b σ d e f g h 23
TS· TT-
W
j k 1 m η ο P q
18
T-SSS· T
r
19
-SST-
S
20
TS ·
t
21
TS-T--
U
22
TS'TS*
V
24
TS- SS-
X
25
TS* ST-.
Y
TTS·
3. Alphabet II (Morse)
; S,T ausgesprochen SE, TE
a b C d e f t g h i j k X 1 ΐα· η
a) ST- TSSS· TSTS· TSS* T TTS· SSSS· SS· STTT· TST· TSST- STSS· . TT· TS-
b) TS · STTT- STST* STT- S- SSTS· S SST- TTTT* TT· TSSS- STS- STTS · TSTT- SS· ST·
O P g r T- TTST- U V W ■y Z
a) TTT- .1STTS. TTST· STS« S • SST· SSST· STT* TSTT· TTS S ·
b) sss· TSST- SSTS· TST* SSS« • TTS- TTTS· TSS- STSS· SSTT*
TTT·

Claims (17)

Patentansprüche
1. Jspracherkennungsvorrichtung zum Steuern von Maschinen, in "welche Vorrichtung aus Sprachelementen bestehende Worte eingegeben werden, gekennzeichnet durch folgende Merkmale:
a) ein erstes Mittel (132) zum Peststellen der Gesamtenergie (134) des eingegebenen Wortes;
b) ein zweites Mittel (135) zum Feststellen der Steilheit der Anstiegsflanke (ti; t2) der Energie der Sprachelemente und somit zum Trennen der Klasse (T) der plosiven Sprachelemente (z.B. p, t, k) von der Klasse S der frikativen Sprachelemente (z.B s, sch, f);
- c) eine diesen Mitteln (132, 135) nachgeordnete erste logische Schaltung (139) zum Peststellen der zeitlichen Dauer jedea einzelnen Sprachelementes und der Pause zwischen den Sprachelementen;
d) eine zweite lpgisbhe Schaltung (142) zum Erkennen von Kombinationen der frikativen und plosiven Sprachelemente;
e) Ausgabemittel zum Steuern νοΛ Geräten (145) aufgrund der eingegebenen Worte.
2. Spracherkennungsvorrichtung zum Steuern von Maschinen, in welche Vorrichtung aus Sprachelementen bestehende VYorte eingegeben werden, gekennzeichnet durch folgende Merkmale»
a) ein erstes Mittel (132) zum Peststellen der Gesamtenergie (134) des eingegebenen Wortes;
b) ein zweites Mittel (135) zum Peststellen der Steilheit der Anstiegsflanke (ti; t2) der Energie der Sprachelemente und somit zum Trennen der Klasse (T) der plosiven Sprachelemente (z.B. p, t, k) von der Klasse (sjder frikativen Sprachelemente (z.B. s, sch, f);
c) ein drittes Mittel (151) zum PestetelleiTirtrerthonen, mitt-" leren und tiefon Frequenzen aller eingegebenen Sprachtl,emente und somit zum Unterteilen der Vokale in cuse^r Klassen}
d) eine diesen Mitteln (132, 135, 151) nachgeordnete erste ' logische Schaltung (139» 161) zum Feststellen der zeitlichen Dauer jedes einzelnen Spraohelementes und der Pause zwischen den Sprachelementen;
309808/1029
e) eine zweite logische Schaltung (142) zum Erkennen von Kombinationen der frikativen, plosiven und vokalen Sprachelemente;
f) Ausgabemittel zum Steuern von Geräten (145) aufgrund der eingegebenen Worte,
3. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der ersten logischen Schaltung (139) Stromkreise vorgesehen sind, welche zwischen den einzelnen Sprachelementen diejenigen Pausen feststellen, die kleiner sind als ca. 0,2 see, so dass die Sprachelemente segmentiert sind.
4. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung(142) Stromkreise vorgesehen sind, welche Pausen zwischen den einzelnen Sprachelementen feststellen, die grosser sind als 0,2 see, so dass die Kombinationen der Sprachelemente, welche auch als Worte bezeichnet werden, segmentiert werden.
5. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass
in der zweiten logischen Schaltung (142) Speichermittel vorgesehen sind, welche mindestens eine binäre und/oder eine dezimale Kodierung (143) speichern.
6. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in dem als Diskriminator ausgebildeten dritten Mittel (151) Schaltungen vorgesehen sind, die das Frequenzband der in der Eingabe (131) gelangenden Sprache in sechs Bänder unterteilen und somit sechs Phoneinklassen unterscheidbar sind,
7«. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, in der zweiten iogifichen Schaltung (.14 2) eine Einrichtung (281) -vor^euehan ist, welche die zeitliche Dauer der einzelnem Spruche!ernente und der Pausen in Zeitklaooen einteilt, no daso Knackgeräuüche und Atmungbgeräusohe ausgo-
.3 0 4 80B/ 102
8. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 273) Erkennungs-" mittel (163, 285) vorgesehen sind, welche das Ende eines jeden Grundwortes dadurch erkennen, dass ein Vokal vorhanden ist.
9. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daes
I4A0 in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine Matrize (2791 421) vorgesehen ist zum Erkennen von drei Konsonantenklassen und von drei Vokalklassen.
10. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine Matrize (422) vorgesehen ist zum Erkennen von vier Konsonantenklassen und von vier Vokalklassen.
11. Vorrichtung nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung
IiJ O
(142, 272, 4-Ö9) eine Matrize (423) vorgesehen ist zum Trennen von Plosivunterklassen.
12. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine Matrize (424) vorgesehen ist zum Erkennen von mindestens drei geflüsterten Vokalklassen.
13. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 273) Mittel (289) vorgesehen sind zum Starten einer arithmetischen Rechenoperation, und diese Mittel auf ein Grundwort mit einer Konsonantenklas&e und einer zeitlich folgenden Pause ansprechen.
309808/ 1029
14'. Vorr-lc^'-wUitcj nach /mnpruch 2, dadurch gekennzeichnetr dass in der zwuitan logischen Schaltung (142, 273) Mittel (290) vorgesehen sind zum Aendern der Logik, und diese Mittel auf zwei bestimmte anliegende Kosonantenklassen ansprechen.
15. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 273) Mittel (29Ü) vorgesehen sind zum Vermeiden von Wiederholungen von Grundworten, und diese Mittel auf bestimmte anliegende Vokalklassen ansprechen.
16. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142) Stromkreise vorgesehen sind, welche Pausen zwischen den einzelnen Sprachelementen feststellen, die grosser sind als 2 Sekunden, so dass die Kombinationen der Worte, welche auch als Sätze bezeichnet werden, segmentiert werden.
17. Vorrichtung nach Anspruch 1, wobei die Vorrichtung einen Amplituden-Kompressor mit "Rückwärts- und Vorwärts-Schlelfa" enthält, dadurch gekennzeichnet, dass der Verstärker (324) , der Gleichtichter (325) und der Tiefpass (326) der "Vorwärta-Schleife" ersetzt werden durch einen Uebertrager (329) der daa Ausbalancieren der Schleifen erleichtert.
Gp/r/dh/cb 10.8.1972
309308/1029
BAD ORiQtNAt
Leerseite
DE2240557A 1971-08-18 1972-08-17 Spracherkennungsvorrichtung zum steuern von maschinen Pending DE2240557A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CH1217771 1971-08-18
CH1146272 1972-08-01

Publications (1)

Publication Number Publication Date
DE2240557A1 true DE2240557A1 (de) 1973-02-22

Family

ID=25708361

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2240557A Pending DE2240557A1 (de) 1971-08-18 1972-08-17 Spracherkennungsvorrichtung zum steuern von maschinen

Country Status (5)

Country Link
US (1) US3946157A (de)
JP (1) JPS4830302A (de)
DE (1) DE2240557A1 (de)
FR (1) FR2150174A5 (de)
GB (1) GB1375452A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2755633A1 (de) * 1977-12-14 1979-06-21 Loewe Opta Gmbh Fernsteuerung zum steuern, ein- und umschalten von variablen und festen geraetefunktionen und funktionsgroessen in nachrichtentechn. geraeten

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4107460A (en) * 1976-12-06 1978-08-15 Threshold Technology, Inc. Apparatus for recognizing words from among continuous speech
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
CH635695A5 (de) * 1978-08-31 1983-04-15 Landis & Gyr Ag Detektor zur feststellung der anwesenheit mindestens eines elektrischen signals mit einer vorbestimmten charakteristik.
US4445187A (en) * 1979-02-05 1984-04-24 Best Robert M Video games with voice dialog
US4305131A (en) * 1979-02-05 1981-12-08 Best Robert M Dialog between TV movies and human viewers
US4333152A (en) * 1979-02-05 1982-06-01 Best Robert M TV Movies that talk back
US4569026A (en) * 1979-02-05 1986-02-04 Best Robert M TV Movies that talk back
JPS5688503A (en) * 1979-12-21 1981-07-18 Matsushita Electric Ind Co Ltd Heater
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4509186A (en) * 1981-12-31 1985-04-02 Matsushita Electric Works, Ltd. Method and apparatus for speech message recognition
DE3200645A1 (de) * 1982-01-12 1983-07-21 Matsushita Electric Works, Ltd., Kadoma, Osaka "verfahren und vorrichtung zur spracherkennung"
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
US4558319A (en) * 1982-12-07 1985-12-10 Westinghouse Electric Corp. Automated system monitoring using frequency and amplitude modulation
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
GB2145551B (en) * 1983-08-23 1987-08-19 David Thurston Griggs Speech-controlled phonetic typewriter or display device
GB2145864B (en) * 1983-09-01 1987-09-03 King Reginald Alfred Voice recognition
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
JPS60181798A (ja) * 1984-02-28 1985-09-17 電子計算機基本技術研究組合 音声認識装置
US4811243A (en) * 1984-04-06 1989-03-07 Racine Marsh V Computer aided coordinate digitizing system
NL8401862A (nl) * 1984-06-13 1986-01-02 Philips Nv Werkwijze voor het herkennen van een besturingskommando in een systeem, en een interaktief systeem voor het uitvoeren van de werkwijze.
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
IT1179093B (it) * 1984-09-03 1987-09-16 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per il riconoscimento senza addestramento preventivo di parole connesse appartenenti a piccoli vocabolari
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
JPS63501603A (ja) * 1985-10-30 1988-06-16 セントラル インステイチユ−ト フオ ザ デフ スピ−チ処理装置および方法
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
US4896357A (en) * 1986-04-09 1990-01-23 Tokico Ltd. Industrial playback robot having a teaching mode in which teaching data are given by speech
US4800503A (en) * 1986-09-19 1989-01-24 Burlington Industries, Inc. Method and apparatus for grading fabrics
EP0364501A4 (en) * 1987-06-09 1993-01-27 Central Institute For The Deaf Speech processing apparatus and methods
WO1994018667A1 (en) * 1993-02-11 1994-08-18 Naim Ari B Voice recording electronic scheduler
DK46493D0 (da) * 1993-04-22 1993-04-22 Frank Uldall Leonhard Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler
US5638486A (en) * 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
KR980700637A (ko) * 1994-12-08 1998-03-30 레이어스 닐 언어 장애자의 언어 인식 강화를 위한 방법 및 장치(method and device for enhancing the recognition of speechamong speech-impai red individuals)
US5832440A (en) * 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US5864793A (en) * 1996-08-06 1999-01-26 Cirrus Logic, Inc. Persistence and dynamic threshold based intermittent signal detector
IL119948A (en) 1996-12-31 2004-09-27 News Datacom Ltd Voice activated communication system and program guide
US6097776A (en) * 1998-02-12 2000-08-01 Cirrus Logic, Inc. Maximum likelihood estimation of symbol offset
DE19834321A1 (de) * 1998-07-30 2000-02-03 Alcatel Sa Verfahren, Endgerät, Knoten, Programmodul und Bedienoberfläche zur Ermittlung von für eine Kommunikationsbeziehung erforderlichen Merkmalen
US6587822B2 (en) * 1998-10-06 2003-07-01 Lucent Technologies Inc. Web-based platform for interactive voice response (IVR)
US6947893B1 (en) * 1999-11-19 2005-09-20 Nippon Telegraph & Telephone Corporation Acoustic signal transmission with insertion signal for machine control
US6895380B2 (en) 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
US7319959B1 (en) * 2002-05-14 2008-01-15 Audience, Inc. Multi-source phoneme classification for noise-robust automatic speech recognition
US20080208571A1 (en) * 2006-11-20 2008-08-28 Ashok Kumar Sinha Maximum-Likelihood Universal Speech Iconic Coding-Decoding System (MUSICS)
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
EP3038106B1 (de) * 2014-12-24 2017-10-18 Nxp B.V. Verbesserung eines Audiosignals

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL272110A (nl) * 1960-12-08 1964-08-25 Jean Albert Dreyfus Drukaandrijving
US3553372A (en) * 1965-11-05 1971-01-05 Int Standard Electric Corp Speech recognition apparatus
US3619509A (en) * 1969-07-30 1971-11-09 Rca Corp Broad slope determining network
DE2109436A1 (de) * 1970-03-04 1972-08-03 Dreyfus J Amphtudenregler für elektrische Signale
US3679830A (en) * 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2755633A1 (de) * 1977-12-14 1979-06-21 Loewe Opta Gmbh Fernsteuerung zum steuern, ein- und umschalten von variablen und festen geraetefunktionen und funktionsgroessen in nachrichtentechn. geraeten

Also Published As

Publication number Publication date
FR2150174A5 (de) 1973-03-30
JPS4830302A (de) 1973-04-21
GB1375452A (de) 1974-11-27
US3946157A (en) 1976-03-23

Similar Documents

Publication Publication Date Title
DE2240557A1 (de) Spracherkennungsvorrichtung zum steuern von maschinen
DE2918533C2 (de)
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE19636739C1 (de) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2608569A1 (de) Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2422028C2 (de) Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort
DE1547032A1 (de) Einrichtung zum Identifizieren einer Person
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
US4509186A (en) Method and apparatus for speech message recognition
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE4031638A1 (de) Spracherkennungseinrichtung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP2962296A2 (de) Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung
DE1937464C3 (de) Sprachanalysiergerät
DE19654549C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE2109436A1 (de) Amphtudenregler für elektrische Signale
DE3129353A1 (de) Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen
DE1422056A1 (de) Phonetische Schreibmaschine
DE1547027B2 (de) Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen

Legal Events

Date Code Title Description
OHJ Non-payment of the annual fee