DE2240557A1 - Spracherkennungsvorrichtung zum steuern von maschinen - Google Patents
Spracherkennungsvorrichtung zum steuern von maschinenInfo
- Publication number
- DE2240557A1 DE2240557A1 DE2240557A DE2240557A DE2240557A1 DE 2240557 A1 DE2240557 A1 DE 2240557A1 DE 2240557 A DE2240557 A DE 2240557A DE 2240557 A DE2240557 A DE 2240557A DE 2240557 A1 DE2240557 A1 DE 2240557A1
- Authority
- DE
- Germany
- Prior art keywords
- logic circuit
- classes
- language elements
- elements
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000000630 rising effect Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 2
- 235000007487 Calathea allouia Nutrition 0.000 claims 1
- 244000278792 Calathea allouia Species 0.000 claims 1
- 210000000078 claw Anatomy 0.000 claims 1
- 238000005336 cracking Methods 0.000 claims 1
- 230000029058 respiratory gaseous exchange Effects 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 9
- 239000011295 pitch Substances 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000004880 explosion Methods 0.000 description 3
- FESBVLZDDCQLFY-UHFFFAOYSA-N sete Chemical compound [Te]=[Se] FESBVLZDDCQLFY-UHFFFAOYSA-N 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 241001132374 Asta Species 0.000 description 2
- CMSMOCZEIVJLDB-UHFFFAOYSA-N Cyclophosphamide Chemical compound ClCCN(CCCl)P1(=O)NCCCO1 CMSMOCZEIVJLDB-UHFFFAOYSA-N 0.000 description 2
- 102100037815 Fas apoptotic inhibitory molecule 3 Human genes 0.000 description 2
- 101000878510 Homo sapiens Fas apoptotic inhibitory molecule 3 Proteins 0.000 description 2
- MZZINWWGSYUHGU-UHFFFAOYSA-J ToTo-1 Chemical compound [I-].[I-].[I-].[I-].C12=CC=CC=C2C(C=C2N(C3=CC=CC=C3S2)C)=CC=[N+]1CCC[N+](C)(C)CCC[N+](C)(C)CCC[N+](C1=CC=CC=C11)=CC=C1C=C1N(C)C2=CC=CC=C2S1 MZZINWWGSYUHGU-UHFFFAOYSA-J 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 210000002105 tongue Anatomy 0.000 description 2
- 241000272517 Anseriformes Species 0.000 description 1
- 206010002953 Aphonia Diseases 0.000 description 1
- 241000543381 Cliftonia monophylla Species 0.000 description 1
- 206010010071 Coma Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 101000713585 Homo sapiens Tubulin beta-4A chain Proteins 0.000 description 1
- 102100036788 Tubulin beta-4A chain Human genes 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000009428 plumbing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000010981 turquoise Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Feedback Control In General (AREA)
Description
Vokalen und Konsonanten. Diese bekannten Kodes haben jedoch
1.) Die Kodes können nicht von Personen mit verschiedener Muttersprache gleichmässig ausgesprochen werden. Ein
Engländer, ein Franzose^ ein Deutscher, ein Russe, ein Araber und ein Japaner können die bekannten Kodes nicht
mit gleicher Leichtigkeit und Fehlerlosigkeit aussprechen',
2.) Die bekannten Spracherkennungsvorrichtungen sind in ihrem - Aufbau kompliziert und können diese Kodes nicht ohne
individuelle, vorherige Lernphasen erkennen;
3.) Die bekannten Kodes sind nicht in der Lage, Flüstersprachen zu erkennen. Die Erkennung von Flüstersprachen ist besonders
bei den Personen wichtig, welche aus Krankheitsgründen an temporärer oder dauernder Stimmlosigkeit leiden«. Ferner ist
die Flüstersprache bei Wahrung von Geheimnissen während der sprachlichen Uebertragung notwendig?
4.) Ferner sind die bekannten Kodes nicht ausbaufähig, was sich
besonders dann bemerkbar macht, wenn Vokale Verwendung finden sollen\
5.) Die Worte und Sätze der bekannten Kode können nicht mit
maximaler Geschwindigkeit und minimaler Anstrengung ausgesprochen werden,da die phonetischen und linguistischen Regeln
nicht auf dieses Ziel gerichtet sind.
309808/1029
Die erfindungagemässe Vorrichtung ist so konstruiert, dass sie
die Nachteile der bekannten Vorrichtungen vermeidet. Die Erfindung ist gekennzeichnet durch folgende Merkmale:
a) ein erstes Mittel zum Feststellen der Gesamtenergie der eingegebenen Sprachelemente;
b) ein zweites Mittel zum Feststellen der Steilheit der Anstiegsflanke der Energie der Sprachelemente und somit zum Trennen
der Klasse der plosiven Sprachelemente von der Klasse der frikativen Sprachelemente;
c) eine diesen Mitteln nachgeordnete erste logische Schaltung zum Feststellen der zeitlichen Dauer jedes einzelnen Sprachelementes
und der Pause zwischen den Sprachelementen;
d) eine zweite logische Schaltung zum Erkennen von Kombinationen der frikativen und plosiven Sprachelemente;
e) Ausgabemittel zum Steuern von Geräten aufgrund der eingegebenen
Worte.
Diese Grundausrüstung der erfindungsgemassen Vorrichtung kann
vorteilhafterweise ergänzt werden durch Hinzufügen von Mitteln zum Erkennen von in den Kodes zusätzlich aufgenommenen Vokalen.
Diese Vokale können entweder stimmhaft sein oder geflüstert werden. Die erfindungsgemässe Weiterentwicklung ist gekennzeichnet durch
folgende Merkmale:
a) ein erstes Mittel zum Feststellen der Gesamtenergie der eingegebenen
Sprachelemente;
b) ein zweites Mittel zum Feststellen der Steilheit der Anstiegsflanke der Energie der Sprachelemente und somit zum Trennen
der Klasse der plosiven Sprachelemente von der Klasse der frikativen Sprachelemente;
c) ein drittes Mittel zum Feststellen von mindestens 2 Frequenz-Bändern
unter den hohen, mittleren und tiefen Frequenzen aller eingegebenen Sprachelemente und somit zum Unterteilen der Vokale
in mindestens zwei Klassen;
d) eine diesen Mitteln nachgeordnete erste logische Schaltung zum Feststellen der zeitlichen Dauer jedes einzelnen Sprachelementes
und der Pause zwischen den Sprachelementen;
309808/1029
tf) Ausgabeaiittel zur Steuerung von Geräten aufgrund der
\ Grundworte. . 7
"Ausführungsbeispiele der Erfindung werden anhand der Figuren ,näher erläutert. Es zeigen:
I1Xg. 1 optische und akustische Formen der Zahlen von O "bis 9,
Pig. 2 ein prinzipielles Blockschaltbild der Vorrichtung, Fig. 3a,3b eine ausführliche Darstellung der Vorrichtung der pjg2
Fig. 4 die Dämpfungskurven von den in der Fig. 3 gezeichneten
Band-Filtern,
Fig. 5 . eine von der Fig. 3 unterschiedliche Ausführung der
Fig. 5 . eine von der Fig. 3 unterschiedliche Ausführung der
Vorrichtung,
Fig. 6 Erkennungs-Matrizen für die Vorrichtung der Fig. 5, Fig. 7 eine geometrische, farbenmässige und symbolische Darstellung
der Grundklassen von Sprachelementen und von Sprachkoden,
Fig. 8 einige Beispiele von Sprachkodes für die Grundziffern.
Fig. 8 einige Beispiele von Sprachkodes für die Grundziffern.
In der Fig. 1, Zeile 101, sind die optischen Formen bzw. Gestalten
der Ziffern null bis neun gezeichnet. Diese Ziffern sind allgemein bekannt und werden von fast allen Menschen gleich
verstanden. Im Gegensatz zu der international normalisierten optischen Gestalt der Ziffern ist ihre akustische "Form bzw.
Gestalt" in den Zeilen 102 bis 120 der Fig. 1 in verschiedenen Sprachen aufgezeichnet. Diese Beispiele, welche nur den geringsten
Teil der akustischen Vielfalt von Formen zeigen, weisen über sechzig verschiedene Phonemen auf. Ein Kode, welcher
von Personen mit unterschiedlicher Muttersprache in gleicher Weise aussprechbar ist, ist in Zeile 121 der Fig. 1 gezeigt.
Dieser als "SOTINA" bezeichnete Kode wird bei der erfindungs- · gemessen Vorrichtung benutzt. Die einzelnen konstruktiven Schaltungsmerkmale
der erfindungsgemässen Vorrichtung, welche sich hierdurch sehr vereinfachen, sind in der Fig. 2 dargestellt. In
der Fig. 1, Zeile 122, ist ein noch einfacherer Kode gezeichnet, welcher als "SETE" genannt ist und nur geflüstert wird. Er besitzt
im Gegensatz zu dem in der Zeile 121 beschriebenen anderen Kode nur die beiden Klassen S und T der Phoneme. Der Kode
"SOTINA" ist gleichzeitig auf der Einfachheit der optischen Formen (Zeile 101) und Sanskrit-Wurzeln (Zeilen 103, 104 basier+'
309808/1029
Bevor die erfindungsgemässe Vorrichtung der Pig. 2 näher diskutiert
wird, werden die Definitionen der Klassen der Sprachelemente bzw. Phoneme festgelegt. In der nachfolgenden Tabelle
sind die Klassen der Sprachelemente bzw. Phoneme aufgezeichnet,
welche international festgelegt wurden. Es handelt sich hierbei um Klassen, die allgemein am bequemsten aussprechbar sind.
Phonem-Kla ssen
Konsonanten | Plosiv | Sym bol |
Phoneti sche Werte |
Vokale | tief | Sym bol |
Phonetische Werte |
U |
1. | Prikativ | T | p,t,k | 1. | mittel | 0 | o, | |
2. | Nasal | S | s,sch,f | 2. | hoch | A | a | e |
3. | N | n, m | 3. | geflüster" | I | i, | A, I | |
4. | r | O, |
Die in der Tabelle I definierten Klassen werden durch grosse Buchstaben bezeichnet. Die phonetischen Werte der einzelnen
Phoneme bzw. Sprachelemente werden mit kleinen Buchstaben bezeichnet. Die Vokale können auch geflüstert werden. Diese werden
allgmein durch den Buchstaben E bezeichnet. Unter Plustern versteht
man, dass der Vokal stimmlos ausgesprochen wird. Die ein-
zelnen Vokalklassen 0, A, I werden mit 0, A, I bezeichnet, wenn
wenn sie geflüstert werden.
Anhand, der Fig. 2 wird nun zuerst das vereinfachte Beispiel der
erfindungsgemässen Vorrichtung besprochen. Die Eingabe 131 kann ein Mikrophon, ein Magnettonband oder ein Vokoder sein. In
diesem Ausführungsbeispiel wird angenommen, dass es sich bei der Eingabe 131 um ein Mikrophon handelt. Die Bedienungsperson
soll nun das Wort 11SASOTI" in das Mikrophon flüstern. Die
elektrischen Signale, die sich hieraus ergeben, gslangen in die entsprechenden nachgeordneten Schaltungsstufen. Der
Extractor 132 liefert die gesamte Sprachenergie der Signale,
309808/1029
ζ. 13. im Telephonband 200 bis 3400 Hz, wie es in dem Kurvenzug
133 gezeigt ist. Wenn z.B. das Wort "SASOTI" ausgesprochen
wird, so entsteht der Kurvenzug 134, in welchem die gesamte Energie E über die Zeit t aufgetragen ist.
Bei dem Kurvenzug 134 stellt die Energie E eine Punktion der Zeit t dar. Die verschiedenen Zeitabschnitte der
Phonemsignale ts, t&, tQ ', tQ, tt, ±± sowie der Pausen
tz, t ' zwischen ihnen werden festgestellt. Der Diskriminator
135 stellt die Steilheit der Anstiegsflanken der Energien fest und trennt somit die Klasse T der plosiven
Konsonanten von der Klasse S der frikativen Konsonanten. Am Ausgang de.s Diskriminators 135 erscheint der Kurvenzug
136 und gelangt über die Leitung 138 auf die erste logische Steuerschaltung 139. Der Kurvenzug 136 gibt die zeitliche·
Ableitung dE/dt der Energie in Punktion der Zeit an. Die leitungen 137, 138 bringen somit die notwendige Information
(Kurvenzüge 134, 136) auf die erste logische Steuerschaltung 139. In dieser Steuerschaltung werden die Zeitmessungen ausgeführt,
welche darin bestehen, dass sowohl die Zeitabschnitte der einzelnen Klassen als auch die Zeitabschnitte
zwischen den Klassen festgestellt werden. Anhand dieser Zeitmessungen und der phonetischen Regeln gibt die Logik eine
klare Trennung der beiden Klassen T und S. Ueber die Leitungen -140, 141 werden diese'elektrischen Signale der beiden
Klassen zur zweiten logischen Steuerschaltung 142 gegeben, in welcher linguistische Regeln angewendet werden und be"-stimmte
Kombinationen der Phonemklassen T und S erkannt werden, Diese Kombinationen werden ala Worte bezeichnet.
Erfindungsgemäss soll folgende Vorschrift erfüllt werden, dass die einzelnen Worte durch Pausen voneinander getrennt
sein müssen. Diese Pausen haben einen Wert, welcher grosser
Uttev ο,ς
ist als z,B. 0,2?Sekunden. Im Gegensatz hierzu sind die sogenannten
internen Pausen wie z.B. tz, t2' kleiner als 0,2\otkcOt$
Sekunden und werden in der ersten logischen Steuerschaltung 139 - wie bereits beschrieben - entsprechend berücksichtigt»
V-< dl'·? Bedienungsperson daß Wort" "SASÜl'I" geflüstert hat,
3.0 9 80 8/HU 9
sind die Vokale stimmlos ausgesprochen worden, so dass die
Klassen A, 0, I nicht im Wort vorhanden sind. Die Bedienungsperson kann ebenso das Wort "SASOTI" flüstern, als "SASOTI"
oder "SESETE". In all diesen Fällen des Flüsterns erkennt
die zweite logische Steuerschaltung 142 das Wort als "SESETE".
Das von dieser zweiten logischen Steuerschaltung erkannte Wort kann auch als Abkürzung SST geschrieben werden» Wie bereits
im Zusammenhang mit der Fig. 1 erwähnt, kann dieses Wort einen Phonokode. bilden. Dieser Phonokode; ist fest in der
zweiten logischen Steuerschaltung 142 angeordnet. Ale Beispiel hierfür zeigt die Fig. 2 einen Phonokode, der sowohl binär
als auch dezimal verwendet werden kann. In der Tabelle 143 ist dieser Phonokode gezeigt. Der Phonokode vereinfacht sich
beträchtlich, da die Pausen zwischen den einzelnen Worten der plosiven und frikativen Klassen festgestellt werden.
Diese Vereinfachung ist dadurch dargestellt, dass nur der Phonokode genommen wird, welcher rechts von der linie 14^5
liegt. Die zweite logische Steuerschaltung erkennt den Kode SST als die Ziffer neun. Dies ist durch die Anzeige 14Jf dargestellt.
Das Gerät 14$ wird entsprechend der erkannten
Ziffer neun gesteuert. Wie bereits erwähnt, kann das Gerät 14^ eine Maschine zum Schreiben oder zum Steuern von weiteren
Anlagen sein.
Wenn die erfindungsgemässe Vorrichtung noch weiter ausgebaut
werden soll, so wird parallel zum Extractor 132 und zum Diskriminator 3 35 ein weiterer Diskriminator 151 hinzugesohaltet.
Dieser Diskriminator stellt die spektrale Verteilung der Sprachenergie in mindestem*? drei Frequenzbändern
fest. Diese Frequenzbänder sind links vom Diskriminator 151
als Kurvenzüge 152, 153, 154 mit den zugeordneten Frequenzen 200 Hz bia 800 Hz, 800 Hz bis 1000 Hz, 1600 Hz bis 3000 Hz
gezeigt. Diese einzelnen Kurvenzüge entsprechen den tiefen, mittleren, und hohen Vokalklaesen 0, A, I.
Wenn nun die Bediojamgspereou z.B. üau Wort "3AS0TI" aunapricht,
00 wird über den Extractor 132 der bereit» buauhriö-
3 0 9 8 0 8/1029
bene Kurvenzug 134 gebildet. Ferner gibt der erste Diskriminator
155 über die leitung 138 den Kurvenzug 136 ab. Im Diskriminator
151 wird gemäss den drei Frequenzbändern 152, 153* 154 die
spektrale Verteilung festgestellt und als Kürvenzüge 155? 156, 157 auf die Leitungen 158, 159, 160 in den Ergänzungsteil
der ersten logischen Steuerschaltung 139 gegeben. In der ersten logischen Steuerschaltung werden die phonetischen Regeln angewendet
und die Klassen S und T sowie die Klassen 0, Aj I1 S
erkannt. Dies erfolgt dadurch, dass in dieser Steuerschaltung die zeitlichen Abschnitte der einzelnen Sprachelemente bzw.
Phoneme in jeder Klasse und die zeitlichen Abstände zwischen den einzelnen Phonemen "bzw. Sprachelementen erkannt werden-.
Dies gilt sowohl für die Signale über den leitungen 137, als auch für die Kurvenzüge 155, 156, 157 der leitungen 158,
159, 160. Die Signale, welche den Klassen S und T sugeordnet sind, gelangen von der ersten logischen Steuerschaltung 139
auf die zweite logische Steuerschaltung 152..Die Signale,
welche den Klassen 0, A, I, S zugeordnet sind, gelangen über die Leitungen 162,' 163, 164 ebenfalls auf die zweite logische
Steuerschaltung 142. In dieser Steuerschaltung werden die linguistischen Regeln angewandt und die Worte erkannt. Wie
bereits erwähnt, werden hier die zeitlichen Abschnitte zwischen den einzelnen Worten erkannt innerhalb der fünf Klassen
T, S, 0, I, A. Das Wort "SASOTI" kann aus den Grundworten = Ziffern bestehen SA=7, S0=5, TI=3. Diese Grundworte sind in
einem Phonokode gespeichert. Dieser Phonokode, welcher in
der Fig. 2 als Tabelle 163 dargestellt ist, ist in der zweiten logischen Steuerschaltung 142 angeordnet,- Diese
Steuerschaltung segmentiert die Grundworte in der Weise sehr einfach·, weil jedes Grundwort mit einem Vokal endet. Somit
kann die erkannte Zahl 753 ein Gerät 145 in gewünschter V/eise
steuern. Zur beoseren Information ist diese Zahl in der Ausgabe
164 dargestellt. Eine solche Ausgabe-Einheit kann einen Teil der zweiten logischen Steuerschaltung 142 bilden oder
etwas von dieser Steuerschaltung entfernt angeordnet sein.
Ea sei darauf hingewiesen, dass verschiedene Phonokodes in
309808/1029
der zweiten logischen Steuerschaltung 142 angeordnet sein können. Der grosse Vorteil eines Phonokodes bestehend aus
mindestens fünf Phonemklassen liegt darin, dass er beliebig ausbaufähig ist und ganze Sprachen hiermit entwickelt werden
können, welche international und bequem aussprechbar sind. Wie schon gesagt, kann die erfindungsgemässe Vorrichtung
solche Kodes sehr leicht erkennen.
In denELg.3a,3bjist die prinzipielle Darstellung der erfindungsgemässen
Vorrichtung der Pig. 2 ausführlicher gezeichnet. Die elektrischen Sprachsignale werden entweder durch ein Mikrophon
201 oder durch eine Telephonleitung 202 oder durch ein Magnettonbandgerät 203 oder durch einen Vokoder 204, welche als
Eingabe 131 wirken, gemäss Pig. 3 dem Eingangsschalter 200 zugeführt. Mit diesem Schalter 200 soll angedeutet werden,
dass die eben genannten verschiedenen Eingabegeräte wahlweise zugeschaltet werden können. Diese Geräte besitzen in der
Verbindungsleitung die Filter 205, 206, 207, 208. Diese Filter haben die Aufgabe, die Frequenzkomponenten der verschiedenen
Signalquellen bzw. Geräte in ähnlicher Weise wie beim menschlichen Ohr zu normalisieren, d.h. dafür zu sorgen,
dass die Prequenzkomponenten zwischen etwa 200 und 3400 Hz normal auf den Schalter 200 gelangen können. Diese Sprachsignale
gelangen über den Eingang 209 eines Plosiv-Diskriminator-Kanals C8 sowie über die Eingänge 211 bis 217 in die
Spektrum-Diskriminator-Kanäle Cl bis C7. Wie bereits im Zusammenhang
mit der Fig. 2 beschrieben, reagiert der Kanal C8 auf die Geschwindigkeit der Energieänderung der Sprachsignale
im Frequenzband über 500 Hz. Die Plosiv-Phonemklasse T, in welche die Phoneme bzw. Sprachelemente p, t, k, b, d, g
gehören, baut pich in fünf Millisekunden auf,
und zwar nach einer Pause von mindestens fünfzig Millisekunden.
Die Frikativ-Phonemklasse S, in welcher die Phoneme bzw.
Sprachelemente s, f, sch, z, v, j mindestens zwanzig Millisekunden
zum Aufbau benötigen, ist von den Plosivlauten durch die unterschiedliche Aufbauzeit hinreichend getrennt worden.
Die Diskriminierung zwischen Ploeiv- und Frikativ-Phonemklassen
309808/1029
G?, S kann auf verschiedene Arten durchgeführt werden, wie z.B.
in analoger oder digitaler Weise. Im ausführlichen Beispiel der Pig. 3 ist die analoge Diskriminierung gezeichnet. Diese
analoge Vorrichtung enthält im Kanal C8 "den Bandpass 218, welcher das Frequenzband von 1000 Hz bis 4000 Hz durchlässt,
den Gleichrichter 219, den Tiefpass 220, welcher die Frequenzen unterhalb 70 Hz durchlässt, und den zeitlichen
Energie-Differenziator 22.9. Dieser Differenziator 22# enthält
einen Kondensator 221, die Widerstände 222·, 223 und den Gleichrichter 224. Der Gleichrichter sortiert die ansteigenden
Planken des Kurvenzuges 225, welcher dem Wort "SATI" entsprechen soll. Es sei angenommen, dass dieses
Wort von einem der vier Eingangsgeräte 201 bis 204 über den Schalter 200 auf die gesamte Vorrichtung gegeben wird.
Die Kanäle 01 bis 07 sortieren die charakteristischen qüasistationären
Energiebänder der nicht-plosiven Phonemklassen T*. Das Symbol T ist für die nicht-plosiven Phonemklassen definiert.
Die Kanäle Cl bis 07, deren Eingänge 211 bis 217
parallel zum Eingang 209 des Kanals 08 liegen, werden dem Spektrum-Extractor zugeordnet. Der Kanal C7 besteht aus dem
egalisierenden Sprachfilter 127 für die Frequenzen 100 Hz
und bis 4000 Hz, aus dem Gleichrichter 228 dem Tiefpass 229
mit der Durchlassfrequenz unterhalb von 50 Hz. In diesem Kanal C7 wird der Kurvenzug 26^ des Wortes "SATI" entwickelt.
Dieser Kanal 07 zeigt die gesamte Dynamik oder anders ausgedrückt das Vorhandensein des gesprochenen
Wortes an und entspricht dem Extractor 132 'der Fig. 1.
An dieser Stelle sei darauf hingewiesen, dass der Kanal 08 und die Kurvenzüge 225 bzw. iOb der Fig. 3 dem Diskriminator
135 und dem KurvenzugeoL36>
d ■l^ der Fig.l entsprechen. Die Kanäle 01 bis 06 der Fig. 3/T^welche dem
Diskriminator 151 mit den Ausgangsleitungen 158 t 159, 160
der Fig. 1 entsprechen, stellen die verschiedenen nicht- ' plosiven Phonemklassen T fest. Diese Kanäle 01 bis C6 der
Fig. 3 enthalten Bandpässe für verschiedene Frequenzbänder. Diese Frequenzbänder sind in die Bandpässe 231 "bis 236 ein-
309808/1023
gezeichnet. DieBe Bandpässe entsprechen den wichtigsten Bereichen
oder Pormanten der Vokalklassen 0, A, I und der' Konsonantklasse S, in welcher Phonemklasse die frikativen
Sprachelemente eingeordnet sind. Im Gegensatz zur Pig. I
ist in der Fig. 3 noch ein weiterer Kanal vorgesehen für die nasale Phonemklasse H. Es soll hiermit angedeutet werden,
dass in der ausführlichen Einrichtung der Pig. 3 ohne weiteres zusätzliche Kanäle für weitere Phonemklassen eingefügt
werden können. Auf diese Art und Weise kann die gesamte erfindungsgemässe Vorrichtung mühelos und leicht zur
höchsten Stufe der Entwicklung der Spracherkennung ausgebaut werden. In den genannten Kanälen Cl bis C6 sind ausserdem
noch die Gleichrichter 237, 238, 239, 240, 241, 242 und
die Tiefpässe 243, 244, 245, 246, 247, 248, welche nur die Frequenzen unterhalb von 50 Hz durchlassen, angeordnet. Der
Kanal CO sortiert die Sprachgrundfrequenz, welche zwischen 80 Hz und 400 Hz liegt. Dieser Kanal CO, welcher den Bandpass 249 mit einem Durchlassbereich von 90 Hz bis 150 Hz,
den Gleichrichter 250 und den Tiefpass 2-51 mit einer Durchlassfrequenz
unterhalb von 50 Hz enthält, wird auch als "Pitch" bezeichnet. Dieser "Fitch"-Kanal gibt an, ob ein
Sprachelement bzw. ein Phonem stimmhaft oder stimmlos ist. Daher gestattet dieser Kanal auch die Kodierung der sogenannten
PlüBtersprache, wie schon eingangs erwähnt wurde.
Die Bandpässe 231, 232, 233, 234, 235, 236, 249 der Kanäle Cl, C2, C3, C4, C5, C6, CO haben bestimmte Dämpfungen, welche
in der Fig. 4 als Kurven 252, 253, 254, 255, 256, 257, 258 gezeichnet sind. Die Reihenfolge der in der Pig. 4 gezeigten
Dämpfungekurven ist wie folgt; Die Kurve 252 iat dem Bandpass
231 des Kanals Cl zugeordnet, die Kurve 253 dem Bandpass des Kanals 02, die Kurve 254 dem Bandpass 233 dea Kanals 03,
die Kurve 255 dem Bandpaos 234 des Kanals C4, die Kurve
dem Bandpas8 235 deo Kanals C5, die Kurve 257 dem Bandpass des Kanals C6 und die Kurve 258 dem Bandpass 249 dea Kanäle CO.
Die Grenzen der Durchlassbereiohe der einzelnen Bandpäoee 249,
309808/1029
J ■" " "
Γ' 231, 232, 233, 234, 235, 236 entsprechen den Pormantbereichen
259 der Pho-reraklassen O, A, I, E, Y, S, SH. Me Pormantbereiehe
259 der Phoneniklassen sind auf der linken Seite der Pig. 4
gezeichnet und den einzelnen Kämpfungskurven 253 ^i*3 258
der Bandpässe 231 bis 236 der Pig. 3a zugeordnet. Dies zeigen auch die Matrize in der logischen Schaltung 272
der Pig. 3b sowie die in der Pig. 6 gezeichneten Matrizen 421, 422, 423.
Zur Erklärung der Wirkungsweise der Anordnung der Pig. 3a und 3b wird nun angenommen, dass das Mikrophon 201 über den Schalter
200 an die Kanäle 00 bis 08 angeschlossen sind. Wenn z.B. in das Mikrophon 201 das Wort "SATI" gesprochen wird, so
entsteht am Ausgang des Diskriminator 22£Γ, der wie bereits
erwähnt im Kanal 08 angeordnet ist: und der Erkennung der
plosiven Phonemklasse T dient, der Kurvenzug 260. Da in der Pig. 3a der Kurvenzug 225, der das gesamte Wort 11SATI" zeigt,
der besseren Uebersichtlichkeit halber oberhalb des Diskriminators 22# gezeichnet ist, kann man leicht erkennen, dass
die Kurve 260, welche am Ausgang des genannten Diskriminator steht, die Steilheit dE/dt der Energie-Anstiegsflanke der
plosiven Phonemklasse im Wort "SATI" anzeigt. In ähnlicher V/eise ergeben sich an den Ausgängen der Tiefpässe 245 244,
&Ϊ5, 246, 24?, 24β, &£f, 251 die Kurvenzüge 267, 266, 265,
264, 263, 262, 261 und 268. Diese letztgenannten Kurvenzüge, welche in der Pig. 3a unter dem das gesamte Wort "SATI" darstellenden
Kurvenzug 225 gezeichnet sind, stellen die wichtigsten Informationselemente über die spektrale Prequenz»
verteilung der in diesem V/ort enthaltenen Phonemklassen dar, .Weitere.Kanäle CIl, C12, 013 usw. sind in der Pig. 3a ge-.
strichelt dargestellt und sollen andeuten, dass die Vorrichtung
nicht auf die Kanäle' beschränkt ist, welche bisher diskutiert wurden. Auf einfache Art und Weise kann also eine
Erweiterung stattfinden, um somit Worte zu erkennen, in denen wesentlich mehr Phonemklaseen vorhanden sind. Abechliessend
eei noch erwähnt, dass die in der Vorrichtung der Pig. 3a beschriebenen Filter als passive, aktive oder alB digit::"Je
309808/1029
Filter ausgebildet werden können. Es können auch anstelle dieser Filter geeignete Vorrichtungen bzw. Verfahren wie
Nulldurchgangsdetektoren, Peakdetektoren, Fourier-Analyijen,
Auto-Korrelation, e, digitale Simulation auf Rechenmaschinen, "Predictive Coding" usw. Verwendung finden.
Die in den Kurvenzügen 260 bis 268 vorhandenen Informationselemente
des Y/ortes "SATI" gelangen nun über die Verbindungsleitung zwischen den Ausgängen der Tiefpässe bzw. des
Diskriminator auf eine erste logische Schaltungsanordnung 271. Die erste logische Schaltung 271, welche der logischen
Schaltung 139 und 162 der Fig. 2 entspricht, dient zum Feststellen der zeitlichen Dauer jedes einze]nen Sprachelementes
bzw. Phonems und zum Feststellen der Pause zwischen diesen einzelnen Sprachelementen. Daher ist die erste
logische Schaltung 271 der Fig. 3a mix?einem" Taktgeber 274
ausgerüstet, welcher eine Quantelung der Kurvenzüge 260 bis 268 entsprechend seiner Taktgeberfrequenz vornimmt.
Der Taktgeber 274 "quantelt" die plosive Phonernklasse T mit 200 Hz und die nicht-plosiven Phonemklassen T mit 50 Hz.
Ferner ist in der logischen Schaltung 271 ein Analog-Digital-Wandler 275 bzw. eine Triggerschaltung vorgesehen.
Hier erfolgt eine linear-logarithmische Umsetzung der durch die Kurvenzüge 260 bis 268 definierten elektrischen Signale,
so dass diese Kurven in z.B. vier Pegel bzw. Niveaus aufgeteilt sind. Diese Pegel sind zur besseren Ueberoicht bereits
in den Kurven 260 bis 268 eingetragen und mit 0 bis 3 bezeichnet. Ferner enthält die logische Schaltung 271 einen
Zeitmesser 276, der die Dauer jedes einzelnen Sprachelementes bzw. Phonems undvPauee zwischen den einzelnen Spracheleinenten
bzw, Phonemen misst. Weiterhin ist in der logischen Schaltung 271 ein Abtaster 277 und eine Multiplexanordnung 278 zur Eingabe
in einen nicht gezeigten digitalen Rechner vorgesehen. Die so ermittelten Werte über die zeitliche Dauer der einzelnen
Sprachelemente bzw. Phoneme und der Pause zwischen den einzelnen Spracheleraenten und Phonemen werden aua der
ersten logischen Schaltung 271 in die zweite logische Schal-
309808/1029
timg 272 eingegeben. Die Verbindung zwischen diesen beiden
Schaltungen ist durch- den Pfeil 2711 gekennzeichnet»
In den beiden fig. 3a und 3b sind die erste und die zweite logische Schaltung 272, 273 und 274 dargestellt. Die erste
logische Schaltung 272 entspricht der ersten logischen Schaltung 139 in Fig. 2. Die zweite-logische Schaltung 273
der Fig. 3b entspricht der zweiten logischen Schaltung 142 der Fig. 2. Die erste logische Schaltung 272 ist nach
phonetischen Regeln programmiert. In ihr ist die Matrize 279 zur Unterscheidung der internationalen Phonemklassen L
vorgesehen. Die Phonemklassen 280 teilen sich auf in Vokale V und in Konsonanten C. Die Vokale V enthalten tiefe,
mittlere, hohe und andere Vokale wie 0,.A, IyE. Die Konsonanten
G enthalten plosive, frikative, nasale und andere Phonemklassen T, S, N,.R. Weiter können Unterschiede gemacht
werden zwischen betonten Phonemklassen L, geflüsterten Phonemiklassen 1, Phonemklassen mit steigendem oder fallendem
Pitch L., Jj. Diese Unterscheidungen werden in der Matrize
vorgenommen, welche mit den Kanälen CO, 01, 02, 03>
04, 05, 06, 07 ui|4 CT8 in der Fig. 3a verbunden ist. Die Unterscheidung
ist unterhalb der Matrize 279 mit den eben erwähnten
Symbolen gezeigt und steht in der Anordnung 280 zur Verfügung für. di* weitere Verarbeitung. In der Anordnung für
die Zeitklassen 281 werden folgende Unterschiede für die zeitlichen Dauern vorgenommen. Dies zeigt die Tabelle II.
Explosion der plosiven Phoneme bzw.
Sprachelemente (p, t, k, b„ d, g)
der Phonemklasse T
Interne Pause vor dor Esplosion (oder Pitch bei b, ds g)
Vollständige, zeitliohe Dauer der plosiven Phoneme bzw. Sprachelemente f—©
Vollständige, zeitliche Dauer der nicht·=
plosiven Phonemklaseen fwie
vokale, frikative, naaaxe und
andere Phonemklaesen (v, S9 I2 H)
5 | - 40 ms | |
T | 65 | - 200 ms |
- | 70 | - 240 ms |
-τ | LOO | - 300 me |
T |
309808/102
Durch diese Einteilung in Zeitklassen wird das sogenannte
"Knacken" bei der Uebertragung von Nutzinformation eliminiert,
so dass ein solches Störgeräusch keine Fehlentscheidung bewirken kann. Die in der Anordnung 281 vorhandene Unterteilung
der Phonemklassen in Zeitklassen wird dazu benutzt, daee in
der nachgeordneten Anordnung 282 diese Phoneme bzw. Spraohelemente
segmentiert werden. Ein solches Segmentieren bedeutet
die Aenderung des Spektrums in Verbindung mit dessen froyoho^physikalischen Wirkung (Energie χ Zeit),mit oder ohne
Explosion. In der darauf folgenden Anordnung 283 werden die Phoneme erkannt. Ein solches Erkennen erfolgt durch eine
Majoritätsentscheidung in der Matrize 279 oder durch Berechnung von Extremwerten der sogenannten vektoriellen Abstände
zwischen den einzelnen Phonemen bzw. Sprachelementen.
In der zweiten logischen Schaltung 273 der Fig. 3b, welche
der logischen Schaltung 142 der Fig. 2a entspriqht, sind die linguistischen Regeln programmiert. Wi.e bereits im Zusammen*
hang mit der Fig. 2 beschrieben, wird in der zweiten logischen Schaltung 273 die Kombination der frikätiven, plosiven ·
und vokalen Sprachelemente erkannt, ee fryt^
zur Fig. 2 ist, dass die
Fig. 3b auchdi£_Jt©flrtrrriatTon der vokalen Spraohelemente
Fig. 3b auchdi£_Jt©flrtrrriatTon der vokalen Spraohelemente
Im Folgenden werden die einzelnen in der zweiten logischen Schaltung vorgesehenen Anordnungen beschrieben.
Die Verbindungen zwischen der ersten und der zweiten logischen Schaltung sind durch den. Pfeil 2721 symbolisiert.
- i:
Die zweite logieche Schaltung 273 betrifft ι
- die möglichen Worte, die aus den Phonem-Kombinationen 284 resultieren; man verwendet« K=» zwei bie vier Vokale
01, OA, IA, 0IA, OIA(E)
K0 => zwei bis vier Kotteonenten
TS, TN, SN, TSN, TSN(R)
Mit K = TSy+KQ - vier bis aehn Phonemklaaaen und X* ■ fin bis zehn Phonemen pro Wort kann man theoretieoh 1«!^ Worte bilden. Hiervon sind etwa öle Hälfte be4uia lnter-
Mit K = TSy+KQ - vier bis aehn Phonemklaaaen und X* ■ fin bis zehn Phonemen pro Wort kann man theoretieoh 1«!^ Worte bilden. Hiervon sind etwa öle Hälfte be4uia lnter-
309808/1029
--15 -
national aussprechbar aber nur bis zu K = acht Klassen. *' In der folgenden Tabelle III sind einige Beispiele aufgeführt:
K = | 4 | S | 4 | VJl | Tabelle III | 7 | 8 | 9 | 10 | |
6 | ||||||||||
I | VJI | 7 | 8 | 9 | 10 | |||||
1 | 25 | 6 | 49 | 64 | 81 | 100 | ||||
2 | 125 | 36 | 343 | 5-12 | 729 | 1000 | ||||
3 | 16 | 626 | 216 | 2401 | 4096 | 6561 | 10000 · | |||
'4 | 64 | 3125. | 1296 | 16807 | 32768 | 59049 | 100000 | |||
5 | • 256 | 7776 | ||||||||
- | ||||||||||
&UvCq
ein Grundwort 285 enthält möglichst niemals zwei anliegende Konsonanten CC;
eine Kardinalziffer null bis neun- 286 ist ein Grundwort, welches
gebildet ist aus einem Vokal V oder aus einer Kombination Konsonant + Yolcal CV; eine Segmentierung erfolgt durch einen
Vokal V. Der Punkt innerhalb einer Ziffernfolge oder innerhalb einer Büchstabenfolge bzw. ein Zwischenraum bedeutet eine ;
externe Pause, die grosser ist als 0,5 Sekunden; eine Kardinal-Zahl 10 bis unendlich 287 besteht aus ununterbrochenem
Aneinanderfügen von Kardinal-Ziffern wie z.B. VCVV...
V...;
bei einer Ordinalzahl 288 wird am Ende V der Kardinalzahl ein ΙΊ
hinzugefügt wie z.B. VCVV.... VN, oder siehe Instruktionswort; als arithmetischer Operator 289 wird ein VS* oder ein CVS·
verwendet;
■bei Vorliegen eines Instrüktionswortes 290 enthält der Kode
zwei aufeinanderfolgende Konsonanten wie z.B. VCCV*, VCCVC*,
VCVCCV*, ...;
alphabetische Buchstaben 291 lassen sich erkennen, wenn ein Instruktionewort und eine Kardinalzahl 1 bis 26 vorliegen
(oder phonetisches System);
die Wortsegmentierung 292 ergibt sich dadurch, dass am Ende eines Grundwortes ein Vokal V vorgeochen ist. Das Ende eines
guearnmengeeetzton Y/orteo wird durch eine externe Pause ange-
t, welche grüöBer iot als 0,5 Sekunden*" "i.fe,
it*.~$ao)^iv>\isuu~>a 7/)5 trqiU. *itk da iLuxh t ctav» CU
die yfivr iU at, t ofcr S' ieU,^, >^ 3 0 9 8 0 8 / 1 0 2 9
- Speicher S^: a) Wort ohne Doppelkonsonanten CC : bis zu
X Vokalen = Zahl bis zu X Ziffern; b) Wort ab Doppelkonsonanten CC χ bis zu
Y Vokalen (Instruktion);
- Speziairegeln 294: a) Kardinalziffer 0 bis 9t Grundwort
der Phonemklassen 0, I oder C+0, I, A; b) die Phonemklasse A, welche am Anfang
eines Wortes angeordnet ist, ist reserviert, um Wiederholungen einzusparen;
_, / c) spezielle Doppelkonsonanten ST, SN;
_, / c) spezielle Doppelkonsonanten ST, SN;
- Wortjerkennung 29-^: Anwendung der in den Speiohern aufgenommenen
Wortbildungsregeln. Selbst bei mangelhafter Aussprache werden die Worte noch richtig erkannt, eofern die
Phoneme bzw. Schaltelemente in ihren Klassen bleiben, welche mit A, 0, I, (E), T, S, N, (R) bezeichnet sind.
Nach den in kurzen Worten geschilderten linguistiechen Regeln,
welche in den einzelnen Vorrichtungen 284,285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295j&er zweiten logischen Schaltung
273 durchgeführt werden, werden die einzelnen Ziffern bzw. Buchstaben erkannt und auf Ausgabegeräte gegeben,
wie sie z.B. in der Fig. 2 mit 145- gezeigt sind.
Die erfindungsgemässe Vorrichtung der Fig. 5 zeigt einen
zur Pig. 3a unterschiedlichen Analysatorteil, welcher gemäss Pig. 5 die nicht-linearen Gesetze des Ohres bezüglich der
Signalenergie nachahmt. Gemäss Pig. 5 sind ein Mikrophon 301, ein Magnettonband 302 und ein Vokoder 303 r welche
unterschiedliche Frequenzbänder haben, über einen Schalter 300 wahlweise an die erfindungsgemässe Vorrichtung anschliessbar.
Die verschiedenen Frequenzbereiche sind in der Fig. 5 genau wie in der Fig. 3a in die entsprechenden Blöcke eingetragen.
Die verschiedenen Eingabegeräte wie ε.B. Mikrophon, Magnettonbandgerät, Vokoder, Bind über ihre Filter 304, 305,
306, welche da& SprachBpektrura zwischen etwa 200 und 3400 Hz
normalisieren, an den Schalter 300 wahlweise anschlieesbar. Die
309808/1029
PiIter 304, 305, 306 haben daher eine Filterwirkung, welche
den zugeordneten Eingabegeräten angepasst ist. Dies ist in der Fig. 5 durch die diversen Kurvenzüge in den die !"!lter
repräsentierenden Blöcke gezeichnet. Im Folgenden sei nun angenommen, dass ein Magnettonband 302 über den Schalter
300 mit der erfindungsgemässen Vorrichtung verbunden ist. Die Sprachsignale aus dem Magnettonbandgerät 302 gelangen
auf die parallel geschalteten Eingänge der selektiven Amplitudenkompressoren 307, 308, 309, 310, 311. Ein solcher
selektiver Amplitudenkompressor ist bereits in einer früheren Patentanmeldung des gleichen Anmelders (britische
Patentanmeldung Ho.23111/71) beschrieben worden. Im Folgenden
werden die verschiedenen Ainplitudenkompressoren im Zusammenhang mit der Fig. 5 nur so weit erklärt, wie
es für den Zusammenhang des Verständnisses zweckdienlich ist. Der Kompressor 307 dient zum Trennen der plosiven und
der frikativen Phonemklassen T und S. In den Amplitudenkompressoren 308, 309, 310 werden die charakteristischen
Spektren der Phoneme L von der Dynamik getrennt. Der Kompressor 311 dient zur Trennung der Grundfrequenz (Pitch)
von den anderen Frequenzkomponenten. Der plosive Kompressor 307 enthält ein Filter 312, welches als Hochpassfilter mit
800 Hz ausgebildet ist, sowie einen variablen Verstärker, Der variable Verstärker besteht aus einem konstanten Verstärker
313 mit einem Multiplikator 314, einer Rückwärtsschleife mit einem Filter 315, dessen Durchlassfrequenz
500 bis 3500 Hz beträgt., einem Verstärker 316, einem Gleichrichter 317 und einem Tiefpass 318. Der variable Verstärker
besitzt ungefähr eine steigende Zeitkonstante T11.* = 10 ms
und eine fallende Zeitkonstante T-i-o = 30 ms. Dieser Kompressor
reguliert auf verschiedene Art und Weise langsam steigende Phoneme wie z.B. die Phoneme der frikativen und
der plosiven Klasse S, T. Wenn a.B. ein Signal, welches dem Wort 11SATI" gejiiUss dem Kurvonzug 32L entspricht, weiter durch
den'Uaridpass 318 (Frequem;; BOO Mo 3500. Hu), den Gleichrichter
319 und den TLefpaMa .520 (i'iüquens: 0 bis 70 Ha) behandelt
wird, so entsteht die Kurve 321, welche die zeitliche Ver-
309808/1029
teilung der Energie E zeigt. Die Kurve 321 zeigt, dass der Kompressor 307 mit dem Kanal C28 die ploaive Phonemklasse T
von der frikativen Phonemklasae S trennt. Der Amplitudenkompressor
307 kann auch einen zweiten variablen Verstärker besitzen, der duroh die folgenden Elemente dargestellt iatt
einen konstanten Verstärker 322 mit Multiplikator 3231 eine
Vorwärtsschleife mit Verstärker 324» einen Gleichrichter
und einen Tiefpass 326, Dieser Tiefpass besitzt eine steigende und eine fallende Zeitkonstante T^v^ Ä %ri bzw.
^Iv2 = ^Ir2* ^er Kompressor mit der einfachen Schleife,
welche auch als Rückwärtsschleife bezeichnet wird ("r" =
rückwärts) liefert ein einfaches logarithmisches Gesetz der Amplitudenregulierung. Der Kompressor mit zweifacher
Schleife, welcher sowohl die Rückwärtsschleife Hr" als
auch die Vorwärtseohleife "v" besitzt, liefert ein doppellogarithmiaohes
oder Potenz-Gesetz, welches dem Verhalten des Ohres entspricht. Je nach Stellung der Schalter 327 und
32Θ wirkt der Kompressor 307 mit einfacher oder zweifacher Schleife. Die Vorwärtsschleife 324, 325, 326 kann eventuell
durch die punktierte Verbindung mit dem Uebertrager 329 ersetzt werden, wandte. /ktsJoaj&Uvcieru^ dir"
Dem selektiven Amplitudenkompressor 307 sind die Bandpässe 331, 332, 333, 334, 335, 336 und die entsprechenden Gleichrichter
einschliesslich Tiefpässen in gleicher Weise wie der Gleichrichter 319 und der Tiefpass 320 des Kanals C28
nachgeschaltet. Die Bandpässe 331 bis 336 der KanUle C211
bis C261 trennen die Spektren der ploaiven Phonemklasse T
von den Spektren dor Vokale V. Diese Unterscheidung erfolgt
auch dann, wenn die Vokale V plötzlich elnnetzen sollten
und eine gewisse AehnLluhkolt mit den pLoeiven Phonemen bzw.
Sprachelementen haben noilten. Die oaiektlvtn Amplituden··
kompresnoren 30Π, 509, 71.0 Bind In ßielchor TJoliJO aufgebaut
wLe der eben beuoltrLubono oelektLvo AmplltudenkontpreDHur 307»
Die Kompressoren-'lüH, 509, 310 htibm 'Ho Eingtil|gtirnt,er 3X5
330, 339, «Ue Vor;-türkor 341 bla 'M"., (Uo Jlultipl lit Uoran
347 bia 352» die 7ortvii.rt8uoiilüifon mit· ihm Β'.ιηήρϋΒΐίΒΐι 334 i>ia
■■* ■■ ■.- ' · * ■ '
1QiU
' 355, die Verstärker 356 bis 358, die Gleichrichter 359
; 361, die Tiefpässe 362 bis 364 und die entsprechenden Vor_
wärtsschleifen 365 bis 373 oder die üebertrager 374 bis
376. Bei den erwähnten Tiefpässen 362, 363, 364, -371, 372,
373 sind die steigenden bzw. fallenden Zeitkonstanten Tp -j » ^PvI* bzw· ^2r2* ^2v2 verscnie^en· Die steigende
Zeitkonstante beträgt ungefähr 1 ms und die fallende Zeitkonstante beträgt ungefähr 10 ms. Polglich werden die Explosionen
der plosiven Phoneme bzw. Sprachelemente der Klasse T unterdrückt. Nach Behandlung durch die Bandpässe
381 bis jöfi/dlV Gleichrichter wie 3ö2 und die Tiefpässe ^
wie W7 (0 bis 50 Hz) erscheint auf den Kanälen 021 bis
C27 das Wort 11SATI" entsprechend der Energiekurven wie
sie z.B. nur für den Kanal C27 in der Pig. 5 gezeigt"ist.
Hierdurch werden die quasi-stationären Spektren (Pormanten)
von der Dynamik 385 getrennt, welche z.B. durch daB Pehlersignal am Ausgang des Tiefpasses 362 erscheint IKa#ui0 C26).
Der selektive Amplitudenkompressor 311 dient zur Extraktion (Pitch) der Grundfrequenz. Dieser Kompressor enthält einen
Eingangsfilter 5&e(mit der Durchlassfrequenz von 95 bis
100 Hz), Verstärker 387 t 388, Multiplikatoren 389, 390,
Eückwärtsschleifen und Vorwärtsschleifen mit' dem gemeinsamen
Bandpass 391, den Verstärkern 392, 393, den Gleichrichtern 394, 395, den Tiefpässen 396, 397. Die steigende
Zeitkonstante beträgt bei diesem Kompressor ungefähr 4 ms
und die fallende Zeitkonstante beträgt ungefähr 20 ms. Die eben genannten Bauelemente 393, 395, 397 können durch den
Üebertrager 398 ersetzt werden. Dem Kompressor 311 nachge-Bchaltet
eind die Kanäle C20 und C201. Der Kanal C20 enthält einen Bandpass 401 für die DurchlasBfrequenz von 95
biß 150 Hz, einen Gleichrichter 402 und einen Trigger 403, so dasH eine Anzeige "ja-nein" für die Grundfrequenz angegeben
werden kann. Hiermit werden stimmhafte Phoneme L von stimmlosen bzw. geflüsterten Phonemen L getrennt. Der Kanal
C20· enthält einen Nulldurchganßö-Detektor 404 und einen
Zähler 405, so dass die Grundfrequenz (Pitch oder Melodie)
309808/1029
z.B. von 80 bis 400 Hz gemessen und angezeigt wird. Die Anordnung 386 bis 405 säubert die Grundfrequenz von den
höheren Komponenten, wobei der Kompressor 311 jeweils die
Energie der Grundfrequenz regeneriert.
Die durch die Vorrichtung 301 bis 405 gewonnenen Informations
elemente können den Triggern 406, 407 bzw. den logischen Schaltungsanordnungen 4-öe, 4-69 zugeführt werden. Diese beiden
logischen Schaltanordnungen, welche lediglich symbolhaft in der Fig. 5 dargestellt sind, entsprechen den beiden
Schaltungen 139 und 142 der Fig. 2 und den logischen Schaltungen 271, 272, 273 der Fig. 3a und 3b. Wie schon im Zusammenhang
mit den Fig. 2, 3a, 3b gesagt, werden die Informationselemente in den logischen Schaltungen 40», 4Φ9
der Fig. 5 in gleicher Weise verarbeitet und dienen der Steuerung von bestimmten Maschinen.
Abschliessend sei noch erwähnt, dass bei der Diskussion der Fig. 5 angenommen wurde, dass die Eingabe von dem
Magnettongerät 302 erfolge. Wenn nun die Eingabe vom Mikrophon 301 erfolgt, so wird ein Mikrophon verwendet,
welches gegen Umgebungsgeräusche nahezu unempfindlich
ist. Ferner eliminieren Schwellwerte bei den einzelnen Amplitudenkompressoren 307 bis 311 und Schwellwerte in
den logischen Schaltungen 408, 409 die akustische Energie, welche der Sprache nicht entspricht. Die Fig. 6 zeigt
vier Entscheidungs-Matrizen 421, 422, 423, 424, welche die binären Informationen der Plosiv- und Spektrum-Kanäle
C21, 022, C23, C24, C25,. C26, 027, C28 sowie die Kanäle
021 ·, 022', C231, 024·, C251, 026· der Fig. 5 auswerten.
Diese Informationen gelangen auf die Zeilen 425 bis 433
der in der Fig. 6 gezeichneten Entscheidungs-Matrizen.
Wie die Fig. 6 zeigt, können mit der Matrize 421 die sechs Phonemklassen 0, A, I, S, T, N voneinander getrennt werden.
Die Matrize422 trennt die acht Phonemklassen 0, A, I, E, S, SH, T, N. Wenn der Kanal C30 der Fig. 5 gemäss Zeile
434 der Fig. 6 eingesetzt wird, kann der Zeitabstand zwischen den plosiven Phonemen bzw. Spracheleme.nten der Klasse T
309808/1029
und den nachfolgenden Vokalen der Klasse V angegeben werden.
Dieser Zeitabstand ist kleiner nach den Phonemen "p" und "t"
(10 ms bis 20 ms) als nach dem Phonem "k" (30 ms bis 40 ms).
Die Matrize 423 trennt damit die Phoneme ρ und t (Klasse p) von dem Phonem k (Klasse K). Man kann auch den Vokal U
(u) hinzufügen, der aber von ο schwer zu trennen ist, oder den Vokal Y (y), der aber nicht international gültig ist.
Wenn nun Kanal 020 der Pig. 5 gemäss Zeile 435 der Pig. 6
in .die Entseheidungs-Matrizenzugefügt wird (Pitch: ja-nein),
so kann durch die Anordnung der Matrize 424 auch geflüsterte Sprache kodiert werden. Eventuell kann ein weiterer Kanal C20'
(Zeile 436 der Pig. 6) bis zu 128 Tonhöhen der Grundfrequenz angeben (7 bit), und Kanal C29 (Zeile 437) bis zu 64 Betonungsgrade (6 bit) der Dynamik.EV*^W.ci^f^^
Die Pig. 7 zeigt eine geometrische und farbenmässige Darstellung
von vier Sprachkodes 425 bis 428, welche Kodes wie folgt bezeichnet sind: OTISA, SOTINA, SOTINAE, SOTINASHE.
Diese Kodes haben fünf, sechs, sieben, acht Phonemklassen, was mit L = 5>
6, 7» 8 bezeichnet ist. Diese Klassen sind in einem Fünfeck 429) einem Sechseck 430, einem Siebeneck
431 oder in einem Achteck 432 gezeichnet. Das Vokal-Viereck
433 0, A, I, E kann durch die hellen Farben Rosa, Gelb, Gelbgrün, Grün dargestellt werden. Das Konsonant-Viereck
434 N, SH, S, T kaml· durch die dunklen Farben Braun, Türkis,
Blau, Violett dargestellt werden. Das Sechseck 430 kann in ein Vokal-Dreieck 435 und in ein Konsonant-Dreieck 436 aufgeteilt werden. Ein Farbkode kann das Erlernen eines Sprachkodes
erleichtern. Die Phoneme vom Kode "SOTINA" können "sotina" ausgesprochen werden. Sie können auch als "shupema"
usw. ausgesprochen werden. Wesentlich hierbei ist, dass nur die Klassen der Phoneme respektiert werden, ϊϊϋί,Ιίοάο,
Fig. 8 zeigt einige mögliche Grundworte von Zahlenkodes für hull bis neun wie 0,1, TO, TI, TA, SO, SI, SA, AI, AO oder
NO, I, TO, TI, TA, SO, SI, SA, NI, NA usw. gemäss den Zeilen
45? bis Ä.
309808/1029
22A0557
Anhand der folgenden Tabellen IV bis XIII soll gezeigt werden, dass die crfindungsgemässe Vorrichtung der Pig. 2, 3a, 3b und 5
für viele Anwendungsgebiete der Spracherkennung benutzt werden kann. In diesen Tabellen ist ein erweitertes System des schon
erwähnten Kodes "SOTINA" aufgeführt. Mit diesem erweiterten System
können alle alphabetischen Sprachen kodiert werden.
1. Kardinalzahlen; enden mit V, bestehen aus 0,1 oder T,S,N + A,0,I
A= mit (erspart Wiederholungen); NO = frei (event. = null)
1
I
I
23456789 TO TI TA SO SI SA NI NA
10 20 100 124 1972 IO TOO 100 ITOTA INASATO
1.000 =
1 mit 3 Nullen
IATIO
10.000 =
1 mit 4 Nullen
IATAO
100.000 =
1 mit 5 Nullen
IASOO
1012=*
1 mit 12 Nullen
IAITOO
2. | Ordinalzahlen: | Kardinalzahlen | 5. 6. • SON· SIN· |
+ N | + Pause | (Pause | 10. ION· |
= (·)< | C | • | 1,5 sec) |
4. TAN |
7. SAN· |
8. 9. NIN- NAN· |
ICOO. IATAON |
342222. TITAATATON. |
|||||||
O. ON- |
1. 2. 3. IN· TON· TIN· |
3. Arithmetische Operatoren: Grundwort + | grosser als | kleiner als | plus | mal | S + Pause | minus | durch | koma |
gleich | > | < | + | X | Potenz | - | : | |
= | AS- | IS- | TOS- | TIS- | NOS- | NIS. | ITAS· | |
OS- | TAS- |
4. Pausen s Punkte oder Abstände
nach einem Wort (*)J>0,5 sec . nach einem Satz (·.) ^>
2 see
Tabelle VIII
5. Instruktionswort: anfänglich A, zwei anliegende Konsonanten, CC
5. Instruktionswort: anfänglich A, zwei anliegende Konsonanten, CC
kardinal
ASTA.
ordinal
ASTAN·
ASTAN·
aiphabet ASTASO·
stop ASTOT'
start Berg {Löschen
ASTAT- ANANT
ASTAT- ANANT
t.ösche:
A SHO ■
A SHO ■
Telephon- Nummer ASTANO·
binär
ASTAI· TO TL
ASTAI· TO TL
oktal
ASTAO'
ASTAO'
NO NI TO.TI TA SO SI SA
309808/1029
6. Alphabe i I (Zahlenyys kern für Buchstabieren). Instruktion ASTASO'IIi·
bcdefghijklm n ο
2 3 4 5 6 7 8 9 10 11 12 13 14 15 TO TI TA SO Sl SA ITI. NA IO II ITO ITI ITA ISO
pqr
16 17 18
ISI ISA IK
16 17 18
ISI ISA IK
stuv w χ y ζ
19 20 21 22 23 24 25 26-INA TOO TOI TOTO TOTI TOTA TOSO TOSI
7. Alphabet II; Phonetisches System für Buchstabieren.
Instruktion: ASTASO·TOT·
a e
A IA
1 O U
I 0 IO
1 m η r l\T0 NA NI NAO
c f sh SO SA SI STA
j ν w ζ
SOO SAO SAOSA SIO
ρ k q. t TO TA TIA TI
b g d χ y TOO TAO TIO TAS II
8. Beispiele; a) Kardinalzahlen. Instruktion ASTA· 700 9000 1 Milliarde ='109 0,000.002 = 2.10"6
SIO SAOO NAATIO
IANAO
0.NAS.SOOTO
Telephon-Nummer: 00 3 3 1 ASTANO- 00 TITI I
2 6 5 7 12 TITOSI SOSAITO
b) Buchstabieren, Alphabet I, Instruktion ASTASO.IN
Alphabet II,Instruktion ASTASO.TON
G | e | η | e | V | e | N | e | TOTI | Y | O | r | k | |
I. | SA | SO | ITA | SO | TOTO | SO | ITA | SO | SAOSA | TOSO | ISO | INI | II |
II. | TAO | IA | HI | IA | SAO | IA | NI | IA | II | 0 | NAO | TA | |
B | O | S | t | O | η | |
I. | TO | ISO | INA | TOO | ISO | ITA |
II. | TOO | 0 | SI | TI | 0 | NI |
30 9 8087102
- 24- Tabelle XIII
c) Bergnamen durch Höhenangabe (m), Instruktion ANAKT'
Mont-Blanc | 4 6 0 7 TANIOSA |
Monte Rosa | 4 6J8 TASITINI |
4 | 5 | 5 | 4 )TA |
• |
Matterhorn | 4 4 8 2 TATANITO |
Lysskanun | 4 4 7 8 TATASANT |
Dent-Blanche | 4 3 6 4 TASISiTA |
|||
Jungfrau | 4 16 6 TAISISI |
Mönch | 4 10 5 TAIOSO |
|||||
Die nachfolgende Tabelle XIV zeigt eine ausführliche Darstellung des Kodes SETE (Zeile 122 der Fig. 1 und Tabelle
143 der Fig. 2). Damit können auch die Buchstaben des Alphabetes kodiert werden, z.B.
0 9 8 0 8/1029
Tabelle XIV (phonokode SETE, (binär-dezimal); S,T ausgesprochen SE/TE (E=E geflüstert)
1. Kardinal-Zahlen
0123456789 S· T* TS" TT* SS- ST- TTS- TTT- SSS- SST-
10 20 .·..-. 100
T-S*- TS-S·* T-S-S-
1972
T'SST-TTT-TS.
2. Alphabet I (numerisch)
1 T- |
2 TS · |
3 TT· |
4 SS· |
5 ST |
S- | 6 • TTS· |
7 TTT· |
8 9 SSS· SST- |
i | 10 T-S- |
11 T-T- T |
12 •TS· |
26 TS · Z |
13 T-TT- |
14 15 T»SS- T-ST· |
■ 16 T-TTS· |
17 T·ΤΤΤ· |
a | b | σ | d | e | f | g | h | 23 TS· TT- W |
j | k | 1 | m | η ο | P | q | ||
18 T-SSS· T r |
19 -SST- S |
20 TS · t |
21 TS-T-- U |
22 TS'TS* V |
24 TS- SS- X |
25 TS* ST-. Y |
TTS· |
3. Alphabet II (Morse)
; S,T ausgesprochen SE, TE
a | b | C | d | e f | t | g h i | j | k | X | 1 | ΐα· | η | |
a) | ST- | TSSS· | TSTS· | TSS* | T | TTS· SSSS· SS· | STTT· TST· | TSST- | STSS· | . TT· | TS- | ||
b) | TS · | STTT- | STST* | STT- | S- SSTS· | S | SST- TTTT* TT· | TSSS- STS- | STTS · | TSTT- | SS· | ST· | |
O | P | g | r | T- TTST- | U V | W | ■y | Z | |||||
a) | TTT- | .1STTS. | TTST· | STS« | S | • SST· SSST· | STT* | TSTT· | TTS S · | ||||
b) | sss· | TSST- | SSTS· | TST* | SSS« | • TTS- TTTS· | TSS- | STSS· | SSTT* | ||||
TTT· |
Claims (17)
1. Jspracherkennungsvorrichtung zum Steuern von Maschinen, in
"welche Vorrichtung aus Sprachelementen bestehende Worte eingegeben
werden, gekennzeichnet durch folgende Merkmale:
a) ein erstes Mittel (132) zum Peststellen der Gesamtenergie
(134) des eingegebenen Wortes;
b) ein zweites Mittel (135) zum Feststellen der Steilheit der Anstiegsflanke (ti; t2) der Energie der Sprachelemente
und somit zum Trennen der Klasse (T) der plosiven Sprachelemente (z.B. p, t, k) von der Klasse S der frikativen
Sprachelemente (z.B s, sch, f);
- c) eine diesen Mitteln (132, 135) nachgeordnete erste logische Schaltung (139) zum Peststellen der zeitlichen Dauer jedea
einzelnen Sprachelementes und der Pause zwischen den Sprachelementen;
d) eine zweite lpgisbhe Schaltung (142) zum Erkennen von
Kombinationen der frikativen und plosiven Sprachelemente;
e) Ausgabemittel zum Steuern νοΛ Geräten (145) aufgrund der
eingegebenen Worte.
2. Spracherkennungsvorrichtung zum Steuern von Maschinen, in
welche Vorrichtung aus Sprachelementen bestehende VYorte eingegeben werden, gekennzeichnet durch folgende Merkmale»
a) ein erstes Mittel (132) zum Peststellen der Gesamtenergie (134) des eingegebenen Wortes;
b) ein zweites Mittel (135) zum Peststellen der Steilheit der
Anstiegsflanke (ti; t2) der Energie der Sprachelemente und
somit zum Trennen der Klasse (T) der plosiven Sprachelemente (z.B. p, t, k) von der Klasse (sjder frikativen
Sprachelemente (z.B. s, sch, f);
c) ein drittes Mittel (151) zum PestetelleiTirtrerthonen, mitt-"
leren und tiefon Frequenzen aller eingegebenen Sprachtl,emente
und somit zum Unterteilen der Vokale in cuse^r Klassen}
d) eine diesen Mitteln (132, 135, 151) nachgeordnete erste '
logische Schaltung (139» 161) zum Feststellen der zeitlichen Dauer jedes einzelnen Spraohelementes und der Pause
zwischen den Sprachelementen;
309808/1029
e) eine zweite logische Schaltung (142) zum Erkennen von Kombinationen der frikativen, plosiven und vokalen
Sprachelemente;
f) Ausgabemittel zum Steuern von Geräten (145) aufgrund der eingegebenen Worte,
3. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass
in der ersten logischen Schaltung (139) Stromkreise vorgesehen sind, welche zwischen den einzelnen Sprachelementen
diejenigen Pausen feststellen, die kleiner sind als ca. 0,2 see, so dass die Sprachelemente segmentiert sind.
4. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung(142) Stromkreise vorgesehen
sind, welche Pausen zwischen den einzelnen Sprachelementen feststellen, die grosser sind als 0,2 see, so dass
die Kombinationen der Sprachelemente, welche auch als Worte bezeichnet werden, segmentiert werden.
5. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass
in der zweiten logischen Schaltung (142) Speichermittel vorgesehen
sind, welche mindestens eine binäre und/oder eine dezimale Kodierung (143) speichern.
6. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in dem als Diskriminator ausgebildeten dritten Mittel (151)
Schaltungen vorgesehen sind, die das Frequenzband der in der Eingabe (131) gelangenden Sprache in sechs Bänder unterteilen
und somit sechs Phoneinklassen unterscheidbar sind,
7«. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, in der zweiten iogifichen Schaltung (.14 2) eine Einrichtung
(281) -vor^euehan ist, welche die zeitliche Dauer der einzelnem
Spruche!ernente und der Pausen in Zeitklaooen einteilt,
no daso Knackgeräuüche und Atmungbgeräusohe ausgo-
.3 0 4 80B/ 102
8. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass
in der zweiten logischen Schaltung (142, 273) Erkennungs-" mittel (163, 285) vorgesehen sind, welche das Ende eines
jeden Grundwortes dadurch erkennen, dass ein Vokal vorhanden ist.
9. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daes
I4A0
in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine
Matrize (2791 421) vorgesehen ist zum Erkennen von drei
Konsonantenklassen und von drei Vokalklassen.
10. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine
Matrize (422) vorgesehen ist zum Erkennen von vier Konsonantenklassen und von vier Vokalklassen.
11. Vorrichtung nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet,
dass in der zweiten logischen Schaltung
IiJ O
(142, 272, 4-Ö9) eine Matrize (423) vorgesehen ist zum
Trennen von Plosivunterklassen.
12. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine
Matrize (424) vorgesehen ist zum Erkennen von mindestens drei geflüsterten Vokalklassen.
13. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 273) Mittel (289)
vorgesehen sind zum Starten einer arithmetischen Rechenoperation, und diese Mittel auf ein Grundwort mit einer
Konsonantenklas&e und einer zeitlich folgenden Pause
ansprechen.
309808/ 1029
14'. Vorr-lc^'-wUitcj nach /mnpruch 2, dadurch gekennzeichnetr dass
in der zwuitan logischen Schaltung (142, 273) Mittel (290)
vorgesehen sind zum Aendern der Logik, und diese Mittel auf
zwei bestimmte anliegende Kosonantenklassen ansprechen.
15. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass
in der zweiten logischen Schaltung (142, 273) Mittel (29Ü)
vorgesehen sind zum Vermeiden von Wiederholungen von Grundworten, und diese Mittel auf bestimmte anliegende Vokalklassen
ansprechen.
16. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142) Stromkreise vorgesehen
sind, welche Pausen zwischen den einzelnen Sprachelementen feststellen, die grosser sind als 2 Sekunden, so dass die Kombinationen
der Worte, welche auch als Sätze bezeichnet werden, segmentiert
werden.
17. Vorrichtung nach Anspruch 1, wobei die Vorrichtung einen Amplituden-Kompressor mit "Rückwärts- und Vorwärts-Schlelfa" enthält, dadurch gekennzeichnet, dass der Verstärker (324) , der
Gleichtichter (325) und der Tiefpass (326) der "Vorwärta-Schleife"
ersetzt werden durch einen Uebertrager (329) der daa Ausbalancieren der Schleifen erleichtert.
Gp/r/dh/cb 10.8.1972
309308/1029
BAD ORiQtNAt
Leerseite
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CH1217771 | 1971-08-18 | ||
CH1146272 | 1972-08-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2240557A1 true DE2240557A1 (de) | 1973-02-22 |
Family
ID=25708361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2240557A Pending DE2240557A1 (de) | 1971-08-18 | 1972-08-17 | Spracherkennungsvorrichtung zum steuern von maschinen |
Country Status (5)
Country | Link |
---|---|
US (1) | US3946157A (de) |
JP (1) | JPS4830302A (de) |
DE (1) | DE2240557A1 (de) |
FR (1) | FR2150174A5 (de) |
GB (1) | GB1375452A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2755633A1 (de) * | 1977-12-14 | 1979-06-21 | Loewe Opta Gmbh | Fernsteuerung zum steuern, ein- und umschalten von variablen und festen geraetefunktionen und funktionsgroessen in nachrichtentechn. geraeten |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4107460A (en) * | 1976-12-06 | 1978-08-15 | Threshold Technology, Inc. | Apparatus for recognizing words from among continuous speech |
US4241329A (en) * | 1978-04-27 | 1980-12-23 | Dialog Systems, Inc. | Continuous speech recognition method for improving false alarm rates |
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
CH635695A5 (de) * | 1978-08-31 | 1983-04-15 | Landis & Gyr Ag | Detektor zur feststellung der anwesenheit mindestens eines elektrischen signals mit einer vorbestimmten charakteristik. |
US4445187A (en) * | 1979-02-05 | 1984-04-24 | Best Robert M | Video games with voice dialog |
US4305131A (en) * | 1979-02-05 | 1981-12-08 | Best Robert M | Dialog between TV movies and human viewers |
US4333152A (en) * | 1979-02-05 | 1982-06-01 | Best Robert M | TV Movies that talk back |
US4569026A (en) * | 1979-02-05 | 1986-02-04 | Best Robert M | TV Movies that talk back |
JPS5688503A (en) * | 1979-12-21 | 1981-07-18 | Matsushita Electric Ind Co Ltd | Heater |
AU7529981A (en) * | 1980-09-19 | 1982-03-25 | Hitachi Limited | Language analysis by pattern recognition |
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US4509186A (en) * | 1981-12-31 | 1985-04-02 | Matsushita Electric Works, Ltd. | Method and apparatus for speech message recognition |
DE3200645A1 (de) * | 1982-01-12 | 1983-07-21 | Matsushita Electric Works, Ltd., Kadoma, Osaka | "verfahren und vorrichtung zur spracherkennung" |
DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
US4558319A (en) * | 1982-12-07 | 1985-12-10 | Westinghouse Electric Corp. | Automated system monitoring using frequency and amplitude modulation |
US4817159A (en) * | 1983-06-02 | 1989-03-28 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
GB2145551B (en) * | 1983-08-23 | 1987-08-19 | David Thurston Griggs | Speech-controlled phonetic typewriter or display device |
GB2145864B (en) * | 1983-09-01 | 1987-09-03 | King Reginald Alfred | Voice recognition |
US4780906A (en) * | 1984-02-17 | 1988-10-25 | Texas Instruments Incorporated | Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal |
JPS60181798A (ja) * | 1984-02-28 | 1985-09-17 | 電子計算機基本技術研究組合 | 音声認識装置 |
US4811243A (en) * | 1984-04-06 | 1989-03-07 | Racine Marsh V | Computer aided coordinate digitizing system |
NL8401862A (nl) * | 1984-06-13 | 1986-01-02 | Philips Nv | Werkwijze voor het herkennen van een besturingskommando in een systeem, en een interaktief systeem voor het uitvoeren van de werkwijze. |
US4783807A (en) * | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
IT1179093B (it) * | 1984-09-03 | 1987-09-16 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per il riconoscimento senza addestramento preventivo di parole connesse appartenenti a piccoli vocabolari |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
JPS63501603A (ja) * | 1985-10-30 | 1988-06-16 | セントラル インステイチユ−ト フオ ザ デフ | スピ−チ処理装置および方法 |
US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
US4896357A (en) * | 1986-04-09 | 1990-01-23 | Tokico Ltd. | Industrial playback robot having a teaching mode in which teaching data are given by speech |
US4800503A (en) * | 1986-09-19 | 1989-01-24 | Burlington Industries, Inc. | Method and apparatus for grading fabrics |
EP0364501A4 (en) * | 1987-06-09 | 1993-01-27 | Central Institute For The Deaf | Speech processing apparatus and methods |
WO1994018667A1 (en) * | 1993-02-11 | 1994-08-18 | Naim Ari B | Voice recording electronic scheduler |
DK46493D0 (da) * | 1993-04-22 | 1993-04-22 | Frank Uldall Leonhard | Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler |
US5638486A (en) * | 1994-10-26 | 1997-06-10 | Motorola, Inc. | Method and system for continuous speech recognition using voting techniques |
US5596679A (en) * | 1994-10-26 | 1997-01-21 | Motorola, Inc. | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs |
KR980700637A (ko) * | 1994-12-08 | 1998-03-30 | 레이어스 닐 | 언어 장애자의 언어 인식 강화를 위한 방법 및 장치(method and device for enhancing the recognition of speechamong speech-impai red individuals) |
US5832440A (en) * | 1996-06-10 | 1998-11-03 | Dace Technology | Trolling motor with remote-control system having both voice--command and manual modes |
US5864793A (en) * | 1996-08-06 | 1999-01-26 | Cirrus Logic, Inc. | Persistence and dynamic threshold based intermittent signal detector |
IL119948A (en) | 1996-12-31 | 2004-09-27 | News Datacom Ltd | Voice activated communication system and program guide |
US6097776A (en) * | 1998-02-12 | 2000-08-01 | Cirrus Logic, Inc. | Maximum likelihood estimation of symbol offset |
DE19834321A1 (de) * | 1998-07-30 | 2000-02-03 | Alcatel Sa | Verfahren, Endgerät, Knoten, Programmodul und Bedienoberfläche zur Ermittlung von für eine Kommunikationsbeziehung erforderlichen Merkmalen |
US6587822B2 (en) * | 1998-10-06 | 2003-07-01 | Lucent Technologies Inc. | Web-based platform for interactive voice response (IVR) |
US6947893B1 (en) * | 1999-11-19 | 2005-09-20 | Nippon Telegraph & Telephone Corporation | Acoustic signal transmission with insertion signal for machine control |
US6895380B2 (en) | 2000-03-02 | 2005-05-17 | Electro Standards Laboratories | Voice actuation with contextual learning for intelligent machine control |
DE10058786A1 (de) * | 2000-11-27 | 2002-06-13 | Philips Corp Intellectual Pty | Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts |
US7319959B1 (en) * | 2002-05-14 | 2008-01-15 | Audience, Inc. | Multi-source phoneme classification for noise-robust automatic speech recognition |
US20080208571A1 (en) * | 2006-11-20 | 2008-08-28 | Ashok Kumar Sinha | Maximum-Likelihood Universal Speech Iconic Coding-Decoding System (MUSICS) |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US9378754B1 (en) | 2010-04-28 | 2016-06-28 | Knowles Electronics, Llc | Adaptive spatial classifier for multi-microphone systems |
US20140207456A1 (en) * | 2010-09-23 | 2014-07-24 | Waveform Communications, Llc | Waveform analysis of speech |
US9508345B1 (en) | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US9953634B1 (en) | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US9437188B1 (en) | 2014-03-28 | 2016-09-06 | Knowles Electronics, Llc | Buffered reprocessing for multi-microphone automatic speech recognition assist |
EP3038106B1 (de) * | 2014-12-24 | 2017-10-18 | Nxp B.V. | Verbesserung eines Audiosignals |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL272110A (nl) * | 1960-12-08 | 1964-08-25 | Jean Albert Dreyfus | Drukaandrijving |
US3553372A (en) * | 1965-11-05 | 1971-01-05 | Int Standard Electric Corp | Speech recognition apparatus |
US3619509A (en) * | 1969-07-30 | 1971-11-09 | Rca Corp | Broad slope determining network |
DE2109436A1 (de) * | 1970-03-04 | 1972-08-03 | Dreyfus J | Amphtudenregler für elektrische Signale |
US3679830A (en) * | 1970-05-11 | 1972-07-25 | Malcolm R Uffelman | Cohesive zone boundary detector |
-
1972
- 1972-08-17 DE DE2240557A patent/DE2240557A1/de active Pending
- 1972-08-17 FR FR7229499A patent/FR2150174A5/fr not_active Expired
- 1972-08-18 JP JP47082241A patent/JPS4830302A/ja active Pending
- 1972-08-18 GB GB3872572A patent/GB1375452A/en not_active Expired
-
1974
- 1974-08-09 US US05/496,326 patent/US3946157A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2755633A1 (de) * | 1977-12-14 | 1979-06-21 | Loewe Opta Gmbh | Fernsteuerung zum steuern, ein- und umschalten von variablen und festen geraetefunktionen und funktionsgroessen in nachrichtentechn. geraeten |
Also Published As
Publication number | Publication date |
---|---|
FR2150174A5 (de) | 1973-03-30 |
JPS4830302A (de) | 1973-04-21 |
GB1375452A (de) | 1974-11-27 |
US3946157A (en) | 1976-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2240557A1 (de) | Spracherkennungsvorrichtung zum steuern von maschinen | |
DE2918533C2 (de) | ||
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE19636739C1 (de) | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2608569A1 (de) | Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE2422028C2 (de) | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort | |
DE1547032A1 (de) | Einrichtung zum Identifizieren einer Person | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
US4509186A (en) | Method and apparatus for speech message recognition | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
DE4031638A1 (de) | Spracherkennungseinrichtung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP2962296A2 (de) | Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung | |
DE1937464C3 (de) | Sprachanalysiergerät | |
DE19654549C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP1125278B1 (de) | Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte | |
DE2109436A1 (de) | Amphtudenregler für elektrische Signale | |
DE3129353A1 (de) | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen | |
DE1422056A1 (de) | Phonetische Schreibmaschine | |
DE1547027B2 (de) | Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OHJ | Non-payment of the annual fee |