DE2240557A1

DE2240557A1 - Spracherkennungsvorrichtung zum steuern von maschinen

Info

Publication number: DE2240557A1
Application number: DE2240557A
Authority: DE
Inventors: Jean Albert Dreyfus
Original assignee: Individual
Current assignee: Individual
Priority date: 1971-08-18
Filing date: 1972-08-17
Publication date: 1973-02-22
Also published as: FR2150174A5; JPS4830302A; GB1375452A; US3946157A

Description

Vokalen und Konsonanten. Diese bekannten Kodes haben jedoch

1.) Die Kodes können nicht von Personen mit verschiedener Muttersprache gleichmässig ausgesprochen werden. Ein Engländer, ein Franzose^ ein Deutscher, ein Russe, ein Araber und ein Japaner können die bekannten Kodes nicht mit gleicher Leichtigkeit und Fehlerlosigkeit aussprechen',

2.) Die bekannten Spracherkennungsvorrichtungen sind in ihrem - Aufbau kompliziert und können diese Kodes nicht ohne individuelle, vorherige Lernphasen erkennen;

3.) Die bekannten Kodes sind nicht in der Lage, Flüstersprachen zu erkennen. Die Erkennung von Flüstersprachen ist besonders bei den Personen wichtig, welche aus Krankheitsgründen an temporärer oder dauernder Stimmlosigkeit leiden«. Ferner ist die Flüstersprache bei Wahrung von Geheimnissen während der sprachlichen Uebertragung notwendig?

4.) Ferner sind die bekannten Kodes nicht ausbaufähig, was sich besonders dann bemerkbar macht, wenn Vokale Verwendung finden sollen\

5.) Die Worte und Sätze der bekannten Kode können nicht mit maximaler Geschwindigkeit und minimaler Anstrengung ausgesprochen werden,da die phonetischen und linguistischen Regeln nicht auf dieses Ziel gerichtet sind.

309808/1029

Die erfindungagemässe Vorrichtung ist so konstruiert, dass sie die Nachteile der bekannten Vorrichtungen vermeidet. Die Erfindung ist gekennzeichnet durch folgende Merkmale:

a) ein erstes Mittel zum Feststellen der Gesamtenergie der eingegebenen Sprachelemente;

b) ein zweites Mittel zum Feststellen der Steilheit der Anstiegsflanke der Energie der Sprachelemente und somit zum Trennen der Klasse der plosiven Sprachelemente von der Klasse der frikativen Sprachelemente;

c) eine diesen Mitteln nachgeordnete erste logische Schaltung zum Feststellen der zeitlichen Dauer jedes einzelnen Sprachelementes und der Pause zwischen den Sprachelementen;

d) eine zweite logische Schaltung zum Erkennen von Kombinationen der frikativen und plosiven Sprachelemente;

e) Ausgabemittel zum Steuern von Geräten aufgrund der eingegebenen Worte.

Diese Grundausrüstung der erfindungsgemassen Vorrichtung kann vorteilhafterweise ergänzt werden durch Hinzufügen von Mitteln zum Erkennen von in den Kodes zusätzlich aufgenommenen Vokalen. Diese Vokale können entweder stimmhaft sein oder geflüstert werden. Die erfindungsgemässe Weiterentwicklung ist gekennzeichnet durch folgende Merkmale:

c) ein drittes Mittel zum Feststellen von mindestens 2 Frequenz-Bändern unter den hohen, mittleren und tiefen Frequenzen aller eingegebenen Sprachelemente und somit zum Unterteilen der Vokale in mindestens zwei Klassen;

d) eine diesen Mitteln nachgeordnete erste logische Schaltung zum Feststellen der zeitlichen Dauer jedes einzelnen Sprachelementes und der Pause zwischen den Sprachelementen;

309808/1029

_tf) Ausgabeaiittel zur Steuerung von Geräten aufgrund der \ Grundworte. . ₇

"Ausführungsbeispiele der Erfindung werden anhand der Figuren ,näher erläutert. Es zeigen:

I¹Xg. 1 optische und akustische Formen der Zahlen von O "bis 9, Pig. 2 ein prinzipielles Blockschaltbild der Vorrichtung, Fig. 3a,3b eine ausführliche Darstellung der Vorrichtung der pjg2 Fig. 4 die Dämpfungskurven von den in der Fig. 3 gezeichneten

Band-Filtern,
Fig. 5 . eine von der Fig. 3 unterschiedliche Ausführung der

Vorrichtung,

Fig. 6 Erkennungs-Matrizen für die Vorrichtung der Fig. 5, Fig. 7 eine geometrische, farbenmässige und symbolische Darstellung der Grundklassen von Sprachelementen und von Sprachkoden,
Fig. 8 einige Beispiele von Sprachkodes für die Grundziffern.

In der Fig. 1, Zeile 101, sind die optischen Formen bzw. Gestalten der Ziffern null bis neun gezeichnet. Diese Ziffern sind allgemein bekannt und werden von fast allen Menschen gleich verstanden. Im Gegensatz zu der international normalisierten optischen Gestalt der Ziffern ist ihre akustische "Form bzw. Gestalt" in den Zeilen 102 bis 120 der Fig. 1 in verschiedenen Sprachen aufgezeichnet. Diese Beispiele, welche nur den geringsten Teil der akustischen Vielfalt von Formen zeigen, weisen über sechzig verschiedene Phonemen auf. Ein Kode, welcher von Personen mit unterschiedlicher Muttersprache in gleicher Weise aussprechbar ist, ist in Zeile 121 der Fig. 1 gezeigt. Dieser als "SOTINA" bezeichnete Kode wird bei der erfindungs- · gemessen Vorrichtung benutzt. Die einzelnen konstruktiven Schaltungsmerkmale der erfindungsgemässen Vorrichtung, welche sich hierdurch sehr vereinfachen, sind in der Fig. 2 dargestellt. In der Fig. 1, Zeile 122, ist ein noch einfacherer Kode gezeichnet, welcher als "SETE" genannt ist und nur geflüstert wird. Er besitzt im Gegensatz zu dem in der Zeile 121 beschriebenen anderen Kode nur die beiden Klassen S und T der Phoneme. Der Kode "SOTINA" ist gleichzeitig auf der Einfachheit der optischen Formen (Zeile 101) und Sanskrit-Wurzeln (Zeilen 103, 104 basier+'

309808/1029

Bevor die erfindungsgemässe Vorrichtung der Pig. 2 näher diskutiert wird, werden die Definitionen der Klassen der Sprachelemente bzw. Phoneme festgelegt. In der nachfolgenden Tabelle sind die Klassen der Sprachelemente bzw. Phoneme aufgezeichnet, welche international festgelegt wurden. Es handelt sich hierbei um Klassen, die allgemein am bequemsten aussprechbar sind.

Tabelle I

Phonem-Kla ssen

Konsonanten	Plosiv	Sym bol	Phoneti sche Werte	Vokale	tief	Sym bol	Phonetische Werte	U
1.	Prikativ	T	p,t,k	1.	mittel	0	o,
2.	Nasal	S	s,sch,f	2.	hoch	A	a	e
3.		N	n, m	3.	geflüster"	I	i,	A, I
			4.	r	O,

Die in der Tabelle I definierten Klassen werden durch grosse Buchstaben bezeichnet. Die phonetischen Werte der einzelnen Phoneme bzw. Sprachelemente werden mit kleinen Buchstaben bezeichnet. Die Vokale können auch geflüstert werden. Diese werden allgmein durch den Buchstaben E bezeichnet. Unter Plustern versteht man, dass der Vokal stimmlos ausgesprochen wird. Die ein-

zelnen Vokalklassen 0, A, I werden mit 0, A, I bezeichnet, wenn wenn sie geflüstert werden.

Anhand, der Fig. 2 wird nun zuerst das vereinfachte Beispiel der erfindungsgemässen Vorrichtung besprochen. Die Eingabe 131 kann ein Mikrophon, ein Magnettonband oder ein Vokoder sein. In diesem Ausführungsbeispiel wird angenommen, dass es sich bei der Eingabe 131 um ein Mikrophon handelt. Die Bedienungsperson soll nun das Wort ¹¹SASOTI" in das Mikrophon flüstern. Die elektrischen Signale, die sich hieraus ergeben, gslangen in die entsprechenden nachgeordneten Schaltungsstufen. Der Extractor 132 liefert die gesamte Sprachenergie der Signale,

309808/1029

ζ. 13. im Telephonband 200 bis 3400 Hz, wie es in dem Kurvenzug 133 gezeigt ist. Wenn z.B. das Wort "SASOTI" ausgesprochen wird, so entsteht der Kurvenzug 134, in welchem die gesamte Energie E über die Zeit t aufgetragen ist. Bei dem Kurvenzug 134 stellt die Energie E eine Punktion der Zeit t dar. Die verschiedenen Zeitabschnitte der Phonemsignale t_s, t_&, t_Q ', t_Q, t_t, ±_± sowie der Pausen t_z, t ' zwischen ihnen werden festgestellt. Der Diskriminator 135 stellt die Steilheit der Anstiegsflanken der Energien fest und trennt somit die Klasse T der plosiven Konsonanten von der Klasse S der frikativen Konsonanten. Am Ausgang de.s Diskriminators 135 erscheint der Kurvenzug 136 und gelangt über die Leitung 138 auf die erste logische Steuerschaltung 139. Der Kurvenzug 136 gibt die zeitliche· Ableitung dE/dt der Energie in Punktion der Zeit an. Die leitungen 137, 138 bringen somit die notwendige Information (Kurvenzüge 134, 136) auf die erste logische Steuerschaltung 139. In dieser Steuerschaltung werden die Zeitmessungen ausgeführt, welche darin bestehen, dass sowohl die Zeitabschnitte der einzelnen Klassen als auch die Zeitabschnitte zwischen den Klassen festgestellt werden. Anhand dieser Zeitmessungen und der phonetischen Regeln gibt die Logik eine klare Trennung der beiden Klassen T und S. Ueber die Leitungen -140, 141 werden diese'elektrischen Signale der beiden Klassen zur zweiten logischen Steuerschaltung 142 gegeben, in welcher linguistische Regeln angewendet werden und be"-stimmte Kombinationen der Phonemklassen T und S erkannt werden, Diese Kombinationen werden ala Worte bezeichnet. Erfindungsgemäss soll folgende Vorschrift erfüllt werden, dass die einzelnen Worte durch Pausen voneinander getrennt sein müssen. Diese Pausen haben einen Wert, welcher grosser

Uttev ο,ς

ist als z,B. 0,2?Sekunden. Im Gegensatz hierzu sind die sogenannten internen Pausen wie z.B. t_z, t₂' kleiner als 0,2\otkcO_t$ Sekunden und werden in der ersten logischen Steuerschaltung 139 - wie bereits beschrieben - entsprechend berücksichtigt»

V-< dl'·? Bedienungsperson daß Wort" "SASÜl'I" geflüstert hat,

3.0 9 80 8/HU 9

sind die Vokale stimmlos ausgesprochen worden, so dass die Klassen A, 0, I nicht im Wort vorhanden sind. Die Bedienungsperson kann ebenso das Wort "SASOTI" flüstern, als "SASOTI" oder "SESETE". In all diesen Fällen des Flüsterns erkennt die zweite logische Steuerschaltung 142 das Wort als "SESETE". Das von dieser zweiten logischen Steuerschaltung erkannte Wort kann auch als Abkürzung SST geschrieben werden» Wie bereits im Zusammenhang mit der Fig. 1 erwähnt, kann dieses Wort einen Phonokode. bilden. Dieser Phonokode; ist fest in der zweiten logischen Steuerschaltung 142 angeordnet. Ale Beispiel hierfür zeigt die Fig. 2 einen Phonokode, der sowohl binär als auch dezimal verwendet werden kann. In der Tabelle 143 ist dieser Phonokode gezeigt. Der Phonokode vereinfacht sich beträchtlich, da die Pausen zwischen den einzelnen Worten der plosiven und frikativen Klassen festgestellt werden. Diese Vereinfachung ist dadurch dargestellt, dass nur der Phonokode genommen wird, welcher rechts von der linie 14^5 liegt. Die zweite logische Steuerschaltung erkennt den Kode SST als die Ziffer neun. Dies ist durch die Anzeige 14Jf dargestellt. Das Gerät 14$ wird entsprechend der erkannten Ziffer neun gesteuert. Wie bereits erwähnt, kann das Gerät 14^ eine Maschine zum Schreiben oder zum Steuern von weiteren Anlagen sein.

Wenn die erfindungsgemässe Vorrichtung noch weiter ausgebaut werden soll, so wird parallel zum Extractor 132 und zum Diskriminator 3 35 ein weiterer Diskriminator 151 hinzugesohaltet. Dieser Diskriminator stellt die spektrale Verteilung der Sprachenergie in mindestem*? drei Frequenzbändern fest. Diese Frequenzbänder sind links vom Diskriminator 151 als Kurvenzüge 152, 153, 154 mit den zugeordneten Frequenzen 200 Hz bia 800 Hz, 800 Hz bis 1000 Hz, 1600 Hz bis 3000 Hz gezeigt. Diese einzelnen Kurvenzüge entsprechen den tiefen, mittleren, und hohen Vokalklaesen 0, A, I.

Wenn nun die Bediojamgspereou z.B. üau Wort "3AS0TI" aunapricht, 00 wird über den Extractor 132 der bereit» buauhriö-

3 0 9 8 0 8/1029

bene Kurvenzug 134 gebildet. Ferner gibt der erste Diskriminator 155 über die leitung 138 den Kurvenzug 136 ab. Im Diskriminator 151 wird gemäss den drei Frequenzbändern 152, 153* 154 die spektrale Verteilung festgestellt und als Kürvenzüge 155? 156, 157 auf die Leitungen 158, 159, 160 in den Ergänzungsteil der ersten logischen Steuerschaltung 139 gegeben. In der ersten logischen Steuerschaltung werden die phonetischen Regeln angewendet und die Klassen S und T sowie die Klassen 0, Aj I₁ S erkannt. Dies erfolgt dadurch, dass in dieser Steuerschaltung die zeitlichen Abschnitte der einzelnen Sprachelemente bzw. Phoneme in jeder Klasse und die zeitlichen Abstände zwischen den einzelnen Phonemen "bzw. Sprachelementen erkannt werden-. Dies gilt sowohl für die Signale über den leitungen 137, als auch für die Kurvenzüge 155, 156, 157 der leitungen 158, 159, 160. Die Signale, welche den Klassen S und T sugeordnet sind, gelangen von der ersten logischen Steuerschaltung 139 auf die zweite logische Steuerschaltung 152..Die Signale, welche den Klassen 0, A, I, S zugeordnet sind, gelangen über die Leitungen 162,' 163, 164 ebenfalls auf die zweite logische Steuerschaltung 142. In dieser Steuerschaltung werden die linguistischen Regeln angewandt und die Worte erkannt. Wie bereits erwähnt, werden hier die zeitlichen Abschnitte zwischen den einzelnen Worten erkannt innerhalb der fünf Klassen T, S, 0, I, A. Das Wort "SASOTI" kann aus den Grundworten = Ziffern bestehen SA=7, S0=5, TI=3. Diese Grundworte sind in einem Phonokode gespeichert. Dieser Phonokode, welcher in der Fig. 2 als Tabelle 163 dargestellt ist, ist in der zweiten logischen Steuerschaltung 142 angeordnet,- Diese Steuerschaltung segmentiert die Grundworte in der Weise sehr einfach·, weil jedes Grundwort mit einem Vokal endet. Somit kann die erkannte Zahl 753 ein Gerät 145 in gewünschter V/eise steuern. Zur beoseren Information ist diese Zahl in der Ausgabe 164 dargestellt. Eine solche Ausgabe-Einheit kann einen Teil der zweiten logischen Steuerschaltung 142 bilden oder etwas von dieser Steuerschaltung entfernt angeordnet sein.

Ea sei darauf hingewiesen, dass verschiedene Phonokodes in

309808/1029

der zweiten logischen Steuerschaltung 142 angeordnet sein können. Der grosse Vorteil eines Phonokodes bestehend aus mindestens fünf Phonemklassen liegt darin, dass er beliebig ausbaufähig ist und ganze Sprachen hiermit entwickelt werden können, welche international und bequem aussprechbar sind. Wie schon gesagt, kann die erfindungsgemässe Vorrichtung solche Kodes sehr leicht erkennen.

In denELg.3a,3bjist die prinzipielle Darstellung der erfindungsgemässen Vorrichtung der Pig. 2 ausführlicher gezeichnet. Die elektrischen Sprachsignale werden entweder durch ein Mikrophon 201 oder durch eine Telephonleitung 202 oder durch ein Magnettonbandgerät 203 oder durch einen Vokoder 204, welche als Eingabe 131 wirken, gemäss Pig. 3 dem Eingangsschalter 200 zugeführt. Mit diesem Schalter 200 soll angedeutet werden, dass die eben genannten verschiedenen Eingabegeräte wahlweise zugeschaltet werden können. Diese Geräte besitzen in der Verbindungsleitung die Filter 205, 206, 207, 208. Diese Filter haben die Aufgabe, die Frequenzkomponenten der verschiedenen Signalquellen bzw. Geräte in ähnlicher Weise wie beim menschlichen Ohr zu normalisieren, d.h. dafür zu sorgen, dass die Prequenzkomponenten zwischen etwa 200 und 3400 Hz normal auf den Schalter 200 gelangen können. Diese Sprachsignale gelangen über den Eingang 209 eines Plosiv-Diskriminator-Kanals C8 sowie über die Eingänge 211 bis 217 in die Spektrum-Diskriminator-Kanäle Cl bis C7. Wie bereits im Zusammenhang mit der Fig. 2 beschrieben, reagiert der Kanal C8 auf die Geschwindigkeit der Energieänderung der Sprachsignale im Frequenzband über 500 Hz. Die Plosiv-Phonemklasse T, in welche die Phoneme bzw. Sprachelemente p, t, k, b, d, g gehören, baut ^pich in fünf Millisekunden auf,

und zwar nach einer Pause von mindestens fünfzig Millisekunden. Die Frikativ-Phonemklasse S, in welcher die Phoneme bzw. Sprachelemente s, f, sch, z, v, j mindestens zwanzig Millisekunden zum Aufbau benötigen, ist von den Plosivlauten durch die unterschiedliche Aufbauzeit hinreichend getrennt worden. Die Diskriminierung zwischen Ploeiv- und Frikativ-Phonemklassen

309808/1029

G?, S kann auf verschiedene Arten durchgeführt werden, wie z.B. in analoger oder digitaler Weise. Im ausführlichen Beispiel der Pig. 3 ist die analoge Diskriminierung gezeichnet. Diese analoge Vorrichtung enthält im Kanal C8 "den Bandpass 218, welcher das Frequenzband von 1000 Hz bis 4000 Hz durchlässt, den Gleichrichter 219, den Tiefpass 220, welcher die Frequenzen unterhalb 70 Hz durchlässt, und den zeitlichen Energie-Differenziator 22.9. Dieser Differenziator 22# enthält einen Kondensator 221, die Widerstände 222·, 223 und den Gleichrichter 224. Der Gleichrichter sortiert die ansteigenden Planken des Kurvenzuges 225, welcher dem Wort "SATI" entsprechen soll. Es sei angenommen, dass dieses Wort von einem der vier Eingangsgeräte 201 bis 204 über den Schalter 200 auf die gesamte Vorrichtung gegeben wird.

Die Kanäle 01 bis 07 sortieren die charakteristischen qüasistationären Energiebänder der nicht-plosiven Phonemklassen T*. Das Symbol T ist für die nicht-plosiven Phonemklassen definiert. Die Kanäle Cl bis 07, deren Eingänge 211 bis 217 parallel zum Eingang 209 des Kanals 08 liegen, werden dem Spektrum-Extractor zugeordnet. Der Kanal C7 besteht aus dem egalisierenden Sprachfilter 127 für die Frequenzen 100 Hz

und bis 4000 Hz, aus dem Gleichrichter 228 dem Tiefpass 229 mit der Durchlassfrequenz unterhalb von 50 Hz. In diesem Kanal C7 wird der Kurvenzug 26^ des Wortes "SATI" entwickelt. Dieser Kanal 07 zeigt die gesamte Dynamik oder anders ausgedrückt das Vorhandensein des gesprochenen Wortes an und entspricht dem Extractor 132 'der Fig. 1. An dieser Stelle sei darauf hingewiesen, dass der Kanal 08 und die Kurvenzüge 225 bzw. iOb der Fig. 3 dem Diskriminator 135 und dem KurvenzugeoL36> d ■l^ der Fig.l entsprechen. Die Kanäle 01 bis 06 der Fig. 3/T^welche dem Diskriminator 151 mit den Ausgangsleitungen 158 _t 159, 160 der Fig. 1 entsprechen, stellen die verschiedenen nicht- ' plosiven Phonemklassen T fest. Diese Kanäle 01 bis C6 der Fig. 3 enthalten Bandpässe für verschiedene Frequenzbänder. Diese Frequenzbänder sind in die Bandpässe 231 "bis 236 ein-

309808/1023

gezeichnet. DieBe Bandpässe entsprechen den wichtigsten Bereichen oder Pormanten der Vokalklassen 0, A, I und der' Konsonantklasse S, in welcher Phonemklasse die frikativen Sprachelemente eingeordnet sind. Im Gegensatz zur Pig. I ist in der Fig. 3 noch ein weiterer Kanal vorgesehen für die nasale Phonemklasse H. Es soll hiermit angedeutet werden, dass in der ausführlichen Einrichtung der Pig. 3 ohne weiteres zusätzliche Kanäle für weitere Phonemklassen eingefügt werden können. Auf diese Art und Weise kann die gesamte erfindungsgemässe Vorrichtung mühelos und leicht zur höchsten Stufe der Entwicklung der Spracherkennung ausgebaut werden. In den genannten Kanälen Cl bis C6 sind ausserdem noch die Gleichrichter 237, 238, 239, 240, 241, 242 und die Tiefpässe 243, 244, 245, 246, 247, 248, welche nur die Frequenzen unterhalb von 50 Hz durchlassen, angeordnet. Der Kanal CO sortiert die Sprachgrundfrequenz, welche zwischen 80 Hz und 400 Hz liegt. Dieser Kanal CO, welcher den Bandpass 249 mit einem Durchlassbereich von 90 Hz bis 150 Hz, den Gleichrichter 250 und den Tiefpass 2-51 mit einer Durchlassfrequenz unterhalb von 50 Hz enthält, wird auch als "Pitch" bezeichnet. Dieser "Fitch"-Kanal gibt an, ob ein Sprachelement bzw. ein Phonem stimmhaft oder stimmlos ist. Daher gestattet dieser Kanal auch die Kodierung der sogenannten PlüBtersprache, wie schon eingangs erwähnt wurde.

Die Bandpässe 231, 232, 233, 234, 235, 236, 249 der Kanäle Cl, C2, C3, C4, C5, C6, CO haben bestimmte Dämpfungen, welche in der Fig. 4 als Kurven 252, 253, 254, 255, 256, 257, 258 gezeichnet sind. Die Reihenfolge der in der Pig. 4 gezeigten Dämpfungekurven ist wie folgt; Die Kurve 252 iat dem Bandpass 231 des Kanals Cl zugeordnet, die Kurve 253 dem Bandpass des Kanals 02, die Kurve 254 dem Bandpass 233 dea Kanals 03, die Kurve 255 dem Bandpaos 234 des Kanals C4, die Kurve dem Bandpas8 235 deo Kanals C5, die Kurve 257 dem Bandpass des Kanals C6 und die Kurve 258 dem Bandpass 249 dea Kanäle CO. Die Grenzen der Durchlassbereiohe der einzelnen Bandpäoee 249,

309808/1029

J ■" " "

Γ' 231, 232, 233, 234, 235, 236 entsprechen den Pormantbereichen 259 der Pho-reraklassen O, A, I, E, Y, S, SH. Me Pormantbereiehe 259 der Phoneniklassen sind auf der linken Seite der Pig. 4 gezeichnet und den einzelnen Kämpfungskurven 253 ^i*³ 258 der Bandpässe 231 bis 236 der Pig. 3a zugeordnet. Dies zeigen auch die Matrize in der logischen Schaltung 272 der Pig. 3b sowie die in der Pig. 6 gezeichneten Matrizen 421, 422, 423.

Zur Erklärung der Wirkungsweise der Anordnung der Pig. 3a und 3b wird nun angenommen, dass das Mikrophon 201 über den Schalter 200 an die Kanäle 00 bis 08 angeschlossen sind. Wenn z.B. in das Mikrophon 201 das Wort "SATI" gesprochen wird, so entsteht am Ausgang des Diskriminator 22£Γ, der wie bereits erwähnt im Kanal 08 angeordnet ist_: und der Erkennung der plosiven Phonemklasse T dient, der Kurvenzug 260. Da in der Pig. 3a der Kurvenzug 225, der das gesamte Wort ¹¹SATI" zeigt, der besseren Uebersichtlichkeit halber oberhalb des Diskriminators 22# gezeichnet ist, kann man leicht erkennen, dass die Kurve 260, welche am Ausgang des genannten Diskriminator steht, die Steilheit dE/dt der Energie-Anstiegsflanke der plosiven Phonemklasse im Wort "SATI" anzeigt. In ähnlicher V/eise ergeben sich an den Ausgängen der Tiefpässe 245 244, &Ϊ5, 246, 24?, 24β, &£f, 251 die Kurvenzüge 267, 266, 265, 264, 263, 262, 261 und 268. Diese letztgenannten Kurvenzüge, welche in der Pig. 3a unter dem das gesamte Wort "SATI" darstellenden Kurvenzug 225 gezeichnet sind, stellen die wichtigsten Informationselemente über die spektrale Prequenz» verteilung der in diesem V/ort enthaltenen Phonemklassen dar, .Weitere.Kanäle CIl, C12, 013 usw. sind in der Pig. 3a ge-. strichelt dargestellt und sollen andeuten, dass die Vorrichtung nicht auf die Kanäle' beschränkt ist, welche bisher diskutiert wurden. Auf einfache Art und Weise kann also eine Erweiterung stattfinden, um somit Worte zu erkennen, in denen wesentlich mehr Phonemklaseen vorhanden sind. Abechliessend eei noch erwähnt, dass die in der Vorrichtung der Pig. 3a beschriebenen Filter als passive, aktive oder alB digit::"Je

309808/1029

Filter ausgebildet werden können. Es können auch anstelle dieser Filter geeignete Vorrichtungen bzw. Verfahren wie Nulldurchgangsdetektoren, Peakdetektoren, Fourier-Analyijen, Auto-Korrelation, e, digitale Simulation auf Rechenmaschinen, "Predictive Coding" usw. Verwendung finden.

Die in den Kurvenzügen 260 bis 268 vorhandenen Informationselemente des Y/ortes "SATI" gelangen nun über die Verbindungsleitung zwischen den Ausgängen der Tiefpässe bzw. des Diskriminator auf eine erste logische Schaltungsanordnung 271. Die erste logische Schaltung 271, welche der logischen Schaltung 139 und 162 der Fig. 2 entspricht, dient zum Feststellen der zeitlichen Dauer jedes einze]nen Sprachelementes bzw. Phonems und zum Feststellen der Pause zwischen diesen einzelnen Sprachelementen. Daher ist die erste logische Schaltung 271 der Fig. 3a mix?einem" Taktgeber 274 ausgerüstet, welcher eine Quantelung der Kurvenzüge 260 bis 268 entsprechend seiner Taktgeberfrequenz vornimmt. Der Taktgeber 274 "quantelt" die plosive Phonernklasse T mit 200 Hz und die nicht-plosiven Phonemklassen T mit 50 Hz. Ferner ist in der logischen Schaltung 271 ein Analog-Digital-Wandler 275 bzw. eine Triggerschaltung vorgesehen. Hier erfolgt eine linear-logarithmische Umsetzung der durch die Kurvenzüge 260 bis 268 definierten elektrischen Signale, so dass diese Kurven in z.B. vier Pegel bzw. Niveaus aufgeteilt sind. Diese Pegel sind zur besseren Ueberoicht bereits in den Kurven 260 bis 268 eingetragen und mit 0 bis 3 bezeichnet. Ferner enthält die logische Schaltung 271 einen Zeitmesser 276, der die Dauer jedes einzelnen Sprachelementes bzw. Phonems undvPauee zwischen den einzelnen Spracheleinenten bzw, Phonemen misst. Weiterhin ist in der logischen Schaltung 271 ein Abtaster 277 und eine Multiplexanordnung 278 zur Eingabe in einen nicht gezeigten digitalen Rechner vorgesehen. Die so ermittelten Werte über die zeitliche Dauer der einzelnen Sprachelemente bzw. Phoneme und der Pause zwischen den einzelnen Spracheleraenten und Phonemen werden aua der ersten logischen Schaltung 271 in die zweite logische Schal-

309808/1029

timg 272 eingegeben. Die Verbindung zwischen diesen beiden Schaltungen ist durch- den Pfeil 2711 gekennzeichnet»

In den beiden fig. 3a und 3b sind die erste und die zweite logische Schaltung 272, 273 und 274 dargestellt. Die erste logische Schaltung 272 entspricht der ersten logischen Schaltung 139 in Fig. 2. Die zweite-logische Schaltung 273 der Fig. 3b entspricht der zweiten logischen Schaltung 142 der Fig. 2. Die erste logische Schaltung 272 ist nach phonetischen Regeln programmiert. In ihr ist die Matrize 279 zur Unterscheidung der internationalen Phonemklassen L vorgesehen. Die Phonemklassen 280 teilen sich auf in Vokale V und in Konsonanten C. Die Vokale V enthalten tiefe, mittlere, hohe und andere Vokale wie 0,.A, I_yE. Die Konsonanten G enthalten plosive, frikative, nasale und andere Phonemklassen T, S, N,.R. Weiter können Unterschiede gemacht werden zwischen betonten Phonemklassen L, geflüsterten Phonemiklassen 1, Phonemklassen mit steigendem oder fallendem Pitch L., Jj. Diese Unterscheidungen werden in der Matrize vorgenommen, welche mit den Kanälen CO, 01, 02, 03> 04, 05, 06, 07 ui|4 CT8 in der Fig. 3a verbunden ist. Die Unterscheidung ist unterhalb der Matrize 279 mit den eben erwähnten Symbolen gezeigt und steht in der Anordnung 280 zur Verfügung für. di* weitere Verarbeitung. In der Anordnung für die Zeitklassen 281 werden folgende Unterschiede für die zeitlichen Dauern vorgenommen. Dies zeigt die Tabelle II.

Tabelle II

Explosion der plosiven Phoneme bzw.

Sprachelemente (p, t, k, b„ d, g) der Phonemklasse T

Interne Pause vor dor Esplosion (oder Pitch bei b, d_s g)

Vollständige, zeitliohe Dauer der plosiven Phoneme bzw. Sprachelemente f—©

Vollständige, zeitliche Dauer der nicht·= plosiven Phonemklaseen fwie vokale, frikative, naaaxe und

andere Phonemklaesen (v, S₉ I₂ H)

	5	- 40 ms
T	65	- 200 ms
-	70	- 240 ms
-τ	LOO	- 300 me
T

309808/102

Durch diese Einteilung in Zeitklassen wird das sogenannte "Knacken" bei der Uebertragung von Nutzinformation eliminiert, so dass ein solches Störgeräusch keine Fehlentscheidung bewirken kann. Die in der Anordnung 281 vorhandene Unterteilung der Phonemklassen in Zeitklassen wird dazu benutzt, daee in der nachgeordneten Anordnung 282 diese Phoneme bzw. Spraohelemente segmentiert werden. Ein solches Segmentieren bedeutet die Aenderung des Spektrums in Verbindung mit dessen froyoho^physikalischen Wirkung (Energie χ Zeit),mit oder ohne Explosion. In der darauf folgenden Anordnung 283 werden die Phoneme erkannt. Ein solches Erkennen erfolgt durch eine Majoritätsentscheidung in der Matrize 279 oder durch Berechnung von Extremwerten der sogenannten vektoriellen Abstände zwischen den einzelnen Phonemen bzw. Sprachelementen.

In der zweiten logischen Schaltung 273 der Fig. 3b, welche der logischen Schaltung 142 der Fig. 2a entspriqht, sind die linguistischen Regeln programmiert. Wi.e bereits im Zusammen* hang mit der Fig. 2 beschrieben, wird in der zweiten logischen Schaltung 273 die Kombination der frikätiven, plosiven · und vokalen Sprachelemente erkannt, ee fryt^ zur Fig. 2 ist, dass die
Fig. 3b auchdi£_Jt©flrtrrriatTon der vokalen Spraohelemente

Im Folgenden werden die einzelnen in der zweiten logischen Schaltung vorgesehenen Anordnungen beschrieben. Die Verbindungen zwischen der ersten und der zweiten logischen Schaltung sind durch den. Pfeil 2721 symbolisiert. - i:

Die zweite logieche Schaltung 273 betrifft ι

- die möglichen Worte, die aus den Phonem-Kombinationen 284 resultieren; man verwendet« K=» zwei bie vier Vokale

01, OA, IA, 0IA, OIA(E)

K₀ => zwei bis vier Kotteonenten

TS, TN, SN, TSN, TSN(R)
Mit K = TSy+K_Q - vier bis aehn Phonemklaaaen und X* ■ fin bis zehn Phonemen pro Wort kann man theoretieoh 1«!^ Worte bilden. Hiervon sind etwa öle Hälfte be4uia lnter-

309808/1029

--15 -

national aussprechbar aber nur bis zu K = acht Klassen. *' In der folgenden Tabelle III sind einige Beispiele aufgeführt:

	K =	4	S	4	VJl	Tabelle III	7	8	9	10
				6
I		VJI		7	8	9	10
1		25	6	49	64	81	100
2		125	36	343	5-12	729	1000
3	16	626	216	2401	4096	6561	10000 ·
'4	64	3125.	1296	16807	32768	59049	100000
5	• 256	7776
	-

&UvCq

ein Grundwort 285 enthält möglichst niemals zwei anliegende Konsonanten CC;

eine Kardinalziffer null bis neun- 286 ist ein Grundwort, welches gebildet ist aus einem Vokal V oder aus einer Kombination Konsonant + Yolcal CV; eine Segmentierung erfolgt durch einen Vokal V. Der Punkt innerhalb einer Ziffernfolge oder innerhalb einer Büchstabenfolge bzw. ein Zwischenraum bedeutet eine _; externe Pause, die grosser ist als 0,5 Sekunden; eine Kardinal-Zahl 10 bis unendlich 287 besteht aus ununterbrochenem Aneinanderfügen von Kardinal-Ziffern wie z.B. VCVV... V...;

bei einer Ordinalzahl 288 wird am Ende V der Kardinalzahl ein ΙΊ hinzugefügt wie z.B. VCVV.... VN, oder siehe Instruktionswort; als arithmetischer Operator 289 wird ein VS* oder ein CVS· verwendet;

■bei Vorliegen eines Instrüktionswortes 290 enthält der Kode zwei aufeinanderfolgende Konsonanten wie z.B. VCCV*, VCCVC*, VCVCCV*, ...;

alphabetische Buchstaben 291 lassen sich erkennen, wenn ein Instruktionewort und eine Kardinalzahl 1 bis 26 vorliegen (oder phonetisches System);

die Wortsegmentierung 292 ergibt sich dadurch, dass am Ende eines Grundwortes ein Vokal V vorgeochen ist. Das Ende eines guearnmengeeetzton Y/orteo wird durch eine externe Pause ange-

t, welche grüöBer iot als 0,5 Sekunden*" "i.fe, it*.~$ao₎^i_v>\isuu~>a 7/)5 trqiU. *itk da iLuxh _t ctav» CU

die yfivr iU at, t ofcr S' ieU,^, >^ ₃ 0 9 8 0 8 / 1 0 2 9

- Speicher S^: a) Wort ohne Doppelkonsonanten CC : bis zu

X Vokalen = Zahl bis zu X Ziffern; b) Wort ab Doppelkonsonanten CC χ bis zu Y Vokalen (Instruktion);

- Speziairegeln 294: a) Kardinalziffer 0 bis 9t Grundwort

der Phonemklassen 0, I oder C+0, I, A; b) die Phonemklasse A, welche am Anfang eines Wortes angeordnet ist, ist reserviert, um Wiederholungen einzusparen;
_, / c) spezielle Doppelkonsonanten ST, SN;

- Wortjerkennung 29-^: Anwendung der in den Speiohern aufgenommenen Wortbildungsregeln. Selbst bei mangelhafter Aussprache werden die Worte noch richtig erkannt, eofern die Phoneme bzw. Schaltelemente in ihren Klassen bleiben, welche mit A, 0, I, (E), T, S, N, (R) bezeichnet sind.

Nach den in kurzen Worten geschilderten linguistiechen Regeln, welche in den einzelnen Vorrichtungen 284,285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295j&er zweiten logischen Schaltung 273 durchgeführt werden, werden die einzelnen Ziffern bzw. Buchstaben erkannt und auf Ausgabegeräte gegeben, wie sie z.B. in der Fig. 2 mit 145- gezeigt sind.

Die erfindungsgemässe Vorrichtung der Fig. 5 zeigt einen zur Pig. 3a unterschiedlichen Analysatorteil, welcher gemäss Pig. 5 die nicht-linearen Gesetze des Ohres bezüglich der Signalenergie nachahmt. Gemäss Pig. 5 sind ein Mikrophon 301, ein Magnettonband 302 und ein Vokoder 303 r welche unterschiedliche Frequenzbänder haben, über einen Schalter 300 wahlweise an die erfindungsgemässe Vorrichtung anschliessbar. Die verschiedenen Frequenzbereiche sind in der Fig. 5 genau wie in der Fig. 3a in die entsprechenden Blöcke eingetragen. Die verschiedenen Eingabegeräte wie ε.B. Mikrophon, Magnettonbandgerät, Vokoder, Bind über ihre Filter 304, 305, 306, welche da& SprachBpektrura zwischen etwa 200 und 3400 Hz normalisieren, an den Schalter 300 wahlweise anschlieesbar. Die

309808/1029

PiIter 304, 305, 306 haben daher eine Filterwirkung, welche den zugeordneten Eingabegeräten angepasst ist. Dies ist in der Fig. 5 durch die diversen Kurvenzüge in den die !"!lter repräsentierenden Blöcke gezeichnet. Im Folgenden sei nun angenommen, dass ein Magnettonband 302 über den Schalter 300 mit der erfindungsgemässen Vorrichtung verbunden ist. Die Sprachsignale aus dem Magnettonbandgerät 302 gelangen auf die parallel geschalteten Eingänge der selektiven Amplitudenkompressoren 307, 308, 309, 310, 311. Ein solcher selektiver Amplitudenkompressor ist bereits in einer früheren Patentanmeldung des gleichen Anmelders (britische Patentanmeldung Ho.23111/71) beschrieben worden. Im Folgenden werden die verschiedenen Ainplitudenkompressoren im Zusammenhang mit der Fig. 5 nur so weit erklärt, wie es für den Zusammenhang des Verständnisses zweckdienlich ist. Der Kompressor 307 dient zum Trennen der plosiven und der frikativen Phonemklassen T und S. In den Amplitudenkompressoren 308, 309, 310 werden die charakteristischen Spektren der Phoneme L von der Dynamik getrennt. Der Kompressor 311 dient zur Trennung der Grundfrequenz (Pitch) von den anderen Frequenzkomponenten. Der plosive Kompressor 307 enthält ein Filter 312, welches als Hochpassfilter mit 800 Hz ausgebildet ist, sowie einen variablen Verstärker, Der variable Verstärker besteht aus einem konstanten Verstärker 313 mit einem Multiplikator 314, einer Rückwärtsschleife mit einem Filter 315, dessen Durchlassfrequenz 500 bis 3500 Hz beträgt., einem Verstärker 316, einem Gleichrichter 317 und einem Tiefpass 318. Der variable Verstärker besitzt ungefähr eine steigende Zeitkonstante T₁₁.* = 10 ms und eine fallende Zeitkonstante T-i-o = 30 ms. Dieser Kompressor reguliert auf verschiedene Art und Weise langsam steigende Phoneme wie z.B. die Phoneme der frikativen und der plosiven Klasse S, T. Wenn a.B. ein Signal, welches dem Wort ¹¹SATI" gejiiUss dem Kurvonzug 32L entspricht, weiter durch den'Uaridpass 318 (Frequem;; BOO Mo 3500. Hu), den Gleichrichter 319 und den TLefpaMa .520 (i'iüquens: 0 bis 70 Ha) behandelt wird, so entsteht die Kurve 321, welche die zeitliche Ver-

309808/1029

teilung der Energie E zeigt. Die Kurve 321 zeigt, dass der Kompressor 307 mit dem Kanal C28 die ploaive Phonemklasse T von der frikativen Phonemklasae S trennt. Der Amplitudenkompressor 307 kann auch einen zweiten variablen Verstärker besitzen, der duroh die folgenden Elemente dargestellt iatt einen konstanten Verstärker 322 mit Multiplikator 3231 eine Vorwärtsschleife mit Verstärker 324» einen Gleichrichter und einen Tiefpass 326, Dieser Tiefpass besitzt eine steigende und eine fallende Zeitkonstante T^_v^ ^Ä %_ri bzw. ^Iv2 ⁼ ^Ir2* ^^er Kompressor mit der einfachen Schleife, welche auch als Rückwärtsschleife bezeichnet wird ("r" = rückwärts) liefert ein einfaches logarithmisches Gesetz der Amplitudenregulierung. Der Kompressor mit zweifacher Schleife, welcher sowohl die Rückwärtsschleife ^Hr" als auch die Vorwärtseohleife "v" besitzt, liefert ein doppellogarithmiaohes oder Potenz-Gesetz, welches dem Verhalten des Ohres entspricht. Je nach Stellung der Schalter 327 und 32Θ wirkt der Kompressor 307 mit einfacher oder zweifacher Schleife. Die Vorwärtsschleife 324, 325, 326 kann eventuell durch die punktierte Verbindung mit dem Uebertrager 329 ersetzt werden, wandte. /ktsJoaj&Uvcieru^ dir"

Dem selektiven Amplitudenkompressor 307 sind die Bandpässe 331, 332, 333, 334, 335, 336 und die entsprechenden Gleichrichter einschliesslich Tiefpässen in gleicher Weise wie der Gleichrichter 319 und der Tiefpass 320 des Kanals C28 nachgeschaltet. Die Bandpässe 331 bis 336 der KanUle C21¹ bis C26¹ trennen die Spektren der ploaiven Phonemklasse T von den Spektren dor Vokale V. Diese Unterscheidung erfolgt auch dann, wenn die Vokale V plötzlich elnnetzen sollten und eine gewisse AehnLluhkolt mit den pLoeiven Phonemen bzw. Sprachelementen haben noilten. Die oaiektlvtn Amplituden·· kompresnoren 30Π, 509, 71.0 Bind In ßielchor TJoliJO aufgebaut wLe der eben beuoltrLubono oelektLvo AmplltudenkontpreDHur 307» Die Kompressoren-'lüH, 509, 310 htibm 'Ho Eingtil|gtirnt,er 3X₅ 330, 339, «Ue Vor;-türkor 341 bla 'M"., (Uo Jlultipl lit Uoran 347 bia 352» die 7ortvii.rt8uoiilüifon mit· ihm Β'.ιηήρϋΒΐίΒΐι 334 i>ia

■■* ■■ ■.- ' · * ■ '

1QiU

' 355, die Verstärker 356 bis 358, die Gleichrichter 359 ; 361, die Tiefpässe 362 bis 364 und die entsprechenden Vor_ wärtsschleifen 365 bis 373 oder die üebertrager 374 bis 376. Bei den erwähnten Tiefpässen 362, 363, 364, -371, 372, 373 sind die steigenden bzw. fallenden Zeitkonstanten Tp -j » ^PvI* b^zw· ^2r2* ^2v2 ^verscni^e^^en· Die steigende Zeitkonstante beträgt ungefähr 1 ms und die fallende Zeitkonstante beträgt ungefähr 10 ms. Polglich werden die Explosionen der plosiven Phoneme bzw. Sprachelemente der Klasse T unterdrückt. Nach Behandlung durch die Bandpässe 381 bis jöfi/dlV Gleichrichter wie 3ö2 und die Tiefpässe ^ wie W7 (0 bis 50 Hz) erscheint auf den Kanälen 021 bis C27 das Wort ¹¹SATI" entsprechend der Energiekurven wie sie z.B. nur für den Kanal C27 in der Pig. 5 gezeigt"ist. Hierdurch werden die quasi-stationären Spektren (Pormanten) von der Dynamik 385 getrennt, welche z.B. durch daB Pehlersignal am Ausgang des Tiefpasses 362 erscheint IKa#ui0 C26).

Der selektive Amplitudenkompressor 311 dient zur Extraktion (Pitch) der Grundfrequenz. Dieser Kompressor enthält einen Eingangsfilter 5&e(mit der Durchlassfrequenz von 95 bis 100 Hz), Verstärker 387 t 388, Multiplikatoren 389, 390, Eückwärtsschleifen und Vorwärtsschleifen mit' dem gemeinsamen Bandpass 391, den Verstärkern 392, 393, den Gleichrichtern 394, 395, den Tiefpässen 396, 397. Die steigende Zeitkonstante beträgt bei diesem Kompressor ungefähr 4 ms und die fallende Zeitkonstante beträgt ungefähr 20 ms. Die eben genannten Bauelemente 393, 395, 397 können durch den Üebertrager 398 ersetzt werden. Dem Kompressor 311 nachge-Bchaltet eind die Kanäle C20 und C20¹. Der Kanal C20 enthält einen Bandpass 401 für die DurchlasBfrequenz von 95 biß 150 Hz, einen Gleichrichter 402 und einen Trigger 403, so dasH eine Anzeige "ja-nein" für die Grundfrequenz angegeben werden kann. Hiermit werden stimmhafte Phoneme L von stimmlosen bzw. geflüsterten Phonemen L getrennt. Der Kanal C20· enthält einen Nulldurchganßö-Detektor 404 und einen Zähler 405, so dass die Grundfrequenz (Pitch oder Melodie)

309808/1029

z.B. von 80 bis 400 Hz gemessen und angezeigt wird. Die Anordnung 386 bis 405 säubert die Grundfrequenz von den höheren Komponenten, wobei der Kompressor 311 jeweils die Energie der Grundfrequenz regeneriert.

Die durch die Vorrichtung 301 bis 405 gewonnenen Informations elemente können den Triggern 406, 407 bzw. den logischen Schaltungsanordnungen 4-öe, 4-69 zugeführt werden. Diese beiden logischen Schaltanordnungen, welche lediglich symbolhaft in der Fig. 5 dargestellt sind, entsprechen den beiden Schaltungen 139 und 142 der Fig. 2 und den logischen Schaltungen 271, 272, 273 der Fig. 3a und 3b. Wie schon im Zusammenhang mit den Fig. 2, 3a, 3b gesagt, werden die Informationselemente in den logischen Schaltungen 40», 4Φ9 der Fig. 5 in gleicher Weise verarbeitet und dienen der Steuerung von bestimmten Maschinen.

Abschliessend sei noch erwähnt, dass bei der Diskussion der Fig. 5 angenommen wurde, dass die Eingabe von dem Magnettongerät 302 erfolge. Wenn nun die Eingabe vom Mikrophon 301 erfolgt, so wird ein Mikrophon verwendet, welches gegen Umgebungsgeräusche nahezu unempfindlich ist. Ferner eliminieren Schwellwerte bei den einzelnen Amplitudenkompressoren 307 bis 311 und Schwellwerte in den logischen Schaltungen 408, 409 die akustische Energie, welche der Sprache nicht entspricht. Die Fig. 6 zeigt vier Entscheidungs-Matrizen 421, 422, 423, 424, welche die binären Informationen der Plosiv- und Spektrum-Kanäle C21, 022, C23, C24, C25,. C26, 027, C28 sowie die Kanäle 021 ·, 022', C23¹, 024·, C25¹, 026· der Fig. 5 auswerten. Diese Informationen gelangen auf die Zeilen 425 bis 433 der in der Fig. 6 gezeichneten Entscheidungs-Matrizen. Wie die Fig. 6 zeigt, können mit der Matrize 421 die sechs Phonemklassen 0, A, I, S, T, N voneinander getrennt werden. Die Matrize422 trennt die acht Phonemklassen 0, A, I, E, S, SH, T, N. Wenn der Kanal C30 der Fig. 5 gemäss Zeile 434 der Fig. 6 eingesetzt wird, kann der Zeitabstand zwischen den plosiven Phonemen bzw. Spracheleme.nten der Klasse T

309808/1029

und den nachfolgenden Vokalen der Klasse V angegeben werden. Dieser Zeitabstand ist kleiner nach den Phonemen "p" und "t" (10 ms bis 20 ms) als nach dem Phonem "k" (30 ms bis 40 ms). Die Matrize 423 trennt damit die Phoneme ρ und t (Klasse p) von dem Phonem k (Klasse K). Man kann auch den Vokal U (u) hinzufügen, der aber von ο schwer zu trennen ist, oder den Vokal Y (y), der aber nicht international gültig ist. Wenn nun Kanal 020 der Pig. 5 gemäss Zeile 435 der Pig. 6 in .die Entseheidungs-Matrizenzugefügt wird (Pitch: ja-nein), so kann durch die Anordnung der Matrize 424 auch geflüsterte Sprache kodiert werden. Eventuell kann ein weiterer Kanal C20' (Zeile 436 der Pig. 6) bis zu 128 Tonhöhen der Grundfrequenz angeben (7 bit), und Kanal C29 (Zeile 437) bis zu 64 Betonungsgrade (6 bit) der Dynamik.EV*^W.ci^f^^

Die Pig. 7 zeigt eine geometrische und farbenmässige Darstellung von vier Sprachkodes 425 bis 428, welche Kodes wie folgt bezeichnet sind: OTISA, SOTINA, SOTINAE, SOTINASHE. Diese Kodes haben fünf, sechs, sieben, acht Phonemklassen, was mit L = 5> 6, 7» 8 bezeichnet ist. Diese Klassen sind in einem Fünfeck 429) einem Sechseck 430, einem Siebeneck 431 oder in einem Achteck 432 gezeichnet. Das Vokal-Viereck

433 0, A, I, E kann durch die hellen Farben Rosa, Gelb, Gelbgrün, Grün dargestellt werden. Das Konsonant-Viereck

434 N, SH, S, T kaml· durch die dunklen Farben Braun, Türkis, Blau, Violett dargestellt werden. Das Sechseck 430 kann in ein Vokal-Dreieck 435 und in ein Konsonant-Dreieck 436 aufgeteilt werden. Ein Farbkode kann das Erlernen eines Sprachkodes erleichtern. Die Phoneme vom Kode "SOTINA" können "sotina" ausgesprochen werden. Sie können auch als "shupema" usw. ausgesprochen werden. Wesentlich hierbei ist, dass nur die Klassen der Phoneme respektiert werden, ϊϊϋί,Ιίοάο,

Fig. 8 zeigt einige mögliche Grundworte von Zahlenkodes für hull bis neun wie 0,1, TO, TI, TA, SO, SI, SA, AI, AO oder NO, I, TO, TI, TA, SO, SI, SA, NI, NA usw. gemäss den Zeilen 45? bis Ä.

309808/1029

22A0557

Anhand der folgenden Tabellen IV bis XIII soll gezeigt werden, dass die crfindungsgemässe Vorrichtung der Pig. 2, 3a, 3b und 5 für viele Anwendungsgebiete der Spracherkennung benutzt werden kann. In diesen Tabellen ist ein erweitertes System des schon erwähnten Kodes "SOTINA" aufgeführt. Mit diesem erweiterten System können alle alphabetischen Sprachen kodiert werden.

Tabelle IV

1. Kardinalzahlen; enden mit V, bestehen aus 0,1 oder T,S,N + A,0,I

A= mit (erspart Wiederholungen); NO = frei (event. = null)

1
I

23456789 TO TI TA SO SI SA NI NA

10 20 100 124 1972 IO TOO 100 ITOTA INASATO

Tabelle V

1.000 =

1 mit 3 Nullen

IATIO

10.000 =

1 mit 4 Nullen

IATAO

100.000 =

1 mit 5 Nullen

IASOO

10¹²=*

1 mit 12 Nullen

IAITOO

Tabelle VI

2.	Ordinalzahlen:	Kardinalzahlen	5. 6. • SON· SIN·	+ N	+ Pause	(Pause	10. ION·	= (·)<	C	•	1,5 sec)
		4. TAN	7. SAN·	8. 9. NIN- NAN·	ICOO. IATAON	342222. TITAATATON.
O. ON-	1. 2. 3. IN· TON· TIN·

Tabelle VII

3. Arithmetische Operatoren: Grundwort +	grosser als	kleiner als	plus	mal	S + Pause	minus	durch	koma
gleich	>	<	+	X	Potenz	-	:
=	AS-	IS-	TOS-	TIS-		NOS-	NIS.	ITAS·
OS-	TAS-

4. Pausen s Punkte oder Abstände

nach einem Wort (*)J>0,5 sec . nach einem Satz (·.) ^> 2 see

Tabelle VIII
5. Instruktionswort: anfänglich A, zwei anliegende Konsonanten, CC

kardinal

ASTA.

ordinal
ASTAN·

aiphabet ASTASO·

stop ASTOT'

start Berg {Löschen
ASTAT- ANANT

t.ösche:
A SHO ■

Telephon- Nummer ASTANO·

binär
ASTAI· TO TL

oktal
ASTAO'

NO NI TO.TI TA SO SI SA

309808/1029

Tabelle IX

6. Alphabe i I (Zahlenyys kern für Buchstabieren). Instruktion ASTASO'IIi·

bcdefghijklm n ο 2 3 4 5 6 7 8 9 10 11 12 13 14 15 TO TI TA SO Sl SA ITI. NA IO II ITO ITI ITA ISO

pqr
16 17 18
ISI ISA IK

stuv w χ y ζ 19 20 21 22 23 24 25 26-INA TOO TOI TOTO TOTI TOTA TOSO TOSI

Tabelle X ·

7. Alphabet II; Phonetisches System für Buchstabieren.

Instruktion: ASTASO·TOT·

a e

A IA

1 O U

I 0 IO

1 m η r l\^T0 NA NI NAO

c f sh SO SA SI STA

j ν w ζ

SOO SAO SAOSA SIO

ρ k q. t TO TA TIA TI

b g d χ y TOO TAO TIO TAS II

Tabelle XI

8. Beispiele; a) Kardinalzahlen. Instruktion ASTA· 700 9000 1 Milliarde ='10⁹ 0,000.002 = 2.10"⁶

SIO SAOO NAATIO

IANAO

0.NAS.SOOTO

Telephon-Nummer: 00 3 3 1 ASTANO- 00 TITI I

2 6 5 7 12 TITOSI SOSAITO

Tabelle XII

b) Buchstabieren, Alphabet I, Instruktion ASTASO.IN

Alphabet II,Instruktion ASTASO.TON

G

e

η

e

V

e

N

e

TOTI

Y

O

r

k

I.

SA

SO

ITA

SO

TOTO

SO

ITA

SO

SAOSA

TOSO

ISO

INI

II

II.

TAO

IA

HI

IA

SAO

IA

NI

IA

II

0

NAO

TA

	B	O	S	t	O	η
I.	TO	ISO	INA	TOO	ISO	ITA
II.	TOO	0	SI	TI	0	NI

30 9 8087102

- 24- Tabelle XIII

c) Bergnamen durch Höhenangabe (m), Instruktion ANAKT'

Mont-Blanc	4 6 0 7 TANIOSA	Monte Rosa	4 6J8 TASITINI	4	5	5	4 )TA	•
Matterhorn	4 4 8 2 TATANITO	Lysskanun	4 4 7 8 TATASANT	Dent-Blanche	4 3 6 4 TASISiTA
Jungfrau	4 16 6 TAISISI	Mönch	4 10 5 TAIOSO

Die nachfolgende Tabelle XIV zeigt eine ausführliche Darstellung des Kodes SETE (Zeile 122 der Fig. 1 und Tabelle 143 der Fig. 2). Damit können auch die Buchstaben des Alphabetes kodiert werden, z.B.

0 9 8 0 8/1029

Tabelle XIV (phonokode SETE, (binär-dezimal); S,T ausgesprochen SE/TE (E=E geflüstert)

1. Kardinal-Zahlen

0123456789 S· T* TS" TT* SS- ST- TTS- TTT- SSS- SST-

10 20 .·..-. 100

T-S*- TS-S·* T-S-S-

1972

T'SST-TTT-TS.

2. Alphabet I (numerisch)

1
T-

2
TS ·

3
TT·

4
SS·

5
ST

S-

6
• TTS·

7
TTT·

8 9
SSS· SST-

i

10
T-S-

11
T-T- T

12
•TS·

26
TS ·
Z

13
T-TT-

14 15
T»SS- T-ST·

■ 16
T-TTS·

17
T·ΤΤΤ·

a

b

σ

d

e

f

g

h

23
TS· TT-
W

j

k

1

m

η ο

P

q

18
T-SSS· T
r

19
-SST-
S

20
TS ·
t

21
TS-T--
U

22
TS'TS*
V

24
TS- SS-
X

25
TS* ST-.
Y

TTS·

3. Alphabet II (Morse)

; S,T ausgesprochen SE, TE

a

b

C

d

e f

t

g h i

j

k

X

1

ΐα·

η

a)

ST-

TSSS·

TSTS·

TSS*

T

TTS· SSSS· SS·

STTT· TST·

TSST-

STSS·

. TT·

TS-

b)

TS ·

STTT-

STST*

STT-

S- SSTS·

S

SST- TTTT* TT·

TSSS- STS-

STTS ·

TSTT-

SS·

ST·

O

P

g

r

T- TTST-

U V

W

■y

Z

a)

TTT-

.¹STTS.

TTST·

STS«

S

• SST· SSST·

STT*

TSTT·

TTS S ·

b)

sss·

TSST-

SSTS·

TST*

SSS«

• TTS- TTTS·

TSS-

STSS·

SSTT*

TTT·

Claims

Patentansprüche

1. Jspracherkennungsvorrichtung zum Steuern von Maschinen, in "welche Vorrichtung aus Sprachelementen bestehende Worte eingegeben werden, gekennzeichnet durch folgende Merkmale:

a) ein erstes Mittel (132) zum Peststellen der Gesamtenergie (134) des eingegebenen Wortes;

b) ein zweites Mittel (135) zum Feststellen der Steilheit der Anstiegsflanke (ti; t2) der Energie der Sprachelemente und somit zum Trennen der Klasse (T) der plosiven Sprachelemente (z.B. p, t, k) von der Klasse S der frikativen Sprachelemente (z.B s, sch, f);

- c) eine diesen Mitteln (132, 135) nachgeordnete erste logische Schaltung (139) zum Peststellen der zeitlichen Dauer jedea einzelnen Sprachelementes und der Pause zwischen den Sprachelementen;

d) eine zweite lpgisbhe Schaltung (142) zum Erkennen von Kombinationen der frikativen und plosiven Sprachelemente;

e) Ausgabemittel zum Steuern νοΛ Geräten (145) aufgrund der eingegebenen Worte.

2. Spracherkennungsvorrichtung zum Steuern von Maschinen, in welche Vorrichtung aus Sprachelementen bestehende VYorte eingegeben werden, gekennzeichnet durch folgende Merkmale»

b) ein zweites Mittel (135) zum Peststellen der Steilheit der Anstiegsflanke (ti; t2) der Energie der Sprachelemente und somit zum Trennen der Klasse (T) der plosiven Sprachelemente (z.B. p, t, k) von der Klasse (sjder frikativen Sprachelemente (z.B. s, sch, f);

c) ein drittes Mittel (151) zum PestetelleiTirtrerthonen, mitt-" leren und tiefon Frequenzen aller eingegebenen Sprachtl,emente und somit zum Unterteilen der Vokale in cuse^r Klassen}

d) eine diesen Mitteln (132, 135, 151) nachgeordnete erste ' logische Schaltung (139» 161) zum Feststellen der zeitlichen Dauer jedes einzelnen Spraohelementes und der Pause zwischen den Sprachelementen;

309808/1029

e) eine zweite logische Schaltung (142) zum Erkennen von Kombinationen der frikativen, plosiven und vokalen Sprachelemente;

f) Ausgabemittel zum Steuern von Geräten (145) aufgrund der eingegebenen Worte,

3. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der ersten logischen Schaltung (139) Stromkreise vorgesehen sind, welche zwischen den einzelnen Sprachelementen diejenigen Pausen feststellen, die kleiner sind als ca. 0,2 see, so dass die Sprachelemente segmentiert sind.

4. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung(142) Stromkreise vorgesehen sind, welche Pausen zwischen den einzelnen Sprachelementen feststellen, die grosser sind als 0,2 see, so dass die Kombinationen der Sprachelemente, welche auch als Worte bezeichnet werden, segmentiert werden.

5. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass

in der zweiten logischen Schaltung (142) Speichermittel vorgesehen sind, welche mindestens eine binäre und/oder eine dezimale Kodierung (143) speichern.

6. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in dem als Diskriminator ausgebildeten dritten Mittel (151) Schaltungen vorgesehen sind, die das Frequenzband der in der Eingabe (131) gelangenden Sprache in sechs Bänder unterteilen und somit sechs Phoneinklassen unterscheidbar sind,

7«. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, in der zweiten iogifichen Schaltung (.14 2) eine Einrichtung (281) -vor^euehan ist, welche die zeitliche Dauer der einzelnem Spruche!ernente und der Pausen in Zeitklaooen einteilt, no daso Knackgeräuüche und Atmungbgeräusohe ausgo-

.3 0 4 80B/ 102

8. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 273) Erkennungs-" mittel (163, 285) vorgesehen sind, welche das Ende eines jeden Grundwortes dadurch erkennen, dass ein Vokal vorhanden ist.

9. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daes

I4A0 in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine Matrize (2791 421) vorgesehen ist zum Erkennen von drei Konsonantenklassen und von drei Vokalklassen.

10. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine Matrize (422) vorgesehen ist zum Erkennen von vier Konsonantenklassen und von vier Vokalklassen.

11. Vorrichtung nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung

IiJ O

(142, 272, 4-Ö9) eine Matrize (423) vorgesehen ist zum Trennen von Plosivunterklassen.

12. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 272, 4-Ö9) eine Matrize (424) vorgesehen ist zum Erkennen von mindestens drei geflüsterten Vokalklassen.

13. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 273) Mittel (289) vorgesehen sind zum Starten einer arithmetischen Rechenoperation, und diese Mittel auf ein Grundwort mit einer Konsonantenklas&e und einer zeitlich folgenden Pause ansprechen.

309808/ 1029

14'. Vorr-lc^'-wUitcj nach /mnpruch 2, dadurch gekennzeichnet_r dass in der zwuitan logischen Schaltung (142, 273) Mittel (290) vorgesehen sind zum Aendern der Logik, und diese Mittel auf zwei bestimmte anliegende Kosonantenklassen ansprechen.

15. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142, 273) Mittel (29Ü) vorgesehen sind zum Vermeiden von Wiederholungen von Grundworten, und diese Mittel auf bestimmte anliegende Vokalklassen ansprechen.

16. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass in der zweiten logischen Schaltung (142) Stromkreise vorgesehen sind, welche Pausen zwischen den einzelnen Sprachelementen feststellen, die grosser sind als 2 Sekunden, so dass die Kombinationen der Worte, welche auch als Sätze bezeichnet werden, segmentiert werden.

17. Vorrichtung nach Anspruch 1, wobei die Vorrichtung einen Amplituden-Kompressor mit "Rückwärts- und Vorwärts-Schlelfa" enthält, dadurch gekennzeichnet, dass der Verstärker (324) , der Gleichtichter (325) und der Tiefpass (326) der "Vorwärta-Schleife" ersetzt werden durch einen Uebertrager (329) der daa Ausbalancieren der Schleifen erleichtert.

Gp/r/dh/cb 10.8.1972

309308/1029

BAD ORiQtNAt

Leerseite