-
Einrichtung zur Erkennung von Sprachlauten Die Erfindung betrifft
eine Einrichtung zur Erkennung von Sprachlauten mit einem Filterraster zur Frequenzanalyse,
bei der die gleichgerichtete Ausgangsspannung der Filter in aufeinanderfolgenden
Zeitintervallen abgetastet und als Kurzzeitspektrum der Sprechströme gespeichert
wird und bei der die entstehenden Muster der Laute und Lautverbindungen der Sprache
mit vorgegebenen Mustern verglichen werden.
-
Die bisher bekannten Versuche zur elektrischen Zerlegung von Sprache
in Laute beruhen auf der Frequenzanalyse der Laute. Bei diesen Versuchen wurde die
in elektrische Schwingungen umgesetzte Sprache einer Filterkombination zugeführt,
deren Einzelfilter schmale Durchlaßbereiche für jene Frequenzen aufweisen, die für
die zu erkennenden Laute charakteristisch sind. Ermittelt und für die Erkennung
ausgewertet wird hierbei also nur die spektrale Verteilung der Sprachenergie.
-
Diese Verfahren haben sich bisher nur in sehr beschränktem Umfang
und nicht eindeutig durchführen lassen, und man kann nur sagen, daß mit ihnen die
Erkennung von stetig ausgesprochenen Vokalen möglich ist, während sie bereits bei
der Erkennung von Diphthongen oder gar von einfachen Silben versagen.
-
Untersuchungen über die Verständlichkeit von synthetischer Sprache,
die aus einzelnen Lauten aufgebaut wird, haben ergeben, daß das Verstehen der Sprache
durch den Menschen nur zum kleinen Teil durch die Laute selbst, zum überwiegenden
Teil jedoch durch die Übergänge zwischen den Sprachlauten bedingt ist. Daraus kann
gefolgert werden, daß es auch mit Geräten nicht möglich sein kann, die Sprache eindeutig
zu erkennen, wenn nicht die Lautübergänge berücksichtig werden. Durch die obenerwähnten
Versuche und ihre Ergebnisse wird dies bestätigt.
-
Von dieser Erkenntnis geht ein weiterhin bekanntgewordener Vorschlag
aus.
-
Die Lautübergänge bestehen darin, daß die einzelnen Formanten der
Sprachlaute im allgemeinen nicht plötzlich von einem Laut zum anderen springen,
sondern mehr oder weniger stetig ineinander übergehen. Diese Zeitfunktionen der
Formanten können als Frequenz-Zeit-Muster aufgefaßt werden. Solche zweidimensionalen
Muster dienen daher in bekannter Weise zur Erkennung der Sprachlaute.
-
Bei einer auf diesem Prinzip dem Vocoder beruhenden Anordnung werden
die in elektrische Schwingungen umgesetzten Laute einer Kombination von z. B. acht
linearen Filtern zugeführt. Jedem Filter sind fünf Relaisspeicher zugeordnet, die
innerhalb eines Zeitabschnittes von 200 ms aufeinanderfolgend je für 40 ms an den
zugehörigen Filterausgang angeschlossen werden. Im ganzen sind also vierzig Relaisspeicher
vorhanden, die mit 1 bis 40 numeriert seien. Den Filtern 1 bis 8 sind die Relaisspeicher
1 bis 8 zugeordnet, die im ersten 40-Ins-Zeitraum angeschlossen werden und das vorliegende
Kurzzeitspektrum aufnehmen. Entsprechend sind auch die Relaisspeicher 9 bis 16 den
Filtern 1 bis 8 zugeordnet, werden aber im zweiten 40-ms-Zeitraum angeschlossen
usf., so daß dem Filter 1 z. B. die Relaisspeicher 1, 9, 17, 25, 33 zugehören,
dem Filter 2 die Speicher 2, 10, 18, 26,:34 usw., die in aufeinanderfolgenden Zeitabschnitten
von je 40 ms Dauer an den Ausgängen ihrer Filter liegen.
-
Stellt man sich die jeweils fünf einem Filterausgang zugeordneten
Relaisspeicher in acht untereinanderliegenden Zeilen angeordnet vor, so ergibt sich
ein zweidimensionales Speicherfeld, aus dessen aufeinanderfolgenden Spalten sich
nach Beaufschlagung der Anordnung durch die zu erkennende Lautverbindung die spektrale
Verteilung oder das Kurzzeitspektrum der aufeinanderfolgenden Zeitabschnitte ablesen
läßt.
-
Zeigt sich also am Ende des Beobachtungszeitraums beispielshalber,
daß die Relaisspeicher 1, 9, 17,
18, 26, 34 beaufschlagt sind, so ist dies
nicht nur eine Aussage dafür, daß die den Filtern 1 und 2 zugehörigen Frequenzen
f 1 und f 2 aufgetreten sind schlechthin, sondern bedeutet, daß die
Frequenz f 1 in den ersten drei 40-ms-Zeiträumen vorhanden war, die Frequenz F 2
dagegen im dritten bis fünften Zeitraum.
-
Ermittelt man nun empirisch durch vielfach wiederholtes Aussprechen
der zu erkennenden Lautverbindungen, welche Speicherkombinationen, also welches
Frequenz-Zeit-Muster, für sie eindeutig als charakteristisch anzusehen sind, so
kann man das Erkennen in bekannter Weise durch logische Verknüpfung
der
Speicherausgänge automatisieren und z. B. auf Grund der gesprochenen Lautverbindung
die entsprechende Type einer Aufzeichnungsapparatur zum Abdruck bringen, wie dies
beider RCA-Schreibmaschine der Fall ist.
-
Der aufeinanderfolgenden Anschaltung der acht Filterausgänge an die
Spalten des Speicherfeldes dient eine Abtast- bzw. Verteilerschalteinrichtung, deren
Arbeitsrhythmus zweckentsprechend gesteuert werden muß.
-
Der Festlegung des Beginns des Abtastvorgangs dient ein zusätzlicher
(im Beispiel neunter) breitbandiger übertragungskanal, der also das gesamte Sprachspektrum
passieren läßt. Übersteigt der Ausgangspegel dieses Kanals einen bestimmten Wert,
so wird die Abtasteinrichtung freigegeben. Sie läuft nun einmal durch, um bis zum
nächsten Anreiz, vor dem das gesamte Speicherfeld gelöscht sein muß, stillzuliegen.
-
Es ist klar, daß vor der Auswertung der gesamte Abtastzyklus abgelaufen
sein muß und daß im Augenblick der Auswertung das gesamte Speicherfeld in seinem
am Ende des Abtastzyklus erreichten Zustand verharren muß. Erst dann kann die Löschung
und damit Vorbereitung zum Erkennen des nächsten Lautes bzw. der nächsten Lautverbindung
folgen.
-
Das Erkennen ist mithin nur dann möglich, wenn die einzelnen Laute
bzw. Lautverbindungen (Silben) zeitlich ausreichend voneinander getrennt sind, zumal
gerade die spektrale Verteilung zu Beginn eines Sprachlautes für dessen Erkennung
wesentlich ist. Aber auch hiervon abgesehen ist es notwendig, die Abtastung stets
mit bestimmter Zeitrelation zum Beginn des Lautes vorzunehmen, und zwar natürlich
in der gleichen Relation, die bei der Bildung des dem Vergleich dienenden Frequenz-Zeit-Musters
beobachtet wurde.
-
Dieser Umstand dürfte der Verwendbarkeit des zuletzt geschilderten,
bereits mit Frequenz-Zeit-Mustern arbeitenden Verfahrens rasch eine Grenze setzen.
Das Endziel, nämlich die selbsttätige Erkennung und Aufzeichnung von in normalem
Fluß gesprochener Sprache, dürfte mit ihm auch bei Verwendung eines dichteren Frequenz-
und Zeitrasters und bei Einsatz verfeinerter Schaltmittel schwerlich erreichbar
sein. Der Einrichtung nach der Erfindung liegt hinsichtlich der Frequenzanalyse
ein ähnliches Prinzip wie der bekannten Einrichtung zu Grunde. Sie arbeitet mit
Frequenz-Zeit-Mustern und mit Amplituden-Frequenz-Zeit-Mustern. Dagegen erfolgt
die Speicherung der Momentanfrequenzen und die Identifizierung der Muster in anderer
Weise.
-
Aus der Zeichenerkannung ist es auch schon bekanntgeworden, ein Zeichen
nach der Abtastung codiert in magnetische Schieberegister einzuspeichern und eine
Korrelationsprüfung zwischen dem vorliegenden Zeichen und den fest verdrahteten
Vergleichszeichen durchzuführen. Die Auswertung der in dem Schieberegister gespeicherten
Information geschieht dabei eindimensional. i Bei der Erfindung wird dagegen das
Schieberegister laufend, d. h. nach jedem Abtastschritt, zweidimensional ausgewertet.
Die in einer Spalte eingeschriebenen Werte werden nicht wie bei der bekannten Anordnung
aufsummiert, sondern ebenso wie die in den Zeilen eingeschriebenen Werte einzeln
berücksichtigt.
-
Ausgehend von der Erkenntnis, daß die Erfassung von Sprache eine fortlaufende
Vergleichungsmöglichkeit mit den ermittelten, für die verschiedenen Laute und Lautverbindungen
charakteristischen Frequenz-Zeit-Mustern zur Voraussetzung hat, geht die von einer
Einrichtung zur Erkennung von Sprachlauten aus mit einem Filterraster zur Frequenzanalyse,
bei der die gleichgerichtete Ausgangsspannung der Filter in aufeinanderfolgenden
Zeitintervallen abgetastet und als Kurzzeitspektrum der Sprechströme gespeichert
wird und bei der die entstehenden Muster der Laute und Lautverbindungen der Sprache
mit vorgegebenen Mustern verglichen werden und zur Speicherung der während der Abtastintervalle
an den Filterausgängen vorliegenden Amplituden ein zweidimensionaler Verschiebespeicher
dient. Erfindungsgemäß dient der Verschiebespeicher zur zweidimensionalen Auswertung,
und dessen Zeilenzahl ist der Filterzahl mindestens gleich, während jeder Abtastpariode
wird das jeweils vorliegende Frequenz-Zeit-Muster zweidimensional mit vorgegebenen
Mustern, insbesondere der Lautübergänge, verglichen.
-
Die Einrichtung nach der Erfindung soll nun an Hand des in der Zeichnung
dargestellten Prinzipschemas näher erläutert werden. Für die Erläuterung der Erfindung
nicht wesentliche, im übrigen an sich bekannte Teile sind in dem Schema weggelassen,
so z. B. dem Mikrophon nachgeordnete Einrichtungen zur Amplitudenkompression und
Volumenregelung sowie Verstärker und Glättungsmittel.
-
Die Sprache wird vom Mikrophon M aufgenommen und in elektrische Schwingungen
umgesetzt. Diese werden einem Raster von Bandfiltern F zugeführt, das den zur Erkennung
herangezogenen Spektralbereich der Schwingungen überdeckt. Die Durchlaßbereiche
der Bandfilter schließen aneinander an, so daß an ihren Ausgängen in jedem Zeitpunkt
das Kurzzeitspektrum der Sprache steht.
-
Dieses Spektrum variiert zeitlich und folgt den Schwankungen der Sprachlaute,
wenn die Bandbreite der Filter genügend groß ist. Versuche haben gezeigt, daß dazu
bei niedrigen Frequenzen die Bandbreite mindestens 30 Hz betragen muß, bei höheren
Frequenzen genügt eine Bandbreite von 10 % der Mittelfrequenz.
-
Die Ausgangsspannungen der Filter werden über die Gleichrichter D
geführt. Die gleichgerichteten und geglätteten Impulse am Ausgang dieser Gleichrichter
haben entsprechend den Eigenschaften der Sprache und der Filter F eine Zeitdauer
zwischen etwa 2 und einigen 100 ms.
-
Sie werden nun gemäß der Erfindung über Impulsschalter S dem zweidimensionalen
Verschiebespeicher Sp, z. B. einem Magnetkernspeicher, zugeführt. Die Impulsschalter
S werden mittels des Impulsgenerators 1 periodisch kurzzeitig geöffnet, z. B. alle
20 ms für eine Dauer von etwa 1 ms, so daß dem Speicher Sp kurze Impulse periodisch
zufließen, deren Amplituden dem augenblicklichen Spektrum der Sprache entsprechen
und deren durch den Impulsgenerator I bestimmte Frequenz im Beispiel 50 Hz beträgt.
-
Die Kurzzeitspektren der Sprechströme können dem Verschiebespeicher
also in Gestalt einer Pulsamplitudenmodulation zugeführt werden. Die Impulse werden
jeweils auf der ersten Spalte von Sp gespeichert und vom Impulsgenerator I im gleichen
Rhythmus, also alle 20 ms, nach rechts in die folgenden Spalten fortgeschaltet.
Auf dem zweidimensionalen Verschiebespeicher entsteht dann laufend ein bestimmtes
Frequenz-Zeit-Muster, wobei die Verweilzeit,
d. h. die Zeitdauer,
über die sich das Muster erstreckt, durch die Zahl der Spalten des Speichers und
die Fortschaltefrequenz bestimmt ist. In dem Beispiel würde sich bei fünfzig Spalten
eine Verweilzeit von 1 Sekunde ergeben. Die Koinzidenz dieser Frequenz-Zeit-Muster
mit einem bestimmten gewünschten Muster kann in bekannter Weise durch eine aus UND-Schaltungen
bestehende Schaltungskombination Z festgestellt werden. Der dadurch bei K entstehende
Ausgangsimpuls kann zur weiteren Auswertung, z. B. zur selbsttätigen Steuerung von
Aufzeichnungsorganen, benutzt werden.
-
Eine Vereinfachungsmöglichkeit ergibt sich dadurch, daß die Veränderungen
des Spektrums bei den niedrigen Frequenzen langsamer vor sich gehen als bei den
höheren. Die Taktfrequenz für die ImpulsschalterS und für die Fortschaltimpulse
kann daherbei den niedrigen Frequenzen niedriger gewählt werden.
-
Eine Abtast- und Fortschalteperiode von 20 ms ist, wie oben bemerkt,
nur als Beispiel zu werten. Aus den bekannten Versuchen mit dem sogenannten Vocoder
kann geschlossen werden, daß nur verhältnismäßig langsame Änderungen der Amplituden
in den einzelnen Kanälen berücksichtigt werden müssen. Es kommen daher Perioden
von etwa 2 bis 50 ms in Betracht.
-
Jene Impulsschalter S samt den zugeordneten Zeilen des Verschiebespeichers,
die mit der gleichen Impulsfrequenz betätigt bzw. fortgeschaltet werden sollen,
wird man zweckmäßig jeweils in Gruppen zusammenfassen und gemeinsam steuern.
-
Wenn oben festgestellt wurde, daß einem Filterausgang mindestens eine
Zeile des Verschiebespeichers zugeordnet ist, so soll damit der Hinweis gegeben
werden, daß das Auflösungsvermögen der Einrichtung im Bedarfsfalle noch dadurch
erhöht werden kann, daß einem Filterausgang mehrere Zeilen zugeordnet sind und eine
vorgeschaltete Amplituden-Selektions-Vorrichtung dafür sorgt, daß die in einem bestimmten
Amplitudenbereich anfallenden Impulse in jeweils eine bestimmte Zeile eingespeist
werden, so daß ein »Amplituden-Frequenz-Zeit-Muster« entsteht. Auch andere bekannte
Verfahren können dazu benutzt werden, wie z. B. die Einstellung bestimmter Amplituden
in den Speicherzellen mit Hilfe von Transfluxoren.