DE1163567B

DE1163567B - Einrichtung zur Erkennung von Sprachlauten

Info

Publication number: DE1163567B
Application number: DEK36091A
Authority: DE
Inventors: Dr-Ing E H K Kuepfmueller
Original assignee: E H K KUEPFMUELLER DR ING
Current assignee: E H K KUEPFMUELLER DR ING
Priority date: 1958-10-31
Filing date: 1958-10-31
Publication date: 1964-02-20

Description

Einrichtung zur Erkennung von Sprachlauten Die Erfindung betrifft eine Einrichtung zur Erkennung von Sprachlauten mit einem Filterraster zur Frequenzanalyse, bei der die gleichgerichtete Ausgangsspannung der Filter in aufeinanderfolgenden Zeitintervallen abgetastet und als Kurzzeitspektrum der Sprechströme gespeichert wird und bei der die entstehenden Muster der Laute und Lautverbindungen der Sprache mit vorgegebenen Mustern verglichen werden.
Die bisher bekannten Versuche zur elektrischen Zerlegung von Sprache in Laute beruhen auf der Frequenzanalyse der Laute. Bei diesen Versuchen wurde die in elektrische Schwingungen umgesetzte Sprache einer Filterkombination zugeführt, deren Einzelfilter schmale Durchlaßbereiche für jene Frequenzen aufweisen, die für die zu erkennenden Laute charakteristisch sind. Ermittelt und für die Erkennung ausgewertet wird hierbei also nur die spektrale Verteilung der Sprachenergie.
Diese Verfahren haben sich bisher nur in sehr beschränktem Umfang und nicht eindeutig durchführen lassen, und man kann nur sagen, daß mit ihnen die Erkennung von stetig ausgesprochenen Vokalen möglich ist, während sie bereits bei der Erkennung von Diphthongen oder gar von einfachen Silben versagen.
Untersuchungen über die Verständlichkeit von synthetischer Sprache, die aus einzelnen Lauten aufgebaut wird, haben ergeben, daß das Verstehen der Sprache durch den Menschen nur zum kleinen Teil durch die Laute selbst, zum überwiegenden Teil jedoch durch die Übergänge zwischen den Sprachlauten bedingt ist. Daraus kann gefolgert werden, daß es auch mit Geräten nicht möglich sein kann, die Sprache eindeutig zu erkennen, wenn nicht die Lautübergänge berücksichtig werden. Durch die obenerwähnten Versuche und ihre Ergebnisse wird dies bestätigt.
Von dieser Erkenntnis geht ein weiterhin bekanntgewordener Vorschlag aus.
Die Lautübergänge bestehen darin, daß die einzelnen Formanten der Sprachlaute im allgemeinen nicht plötzlich von einem Laut zum anderen springen, sondern mehr oder weniger stetig ineinander übergehen. Diese Zeitfunktionen der Formanten können als Frequenz-Zeit-Muster aufgefaßt werden. Solche zweidimensionalen Muster dienen daher in bekannter Weise zur Erkennung der Sprachlaute.
Bei einer auf diesem Prinzip dem Vocoder beruhenden Anordnung werden die in elektrische Schwingungen umgesetzten Laute einer Kombination von z. B. acht linearen Filtern zugeführt. Jedem Filter sind fünf Relaisspeicher zugeordnet, die innerhalb eines Zeitabschnittes von 200 ms aufeinanderfolgend je für 40 ms an den zugehörigen Filterausgang angeschlossen werden. Im ganzen sind also vierzig Relaisspeicher vorhanden, die mit 1 bis 40 numeriert seien. Den Filtern 1 bis 8 sind die Relaisspeicher 1 bis 8 zugeordnet, die im ersten 40-Ins-Zeitraum angeschlossen werden und das vorliegende Kurzzeitspektrum aufnehmen. Entsprechend sind auch die Relaisspeicher 9 bis 16 den Filtern 1 bis 8 zugeordnet, werden aber im zweiten 40-ms-Zeitraum angeschlossen usf., so daß dem Filter 1 z. B. die Relaisspeicher 1, 9, 17, 25, 33 zugehören, dem Filter 2 die Speicher 2, 10, 18, 26,:34 usw., die in aufeinanderfolgenden Zeitabschnitten von je 40 ms Dauer an den Ausgängen ihrer Filter liegen.
Stellt man sich die jeweils fünf einem Filterausgang zugeordneten Relaisspeicher in acht untereinanderliegenden Zeilen angeordnet vor, so ergibt sich ein zweidimensionales Speicherfeld, aus dessen aufeinanderfolgenden Spalten sich nach Beaufschlagung der Anordnung durch die zu erkennende Lautverbindung die spektrale Verteilung oder das Kurzzeitspektrum der aufeinanderfolgenden Zeitabschnitte ablesen läßt.
Zeigt sich also am Ende des Beobachtungszeitraums beispielshalber, daß die Relaisspeicher 1, 9, 17, 18, 26, 34 beaufschlagt sind, so ist dies nicht nur eine Aussage dafür, daß die den Filtern 1 und 2 zugehörigen Frequenzen f 1 und f 2 aufgetreten sind schlechthin, sondern bedeutet, daß die Frequenz f 1 in den ersten drei 40-ms-Zeiträumen vorhanden war, die Frequenz F 2 dagegen im dritten bis fünften Zeitraum.
Ermittelt man nun empirisch durch vielfach wiederholtes Aussprechen der zu erkennenden Lautverbindungen, welche Speicherkombinationen, also welches Frequenz-Zeit-Muster, für sie eindeutig als charakteristisch anzusehen sind, so kann man das Erkennen in bekannter Weise durch logische Verknüpfung der Speicherausgänge automatisieren und z. B. auf Grund der gesprochenen Lautverbindung die entsprechende Type einer Aufzeichnungsapparatur zum Abdruck bringen, wie dies beider RCA-Schreibmaschine der Fall ist.
Der aufeinanderfolgenden Anschaltung der acht Filterausgänge an die Spalten des Speicherfeldes dient eine Abtast- bzw. Verteilerschalteinrichtung, deren Arbeitsrhythmus zweckentsprechend gesteuert werden muß.
Der Festlegung des Beginns des Abtastvorgangs dient ein zusätzlicher (im Beispiel neunter) breitbandiger übertragungskanal, der also das gesamte Sprachspektrum passieren läßt. Übersteigt der Ausgangspegel dieses Kanals einen bestimmten Wert, so wird die Abtasteinrichtung freigegeben. Sie läuft nun einmal durch, um bis zum nächsten Anreiz, vor dem das gesamte Speicherfeld gelöscht sein muß, stillzuliegen.
Es ist klar, daß vor der Auswertung der gesamte Abtastzyklus abgelaufen sein muß und daß im Augenblick der Auswertung das gesamte Speicherfeld in seinem am Ende des Abtastzyklus erreichten Zustand verharren muß. Erst dann kann die Löschung und damit Vorbereitung zum Erkennen des nächsten Lautes bzw. der nächsten Lautverbindung folgen.
Das Erkennen ist mithin nur dann möglich, wenn die einzelnen Laute bzw. Lautverbindungen (Silben) zeitlich ausreichend voneinander getrennt sind, zumal gerade die spektrale Verteilung zu Beginn eines Sprachlautes für dessen Erkennung wesentlich ist. Aber auch hiervon abgesehen ist es notwendig, die Abtastung stets mit bestimmter Zeitrelation zum Beginn des Lautes vorzunehmen, und zwar natürlich in der gleichen Relation, die bei der Bildung des dem Vergleich dienenden Frequenz-Zeit-Musters beobachtet wurde.
Dieser Umstand dürfte der Verwendbarkeit des zuletzt geschilderten, bereits mit Frequenz-Zeit-Mustern arbeitenden Verfahrens rasch eine Grenze setzen. Das Endziel, nämlich die selbsttätige Erkennung und Aufzeichnung von in normalem Fluß gesprochener Sprache, dürfte mit ihm auch bei Verwendung eines dichteren Frequenz- und Zeitrasters und bei Einsatz verfeinerter Schaltmittel schwerlich erreichbar sein. Der Einrichtung nach der Erfindung liegt hinsichtlich der Frequenzanalyse ein ähnliches Prinzip wie der bekannten Einrichtung zu Grunde. Sie arbeitet mit Frequenz-Zeit-Mustern und mit Amplituden-Frequenz-Zeit-Mustern. Dagegen erfolgt die Speicherung der Momentanfrequenzen und die Identifizierung der Muster in anderer Weise.
Aus der Zeichenerkannung ist es auch schon bekanntgeworden, ein Zeichen nach der Abtastung codiert in magnetische Schieberegister einzuspeichern und eine Korrelationsprüfung zwischen dem vorliegenden Zeichen und den fest verdrahteten Vergleichszeichen durchzuführen. Die Auswertung der in dem Schieberegister gespeicherten Information geschieht dabei eindimensional. i Bei der Erfindung wird dagegen das Schieberegister laufend, d. h. nach jedem Abtastschritt, zweidimensional ausgewertet. Die in einer Spalte eingeschriebenen Werte werden nicht wie bei der bekannten Anordnung aufsummiert, sondern ebenso wie die in den Zeilen eingeschriebenen Werte einzeln berücksichtigt.
Ausgehend von der Erkenntnis, daß die Erfassung von Sprache eine fortlaufende Vergleichungsmöglichkeit mit den ermittelten, für die verschiedenen Laute und Lautverbindungen charakteristischen Frequenz-Zeit-Mustern zur Voraussetzung hat, geht die von einer Einrichtung zur Erkennung von Sprachlauten aus mit einem Filterraster zur Frequenzanalyse, bei der die gleichgerichtete Ausgangsspannung der Filter in aufeinanderfolgenden Zeitintervallen abgetastet und als Kurzzeitspektrum der Sprechströme gespeichert wird und bei der die entstehenden Muster der Laute und Lautverbindungen der Sprache mit vorgegebenen Mustern verglichen werden und zur Speicherung der während der Abtastintervalle an den Filterausgängen vorliegenden Amplituden ein zweidimensionaler Verschiebespeicher dient. Erfindungsgemäß dient der Verschiebespeicher zur zweidimensionalen Auswertung, und dessen Zeilenzahl ist der Filterzahl mindestens gleich, während jeder Abtastpariode wird das jeweils vorliegende Frequenz-Zeit-Muster zweidimensional mit vorgegebenen Mustern, insbesondere der Lautübergänge, verglichen.
Die Einrichtung nach der Erfindung soll nun an Hand des in der Zeichnung dargestellten Prinzipschemas näher erläutert werden. Für die Erläuterung der Erfindung nicht wesentliche, im übrigen an sich bekannte Teile sind in dem Schema weggelassen, so z. B. dem Mikrophon nachgeordnete Einrichtungen zur Amplitudenkompression und Volumenregelung sowie Verstärker und Glättungsmittel.
Die Sprache wird vom Mikrophon M aufgenommen und in elektrische Schwingungen umgesetzt. Diese werden einem Raster von Bandfiltern F zugeführt, das den zur Erkennung herangezogenen Spektralbereich der Schwingungen überdeckt. Die Durchlaßbereiche der Bandfilter schließen aneinander an, so daß an ihren Ausgängen in jedem Zeitpunkt das Kurzzeitspektrum der Sprache steht.
Dieses Spektrum variiert zeitlich und folgt den Schwankungen der Sprachlaute, wenn die Bandbreite der Filter genügend groß ist. Versuche haben gezeigt, daß dazu bei niedrigen Frequenzen die Bandbreite mindestens 30 Hz betragen muß, bei höheren Frequenzen genügt eine Bandbreite von 10 % der Mittelfrequenz.
Die Ausgangsspannungen der Filter werden über die Gleichrichter D geführt. Die gleichgerichteten und geglätteten Impulse am Ausgang dieser Gleichrichter haben entsprechend den Eigenschaften der Sprache und der Filter F eine Zeitdauer zwischen etwa 2 und einigen 100 ms.
Sie werden nun gemäß der Erfindung über Impulsschalter S dem zweidimensionalen Verschiebespeicher Sp, z. B. einem Magnetkernspeicher, zugeführt. Die Impulsschalter S werden mittels des Impulsgenerators 1 periodisch kurzzeitig geöffnet, z. B. alle 20 ms für eine Dauer von etwa 1 ms, so daß dem Speicher Sp kurze Impulse periodisch zufließen, deren Amplituden dem augenblicklichen Spektrum der Sprache entsprechen und deren durch den Impulsgenerator I bestimmte Frequenz im Beispiel 50 Hz beträgt.
Die Kurzzeitspektren der Sprechströme können dem Verschiebespeicher also in Gestalt einer Pulsamplitudenmodulation zugeführt werden. Die Impulse werden jeweils auf der ersten Spalte von Sp gespeichert und vom Impulsgenerator I im gleichen Rhythmus, also alle 20 ms, nach rechts in die folgenden Spalten fortgeschaltet. Auf dem zweidimensionalen Verschiebespeicher entsteht dann laufend ein bestimmtes Frequenz-Zeit-Muster, wobei die Verweilzeit, d. h. die Zeitdauer, über die sich das Muster erstreckt, durch die Zahl der Spalten des Speichers und die Fortschaltefrequenz bestimmt ist. In dem Beispiel würde sich bei fünfzig Spalten eine Verweilzeit von 1 Sekunde ergeben. Die Koinzidenz dieser Frequenz-Zeit-Muster mit einem bestimmten gewünschten Muster kann in bekannter Weise durch eine aus UND-Schaltungen bestehende Schaltungskombination Z festgestellt werden. Der dadurch bei K entstehende Ausgangsimpuls kann zur weiteren Auswertung, z. B. zur selbsttätigen Steuerung von Aufzeichnungsorganen, benutzt werden.
Eine Vereinfachungsmöglichkeit ergibt sich dadurch, daß die Veränderungen des Spektrums bei den niedrigen Frequenzen langsamer vor sich gehen als bei den höheren. Die Taktfrequenz für die ImpulsschalterS und für die Fortschaltimpulse kann daherbei den niedrigen Frequenzen niedriger gewählt werden.
Eine Abtast- und Fortschalteperiode von 20 ms ist, wie oben bemerkt, nur als Beispiel zu werten. Aus den bekannten Versuchen mit dem sogenannten Vocoder kann geschlossen werden, daß nur verhältnismäßig langsame Änderungen der Amplituden in den einzelnen Kanälen berücksichtigt werden müssen. Es kommen daher Perioden von etwa 2 bis 50 ms in Betracht.
Jene Impulsschalter S samt den zugeordneten Zeilen des Verschiebespeichers, die mit der gleichen Impulsfrequenz betätigt bzw. fortgeschaltet werden sollen, wird man zweckmäßig jeweils in Gruppen zusammenfassen und gemeinsam steuern.
Wenn oben festgestellt wurde, daß einem Filterausgang mindestens eine Zeile des Verschiebespeichers zugeordnet ist, so soll damit der Hinweis gegeben werden, daß das Auflösungsvermögen der Einrichtung im Bedarfsfalle noch dadurch erhöht werden kann, daß einem Filterausgang mehrere Zeilen zugeordnet sind und eine vorgeschaltete Amplituden-Selektions-Vorrichtung dafür sorgt, daß die in einem bestimmten Amplitudenbereich anfallenden Impulse in jeweils eine bestimmte Zeile eingespeist werden, so daß ein »Amplituden-Frequenz-Zeit-Muster« entsteht. Auch andere bekannte Verfahren können dazu benutzt werden, wie z. B. die Einstellung bestimmter Amplituden in den Speicherzellen mit Hilfe von Transfluxoren.

Claims

Patentansprüche: 1. Einrichtung zur Erkennung von Sprachlauten mit einem Filterraster zur Frequenzanalyse, bei der die gleichgerichtete Ausgangsspannung der Filter in aufeinanderfolgenden Zeitintervallen abgetastet und als Kurzzeitspektrum der Sprechströme gespeichert wird und bei der die entstehenden Muster der Laute und Lautverbindungen der Sprache mit vorgegebenen Mustern verglichen werden und zur Speicherung der während der Abtastintervalle an den Filterausgängen vorliegenden Amplituden ein zweidimensionaler Verschiebespeicher dient, d a d u r c h g e k e n n -z e i c h n e t, daß der Verschiebespeicher zur zweidimensionalen Auswertung dient, indem dessen Zeilenzahl der Filterzahl mindestens gleich ist, und daß während jeder Abtastperiode das jeweils vorliegende Frequenz-Zeit-Muster zweidimensional mit vorgegebenen Mustern, insbesondere der Lautübergänge, verglichen wird.
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß für die Abtastung der gleichgerichteten Filterausgangsspannungen (Filter F, Gleichrichter D) Impulsschalter (S) vorgesehen sind und daß der Betätigung der Impulsschalter und der Fortschaltung des Verschiebespeichers (Sp) mindestens ein Impulsgenerator (1) dient.
3. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß für die einzelnen Impulsschalter und zugehörigen Zeilen des Verschiebespeichers oder für Gruppen von ihnen getrennte Impulssteuerungen vorgesehen sind, um eine Anpassung der Abtast- und Fortschaltfrequenz an die Eigenheiten der entsprechenden spektralen Komponenten der Sprache zu ermöglichen. 4. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Kurzzeitspektren der Sprechströme dem Verschiebespeicher in Gestalt einer Pulsamplitudenmodulation zuführbar sind und im Speicher ein Amplituden-Frequenz-Zeit-Muster bilden. In Betracht gezogene Druckschriften: IRE Tracesactions an Andio, 1957, Heft Juli-August, S. 90 ff.; NTZ, 1958, H.
4, S.210ff.; 1958, H. 9, S.446ff.; 1957, H. 6, S. 277 ff.; 1958, H.
5, S. 239; Nachrichtentechnik, 1957, H. 12, S. 553 ff.; Zeitschrift für angewandte Physik, 1958, Heft 2, S. 56 ff.; Electronic Engineering, 1952, August, S. 368 ff.