DE1163567B - Einrichtung zur Erkennung von Sprachlauten - Google Patents

Einrichtung zur Erkennung von Sprachlauten

Info

Publication number
DE1163567B
DE1163567B DEK36091A DEK0036091A DE1163567B DE 1163567 B DE1163567 B DE 1163567B DE K36091 A DEK36091 A DE K36091A DE K0036091 A DEK0036091 A DE K0036091A DE 1163567 B DE1163567 B DE 1163567B
Authority
DE
Germany
Prior art keywords
frequency
memory
filter
speech
pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DEK36091A
Other languages
English (en)
Inventor
Dr-Ing E H K Kuepfmueller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
E H K KUEPFMUELLER DR ING
Original Assignee
E H K KUEPFMUELLER DR ING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by E H K KUEPFMUELLER DR ING filed Critical E H K KUEPFMUELLER DR ING
Priority to DEK36091A priority Critical patent/DE1163567B/de
Publication of DE1163567B publication Critical patent/DE1163567B/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Description

  • Einrichtung zur Erkennung von Sprachlauten Die Erfindung betrifft eine Einrichtung zur Erkennung von Sprachlauten mit einem Filterraster zur Frequenzanalyse, bei der die gleichgerichtete Ausgangsspannung der Filter in aufeinanderfolgenden Zeitintervallen abgetastet und als Kurzzeitspektrum der Sprechströme gespeichert wird und bei der die entstehenden Muster der Laute und Lautverbindungen der Sprache mit vorgegebenen Mustern verglichen werden.
  • Die bisher bekannten Versuche zur elektrischen Zerlegung von Sprache in Laute beruhen auf der Frequenzanalyse der Laute. Bei diesen Versuchen wurde die in elektrische Schwingungen umgesetzte Sprache einer Filterkombination zugeführt, deren Einzelfilter schmale Durchlaßbereiche für jene Frequenzen aufweisen, die für die zu erkennenden Laute charakteristisch sind. Ermittelt und für die Erkennung ausgewertet wird hierbei also nur die spektrale Verteilung der Sprachenergie.
  • Diese Verfahren haben sich bisher nur in sehr beschränktem Umfang und nicht eindeutig durchführen lassen, und man kann nur sagen, daß mit ihnen die Erkennung von stetig ausgesprochenen Vokalen möglich ist, während sie bereits bei der Erkennung von Diphthongen oder gar von einfachen Silben versagen.
  • Untersuchungen über die Verständlichkeit von synthetischer Sprache, die aus einzelnen Lauten aufgebaut wird, haben ergeben, daß das Verstehen der Sprache durch den Menschen nur zum kleinen Teil durch die Laute selbst, zum überwiegenden Teil jedoch durch die Übergänge zwischen den Sprachlauten bedingt ist. Daraus kann gefolgert werden, daß es auch mit Geräten nicht möglich sein kann, die Sprache eindeutig zu erkennen, wenn nicht die Lautübergänge berücksichtig werden. Durch die obenerwähnten Versuche und ihre Ergebnisse wird dies bestätigt.
  • Von dieser Erkenntnis geht ein weiterhin bekanntgewordener Vorschlag aus.
  • Die Lautübergänge bestehen darin, daß die einzelnen Formanten der Sprachlaute im allgemeinen nicht plötzlich von einem Laut zum anderen springen, sondern mehr oder weniger stetig ineinander übergehen. Diese Zeitfunktionen der Formanten können als Frequenz-Zeit-Muster aufgefaßt werden. Solche zweidimensionalen Muster dienen daher in bekannter Weise zur Erkennung der Sprachlaute.
  • Bei einer auf diesem Prinzip dem Vocoder beruhenden Anordnung werden die in elektrische Schwingungen umgesetzten Laute einer Kombination von z. B. acht linearen Filtern zugeführt. Jedem Filter sind fünf Relaisspeicher zugeordnet, die innerhalb eines Zeitabschnittes von 200 ms aufeinanderfolgend je für 40 ms an den zugehörigen Filterausgang angeschlossen werden. Im ganzen sind also vierzig Relaisspeicher vorhanden, die mit 1 bis 40 numeriert seien. Den Filtern 1 bis 8 sind die Relaisspeicher 1 bis 8 zugeordnet, die im ersten 40-Ins-Zeitraum angeschlossen werden und das vorliegende Kurzzeitspektrum aufnehmen. Entsprechend sind auch die Relaisspeicher 9 bis 16 den Filtern 1 bis 8 zugeordnet, werden aber im zweiten 40-ms-Zeitraum angeschlossen usf., so daß dem Filter 1 z. B. die Relaisspeicher 1, 9, 17, 25, 33 zugehören, dem Filter 2 die Speicher 2, 10, 18, 26,:34 usw., die in aufeinanderfolgenden Zeitabschnitten von je 40 ms Dauer an den Ausgängen ihrer Filter liegen.
  • Stellt man sich die jeweils fünf einem Filterausgang zugeordneten Relaisspeicher in acht untereinanderliegenden Zeilen angeordnet vor, so ergibt sich ein zweidimensionales Speicherfeld, aus dessen aufeinanderfolgenden Spalten sich nach Beaufschlagung der Anordnung durch die zu erkennende Lautverbindung die spektrale Verteilung oder das Kurzzeitspektrum der aufeinanderfolgenden Zeitabschnitte ablesen läßt.
  • Zeigt sich also am Ende des Beobachtungszeitraums beispielshalber, daß die Relaisspeicher 1, 9, 17, 18, 26, 34 beaufschlagt sind, so ist dies nicht nur eine Aussage dafür, daß die den Filtern 1 und 2 zugehörigen Frequenzen f 1 und f 2 aufgetreten sind schlechthin, sondern bedeutet, daß die Frequenz f 1 in den ersten drei 40-ms-Zeiträumen vorhanden war, die Frequenz F 2 dagegen im dritten bis fünften Zeitraum.
  • Ermittelt man nun empirisch durch vielfach wiederholtes Aussprechen der zu erkennenden Lautverbindungen, welche Speicherkombinationen, also welches Frequenz-Zeit-Muster, für sie eindeutig als charakteristisch anzusehen sind, so kann man das Erkennen in bekannter Weise durch logische Verknüpfung der Speicherausgänge automatisieren und z. B. auf Grund der gesprochenen Lautverbindung die entsprechende Type einer Aufzeichnungsapparatur zum Abdruck bringen, wie dies beider RCA-Schreibmaschine der Fall ist.
  • Der aufeinanderfolgenden Anschaltung der acht Filterausgänge an die Spalten des Speicherfeldes dient eine Abtast- bzw. Verteilerschalteinrichtung, deren Arbeitsrhythmus zweckentsprechend gesteuert werden muß.
  • Der Festlegung des Beginns des Abtastvorgangs dient ein zusätzlicher (im Beispiel neunter) breitbandiger übertragungskanal, der also das gesamte Sprachspektrum passieren läßt. Übersteigt der Ausgangspegel dieses Kanals einen bestimmten Wert, so wird die Abtasteinrichtung freigegeben. Sie läuft nun einmal durch, um bis zum nächsten Anreiz, vor dem das gesamte Speicherfeld gelöscht sein muß, stillzuliegen.
  • Es ist klar, daß vor der Auswertung der gesamte Abtastzyklus abgelaufen sein muß und daß im Augenblick der Auswertung das gesamte Speicherfeld in seinem am Ende des Abtastzyklus erreichten Zustand verharren muß. Erst dann kann die Löschung und damit Vorbereitung zum Erkennen des nächsten Lautes bzw. der nächsten Lautverbindung folgen.
  • Das Erkennen ist mithin nur dann möglich, wenn die einzelnen Laute bzw. Lautverbindungen (Silben) zeitlich ausreichend voneinander getrennt sind, zumal gerade die spektrale Verteilung zu Beginn eines Sprachlautes für dessen Erkennung wesentlich ist. Aber auch hiervon abgesehen ist es notwendig, die Abtastung stets mit bestimmter Zeitrelation zum Beginn des Lautes vorzunehmen, und zwar natürlich in der gleichen Relation, die bei der Bildung des dem Vergleich dienenden Frequenz-Zeit-Musters beobachtet wurde.
  • Dieser Umstand dürfte der Verwendbarkeit des zuletzt geschilderten, bereits mit Frequenz-Zeit-Mustern arbeitenden Verfahrens rasch eine Grenze setzen. Das Endziel, nämlich die selbsttätige Erkennung und Aufzeichnung von in normalem Fluß gesprochener Sprache, dürfte mit ihm auch bei Verwendung eines dichteren Frequenz- und Zeitrasters und bei Einsatz verfeinerter Schaltmittel schwerlich erreichbar sein. Der Einrichtung nach der Erfindung liegt hinsichtlich der Frequenzanalyse ein ähnliches Prinzip wie der bekannten Einrichtung zu Grunde. Sie arbeitet mit Frequenz-Zeit-Mustern und mit Amplituden-Frequenz-Zeit-Mustern. Dagegen erfolgt die Speicherung der Momentanfrequenzen und die Identifizierung der Muster in anderer Weise.
  • Aus der Zeichenerkannung ist es auch schon bekanntgeworden, ein Zeichen nach der Abtastung codiert in magnetische Schieberegister einzuspeichern und eine Korrelationsprüfung zwischen dem vorliegenden Zeichen und den fest verdrahteten Vergleichszeichen durchzuführen. Die Auswertung der in dem Schieberegister gespeicherten Information geschieht dabei eindimensional. i Bei der Erfindung wird dagegen das Schieberegister laufend, d. h. nach jedem Abtastschritt, zweidimensional ausgewertet. Die in einer Spalte eingeschriebenen Werte werden nicht wie bei der bekannten Anordnung aufsummiert, sondern ebenso wie die in den Zeilen eingeschriebenen Werte einzeln berücksichtigt.
  • Ausgehend von der Erkenntnis, daß die Erfassung von Sprache eine fortlaufende Vergleichungsmöglichkeit mit den ermittelten, für die verschiedenen Laute und Lautverbindungen charakteristischen Frequenz-Zeit-Mustern zur Voraussetzung hat, geht die von einer Einrichtung zur Erkennung von Sprachlauten aus mit einem Filterraster zur Frequenzanalyse, bei der die gleichgerichtete Ausgangsspannung der Filter in aufeinanderfolgenden Zeitintervallen abgetastet und als Kurzzeitspektrum der Sprechströme gespeichert wird und bei der die entstehenden Muster der Laute und Lautverbindungen der Sprache mit vorgegebenen Mustern verglichen werden und zur Speicherung der während der Abtastintervalle an den Filterausgängen vorliegenden Amplituden ein zweidimensionaler Verschiebespeicher dient. Erfindungsgemäß dient der Verschiebespeicher zur zweidimensionalen Auswertung, und dessen Zeilenzahl ist der Filterzahl mindestens gleich, während jeder Abtastpariode wird das jeweils vorliegende Frequenz-Zeit-Muster zweidimensional mit vorgegebenen Mustern, insbesondere der Lautübergänge, verglichen.
  • Die Einrichtung nach der Erfindung soll nun an Hand des in der Zeichnung dargestellten Prinzipschemas näher erläutert werden. Für die Erläuterung der Erfindung nicht wesentliche, im übrigen an sich bekannte Teile sind in dem Schema weggelassen, so z. B. dem Mikrophon nachgeordnete Einrichtungen zur Amplitudenkompression und Volumenregelung sowie Verstärker und Glättungsmittel.
  • Die Sprache wird vom Mikrophon M aufgenommen und in elektrische Schwingungen umgesetzt. Diese werden einem Raster von Bandfiltern F zugeführt, das den zur Erkennung herangezogenen Spektralbereich der Schwingungen überdeckt. Die Durchlaßbereiche der Bandfilter schließen aneinander an, so daß an ihren Ausgängen in jedem Zeitpunkt das Kurzzeitspektrum der Sprache steht.
  • Dieses Spektrum variiert zeitlich und folgt den Schwankungen der Sprachlaute, wenn die Bandbreite der Filter genügend groß ist. Versuche haben gezeigt, daß dazu bei niedrigen Frequenzen die Bandbreite mindestens 30 Hz betragen muß, bei höheren Frequenzen genügt eine Bandbreite von 10 % der Mittelfrequenz.
  • Die Ausgangsspannungen der Filter werden über die Gleichrichter D geführt. Die gleichgerichteten und geglätteten Impulse am Ausgang dieser Gleichrichter haben entsprechend den Eigenschaften der Sprache und der Filter F eine Zeitdauer zwischen etwa 2 und einigen 100 ms.
  • Sie werden nun gemäß der Erfindung über Impulsschalter S dem zweidimensionalen Verschiebespeicher Sp, z. B. einem Magnetkernspeicher, zugeführt. Die Impulsschalter S werden mittels des Impulsgenerators 1 periodisch kurzzeitig geöffnet, z. B. alle 20 ms für eine Dauer von etwa 1 ms, so daß dem Speicher Sp kurze Impulse periodisch zufließen, deren Amplituden dem augenblicklichen Spektrum der Sprache entsprechen und deren durch den Impulsgenerator I bestimmte Frequenz im Beispiel 50 Hz beträgt.
  • Die Kurzzeitspektren der Sprechströme können dem Verschiebespeicher also in Gestalt einer Pulsamplitudenmodulation zugeführt werden. Die Impulse werden jeweils auf der ersten Spalte von Sp gespeichert und vom Impulsgenerator I im gleichen Rhythmus, also alle 20 ms, nach rechts in die folgenden Spalten fortgeschaltet. Auf dem zweidimensionalen Verschiebespeicher entsteht dann laufend ein bestimmtes Frequenz-Zeit-Muster, wobei die Verweilzeit, d. h. die Zeitdauer, über die sich das Muster erstreckt, durch die Zahl der Spalten des Speichers und die Fortschaltefrequenz bestimmt ist. In dem Beispiel würde sich bei fünfzig Spalten eine Verweilzeit von 1 Sekunde ergeben. Die Koinzidenz dieser Frequenz-Zeit-Muster mit einem bestimmten gewünschten Muster kann in bekannter Weise durch eine aus UND-Schaltungen bestehende Schaltungskombination Z festgestellt werden. Der dadurch bei K entstehende Ausgangsimpuls kann zur weiteren Auswertung, z. B. zur selbsttätigen Steuerung von Aufzeichnungsorganen, benutzt werden.
  • Eine Vereinfachungsmöglichkeit ergibt sich dadurch, daß die Veränderungen des Spektrums bei den niedrigen Frequenzen langsamer vor sich gehen als bei den höheren. Die Taktfrequenz für die ImpulsschalterS und für die Fortschaltimpulse kann daherbei den niedrigen Frequenzen niedriger gewählt werden.
  • Eine Abtast- und Fortschalteperiode von 20 ms ist, wie oben bemerkt, nur als Beispiel zu werten. Aus den bekannten Versuchen mit dem sogenannten Vocoder kann geschlossen werden, daß nur verhältnismäßig langsame Änderungen der Amplituden in den einzelnen Kanälen berücksichtigt werden müssen. Es kommen daher Perioden von etwa 2 bis 50 ms in Betracht.
  • Jene Impulsschalter S samt den zugeordneten Zeilen des Verschiebespeichers, die mit der gleichen Impulsfrequenz betätigt bzw. fortgeschaltet werden sollen, wird man zweckmäßig jeweils in Gruppen zusammenfassen und gemeinsam steuern.
  • Wenn oben festgestellt wurde, daß einem Filterausgang mindestens eine Zeile des Verschiebespeichers zugeordnet ist, so soll damit der Hinweis gegeben werden, daß das Auflösungsvermögen der Einrichtung im Bedarfsfalle noch dadurch erhöht werden kann, daß einem Filterausgang mehrere Zeilen zugeordnet sind und eine vorgeschaltete Amplituden-Selektions-Vorrichtung dafür sorgt, daß die in einem bestimmten Amplitudenbereich anfallenden Impulse in jeweils eine bestimmte Zeile eingespeist werden, so daß ein »Amplituden-Frequenz-Zeit-Muster« entsteht. Auch andere bekannte Verfahren können dazu benutzt werden, wie z. B. die Einstellung bestimmter Amplituden in den Speicherzellen mit Hilfe von Transfluxoren.

Claims (5)

  1. Patentansprüche: 1. Einrichtung zur Erkennung von Sprachlauten mit einem Filterraster zur Frequenzanalyse, bei der die gleichgerichtete Ausgangsspannung der Filter in aufeinanderfolgenden Zeitintervallen abgetastet und als Kurzzeitspektrum der Sprechströme gespeichert wird und bei der die entstehenden Muster der Laute und Lautverbindungen der Sprache mit vorgegebenen Mustern verglichen werden und zur Speicherung der während der Abtastintervalle an den Filterausgängen vorliegenden Amplituden ein zweidimensionaler Verschiebespeicher dient, d a d u r c h g e k e n n -z e i c h n e t, daß der Verschiebespeicher zur zweidimensionalen Auswertung dient, indem dessen Zeilenzahl der Filterzahl mindestens gleich ist, und daß während jeder Abtastperiode das jeweils vorliegende Frequenz-Zeit-Muster zweidimensional mit vorgegebenen Mustern, insbesondere der Lautübergänge, verglichen wird.
  2. 2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß für die Abtastung der gleichgerichteten Filterausgangsspannungen (Filter F, Gleichrichter D) Impulsschalter (S) vorgesehen sind und daß der Betätigung der Impulsschalter und der Fortschaltung des Verschiebespeichers (Sp) mindestens ein Impulsgenerator (1) dient.
  3. 3. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß für die einzelnen Impulsschalter und zugehörigen Zeilen des Verschiebespeichers oder für Gruppen von ihnen getrennte Impulssteuerungen vorgesehen sind, um eine Anpassung der Abtast- und Fortschaltfrequenz an die Eigenheiten der entsprechenden spektralen Komponenten der Sprache zu ermöglichen. 4. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Kurzzeitspektren der Sprechströme dem Verschiebespeicher in Gestalt einer Pulsamplitudenmodulation zuführbar sind und im Speicher ein Amplituden-Frequenz-Zeit-Muster bilden. In Betracht gezogene Druckschriften: IRE Tracesactions an Andio, 1957, Heft Juli-August, S. 90 ff.; NTZ, 1958, H.
  4. 4, S.210ff.; 1958, H. 9, S.446ff.; 1957, H. 6, S. 277 ff.; 1958, H.
  5. 5, S. 239; Nachrichtentechnik, 1957, H. 12, S. 553 ff.; Zeitschrift für angewandte Physik, 1958, Heft 2, S. 56 ff.; Electronic Engineering, 1952, August, S. 368 ff.
DEK36091A 1958-10-31 1958-10-31 Einrichtung zur Erkennung von Sprachlauten Pending DE1163567B (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DEK36091A DE1163567B (de) 1958-10-31 1958-10-31 Einrichtung zur Erkennung von Sprachlauten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DEK36091A DE1163567B (de) 1958-10-31 1958-10-31 Einrichtung zur Erkennung von Sprachlauten

Publications (1)

Publication Number Publication Date
DE1163567B true DE1163567B (de) 1964-02-20

Family

ID=7220576

Family Applications (1)

Application Number Title Priority Date Filing Date
DEK36091A Pending DE1163567B (de) 1958-10-31 1958-10-31 Einrichtung zur Erkennung von Sprachlauten

Country Status (1)

Country Link
DE (1) DE1163567B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2104012A1 (de) * 1970-01-30 1971-08-05 Lannionnais Electronique Adaptiver Sprachanalysator
US3852535A (en) * 1972-11-16 1974-12-03 Zurcher Jean Frederic Pitch detection processor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2104012A1 (de) * 1970-01-30 1971-08-05 Lannionnais Electronique Adaptiver Sprachanalysator
US3852535A (en) * 1972-11-16 1974-12-03 Zurcher Jean Frederic Pitch detection processor

Similar Documents

Publication Publication Date Title
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE3645118C2 (de)
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2840596A1 (de) Sprachsynthesizer
DE1965480A1 (de) Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE4031638A1 (de) Spracherkennungseinrichtung
DE2357067A1 (de) Vorrichtung zur sprachanalyse
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE2719175A1 (de) Schallanalysiereinrichtung
WO2004086360A1 (de) Verfahren zur sprecherabhängigen spracherkennung und spracherkennungssystem
DE1937464C3 (de) Sprachanalysiergerät
DE1206167B (de) Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse
EP0035761A2 (de) Verfahren zum Betrieb eines Spracherkennungsgerätes
DE2920041C2 (de) Verfahren zum Verifizieren von Signalen, und Anordnung zum Durchführen des Verfahrens
DE1905680A1 (de) Anlage zur Signalverarbeitung
DE1163567B (de) Einrichtung zur Erkennung von Sprachlauten
DE1762492A1 (de) Verfahren und Schaltung zur Hoerbarmachung der menschlichen Stimme den hochgradig Schwerhoerigen
DE4325404C2 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
DE1189745B (de) Verfahren zum Identifizieren von Schallereignissen
DE1122581B (de) Verfahren und Schaltungsanordnung zur angenaeherten Nachbildung der Kurzzeitspektren von nach dem Vocoderverfahren uebertragenen Sprachsignalen
DE2834751C2 (de)
DE2739609A1 (de) Verfahren und vorrichtung zur schulung und umschulung von weitgehend tauben