DE3878895T2

DE3878895T2 - Verfahren und einrichtung zur spracherkennung.

Info

Publication number: DE3878895T2
Application number: DE8888907725T
Authority: DE
Inventors: Reginald Alfred King
Original assignee: Individual
Current assignee: Domain Dynamics Ltd
Priority date: 1987-09-01
Filing date: 1988-09-01
Publication date: 1993-09-09
Anticipated expiration: 2008-09-02
Also published as: ATE86406T1; EP0338035B1; GB8720527D0; US5101434A; WO1989002146A1; DE3878895D1; EP0338035A1

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Spracherkennung.
Geräte zur Spracherkennung sind bekannt. Jedoch sind Geräte, die nach dem Prinzip arbeiten, daß sie die Laute mit Hilfe von Filtern in Frequenzbänder zerlegen und dann die Energieniveaus in jedem Band analysieren, relativ teuer. Daneben wurde auch von Systemen zum Erkennen isolierter Wörter berichtet, die auf zeitcodierter Sprache (TES) beruhen und deshalb nicht auf das Prinzip der Zerlegung von Lauten in Freguenzbänder angewiesen sind.
Ein System und Verfahren zum Erkennen isolierter Wörter, das zeitcodierte Sprache benutzt, wird in der Veröffentlichung "Verification, Archetype Updating, and Automatic Token Set Selection, as a means of improving the performance of Menu Driven Tsolated Word Recognition Systems using Time Encoded Speech Descriptors in High Acoustic Noise Backgrounds" von R.C. Power, R.D. Hughes und R.A. King aus "Proceedings of The International Conference Speech Input/Output Techniques and Applications" (1986), Seiten 144-151, beschrieben.
Zeitcodierte Sprache ist eine Art der Sprachkurvenformcodierung. Die Sprachkurvenform wird in zwischen aufeinanderfolgenden echten Nullen liegende Zeitintervalle (Epochen) zerteilt. Der Code besteht für jede Epoche der Kurvenform aus einem einzigen digitalen Wort. Dieses Wort leitet sich von zwei Parametern der Epoche ab, nämlich ihrer quantisierten Zeitdauer und ihrer Form. Das Maß für die Dauer ist naheliegend und zur Beschreibung der Form werden die Epochen normalerweise an Hand der Anzahl der darin auftretenden positiven Minima oder negativen Maxima eingeteilt. Die Zahl der bei diesem Verfahren erzeugten, natürlicherweise auftretenden unterscheidbaren Symbole kann dann der Wirtschaftlichkeit halber in nicht linearer Weise auf eine viel kleinere Anzahl (Alphabet) von Codedeskriptoren abgebildet werden. Ein Algorithmus zur Durchführung einer anfänglichen Codierung mit zeitcodierter Sprache wird in der Veröffentlichung "Time Encoded Speech (TES) Descriptors as a Symbol Feature Set for Voice Recognition Systems" von J. Holbeche, R.D. Hughes und R.A. King aus "Proceedings of The International Conference Speech Input/Output Techniques and Applications" (1986), Seiten 310-315, beschrieben.
Das Codieren von Sprachsignalen in Form von zeitcodierter Sprache ist aus EP-A-0 141 497 bekannt, worin auch das Vergleichen von Parametern der zeitcodierten Sprache mit in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen, wodurch ein Ausgangssignal geschaffen wird, das auf die Beschaffenheit des Sprachsignals schließen läßt, offenbart wird.
Auf zeitcodierter Sprache basierende Systeme zum Erkennen isolierter Wörter haben gegenüber Systemen, die auf dem Zerlegen nach Frequenzen beruhen, viele Vorteile und sind in Umgebungen mit vielen Nebengeräuschen besonders vorteilhaft. Jedoch stoßen diese Systeme manchmal an Grenzen, wenn es um die Fähigkeit des Erkennens zusammengesetzter oder kontinuierlich aufeinanderfolgender Wörter geht.
Deshalb ist es verständlich, daß zur Bewältigung der Aufgabe des Erkennens zusammengesetzter oder kontinuierlich aufeinanderfolgender Wörter ein verbessertes, auf zeitcodierter Sprache (TES) beruhendes Spracherkennungssystem benötigt wird. Es ist Aufgabe der Erfindung, ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Erkennen von Sprachsignalen, insbesondere von in Form von zeitcodierter Sprache codierten Sprachsignalen, zu schaffen.
Demgemäß wird ein Verfahren zum Erkennen von in zeitcodierter Sprache codierten Sprachsignalen geschaffen, bei dem eine Folge zeitcodierter Sprachsymbole in eine Anzahl von Zeitrahmen fester Länge aufgeteilt wird und ein jeder Zeitrahmen eine Vielzahl von Suchschaltungen passiert, wobei jede Suchschaltung zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert ist und die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind, dabei die Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist, untersucht werden, danach in Abhängigkeit von den als vorhanden oder fehlend erkannten akustischen Ereignissen Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen festgelegt werden und schließlich die Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen verglichen werden, wodurch ein Ausgangssignal geschaffen wird, das auf die Beschaffenheit des Sprachsignals schließen läßt. Außerdem wird eine Vorrichtung zum Erkennen von in Form von zeitcodierter Sprache codierten Sprachsignalen mit einer Empfängervorrichtung zum Empfangen einer Folge von zeitcodierten Sprachsymbolen und zum Aufteilen der Folge in eine Anzahl von Zeitrahmen fester Länge, einer Vielzahl von Suchschaltungen, die zum Empfang der Zeitrahmen ausgebildet und zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert sind, wobei die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind, einer Einteilungsvorrichtung zum Untersuchen der Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen und zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist, einer Untergliederungsvorrichtung zum Festlegen von Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen, einer Vergleichsvorrichtung zum Vergleichen der Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen und einer Ausgabevorrichtung zur Schaffung eines Ausgangssignals als Ergebnis des Vergleichs, das auf die Beschaffenheit des Sprachsignals schließen läßt, geschaffen.
Vorzugsweise beinhalten die Untergliederungsgrenzen in der Folge der zeitcodierten Sprachsymbole aufeinanderfolgende Untergliederungsgrenzen.
Die Erfindung soll nun an Hand von Beispielen beschrieben werden, wobei auf die beiliegenden Zeichnungen Bezug genommen wird, von denen Figur 1 eine A-Matrix darstellt, die als zweidimensionales Modell die Verteilung der zeitcodierten Symbole für die ganze Wörter repräsentierenden Prototypen "one" und "three" wiedergibt.
Figur 2 zeigt die Verteilung der zeitcodierten Sprachsymbole für das Wort "six";
Figur 3 zeigt einen Vergleich der Gesamtwortmatrix mit den Segmentmatrizen desselben vollständigen Wortes;
Figur 4 ist eine graphische Darstellung der Gesamtwortmatrix und der Segmentmatrizen nach Figur 3;
Figur 5 zeigt die erfindungsgemäße Vorrichtung zum Erkennen kontinuierlich aufeinanderfolgender Wörter;
Figur 6 zeigt Beispiele für die dem Verfahren der Erfindung entsprechende Untergliederung der Wörter "zero" und "nine";
Figur 7 zeigt für das Wort "zero" eine graphische Darstellung der zeitlichen Verteilung der zeitcodierten Sprachsymbole;
Figur 8 zeigt einen mit Dynamic-Time-Warping vorgenommenen Vergleich zwischen zwei Wörtern; und
Figur 9 zeigt die Matrizen der durch dynamische Programmierung erhaltenen Distanzwerte für verschiedene Äußerungen.
Systeme zum Erkennen isolierter Wörter, die zeitcodierte Sprache benutzen, verwenden üblicherweise eine auf der Basis zeitcodierter Sprache arbeitende Erkennervorrichtung, die gemäß Figur 1 aus A-Matrizen Prototypen oder Modelle von Gesamtwörtern bildet. Die A-Matrix- Darstellung einer Äußerung oder eines akustischen Ereignisses ist ein zweidimensionales Modell, das die Verteilung der TES-Symbole zweiter Ordnung wiedergibt, obwohl auch Modelle höherer Dimension verwendet werden können.
Die von jedem vollständigen Wort, das erkannt werden soll, erhaltenen Daten werden zu einer einzigen Matrix zusammengeschlossen und dann werden Wortvergleiche zwischen dem eingegebenen Wort und gespeicherten Prototypen, die zum Beispiel während einer Trainingsphase erzeugt worden sind, durchgeführt. Jedoch stoßen solche Systeme, wie bereits festgestellt, bei der Bewältigung der Aufgabe zusammengesetzte oder kontinuierlich aufeinanderfolgende Wörter zu erkennen unter Umständen an Grenzen, da ganze Wörter miteinander verglichen werden.
Eine Untersuchung der vielen zur Verfügung stehenden Möglichkeiten zur Implementierung von TES-Systemen zur kontinuierlichen Worterkennung hat ergeben, daß die Folge der TES-Symbole sich in Bereiche oder Segmente zerlegen läßt, die durch Untergliederungsgrenzen definiert sind, innerhalb der die Verteilung der TES-Symbole einigermaßen statisch ist. Mit diesem Untergliederungsverfahren läßt sich eine kleine Zahl gut bevölkerter A-Matrizen oder Matrizen höherer Ordnung in chronologischer Reihenfolge erstellen, die als Grundlage zur kontinuierlichen Worterkennung dienen können. Figur 3 zeigt Beispiele solcher chronologischer Matrizen im Vergleich mit einer A-Matrix für dasselbe vollständige Wort, während Figur 4 eine graphische Darstellung der Verteilung der TES-Symbole für die Segment- und die Gesamtwortmatrizen zeigt.
Figur 2 zeigt die TES-Codeverteilung für das Wort "six", wobei der TES-Code in Zeitrahmen von 10 Millisekunden, numeriert von 1 bis 79, zerlegt wird. Bei dieser Beschreibung des Wortes "six" mit zeitcodierter Sprache werden die Zeitrahmen nicht als A-Matrizen, sondern als einfache Häufigkeitsverteilung erster Ordnung hinsichtlich der 29 möglichen Symbole des TES-Codes dargestellt. Das Symbol 29 ist in diesem Beispiel ein spezielles Symbol, das Epochen, deren Amplitude unter einer voreingestellten Schwelle bleibt, vorbehalten ist und Stille repräsentieren soll. Aus diesem Beispiel ist ersichtlich, daß der Redefluß in dieser Form völlig natürlich in Segmente mit ungefähr derselben TES-Codeverteilung gegliedert ist, aus denen sich A-Matrizen bilden lassen, wobei die Dauer einiger Segmente bis zu 300 Millisekunden beträgt. Erfindungsgemäß werden aus relativ ähnlichen TES-Codeverteilungen A-Matrizen oder Matrizen höherer Ordnung gebildet, um durch Wortvergleich mit bekannten Prototypen unter Verwendung von Dynamic- Time-Warping oder Techniken der dynamischen Programmierung eine kontinuierliche Worterkennung zu erreichen. Diese Begriffe werden in der vorliegenden Beschreibung nicht erläutert, da davon ausgegangen wird, daß sie von Personen, die mit Sprachcodierung und Spracherkennung vertraut sind, verstanden werden.
In dem gegenwärtig beschriebenen Ausführungsbeispiel der Erfindung wird die Aufteilung der Folge von TES-Symbolen in Segmente mit einer relativ ähnlichen TES-Codeverteilung durch Verwenden einer Vielzahl von unabhängigen, parallel geschalteten Suchschaltungen, wie sie in Figur 5 gezeigt sind, erreicht. Jede Suchschaltung ist zum Erfassen eines den zu erkennenden Sprachsignalen entsprechenden akustischen Ereignisses, wie zum Beispiel stimmhaften und stimmlosen akustischen Ereignissen, Stille oder Amplitude, optimiert. Darüberhinaus können vor dem Treffen von Entscheidungen über die verschiedenen Klassen akustischer Ereignisse Vorverarbeitungstechniken für die Signale eingesetzt werden. Zum Beispiel kann für die "stimmlosen Ereignisse das Signal zum Hervorheben jeglicher vorhandenen hohen Frequenzen vor dem Codieren differenziert werden. Alternativ dazu oder zusätzlich kann für die Suchschaltung für "stimmhafte" Ereignisse das Signal zum Verstärken jeglicher vorhandenen niederfrequenten Anteile vor dem Codieren integriert werden. Darüberhinaus können nach dem Codieren verschiedene Möglichkeiten der numerischen Filterung zur Verbesserung der Fähigkeit der Suchschaltungen, das ankommende Sprachsignal konsistent einzuordnen, angewandt werden.
Jede Suchschaltung ist dazu ausgebildet, in Übereinstimmung mit einem Unterteilungsalgorithmus zu arbeiten. Das Eingangssignal für jede Suchschaltung umfasst eine Zeichenfolge aus TES-Symbolen, die gemäß Figur 2 in Zeitrahmen fester Länge, zum Beispiel 10 bis 20 Millisekunden, aufgeteilt ist. Die Verteilung der TES-Symbole eines jeden Zeitrahmens wird untersucht, um eine einfache dichotomische Entscheidung zu erhalten, nämlich, ist das akustische Ereignis, für das eine Suchschaltung optimiert ist, "vorhanden" oder "nicht vorhanden".
Das Ausgangssignal einer jeden Suchschaltung liegt im Binärcode vor, wobei das Ergebnis eines Zeitrahmens wahr ist, falls angenommen wird, daß der Zeitrahmen die akustischen Parameter enthält, für die eine Suchschaltung optimiert ist und die deshalb vom gesuchten Typ sind. Dann wird ein Untergliederungsalgorithmus angewendet, der auf die codierten Ausgangssignale der Suchschaltungen wirkt und entscheidet, wo die Untergliederungsgrenzen innerhalb der Folge der TES-Symbole gesetzt werden sollen, woraus die A-Matrizen gebildet werden. Zu diesem Zweck kann ein relativ einfacher Algorithmus benutzt werden, dessen Funktionsweise zum Beispiel darin bestehen kann, daß er nach Bereichen übereinstimmender, aufeinanderfolgender Deskriptoren sucht und zwischen diese Untergliederungsgrenzen setzt, wobei vorzugsweise jedes Segment eine Mindestlänge haben sollte. Figur 6 zeigt für die Wörter "zero" und "nine" ein Beispiel von Untergliederung.
Figur 7 zeigt für das Wort "zero" eine graphische Darstellung der zeitlichen Verteilung der TES-Symbole, in der die Grenzen der in diesem gesprochenen Wort auftretenden akustischen Ereignisse deutlich veranschaulicht sind und nach der die Untergliederungsentscheidungen gefällt werden.
Simultan zum Untergliederungsverfahren wird ein gesonderter Codierungspfad untersucht, der für den Vergleich der A-Matrizen am Schluß optimiert ist. Für das laufende Segment wird eine A-Matrix berechnet und sobald eine Untergliederungsgrenze gesetzt wird, wird die Matrix geschlossen und die Daten gehen in die nächste ein. Das Endergebnis ist eine Serie von A-Matrizen, die variable Zeitscheiben von Anfang bis Ende der Äußerung darstellen. Die Dauer eines jeden Segments wird gespeichert, zusammen mit seinem A-Matrix-Deskriptor.
Wenn für jede Äußerung die A-Matrizen berechnet worden sind, werden zwischen den unbekannten Äußerungen und den Prototypen für die bekannten Wörter Vergleiche durchgeführt. Gegenwärtig werden diese Prototypen aus einzelnen Äußerungen eines jeden Wortes gebildet, aber es können Routinen zum Paarigkeitsvergleich angewendet werden, die erlauben, mehr als ein Wort zusammenzuschließen.
Eine Vergleichsroutine, Dynamic-Time-Warping, stellt grundsätzlich eine einfache Annäherung dar, die einen folgendermaßen definierten Distanzwert benutzt:
wobei A = ai,j , B = bi,j die miteinander zu vergleichenden A-Matrizen sind.
Figur 8 zeigt ein Beispiel für einen Wortvergleich auf der Grundlage von Dynamic-Time-Warping, wobei die an jedem Ende der miteinander verglichenen Wörter auftretenden, durch Stille charakterisierten Segmente der Klarheit wegen weggelassen wurden. Die variable Länge der Segmente stellt eine ungewöhnliche Komplikation dar, der durch Gewichten der aus der Paarigkeitsvergleichstabelle berechneten kumulierten Mindestabstände mit der Dauer der betrachteten Segmente begegnet werden kann. Figur 9 zeigt einige Beispiele für Vergleichsmatrizen.
Die Bauelemente und Suchschaltungen des TES-Codierers können unter Verwendung von hochintegrierter komplementärer MOS-Technik implementiert werden. Das macht deutlich, daß bei der Realisierung solcher Techniken der parallelen Verarbeitung im Vergleich zu Erkennervorrichtungen mit Einkanal-Spektralzerlegung nur geringe Kosten entstehen.
Es ist darauf hinzuweisen, daß, auch wenn die Erfindung im Hinblick auf ein bestimmtes Ausführungsbeispiel beschrieben wurde, Abwandlungen innerhalb des durch die Patentansprüche definierten Geltungsbereichs der Erfindung möglich sind. Zum Beispiel können zusätzliche Suchschaltungen verwendet werden, von denen jede für einen bestimmten Parameter der stimmhaften oder stimmlosen akustischen Ereignisse optimiert ist. Darüberhinaus können auch andere Untergliederungs und Vergleichsroutinen als die beschriebenen verwendet werden. Zusätzlich kann der Vergleich zwischen den zeitlichen A-Matrizen und den gespeicherten Prototypen auf anderem Wege als durch direkten Vergleich der TES-Symbole erfolgen. Jeder Parameter der mit zeitcodierter Sprache codierten Symbole kann für einen Vergleich herangezogen werden. Es können Symbolereignisdeskriptoren verwendet werden, die Gruppen von TES-Symbolen in jeglicher Kombination, Ableitungen von TES-Symbolen oder Kombinationen aus beidem umfassen können. Alternativ dazu kann die Beziehung zwischen den Trajektorien, denen in den Matrizen ein Satz von Parametern folgt, verwendet werden.

Claims

1. Verfahren zum Erkennen von in zeitcodierter Sprache codierten Sprachsignalen, bei dem eine Folge zeitcodierter Sprachsymbole in eine Anzahl von Zeitrahmen fester Länge aufgeteilt wird und ein jeder Zeitrahmen eine Vielzahl von Suchschaltungen passiert, wobei jede Suchschaltung zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert ist und die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind, dabei die Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist, untersucht werden, danach in Abhängigkeit von den als vorhanden oder fehlend erkannten akustischen Ereignissen Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen festgelegt werden und schließlich die Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen verglichen werden, wodurch ein Ausgangssignal geschaffen wird, das auf die Beschaffenheit des Sprachsignals schließen läßt.

2. Verfahren nach Anspruch 1, bei dem die Untergliederungsgrenzen in der Folge der zeitcodierten Sprachsymbole aufeinanderfolgende Untergliederungsgrenzen beinhalten.

3. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein akustisches Ereignis unter den Sprachsignalen, für das mindestens eine Suchschaltung optimiert ist, Stille umfasst.

4. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein akustisches Ereignis unter den Sprachsignalen, für das mindestens eine Suchschaltung optimiert ist, die Amplitude umfasst.

5. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein akustisches Ereignis unter den Sprachsignalen, für das mindestens eine Suchschaltung optimiert ist, stimmhaften Ereignissen entspricht.

6. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein akustisches Ereignis unter den Sprachsignalen, für das mindestens eine Suchschaltung optimiert ist, stimmlosen Ereignissen entspricht.

7. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Sprachsignale vor der Verarbeitung durch die Suchschaltungen differenziert werden, um die Hochfrequenzanteile der Sprachsignale hervorzuheben.

8. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Sprachsignale vor der Verarbeitung durch die Suchschaltungen integriert werden, um die Niederfrequenzanteile der Sprachsignale hervorzuheben.

9. Verfahren nach einem der vorangehenden Ansprüche, bei dem jede Suchschaltung dazu ausgebildet ist, in Übereinstimmung mit einem Unterteilungsalgorithmus zu bewirken, daß die Untergliederungsgrenzen zum Definieren von Segmenten innerhalb der Folge von zeitcodierten Symbolen zwischen die Bereiche übereinstimmender, aufeinanderfolgender Deskriptoren gesetzt werden, und bei dem die Länge eines jeden auf diese Weise bestimmten Segments eine vorbestimmte Mindestlänge überschreitet.

10. Verfahren nach einem der vorangehenden Ansprüche, bei dem für jedes Segment, das innerhalb der Folge von zeitcodierten Symbolen festgestellt wird, eine Matrix berechnet wird und für jede Matrix ein Deskriptor zur Identifizierung der Matrix erzeugt wird und Daten, die über die Dauer eines jeden Segments Auskunft geben, zusammen mit dem jeweiligen Matrix-Deskriptor gespeichert werden.

11. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Parameter der Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen mit Hilfe der Dynamic-Time- Warping-Methode verglichen werden.

12. Verfahren nach Anspruch 11, bei dem jedes Segment, um einen Vergleich zu erleichtern, in Abhängigkeit von seiner Dauer gewichtet wird.

13. Verfahren nach einem der Ansprüche 1 bis 12, bei dem die Parameter der zeitcodierten Sprachsymbole aus Symbolereignisdeskriptoren bestehen.

14. Verfahren nach Anspruch 13, bei dem die Symbolereignisdeskriptoren Gruppen zeitcodierter Symbole in jeglicher Kombination umfassen.

15. Verfahren nach Anspruch 13, bei dem die Symbolereignisdeskriptoren Ableitungen der zeitcodierten Symbole umfassen.

16. Verfahren nach Anspruch 13, bei dem die Symbolereignisdeskriptoren Ableitungen zeitcodierter Symbole und zeitcodierte Symbole oder Gruppen zeitcodierter Symbole in Kombination enthalten.

17. Vorrichtung zum Erkennen von in Form von zeitcodierter Sprache codierten Sprachsignalen mit einer Empfängervorrichtung zum Empfangen einer Folge von zeitcodierten Sprachsymbolen und zum Aufteilen der Folge in eine Anzahl von Zeitrahmen fester Länge, einer Vielzahl von Suchschaltungen, die zum Empfang der Zeitrahmen ausgebildet und zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert sind, wobei die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind,

einer Einteilungsvorrichtung zum Untersuchen der Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen und zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist,

einer Untergliederungsvorrichtung zum Festlegen von Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen,

einer Vergleichsvorrichtung zum Vergleichen der Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen und

einer Ausgabevorrichtung zur Schaffung eines Ausgangssignals als Ergebnis des Vergleichs, das auf die Beschaffenheit des Sprachsignals schließen läßt.

18. Vorrichtung nach Anspruch 17, die darüberhinaus eine Verarbeitungseinrichtung zum Hervorheben der niederfrequenten und/oder hochfrequenten Anteile der zu erkennenden Sprachsignale enthält.

19. Vorrichtung nach Anspruch 17 oder 18, bei der die Suchschaltungen integrierte Schaltelemente enthalten.