DE3878895T2 - Verfahren und einrichtung zur spracherkennung. - Google Patents
Verfahren und einrichtung zur spracherkennung.Info
- Publication number
- DE3878895T2 DE3878895T2 DE8888907725T DE3878895T DE3878895T2 DE 3878895 T2 DE3878895 T2 DE 3878895T2 DE 8888907725 T DE8888907725 T DE 8888907725T DE 3878895 T DE3878895 T DE 3878895T DE 3878895 T2 DE3878895 T2 DE 3878895T2
- Authority
- DE
- Germany
- Prior art keywords
- time
- symbols
- speech
- coded
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000638 solvent extraction Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 abstract description 3
- 229910044991 metal oxide Inorganic materials 0.000 abstract 1
- 150000004706 metal oxides Chemical class 0.000 abstract 1
- 239000004065 semiconductor Substances 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 13
- 150000001875 compounds Chemical class 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Electric Clocks (AREA)
- Telephonic Communication Services (AREA)
Description
- Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Spracherkennung.
- Geräte zur Spracherkennung sind bekannt. Jedoch sind Geräte, die nach dem Prinzip arbeiten, daß sie die Laute mit Hilfe von Filtern in Frequenzbänder zerlegen und dann die Energieniveaus in jedem Band analysieren, relativ teuer. Daneben wurde auch von Systemen zum Erkennen isolierter Wörter berichtet, die auf zeitcodierter Sprache (TES) beruhen und deshalb nicht auf das Prinzip der Zerlegung von Lauten in Freguenzbänder angewiesen sind.
- Ein System und Verfahren zum Erkennen isolierter Wörter, das zeitcodierte Sprache benutzt, wird in der Veröffentlichung "Verification, Archetype Updating, and Automatic Token Set Selection, as a means of improving the performance of Menu Driven Tsolated Word Recognition Systems using Time Encoded Speech Descriptors in High Acoustic Noise Backgrounds" von R.C. Power, R.D. Hughes und R.A. King aus "Proceedings of The International Conference Speech Input/Output Techniques and Applications" (1986), Seiten 144-151, beschrieben.
- Zeitcodierte Sprache ist eine Art der Sprachkurvenformcodierung. Die Sprachkurvenform wird in zwischen aufeinanderfolgenden echten Nullen liegende Zeitintervalle (Epochen) zerteilt. Der Code besteht für jede Epoche der Kurvenform aus einem einzigen digitalen Wort. Dieses Wort leitet sich von zwei Parametern der Epoche ab, nämlich ihrer quantisierten Zeitdauer und ihrer Form. Das Maß für die Dauer ist naheliegend und zur Beschreibung der Form werden die Epochen normalerweise an Hand der Anzahl der darin auftretenden positiven Minima oder negativen Maxima eingeteilt. Die Zahl der bei diesem Verfahren erzeugten, natürlicherweise auftretenden unterscheidbaren Symbole kann dann der Wirtschaftlichkeit halber in nicht linearer Weise auf eine viel kleinere Anzahl (Alphabet) von Codedeskriptoren abgebildet werden. Ein Algorithmus zur Durchführung einer anfänglichen Codierung mit zeitcodierter Sprache wird in der Veröffentlichung "Time Encoded Speech (TES) Descriptors as a Symbol Feature Set for Voice Recognition Systems" von J. Holbeche, R.D. Hughes und R.A. King aus "Proceedings of The International Conference Speech Input/Output Techniques and Applications" (1986), Seiten 310-315, beschrieben.
- Das Codieren von Sprachsignalen in Form von zeitcodierter Sprache ist aus EP-A-0 141 497 bekannt, worin auch das Vergleichen von Parametern der zeitcodierten Sprache mit in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen, wodurch ein Ausgangssignal geschaffen wird, das auf die Beschaffenheit des Sprachsignals schließen läßt, offenbart wird.
- Auf zeitcodierter Sprache basierende Systeme zum Erkennen isolierter Wörter haben gegenüber Systemen, die auf dem Zerlegen nach Frequenzen beruhen, viele Vorteile und sind in Umgebungen mit vielen Nebengeräuschen besonders vorteilhaft. Jedoch stoßen diese Systeme manchmal an Grenzen, wenn es um die Fähigkeit des Erkennens zusammengesetzter oder kontinuierlich aufeinanderfolgender Wörter geht.
- Deshalb ist es verständlich, daß zur Bewältigung der Aufgabe des Erkennens zusammengesetzter oder kontinuierlich aufeinanderfolgender Wörter ein verbessertes, auf zeitcodierter Sprache (TES) beruhendes Spracherkennungssystem benötigt wird. Es ist Aufgabe der Erfindung, ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Erkennen von Sprachsignalen, insbesondere von in Form von zeitcodierter Sprache codierten Sprachsignalen, zu schaffen.
- Demgemäß wird ein Verfahren zum Erkennen von in zeitcodierter Sprache codierten Sprachsignalen geschaffen, bei dem eine Folge zeitcodierter Sprachsymbole in eine Anzahl von Zeitrahmen fester Länge aufgeteilt wird und ein jeder Zeitrahmen eine Vielzahl von Suchschaltungen passiert, wobei jede Suchschaltung zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert ist und die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind, dabei die Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist, untersucht werden, danach in Abhängigkeit von den als vorhanden oder fehlend erkannten akustischen Ereignissen Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen festgelegt werden und schließlich die Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen verglichen werden, wodurch ein Ausgangssignal geschaffen wird, das auf die Beschaffenheit des Sprachsignals schließen läßt. Außerdem wird eine Vorrichtung zum Erkennen von in Form von zeitcodierter Sprache codierten Sprachsignalen mit einer Empfängervorrichtung zum Empfangen einer Folge von zeitcodierten Sprachsymbolen und zum Aufteilen der Folge in eine Anzahl von Zeitrahmen fester Länge, einer Vielzahl von Suchschaltungen, die zum Empfang der Zeitrahmen ausgebildet und zum Erfassen eines akustischen Ereignisses unter den zu erkennenden Sprachsignalen optimiert sind, wobei die akustischen Ereignisse durch Bereiche von übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb der Folge der zeitcodierten Symbole definiert sind, einer Einteilungsvorrichtung zum Untersuchen der Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen und zum Feststellen des Vorhandenseins oder Fehlens eines jeden akustischen Ereignisses, für das eine Suchschaltung optimiert ist, einer Untergliederungsvorrichtung zum Festlegen von Grenzen zur Untergliederung mit variabler Länge innerhalb der Folge von zeitcodierten Sprachsymbolen, einer Vergleichsvorrichtung zum Vergleichen der Parameter aus der innerhalb der Untergliederungsgrenzen liegenden Folge von zeitcodierten Sprachsymbolen mit den in Form von zeitcodierter Sprache gespeicherten Prototypen von Wörtern oder Äußerungen und einer Ausgabevorrichtung zur Schaffung eines Ausgangssignals als Ergebnis des Vergleichs, das auf die Beschaffenheit des Sprachsignals schließen läßt, geschaffen.
- Vorzugsweise beinhalten die Untergliederungsgrenzen in der Folge der zeitcodierten Sprachsymbole aufeinanderfolgende Untergliederungsgrenzen.
- Die Erfindung soll nun an Hand von Beispielen beschrieben werden, wobei auf die beiliegenden Zeichnungen Bezug genommen wird, von denen Figur 1 eine A-Matrix darstellt, die als zweidimensionales Modell die Verteilung der zeitcodierten Symbole für die ganze Wörter repräsentierenden Prototypen "one" und "three" wiedergibt.
- Figur 2 zeigt die Verteilung der zeitcodierten Sprachsymbole für das Wort "six";
- Figur 3 zeigt einen Vergleich der Gesamtwortmatrix mit den Segmentmatrizen desselben vollständigen Wortes;
- Figur 4 ist eine graphische Darstellung der Gesamtwortmatrix und der Segmentmatrizen nach Figur 3;
- Figur 5 zeigt die erfindungsgemäße Vorrichtung zum Erkennen kontinuierlich aufeinanderfolgender Wörter;
- Figur 6 zeigt Beispiele für die dem Verfahren der Erfindung entsprechende Untergliederung der Wörter "zero" und "nine";
- Figur 7 zeigt für das Wort "zero" eine graphische Darstellung der zeitlichen Verteilung der zeitcodierten Sprachsymbole;
- Figur 8 zeigt einen mit Dynamic-Time-Warping vorgenommenen Vergleich zwischen zwei Wörtern; und
- Figur 9 zeigt die Matrizen der durch dynamische Programmierung erhaltenen Distanzwerte für verschiedene Äußerungen.
- Systeme zum Erkennen isolierter Wörter, die zeitcodierte Sprache benutzen, verwenden üblicherweise eine auf der Basis zeitcodierter Sprache arbeitende Erkennervorrichtung, die gemäß Figur 1 aus A-Matrizen Prototypen oder Modelle von Gesamtwörtern bildet. Die A-Matrix- Darstellung einer Äußerung oder eines akustischen Ereignisses ist ein zweidimensionales Modell, das die Verteilung der TES-Symbole zweiter Ordnung wiedergibt, obwohl auch Modelle höherer Dimension verwendet werden können.
- Die von jedem vollständigen Wort, das erkannt werden soll, erhaltenen Daten werden zu einer einzigen Matrix zusammengeschlossen und dann werden Wortvergleiche zwischen dem eingegebenen Wort und gespeicherten Prototypen, die zum Beispiel während einer Trainingsphase erzeugt worden sind, durchgeführt. Jedoch stoßen solche Systeme, wie bereits festgestellt, bei der Bewältigung der Aufgabe zusammengesetzte oder kontinuierlich aufeinanderfolgende Wörter zu erkennen unter Umständen an Grenzen, da ganze Wörter miteinander verglichen werden.
- Eine Untersuchung der vielen zur Verfügung stehenden Möglichkeiten zur Implementierung von TES-Systemen zur kontinuierlichen Worterkennung hat ergeben, daß die Folge der TES-Symbole sich in Bereiche oder Segmente zerlegen läßt, die durch Untergliederungsgrenzen definiert sind, innerhalb der die Verteilung der TES-Symbole einigermaßen statisch ist. Mit diesem Untergliederungsverfahren läßt sich eine kleine Zahl gut bevölkerter A-Matrizen oder Matrizen höherer Ordnung in chronologischer Reihenfolge erstellen, die als Grundlage zur kontinuierlichen Worterkennung dienen können. Figur 3 zeigt Beispiele solcher chronologischer Matrizen im Vergleich mit einer A-Matrix für dasselbe vollständige Wort, während Figur 4 eine graphische Darstellung der Verteilung der TES-Symbole für die Segment- und die Gesamtwortmatrizen zeigt.
- Figur 2 zeigt die TES-Codeverteilung für das Wort "six", wobei der TES-Code in Zeitrahmen von 10 Millisekunden, numeriert von 1 bis 79, zerlegt wird. Bei dieser Beschreibung des Wortes "six" mit zeitcodierter Sprache werden die Zeitrahmen nicht als A-Matrizen, sondern als einfache Häufigkeitsverteilung erster Ordnung hinsichtlich der 29 möglichen Symbole des TES-Codes dargestellt. Das Symbol 29 ist in diesem Beispiel ein spezielles Symbol, das Epochen, deren Amplitude unter einer voreingestellten Schwelle bleibt, vorbehalten ist und Stille repräsentieren soll. Aus diesem Beispiel ist ersichtlich, daß der Redefluß in dieser Form völlig natürlich in Segmente mit ungefähr derselben TES-Codeverteilung gegliedert ist, aus denen sich A-Matrizen bilden lassen, wobei die Dauer einiger Segmente bis zu 300 Millisekunden beträgt. Erfindungsgemäß werden aus relativ ähnlichen TES-Codeverteilungen A-Matrizen oder Matrizen höherer Ordnung gebildet, um durch Wortvergleich mit bekannten Prototypen unter Verwendung von Dynamic- Time-Warping oder Techniken der dynamischen Programmierung eine kontinuierliche Worterkennung zu erreichen. Diese Begriffe werden in der vorliegenden Beschreibung nicht erläutert, da davon ausgegangen wird, daß sie von Personen, die mit Sprachcodierung und Spracherkennung vertraut sind, verstanden werden.
- In dem gegenwärtig beschriebenen Ausführungsbeispiel der Erfindung wird die Aufteilung der Folge von TES-Symbolen in Segmente mit einer relativ ähnlichen TES-Codeverteilung durch Verwenden einer Vielzahl von unabhängigen, parallel geschalteten Suchschaltungen, wie sie in Figur 5 gezeigt sind, erreicht. Jede Suchschaltung ist zum Erfassen eines den zu erkennenden Sprachsignalen entsprechenden akustischen Ereignisses, wie zum Beispiel stimmhaften und stimmlosen akustischen Ereignissen, Stille oder Amplitude, optimiert. Darüberhinaus können vor dem Treffen von Entscheidungen über die verschiedenen Klassen akustischer Ereignisse Vorverarbeitungstechniken für die Signale eingesetzt werden. Zum Beispiel kann für die "stimmlosen Ereignisse das Signal zum Hervorheben jeglicher vorhandenen hohen Frequenzen vor dem Codieren differenziert werden. Alternativ dazu oder zusätzlich kann für die Suchschaltung für "stimmhafte" Ereignisse das Signal zum Verstärken jeglicher vorhandenen niederfrequenten Anteile vor dem Codieren integriert werden. Darüberhinaus können nach dem Codieren verschiedene Möglichkeiten der numerischen Filterung zur Verbesserung der Fähigkeit der Suchschaltungen, das ankommende Sprachsignal konsistent einzuordnen, angewandt werden.
- Jede Suchschaltung ist dazu ausgebildet, in Übereinstimmung mit einem Unterteilungsalgorithmus zu arbeiten. Das Eingangssignal für jede Suchschaltung umfasst eine Zeichenfolge aus TES-Symbolen, die gemäß Figur 2 in Zeitrahmen fester Länge, zum Beispiel 10 bis 20 Millisekunden, aufgeteilt ist. Die Verteilung der TES-Symbole eines jeden Zeitrahmens wird untersucht, um eine einfache dichotomische Entscheidung zu erhalten, nämlich, ist das akustische Ereignis, für das eine Suchschaltung optimiert ist, "vorhanden" oder "nicht vorhanden".
- Das Ausgangssignal einer jeden Suchschaltung liegt im Binärcode vor, wobei das Ergebnis eines Zeitrahmens wahr ist, falls angenommen wird, daß der Zeitrahmen die akustischen Parameter enthält, für die eine Suchschaltung optimiert ist und die deshalb vom gesuchten Typ sind. Dann wird ein Untergliederungsalgorithmus angewendet, der auf die codierten Ausgangssignale der Suchschaltungen wirkt und entscheidet, wo die Untergliederungsgrenzen innerhalb der Folge der TES-Symbole gesetzt werden sollen, woraus die A-Matrizen gebildet werden. Zu diesem Zweck kann ein relativ einfacher Algorithmus benutzt werden, dessen Funktionsweise zum Beispiel darin bestehen kann, daß er nach Bereichen übereinstimmender, aufeinanderfolgender Deskriptoren sucht und zwischen diese Untergliederungsgrenzen setzt, wobei vorzugsweise jedes Segment eine Mindestlänge haben sollte. Figur 6 zeigt für die Wörter "zero" und "nine" ein Beispiel von Untergliederung.
- Figur 7 zeigt für das Wort "zero" eine graphische Darstellung der zeitlichen Verteilung der TES-Symbole, in der die Grenzen der in diesem gesprochenen Wort auftretenden akustischen Ereignisse deutlich veranschaulicht sind und nach der die Untergliederungsentscheidungen gefällt werden.
- Simultan zum Untergliederungsverfahren wird ein gesonderter Codierungspfad untersucht, der für den Vergleich der A-Matrizen am Schluß optimiert ist. Für das laufende Segment wird eine A-Matrix berechnet und sobald eine Untergliederungsgrenze gesetzt wird, wird die Matrix geschlossen und die Daten gehen in die nächste ein. Das Endergebnis ist eine Serie von A-Matrizen, die variable Zeitscheiben von Anfang bis Ende der Äußerung darstellen. Die Dauer eines jeden Segments wird gespeichert, zusammen mit seinem A-Matrix-Deskriptor.
- Wenn für jede Äußerung die A-Matrizen berechnet worden sind, werden zwischen den unbekannten Äußerungen und den Prototypen für die bekannten Wörter Vergleiche durchgeführt. Gegenwärtig werden diese Prototypen aus einzelnen Äußerungen eines jeden Wortes gebildet, aber es können Routinen zum Paarigkeitsvergleich angewendet werden, die erlauben, mehr als ein Wort zusammenzuschließen.
- Eine Vergleichsroutine, Dynamic-Time-Warping, stellt grundsätzlich eine einfache Annäherung dar, die einen folgendermaßen definierten Distanzwert benutzt:
- wobei A = ai,j , B = bi,j die miteinander zu vergleichenden A-Matrizen sind.
- Figur 8 zeigt ein Beispiel für einen Wortvergleich auf der Grundlage von Dynamic-Time-Warping, wobei die an jedem Ende der miteinander verglichenen Wörter auftretenden, durch Stille charakterisierten Segmente der Klarheit wegen weggelassen wurden. Die variable Länge der Segmente stellt eine ungewöhnliche Komplikation dar, der durch Gewichten der aus der Paarigkeitsvergleichstabelle berechneten kumulierten Mindestabstände mit der Dauer der betrachteten Segmente begegnet werden kann. Figur 9 zeigt einige Beispiele für Vergleichsmatrizen.
- Die Bauelemente und Suchschaltungen des TES-Codierers können unter Verwendung von hochintegrierter komplementärer MOS-Technik implementiert werden. Das macht deutlich, daß bei der Realisierung solcher Techniken der parallelen Verarbeitung im Vergleich zu Erkennervorrichtungen mit Einkanal-Spektralzerlegung nur geringe Kosten entstehen.
- Es ist darauf hinzuweisen, daß, auch wenn die Erfindung im Hinblick auf ein bestimmtes Ausführungsbeispiel beschrieben wurde, Abwandlungen innerhalb des durch die Patentansprüche definierten Geltungsbereichs der Erfindung möglich sind. Zum Beispiel können zusätzliche Suchschaltungen verwendet werden, von denen jede für einen bestimmten Parameter der stimmhaften oder stimmlosen akustischen Ereignisse optimiert ist. Darüberhinaus können auch andere Untergliederungs und Vergleichsroutinen als die beschriebenen verwendet werden. Zusätzlich kann der Vergleich zwischen den zeitlichen A-Matrizen und den gespeicherten Prototypen auf anderem Wege als durch direkten Vergleich der TES-Symbole erfolgen. Jeder Parameter der mit zeitcodierter Sprache codierten Symbole kann für einen Vergleich herangezogen werden. Es können Symbolereignisdeskriptoren verwendet werden, die Gruppen von TES-Symbolen in jeglicher Kombination, Ableitungen von TES-Symbolen oder Kombinationen aus beidem umfassen können. Alternativ dazu kann die Beziehung zwischen den Trajektorien, denen in den Matrizen ein Satz von Parametern folgt, verwendet werden.
Claims (19)
1. Verfahren zum Erkennen von in zeitcodierter Sprache
codierten Sprachsignalen, bei dem eine Folge
zeitcodierter Sprachsymbole in eine Anzahl von Zeitrahmen
fester Länge aufgeteilt wird und ein jeder Zeitrahmen
eine Vielzahl von Suchschaltungen passiert, wobei jede
Suchschaltung zum Erfassen eines akustischen Ereignisses
unter den zu erkennenden Sprachsignalen optimiert ist und
die akustischen Ereignisse durch Bereiche von
übereinstimmenden, aufeinanderfolgenden Deskriptoren innerhalb
der Folge der zeitcodierten Symbole definiert sind, dabei
die Parameter der zeitcodierten Sprachsymbole aus den
Zeitrahmen zum Feststellen des Vorhandenseins oder
Fehlens eines jeden akustischen Ereignisses, für das eine
Suchschaltung optimiert ist, untersucht werden, danach in
Abhängigkeit von den als vorhanden oder fehlend erkannten
akustischen Ereignissen Grenzen zur Untergliederung mit
variabler Länge innerhalb der Folge von zeitcodierten
Sprachsymbolen festgelegt werden und schließlich die
Parameter aus der innerhalb der Untergliederungsgrenzen
liegenden Folge von zeitcodierten Sprachsymbolen mit den
in Form von zeitcodierter Sprache gespeicherten
Prototypen von Wörtern oder Äußerungen verglichen werden,
wodurch ein Ausgangssignal geschaffen wird, das auf die
Beschaffenheit des Sprachsignals schließen läßt.
2. Verfahren nach Anspruch 1, bei dem die
Untergliederungsgrenzen in der Folge der zeitcodierten
Sprachsymbole aufeinanderfolgende Untergliederungsgrenzen
beinhalten.
3. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein
akustisches Ereignis unter den Sprachsignalen, für das
mindestens eine Suchschaltung optimiert ist, Stille
umfasst.
4. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein
akustisches Ereignis unter den Sprachsignalen, für das
mindestens eine Suchschaltung optimiert ist, die
Amplitude umfasst.
5. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein
akustisches Ereignis unter den Sprachsignalen, für das
mindestens eine Suchschaltung optimiert ist, stimmhaften
Ereignissen entspricht.
6. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein
akustisches Ereignis unter den Sprachsignalen, für das
mindestens eine Suchschaltung optimiert ist, stimmlosen
Ereignissen entspricht.
7. Verfahren nach einem der vorangehenden Ansprüche, bei
dem die Sprachsignale vor der Verarbeitung durch die
Suchschaltungen differenziert werden, um die
Hochfrequenzanteile der Sprachsignale hervorzuheben.
8. Verfahren nach einem der vorangehenden Ansprüche, bei
dem die Sprachsignale vor der Verarbeitung durch die
Suchschaltungen integriert werden, um die
Niederfrequenzanteile der Sprachsignale hervorzuheben.
9. Verfahren nach einem der vorangehenden Ansprüche, bei
dem jede Suchschaltung dazu ausgebildet ist, in
Übereinstimmung mit einem Unterteilungsalgorithmus zu bewirken,
daß die Untergliederungsgrenzen zum Definieren von
Segmenten innerhalb der Folge von zeitcodierten Symbolen
zwischen die Bereiche übereinstimmender,
aufeinanderfolgender Deskriptoren gesetzt werden, und bei dem die
Länge eines jeden auf diese Weise bestimmten Segments
eine vorbestimmte Mindestlänge überschreitet.
10. Verfahren nach einem der vorangehenden Ansprüche, bei
dem für jedes Segment, das innerhalb der Folge von
zeitcodierten Symbolen festgestellt wird, eine Matrix
berechnet wird und für jede Matrix ein Deskriptor zur
Identifizierung der Matrix erzeugt wird und Daten, die über die
Dauer eines jeden Segments Auskunft geben, zusammen mit
dem jeweiligen Matrix-Deskriptor gespeichert werden.
11. Verfahren nach einem der vorangehenden Ansprüche, bei
dem die Parameter der Folge von zeitcodierten
Sprachsymbolen mit den in Form von zeitcodierter Sprache
gespeicherten Prototypen mit Hilfe der Dynamic-Time-
Warping-Methode verglichen werden.
12. Verfahren nach Anspruch 11, bei dem jedes Segment, um
einen Vergleich zu erleichtern, in Abhängigkeit von
seiner Dauer gewichtet wird.
13. Verfahren nach einem der Ansprüche 1 bis 12, bei dem
die Parameter der zeitcodierten Sprachsymbole aus
Symbolereignisdeskriptoren bestehen.
14. Verfahren nach Anspruch 13, bei dem die
Symbolereignisdeskriptoren Gruppen zeitcodierter Symbole in
jeglicher Kombination umfassen.
15. Verfahren nach Anspruch 13, bei dem die
Symbolereignisdeskriptoren Ableitungen der zeitcodierten
Symbole umfassen.
16. Verfahren nach Anspruch 13, bei dem die
Symbolereignisdeskriptoren Ableitungen zeitcodierter Symbole
und zeitcodierte Symbole oder Gruppen zeitcodierter
Symbole in Kombination enthalten.
17. Vorrichtung zum Erkennen von in Form von
zeitcodierter Sprache codierten Sprachsignalen mit
einer Empfängervorrichtung zum Empfangen einer Folge von
zeitcodierten Sprachsymbolen und zum Aufteilen der Folge
in eine Anzahl von Zeitrahmen fester Länge,
einer Vielzahl von Suchschaltungen, die zum Empfang der
Zeitrahmen ausgebildet und zum Erfassen eines akustischen
Ereignisses unter den zu erkennenden Sprachsignalen
optimiert sind, wobei die akustischen Ereignisse durch
Bereiche von übereinstimmenden, aufeinanderfolgenden
Deskriptoren innerhalb der Folge der zeitcodierten
Symbole definiert sind,
einer Einteilungsvorrichtung zum Untersuchen der
Parameter der zeitcodierten Sprachsymbole aus den Zeitrahmen
und zum Feststellen des Vorhandenseins oder Fehlens eines
jeden akustischen Ereignisses, für das eine Suchschaltung
optimiert ist,
einer Untergliederungsvorrichtung zum Festlegen von
Grenzen zur Untergliederung mit variabler Länge innerhalb
der Folge von zeitcodierten Sprachsymbolen,
einer Vergleichsvorrichtung zum Vergleichen der Parameter
aus der innerhalb der Untergliederungsgrenzen liegenden
Folge von zeitcodierten Sprachsymbolen mit den in Form
von zeitcodierter Sprache gespeicherten Prototypen von
Wörtern oder Äußerungen und
einer Ausgabevorrichtung zur Schaffung eines
Ausgangssignals als Ergebnis des Vergleichs, das auf die
Beschaffenheit des Sprachsignals schließen läßt.
18. Vorrichtung nach Anspruch 17, die darüberhinaus eine
Verarbeitungseinrichtung zum Hervorheben der
niederfrequenten und/oder hochfrequenten Anteile der zu
erkennenden Sprachsignale enthält.
19. Vorrichtung nach Anspruch 17 oder 18, bei der die
Suchschaltungen integrierte Schaltelemente enthalten.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB878720527A GB8720527D0 (en) | 1987-09-01 | 1987-09-01 | Voice recognition |
PCT/GB1988/000718 WO1989002146A1 (en) | 1987-09-01 | 1988-09-01 | Improvements in or relating to apparatus and methods for voice recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3878895D1 DE3878895D1 (de) | 1993-04-08 |
DE3878895T2 true DE3878895T2 (de) | 1993-09-09 |
Family
ID=10623101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE8888907725T Expired - Fee Related DE3878895T2 (de) | 1987-09-01 | 1988-09-01 | Verfahren und einrichtung zur spracherkennung. |
Country Status (6)
Country | Link |
---|---|
US (1) | US5101434A (de) |
EP (1) | EP0338035B1 (de) |
AT (1) | ATE86406T1 (de) |
DE (1) | DE3878895T2 (de) |
GB (1) | GB8720527D0 (de) |
WO (1) | WO1989002146A1 (de) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
US5680506A (en) * | 1994-12-29 | 1997-10-21 | Lucent Technologies Inc. | Apparatus and method for speech signal analysis |
US5805674A (en) * | 1995-01-26 | 1998-09-08 | Anderson, Jr.; Victor C. | Security arrangement and method for controlling access to a protected system |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
US6301562B1 (en) * | 1999-04-27 | 2001-10-09 | New Transducers Limited | Speech recognition using both time encoding and HMM in parallel |
JP2001109489A (ja) * | 1999-08-03 | 2001-04-20 | Canon Inc | 音声情報処理方法、装置および記憶媒体 |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
EP1386312B1 (de) * | 2001-05-10 | 2008-02-20 | Dolby Laboratories Licensing Corporation | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches |
KR20050059766A (ko) * | 2003-12-15 | 2005-06-21 | 엘지전자 주식회사 | 동적 시간 워핑을 이용한 음성 인식 방법 |
JP4573792B2 (ja) * | 2006-03-29 | 2010-11-04 | 富士通株式会社 | ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
US8924209B2 (en) * | 2012-09-12 | 2014-12-30 | Zanavox | Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals |
US9454976B2 (en) * | 2013-10-14 | 2016-09-27 | Zanavox | Efficient discrimination of voiced and unvoiced sounds |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3679830A (en) * | 1970-05-11 | 1972-07-25 | Malcolm R Uffelman | Cohesive zone boundary detector |
EP0054365B1 (de) * | 1980-12-09 | 1984-09-12 | Secretary of State for Industry in Her Britannic Majesty's Gov. of the United Kingdom of Great Britain and Northern Ireland | Spracherkennungssystem |
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US4763278A (en) * | 1983-04-13 | 1988-08-09 | Texas Instruments Incorporated | Speaker-independent word recognizer |
GB2145864B (en) * | 1983-09-01 | 1987-09-03 | King Reginald Alfred | Voice recognition |
US4783807A (en) * | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
IT1179093B (it) * | 1984-09-03 | 1987-09-16 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per il riconoscimento senza addestramento preventivo di parole connesse appartenenti a piccoli vocabolari |
US4852170A (en) * | 1986-12-18 | 1989-07-25 | R & D Associates | Real time computer speech recognition system |
-
1987
- 1987-09-01 GB GB878720527A patent/GB8720527D0/en active Pending
-
1988
- 1988-09-01 AT AT88907725T patent/ATE86406T1/de not_active IP Right Cessation
- 1988-09-01 DE DE8888907725T patent/DE3878895T2/de not_active Expired - Fee Related
- 1988-09-01 US US07/457,710 patent/US5101434A/en not_active Expired - Lifetime
- 1988-09-01 WO PCT/GB1988/000718 patent/WO1989002146A1/en active IP Right Grant
- 1988-09-01 EP EP88907725A patent/EP0338035B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ATE86406T1 (de) | 1993-03-15 |
EP0338035B1 (de) | 1993-03-03 |
GB8720527D0 (en) | 1987-10-07 |
US5101434A (en) | 1992-03-31 |
WO1989002146A1 (en) | 1989-03-09 |
DE3878895D1 (de) | 1993-04-08 |
EP0338035A1 (de) | 1989-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
EP1405222B1 (de) | Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals | |
DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
DE2918533C2 (de) | ||
EP1407446B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
DE60200632T2 (de) | Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3750365T2 (de) | Sprecheridentifizierung. | |
DE3733391C2 (de) | ||
EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung | |
DE2636032B2 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE3711342A1 (de) | Verfahren zum erkennen zusammenhaengend gesprochener woerter | |
DE69026474T2 (de) | System zur Spracherkennung | |
DE2719175A1 (de) | Schallanalysiereinrichtung | |
DE4209296A1 (de) | Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren | |
DE1422056A1 (de) | Phonetische Schreibmaschine | |
DE69318223T2 (de) | Verfahren zur sprachanalyse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DOMAIN DYNAMICS LTD., BACUP, LANCASHIRE, GB |
|
8381 | Inventor (new situation) |
Free format text: KING, REGINALD ALFRED, WOOLSTONE, FARINGDON (OXON), GB |
|
8339 | Ceased/non-payment of the annual fee |