DE4031421C2

DE4031421C2 - Musteranpassungssystem für eine Spracherkennungseinrichtung

Info

Publication number: DE4031421C2
Application number: DE4031421A
Authority: DE
Inventors: Junichiroh Fujimoto
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-10-05
Filing date: 1990-10-04
Publication date: 1995-08-24
Anticipated expiration: 2010-10-05
Also published as: DE4031421A1; US5191635A

Description

Die Erfindung betrifft ein Musteranpassungssystem für eine Spracherkennungseinrichtung nach dem Oberbegriff des Anspruches 1.

Ein derartiges Musteranpassungssystem für eine Spracherkennungseinrichtung ist aus der DE-OS 23 47 738 bekannt. Dieses bekannte Musteranpassungssystem enthält ein Wörterbuch zum Speichern von Standardsprachmustern, eine Umsetzeinrichtung, um ein eingegebenes Sprachmuster, welches eine beliebige Musterlänge hat, in zumindest ein umgesetztes Sprachmuster umzusetzen, welches eine Musterlänge hat, mit welcher Standardsprachmuster in dem Wörterbuch gespeichert sind. Bei diesem bekannten Musteranpassungssystem wird zunächst ein gesprochenes Eingabe-Übungswort gespeichert und es wird ein darauffolgend gesprochenes Eingabe-Befehlswort nach Empfang einer Korrelationsfunktion unterzogen, welche die Ähnlichkeit zwischen dem Befehlswort und dem Übungswort anzeigt. Zur Durchführung der Korrelationsfunktion muß eine Musterlängenanpassung vorgenommen werden. Das bekannte System umfaßt ferner eine Vergleichseinrichtung, um das umgesetzte Sprachmuster mit in dem Wörterbuch gespeicherten Standardmustern zu vergleichen, um ein Standardmuster auszuwählen, welches einen größten Ähnlichkeitsgrad mit dem umgesetzten Sprachmuster hat.

Die Vergleichseinrichtung ist dafür ausgebildet, einen elementweisen Vergleich einer Steuerwort-Matrix mit jeder Übungswort-Matrix vorzunehmen und eine Korrelationsziffer zu erzeugen, welche das Ergebnis jedes Vergleiches wiedergibt und damit auch den ermittelten Ähnlichkeitsgrad anzeigt.

Aus der DE 37 33 659 A1 ist ein Verfahren und eine Vorrichtung zum Vergleichen von Mustern bekannt, wobei gemäß diesem bekannten Verfahren eine Musteranpassung angewendet wird, um festzustellen, welche Bezugssprachmuster, die bekannt sind und in einer Bibliothek gespeichert sind, den höchsten Ähnlichkeitsgrad mit dem Sprachmuster einer eingegebenen, unbekannten Sprache haben. Das wesentliche dieses bekannten Verfahrens besteht darin, daß ein Paar erster und zweiter zu vergleichender Muster geprüft werden, um zu sehen, ob eines von den beiden Mustern einen instabilen Teil hat oder nicht, wobei der instabile Teil aus dem einen der beiden Muster entfernt wird, wenn der instabile Teil gefunden worden ist, und dann das erste und zweite Muster verglichen werden. Durch diese Maßnahmen wird die Sicherheit der Spracherkennung in gewissem Umfang verbessert.

Aus der EP 0 305 215 A2 ist ein Musteranpassungssystem für eine Spracherkennungseinrichtung bekannt, bei dem jedes der Standardsprachmuster von mehreren verschiedenen Sprechern stammt und in zwei verschiedenen Sprachweisen gesprochen wurde, wobei aber die Muster nur in einer vorgegebenen einzigen Länge gespeichert werden. Speziell werden bei diesem bekannten Spracherkennungssystem Schablonen von Worten gespeichert und es wird jede Schablone gekennzeichnet, die am engsten einem empfangenen Wort entspricht. Es ist somit ein Schablonenspeicher vorhanden, um gekennzeichnete Schablonen zu speichern und die gespeicherten Schablonen können durch eingegebene Worte ausgebessert werden, indem aus einem erkannten eingegebenen Wort eine weitere kennzeichnende Schablone abgeleitet wird, die dann in dem Schablonenspeicher abgespeichert wird. Dabei haben alle Schablonen einen einheitlichen Wert bzw. einheitliche Länge.

Gemäß einer spezifischen Ausführungsform dieses bekannten Systems können mehrere Schablonenspeicher vorgesehen sein, wobei damit der Zweck verfolgt wird, mehrere Benutzer des Systems berücksichtigen zu können.

In Fig. 1 ist ein Diagramm zum Erläutern eines Beispiels eines herkömmlichen Musteranpassungssystems wiedergegeben. Hierbei zeigt Fig. 1(A) ein Eingabemuster einer eingegebenen Sprache, welche als "tu" bezeichnet wird, und Fig. 1(B) zeigt ein Standardmuster, welches "tu" entspricht. Das Musteranpassungs system vergleicht das eingegebene Muster mit dem Standardmuster und enthält einen Ähnlichkeitsgrad des Standardmusters bezüglich des eingegebenen Musters.

Grundsätzlich gibt es zwei Methoden, die Muster in Abhängig keit davon miteinander zu vergleichen, ob die Sprachlänge sich ändert oder nicht, wie beispielsweise in Niimi "Sprach erkennung", Kuoritsu Publishing Co., beschrieben ist. Bei der ersten Methode wird eine Zeitnormung des Musters nicht-linear durchgeführt, daher wird es als ein nicht-lineares Anpassungs verfahren bezeichnet. Die dynamische Programmierungs-(DP-)Anpassung, welche manchmal auch als das dynamische Zeitverformen bezeichnet wird, ist ein typisches, nicht-lineares Anpassungsverfahren. Andererseits wird bei einer zweiten Methode die Zeitnormierung des Musters linear durchgeführt und daher wird dieses als ein lineares Anpassungsverfahren bezeichnet.

Das nicht-lineare Anpassungsverfahren erfordert im Vergleich zu dem linearen Anpassungsverfahren eine große Anzahl von Operationen. Aus diesem Grund wird natürlich gern das lineare Anpassungsverfahren verwendet, wenn damit eine ausreichend hohe Anpassungsgenauigkeit erhalten werden kann.

Das lineare Anpassungsverfahren kann in zwei Formen eingeteilt werden, d. h. ein erstes Verfahren, bei welchem durch Zeitnormierung die Länge eines von zwei Mustern angepaßt wird, welche mit der Länge des anderen Musters verglichen bzw. kollationiert wird, und ein zweites Verfahren, bei welchem zuerst durch Zeitnormierung die Länge aller Muster in eine vorherbestimmte Länge umgewandelt wird. Bei dem ersten Verfahren ist der Zeitnormierungsprozeß jedesmal erforderlich, wenn zwei Muster verglichen bzw. kollationiert werden. Bei dem zweiten Verfahren wird dagegen auch die Länge des Standardmusters in die vorherbestimmte Länge umgewandelt, wenn Standardmuster registriert sind, und sobald die Länge des unbekannten Sprachmusters in die vorherbestimmte Länge umgewandelt ist, entfällt die Notwendigkeit, Berechnungen bezüglich der Zeitnormierung durchzuführen, wenn das unbekannte Sprachmuster mit den registrierten Sprachmustern kollationiert wird. Folglich kann die Anzahl Operationen, welche erforderlich sind, wenn das unbekannte Sprachmuster mit den registrierten Sprachmustern kollationiert wird, im Vergleich zu dem ersten Verfahren verringert werden.

Jedoch sind die nachstehend beschriebenen Schwierigkeiten bei dem herkömmlichen Musteranpassungssystem gegeben, bei welchem die zweite Art des linearen Anpassungsverfahrens angewendet wird. Beispielsweise wird ein in Fig. 2(B) dargestelltes Sprachmuster erhalten, wenn ein Wort "utumuku" mit einer Abtastgeschwindigkeit von 10 bis 20 ms abgetastet wird. Kurze Worte sind im allgemeinen 5 bis 600 ms lang, während lange Worte im allgemeinen im Bereich von 1,5 s liegen. Folglich läuft das vorstehend beschriebene Abtasten mit der Abtastrate von 10 bis 20 ms für kurze Wörter auf 5 bis 60 Abtastvorgänge und für lange Worte auf annähernd 150 Abtastvorgänge hinaus; die Anzahl Abtastwerte wird in den meisten Fällen durch Zeit normierung in 8 oder 16 Abtastwerte umgewandelt.

Somit werden, wenn das Wort "tu" als ein Beispiel für ein kurzes und das Wort "utumuku" als ein Beispiel für ein langes Wort genommen wird, 50 Abtastwerte für das Wort "tu" und annähernd 120 Abtastwerte für das Wort "utumuku" erhalten. Wenn jedoch die 50 Abtastwerte des Wortes "tu" durch die Zeitnormierung in 8 Abtastwerte umgewandelt werden, wird die Zahl von Abtastungen für "t" in einen Abtastwert und die Anzahl Abtastungen für "u" in annähernd 7 Abtastwerte umgewandelt. Wenn jedoch die 120 Abtastwerte des Wortes "utumuku" in 8 Abtastwerte umgewandelt werden, erscheinen die Konsonanten (Laute) "t", "m" und "k" praktisch nicht in dem umgewandelten Muster, wie aus Fig. 2(A) zu ersehen ist. Mit anderen Worten, wenn die Zeitnormierung durchgeführt wird, bleiben bei kurzen Worten die Konsonanten erhalten, während bei langen Worten die Konsonanten nicht erhalten bleiben und nur die Vokale erhalten bleiben. Folglich muß das lange Wort nur anhand der Vokale erkannt werden. Somit ergibt sich die Schwierigkeit, daß Worte mit derselben Anordnung von Vokalen nicht voneinander unterschieden werden können und in einem Extremfall kann das Wort "utumuku" als das Wort "u" erkannt werden, da die Muster der beiden Worte nach der Zeitnormierung der Abtastwerte annähernd dieselben sind.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Musteranpassungssystem für eine Spracherkennungseinrichtung der angegebenen Gattung zu schaffen, bei dem die Sicherheit der Spracherkennung bzw. Worterkennung nicht mehr ausgeprägt von der Wortlänge abhängig ist.

Diese Aufgabe wird erfindungsgemäß durch die im Kennzeichnungsteil des Patentanspruches 1 aufgeführten Merkmale gelöst.

Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.

Im folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigt

Fig. 1 ein Diagramm zum Erläutern eines Beispiels eines herkömmlichen Musteranpassungssystems;

Fig. 2 ein Diagramm zum Erläutern einer Zeitnormierung von Abtastwerten eines langen Wortes;

Fig. 3 ein Systemblockdiagramm einer ersten Ausführungs form eines Musteranpassungssystems mit Merkmalen nach der Er findung;

Fig. 4A und 4B Diagramme zum Erläutern einer Zeitnormierung, welche mittels eines in Fig. 3 dargestellten Re gisters durchgeführt ist;

Fig. 5 ein System-Blockdiagramm, in welchem eine Ausfüh rungsform einer Bandpaß-Filterbank mit einem Mikro phon, einem Verstärker und einem A/D-Umsetzer der in Fig. 3 wiedergegebenen, ersten Ausführungsform dargestellt sind;

Fig. 6 ein Flußdiagramm zum Erläutern der Arbeitsweise eines Mikrocomputers, wenn dieser zur Durchführung der Arbeitsweise der ersten Ausführungsform ver wendet wird;

Fig. 7 ein System-Blockdiagramm eines wesentlichen Teils einer Spracherkennungseinrichtung bezüglich einer Registrierung von Standardmustern;

Fig. 8 ein Flußdiagramm zum Erläutern der Arbeitsweise des Mikrocomputers, wenn dieser zur Durchführung der Arbeitsweise des in Fig. 7 dargestellten Systems verwendet wird;

Fig. 9 ein Diagramm, anhand welchem eine Schwierigkeit erläutert wird, welche auftritt, wenn ein Konso nant am Ende eines Wortes durch die Sprachinter valldetektion nicht festgestellt wird;

Fig. 10 ein System-Blockdiagramm einer zweiten Ausfüh rungsform eines Musteranpassungssystems mit Merkmalen nach der Erfindung;

Fig. 11 ein Flußdiagramm zum Erläutern der Arbeitsweise des Mikrocomputers, wenn dieser zur Durchführung der Arbeitsweise des in Fig. 10 dargestellten Systems verwendet wird;

Fig. 12 ein System-Blockdiagramm eines wesentlichen Teils der Spracherkennungseinrichtung bezüglich einer Registrierung von Standardmustern;

Fig. 13 ein Flußdiagramm zum Erläutern der Arbeitsweise des Mikrocomputers, wenn dieser zur Durchführung der Arbeitsweise des in Fig. 12 dargestellten Sy stems verwendet wird;

Fig. 14 ein System-Blockdiagramm einer dritten Ausführungs form des Musteranpassungssystems mit Merkmalen nach der Erfindung;

Fig. 15 ein System-Blockdiagramm eines wesentlichen Teils der Spracherkennungseinrichtung bezüglich einer Registrierung von Standardmustern; und

Fig. 16 ein Flußdiagramm zum Erläutern der Arbeitsweise des Mikrocomputers, wenn dieser zum Durchführen der Arbeitsweise des in Fig. 14 dargestellten Systems verwendet wird.

In Fig. 3 ist eine erste Ausführungsform eines Musteranpas sungssystems mit Merkmalen nach der Erfindung dargestellt, das bei einer Spracherkennungseinrichtung angewendet ist. Die Spracherken nungseinrichtung weist ein Mikrophon 11, einen Verstärker 12, eine Bandpaß-Filterbank 13, einen Analog-Digital-(A/D)-Um setzer 14, einen Sprachintervalldetektor 15, ein Register 16, einen Vergleicher 17, ein Register 18, einen Vergleicher 19, einen Schwellenwert-Speicher 20, einen Vergleicher 21, ein Wörterbuch 22, eine Zuordnungseinrichtung 23 mit einem Register 24, einem Vergleicher 25 und einem Register 26 auf, welche so, wie dargestellt, miteinander verbunden sind. Der Einfachheit hal ber sollen die Standardsprachmuster, welche auf zwei oder mehr Arten von Rahmenlängen normiert sind, vorher in dem Wör terbuch 22 gespeichert sein.

Eine unbekannte eingegebene Sprache, welche zu erkennen ist, wird vom Mikrophon 11 aus eingegeben und über den Verstärker 12 der Bandpaß-Filterbank 13 zugeführt, in welcher die einge gebene Sprache in eine vorherbestimmte Anzahl Frequenzbänder analysiert wird. Der A/D-Umsetzer 14 quantisiert ein Ausgangs signal der Bandpaß-Filterbank 13 beispielsweise in 12 Bits, und diese 12 Bit-Daten werden dem Sprachintervalldetektor 15 zugeführt. Die Methode, um das Sprachintervall festzustel len, ist bekannt; beispielsweise kann die Methode angewendet werden, welche in Niimi, "Spracherkennung", Kuoritsu Publi shing Co., beschrieben ist. Das festgestellte Sprachintervall wird dem Register 18 als ein Eingangs-Sprachmuster zugeführt.

In dem Register 16 sind vorher mehrere Arten von Rahmenlängen gespeichert, auf welche das Eingangs-Sprachmuster zu normie ren ist. Wenn das Sprachintervall der 12 Bit-Daten festgestellt wird, gibt der Sprachintervalldetektor 15 an den Vergleicher 17 ein Rahmenlängen-Signal ab, welches die Rahmenlänge des festgestellten Sprachintervalls anzeigt. Der Vergleicher 17 vergleicht die Rahmenlänge des festgestellten Sprachinter valls mit den registrierten Rahmenlängen in dem Register 16 und wählt eine oder zwei registrierte Rahmenlängen aus, wel che der Rahmenlänge des festgestellten Sprachintervalls am nächsten kommen. Ein Rahmenlängen-Signal, welches die ausge wählte, registrierte Rahmenlänge anzeigt, wird an das Re gister 18 und den Vergleicher 21 abgegeben.

Das Register 18 unterwirft das Eingangssprachmuster einer Zeitnormierung, d. h. einer Einstellung der Rahmenlänge, um so die Rahmenlänge, welche durch das Rahmenlängen-Signal von dem Vergleicher 17 angezeigt wird, anzupassen. Beispiels weise soll der Einfachheit halber das Eingangssprachmuster eine Rahmenlänge L_x haben, und das Register 18 soll das Ein gangssprachmuster auf eine Rahmenlänge L_x+2 ausdehnen. Eine einfache Dehnungsmethode besteht darin, die Rahmenlänge des Eingangssprachmusters durch eine bestimmte Zahl zu teilen, welche um eins größer ist als die Anzahl einzufügender Rahmen, um so den in dem Register 18 einzufügenden Teil festzulegen. In dem vorstehend beschriebenen Fall ist die bestimmte Zahl L_x/3 und der Einfügteil wird als L_x′ erhalten, welches eine ganze Zahl ist. Zuerst werden der L_x-te Datenwert in dem (L_x+2)-ten Rahmen und der (L_x-1)-te Datenwert in dem (L_x+1)- ten Rahmen nachgebildet, und der Kopiervorgang wird in ähnlicher Weise nacheinander wiederholt, wie in Fig. 4A dargestellt ist. Der 2L_x′-te Datenwert wird in dem (2L_x′+1)-ten Rahmen und in dem (L_x′+2)-ten Rahmen nachgebildet. Als nächstes wird der (L_x′-1)-te Datenwert in dem L_x′-Rahmen nachgebildet, und der Kopierprozeß wird in ähnlicher Weise nacheinander wiederholt, bis der L_x′-te Datenwert in dem (L_x′+1)-ten Rahmen nachgebildet ist.

Andernfalls kann das Register 18 das eingegebene Sprachmuster auf eine Rahmenlänge L_x-2 ausdehnen. In diesem Fall wird der (L_x′+1)-te Datenwert in dem L₁′-ten Rahmen nachgebildet, wie in Fig. 4B dargestellt ist. Der (L_x+n)-te Datenwert wird in dem (L_x+n-1)-ten Rahmenwert kopiert, und der Kopierprozeß wird in entsprechender Weise nacheinander wiederholt, bis der 2L_x′-te Datenwert in dem (2L_x′+2)-ten Rahmen nachgebildet ist. Dann wird der (L_x′+n)-te Datenwert in dem (L_x′+n-2)-ten Rahmenwert nachgebildet, und der Kopierprozeß wird bis zu dem L₁-ten Datenwert wiederholt.

Die Zeitnormierung in dem Register 18 ist vorstehend als eine Addition oder Subtraktion von zwei Rahmen beschrieben; die Rahmenlänge ist jedoch nicht auf zwei beschränkt. Die Digita lisierung ist durchgeführt, wenn die Musterlänge auf eine vorherbestimmte Länge eingestellt ist. Jedoch ist es nicht wesentlich, die Digitalisierung durchzuführen, wenn die Er kennung mit Hilfe der Methode durchgeführt ist, welche bei spielsweise in Terano et al., "Applied Fuzzy System", OOmu Publishing Co. beschrieben ist.

In dieser Ausführungsform wird die Digitalisierung mittels des Vergleichers 19 für jeden Rahmen durchgeführt. Der Ver gleicher 19 schiebt die gesamten Daten, welche einen Rahmen ausmachen, um drei Bits aus dem Register 18, d. h. multi pliziert sie insgesamt mit 1/8 und gibt die geteilten Daten als einen Schwellenwert an den Speicher 20 ab. Danach vergleicht der Vergleicher 19 die Werte der von dem Register 18 erhaltenen Rahmen mit dem in dem Speicher 20 ge speicherten Schwellenwert und speichert einen Datenwert "1" in dem Register 18, wenn der Wert des Rahmens größer als der Schwellenwert ist, und speichert sonst "0" in dem Register.

Der Vergleicher 21 vergleicht die Rahmenlänge jedes Wortes, welches aus dem Wörterbuch 22 gelesen wird, mit der Rahmen länge der eingegebenen Sprache, welche von dem Register 18 erhalten wird, und lädt die Muster des Wörterbuchs 22 nur dann in die Zuordnungseinrichtung 23, wenn die verglichenen Werte passen. Die Zuordnungseinrichtung 23 kollationiert die Muster des Wörterbuchs 22 mit dem Muster, welches von dem Register 18 über den Vergleicher 21 erhalten wird und be rechnet den Ähnlichkeitsgrad. Der Ähnlichkeitsgrad wird in dem Register 24 gespeichert, welches anfangs auf Null ge bracht ist. Der Ähnlichkeitsgrad "0" wird in dem Register 24 gespeichert, wenn sich die Rahmenlänge unterscheidet und kein Kollationieren in der Zuordnungseinrichtung 23 stattfindet.

Die vorstehend beschriebene Operation wird wiederholt, bis ein Endsignal, welches das Ende der in dem Wörterbuch 22 registrierten Muster anzeigt, von dem Wörterbuch 22 erhalten wird. Danach wird der Ähnlichkeitsgrad, welcher an der ersten Stelle in dem Register 24 gespeichert wird, als ein maximaler Ähnlichkeitsgrad an das Register 26 übertragen, und der Ver gleicher 25 vergleicht den Ähnlichkeitsgrad, welcher in dem Register 26 gespeichert ist, mit den Ähnlichkeitsgraden, wel che an den zweiten und nachfolgenden Stellen in dem Register 24 gespeichert sind. Wenn der in dem Register 24 gespeicherte Ähnlichkeitsgrad größer als der in dem Register 25 gespeicher te Ähnlichkeitsgrad ist, wird der Ähnlichkeitsgrad in dem Re gister 24 als ein neuer maximaler Ähnlichkeitsgrad an das Register 25 übertragen. Der maximale Ähnlichkeitsgrad wird in dem Register 26 gespeichert, nachdem alle Ähnlich keitsgrade verglichen sind, und das Wort, welches dem maxi malen Ähnlichkeitsgrad entspricht, wird als das Erkennungs ergebnis von dem Register 26 aus abgegeben.

In Fig. 5 ist eine Ausführungsform der Bandpaß-Filterbank 13 zusammen mit dem Mikrophon 11, dem Verstärker 12 und dem A/D-Umsetzer 14 dargestellt. Die Bandpaß-Filterbank 13 weist Bandpaßfilter 3 ₁ bis 3 _n, Gleichrichterschaltungen 4 ₁ bis 4 _n und Tiefpaßfilter 5 ₁ bis 5 _n auf, welche so, wie in Fig. 5 dargestellt, miteinander verbunden sind. Ein Signal, welches von dem Bandpaßfilter 3 _i abgegeben wird, wird in der Gleich richterschaltung 4 _i gleichgerichtet und durchläuft das Tief paßfilter 5 _i, welches vorgesehen ist, um die Zeit zu mitteln, wobei i=1, 2, . . ., n ist. Im Ergebnis wird dann ein Lei stungsspektrum von dem Tiefpaßfilter 5 _i abgegeben. Die Lei stungsspektren von den Tiefpaßfiltern 5 ₁ bis 5 _n werden addiert, um die gesamte Sprachleistung zu erhalten, und werden dann in dem A/D-Umsetzer 14 einer A/D-Umsetzung unterzogen. Das vom A/D-Umsetzer 14 abgegebene Leistungsspektrum wird dazu ver wendet, das Sprachintervall von dem Umgebungsgeräusch zu tren nen, d. h. die sogenannte Sprachintervallgewinnung wird durch geführt. Jedoch ist die Methode der Sprachintervall-Gewinnung nicht auf diese Ausführungsform beschränkt; vielmehr können verschiedene andere Methoden ebenfalls angewendet werden. Bei spielsweise kann für die Sprachintervallgewinnung eine Methode angewendet werden, welche in Niimi, "Spracherkennung", Kuorit su Publishing Co. vorgeschlagen worden ist.

In Fig. 10 kann ein durch eine gestrichelte Linie abgegrenzter Teil des Spracherkennungssystems durch eine Kombination aus einem Mikrocomputer und einem Speicher ausgeführt werden. An hand eines Flußdiagramms in Fig. 6 wird eine Arbeitsweise des Mikrocomputers erläutert, wenn diese Kombination angewen det wird.

In Fig. 6 wird bei einem Schritt S1 die unbekannte, eingegebe ne Sprache gelesen, um eine Musterlänge L der eingegebenen Sprache zu erhalten, und beim Schritt S2 wird die Länge L der eingegebenen Sprache entsprechend einer vorherbestimmten Regel umgewandelt. Beispielsweise wird die Musterlänge um gewandelt in eine Länge L₁, wenn L < L_a ist, in eine Länge L₂, wenn L_a L L_b ist, und eine Länge L₃, wenn L_b < L ist (wobei L_a und L_b Mustergrenzwertlängen sind). Mit anderen Worten, beim Schritt S2 wird die Zeit der einge gebenen Sprache umgesetzt; es findet jedoch keine Umsetzung bezüglich der Frequenz statt.

Bei einem Schritt S3 wird i "1" gesetzt, und beim Schritt S4 wird das i-te Standardmuster gelesen. Beim Schritt S5 wird dann beurteilt, ob das eingegebene Sprachmuster, wel ches die umgesetzte Länge hat, zur Länge des i-ten Standard musters paßt oder nicht. Beim Schritt S6 wird das eingegebene Sprachmuster und das i-te Standardmuster nur dann verglichen bzw. kollationiert, wenn das Beurteilungsergebnis beim Schritt S5 ja ist. Da die zwei Muster, welche beim Schritt S6 kollationiert werden, dieselbe Länge haben, besteht keine Notwendigkeit, die Länge des Musters bei dem Schritt S6 umzu wandeln. Wenn das Beurteilungsergebnis beim Schritt S5 nein ist, oder nach dem Schritt S6 wird bei einem Schritt S7 beur teilt, ob i n ist oder nicht, wobei n die Anzahl Standard muster bezeichnet, welche in dem Wörterbuch gespeichert sind. Wenn das Ergebnis beim Schritt S7 nein ist, wird beim Schritt S8 i um eins inkrementiert, und es wird dann auf den Schritt S4 zurückgekehrt.

Wenn das Ergebnis beim Schritt S7 ja ist, wird beim Schritt S9 das Standardmuster mit dem größten Ähnlichkeitsgrad be züglich des eingegebenen Sprachmusters gesucht, und beim Schritt S10 wird das Standardmuster mit dem größten Ähn lichkeitsgrad als das Erkennungsergebnis ausgegeben.

Wenn das unbekannte eingegebene Sprachmuster A in eine Länge L_j umgewandelt wird, wobei i = 1, 2, 3 ist, kann das eingegebene Sprachmuster A durch die folgende Formel (1) geschrieben werden:

A = {A₁, A₂, . . ., A_Lj} (1)

Das i-te Standardmuster B_i kann dann durch die folgende Formel (2) beschrieben werden:

B₁ = {B_1i, B_2i, . . ., B_Lji} (2)

In den vorstehenden Formeln (1) und (2) sind A₁, A₂, . . ., B_1i, B_2i, . . ., B_Lji Vektoren, welche aus den Ausgangssignalen der Bandpaß-Filterbank 13 gebildet sind.

Ein Abstand D_i, welcher dazu verwendet wird, den Ähnlichkeitsgrad bei dem Schritt S6 zu beurteilen, kann durch die folgende Formel (3) beschrieben werden.

Die vorstehende Formel (3) wird manchmal als Abstand bezeichnet. Es können natürlich auch andere Abstände verwendet werden, um bei dem Schritt S6 den Ähnlich keitsgrad zu beurteilen.

Bei dem vorstehend beschriebenen Schritt S9 kann das Standard muster mit dem größten Ähnlichkeitsgrad bezüglich des einge gebenen Sprachmusters durch Erhalten des minimalen Abstands D_i gesucht werden. Diese Standardmuster, welche eine Länge ha ben, die sich von derjenigen des eingegebenen Sprachmusters unterscheiden, können nicht mit dem eingegebenen Sprachmuster bei dem Schritt S6 kollationiert werden, und folglich wird der Wert "0" als der Ähnlichkeitswert von solchen Standardmu stern gespeichert. Natürlich wird in dem Fall, bei welchem der Abstand D_i gespeichert wird, um den Ähnlichkeitsgrad zu beschreiben, ein unendlich großer Wert für derartige Standard muster gespeichert.

In dem vorstehend beschriebenen Fall wird die Länge des ein gegebenen Sprachmusters nur in eine der Längen L₁, L₂ und L₃ umgewandelt. Aus diesem Grund wird, wenn ein Wort zur Zeit der Registrierung die Länge L_a hat, dieses Wort in ein Standardmuster mit der Länge L₂ umgewandelt. Wenn dagegen dasselbe Wort zur Zeit der Spracherkennung eingegeben wird, kann die Länge dieses Worts L_a+1 und damit etwas länger als zur Zeit der Registrierung sein. In diesem Fall wird das ein gegebene Sprachmuster in die Länge L₁ umgesetzt und nicht mit dem Standardmuster mit der Länge L₂ verglichen bzw. kollatio niert. Im Ergebnis wird dann keine korrekte Spracherkennung durchgeführt, und es wird ein fehlerhaftes Erkennungsergeb nis abgegeben. Hierzu kommt es, wenn das eingegebene Sprachmu ster eine Länge in der Nähe der Länge L_a oder L_b hat.

Als nächstes wird daher eine abgewandelte Regel beschrieben, welche anstelle der vorherbestimmten Regel verwendet werden kann, um das vorstehend beschriebene Phänomen in Form eines fehlerhaften Erkennungsergebnisses zu verhindern. Entspre chend der abgewandelten Regel wird die Musterlänge L ent sprechend den folgenden sechs Regeln umgewandelt:

1) Die Musterlänge L wird in die Länge L₁ umgewandelt, wenn beiden Bedingungen L<L_a und L<L_a+(L_a-L_b)/2 genügt ist.
2) Die Musterlänge L wird in die Länge L₁ und L₂ umgewandelt, wenn beiden Bedingungen L<L_a und LL_a+(L_a-L_b)/2 genügt ist.
3) Die Musterlänge L wird in die Längen L₁ und L₂ umgewandelt, wenn beiden Bedingungen L_aLL_b und L<L_b+(L_a-L_b)/2 genügt ist.
4) Die Musterlänge L wird in die Länge L₂ und L₃ umgewandelt, wenn beiden Bedingungen L_aLL_bl, LL_b+(L_a-L_b)/2 genügt ist.
5) Die Musterlänge L wird in die Länge L₂ und L₃ umgewandelt, wenn beiden Bedingungen L_b<L, L<L_b-(L_a-L_b)/2 genügt ist.
6) Die Musterlänge L wird in die Länge L₂ und L₃ umgewandelt, wenn beiden Bedingungen L_b<L_a und LL_b-(L_a-L_b)/2 genügt ist.

Mit Hilfe der vorstehend beschriebenen, abgewandelten Regel wird die Musterlänge L in zwei Längen umgewandelt, wenn die Mu sterlänge L in der Nähe von L_a oder L_b liegt. Folglich gibt es im mer ein entsprechendes Standardmuster mit einer Länge, welche derjenigen des eingegebenen Sprachmusters entspricht, und die Erkennungsgenauigkeit ist im Vergleich zu dem Fall, bei welchem die vorherbestimmte Regel verwendet wird, stark verbessert.

In dem herkömmlichen System, in welchem das eingegebene Sprachmuster in eine konstante Länge umgesetzt wird, ist nur der durch die Formel (3) beschriebene Abstand für die Sprach erkennung erforderlich. In dieser Ausführungsform wird jedoch das eingegebene Sprachmuster in ein oder zwei Längen umge setzt, und der durch die Formel (3) beschriebene Abstand muß durch die umgesetzten Längen des eingegebenen Sprachmusters normiert werden. Andererseits schlägt Terano et al., "Applied Fuzzy System" Oomu Publishing Co. eine Methode vor, welche keine Normierung des Abstandes für die Spracherken nung erfordert.

Als nächstes wird ein Verfahren zum Registrieren des Standard musters in dem Wörterbuch beschrieben. Fig. 7 zeigt nur einen wesentlichen Teil der Spracherkennungseinrichtung bezüglich der Registrierung der Standardmuster. In Fig. 7 sind die Teile, welche dieselben sind wie die entsprechenden Teile in Fig. 3, mit denselben Bezugszeichen bezeichnet und werden daher nicht noch einmal beschrieben. Die Arbeitsweise des in Fig. 7 dargestellten Systems ist bis auf die Erzeugung des Binärmusters in dem Register 18 grundsätzlich dieselbe wie diejenige des in Fig. 3 dargestellten Systems. Die Inhalte eines Registers 31 werden anfangs auf "0" gebracht. Ein Addie rer 32 addiert das Muster in dem Register 18 und einen ent sprechenden Inhalt des Registers 31 und speichert die Summe in dem Register 31. Folglich kann ein gemitteltes Muster eines bestimmten Wortes erhalten werden, das von der Bedie nungsperson eine Anzahl Mal gesprochen wird, und das gemittel te Muster kann als das Standardmuster des bestimmten Wortes registriert werden. Der Einfachheit halber soll das bestimmte Wort von der Bedienungsperson dreimal gesprochen und daraus das gemittelte Muster erhalten werden.

Natürlich ist es nicht wesentlich, das gemittelte Muster zu registrieren. Wenn das gemittelte Muster nicht registriert wird, kann das Muster in dem Register 18 unmittelbar als das Standardmuster in dem Register 31 gespeichert werden.

Zuerst addiert der Addierer 32 ein erstes Muster des bestimm ten Wortes, welches zuerst gesprochen wird, und es wird in dem Register 18 zusammen mit einem Muster "0" gespeichert, welches in dem Register 31 gespeichert wird, und es wird eine erste Summe in das Register 31 gespeichert. Zweitens addiert der Addierer 32 ein zweites Muster des bestimmten Wortes, wel ches zum zweiten Mal gesprochen wird, und speichert es und die erste Summe, welche in dem Register 31 gespeichert ist, in dem Register 18 und speichert eine zweite Summe in das Register 31. Drittens addiert der Addierer 32 ein drittes Muster des bestimmten Wortes, welches zum dritten Mal gesprochen wird, und speichert es und die zweite Summe, welche in dem Register 31 gespeichert ist, in dem Register 18 und speichert eine dritte Summe in das Register 31. Die dritte Summe wird in dem Wörterbuch 22 als das Standardmuster des bestimmten Wortes gespeichert. Die vorstehend beschriebene Operation wird für jedes Wort durchgeführt, welches in dem Wörterbuch 22 zu re gistrieren ist. Um den Inhalt des Wörterbuchs 22 selbst bei einem Spannungsausfall zu sichern, sollte natürlich das Wör terbuch 22 ein leistungsloser Speicher wie ein Floppy Disk sein.

In Fig. 7 ist ein durch eine gestrichelte Linie eingerahmter Teil der Spracherkennungseinrichtung durch eine Kombination aus einem Mikrocomputer und einem Speicher realisiert. In Fig. 8 ist ein Flußdiagramm dargestellt, anhand welchem eine Arbeitsweise des Mikrocomputers erläutert wird, wenn diese Kombination verwendet wird.

In Fig. 8 wird bei einem Schritt S11 die unbekannte eingege bene Sprache gelesen, welche zu registrieren ist, und es wird eine Musterlänge L der eingegebenen Sprache erhalten. Bei einem Schritt S12 wird beurteilt, ob die Musterlänge L klei ner als die Länge L_a ist oder nicht. Wenn das Ergebnis beim Schritt S12 nein ist, wird beim Schritt S13 die Musterlänge L in die Länge L₁ umgesetzt. Wenn dagegen das Ergebnis beim Schritt S12 ja ist, wird bei einem Schritt S14 beurteilt, ob die Musterlänge L kleiner als die Länge L_b ist oder nicht.

Wenn das Ergebnis beim Schritt S14 nein ist, wird bei einem Schritt S15 die Musterlänge L in die Länge L₂ umgesetzt. Wenn dagegen das Ergebnis beim Schritt S14 ja ist, wird bei einem Schritt S16 die Musterlänge L in die Länge L₃ umge setzt. Folglich wird die vorherbestimmte Regel verwendet, um die Musterlänge L in die Länge L₁ umzusetzen, wenn L < L_a ist, in die Länge L₂ umzusetzen, wenn L_a L L_b ist und L_a < L_b ist, und in die Länge L₃ umgesetzt, wenn L_b < L ist. Bei einem Schritt S17 wird das eingegebene Sprachmuster mit der umgesetzten Länge L₁, L₂ oder L₃ als das Standardmuster in dem Wörterbuch registriert. Bei einem Schritt S18 wird beurteilt, ob alle Standardmuster in dem Wörterbuch regi striert sind oder nicht, und der Prozeß endet, wenn das Er gebnis beim Schritt S18 ja wird.

Wenn Worte zu erkennen sind, bei welchen generell eine Um setzung angewendet wird, sollte die Länge L₁ annähernd 1200 ms und die Länge L₂ annähernd 800 ms gesetzt werden und die Länge L₁ soll 32 Abtastwerten, die Länge L₂ 16 Abtast werten und die Länge L₃ 8 Abtastwerten entsprechen. Natür lich kann daher der in Fig. 8 dargestellte Prozeß auch abge ändert werden, indem anstelle der vorherbestimmten Regel die vorstehend beschriebene, abgewandelte Regel angewendet wird.

Normalerweise ist bei einer normalen Umsetzung beispielsweise eine minimale Rahmenlänge 35 ± 30% und eine maximale Länge 150 ± 30%, wenn ein Rahmen 10 ms ist. Somit können vier Arten von Rahmen längen im allgemeinen die Rahmenlängen von 17 bis 226 Rahmen abdecken. Das heißt, das Sprachmuster mit einer Rahmenlänge von 17 bis 33 Rahmen kann durch 25 Rahmen, eine Rahmenlänge von 34 bis 64 kann durch 49 Rahmen, eine Rahmenlänge von 65 bis 121 Rahmen kann durch 93 Rahmen und eine Rahmenlänge von 122 bis 226 Rahmen kann durch 174 Rahmen dargestellt wer den.

Folglich können beim Registrieren der Standardmuster in dem Wörterbuch die vorstehend beschriebenen vier Arten von Rah menlängen verwendet werden. Mit anderen Worten, wenn dieselbe eingegebene Sprache, welche zu registrieren ist, dreimal von der Bedienungsperson gesprochen wird und ein mittlerer Wert f_a 17 bis 33 Rahmen beträgt, wird diese eingegebene Sprache als ein Standardmuster mit einer Rahmenlänge von 25 Rahmen registriert. In ähnlicher Weise wird die eingegebene Sprache als ein Standardmuster mit einer Rahmenlänge von 49 Rahmen registriert, wenn der gemittelte Wert f_a 34 bis 64 Rahmen ist, als ein Standardmuster mit einer Rahmenlänge von 93 Rahmen registriert, wenn der gemittelte Wert f_a 65 bis 121 Rahmen ist, und als ein Standardwert mit einer Rahmenlänge von 174 registriert, wenn der gemittelte Wert f_a 122 bis 226 Rahmen ist.

Wenn in diesem Fall die Spracherkennung durchgeführt wird, wird das eingegebene Sprachmuster in Abhängigkeit von einer Rahmenlänge f_i des eingegebenen Sprachmusters in eine oder zwei Rahmenlängen umgesetzt. Das eingegebene Sprachmuster wird in eine Rahmenlänge von 35 Rahmen umgesetzt, wenn f_i 25 ist, in Rahmenlänge von 25 bis 49 Rahmen umgesetzt, wenn 26 f_i 49 ist, in Rahmenlängen von 49 bis 93 umge setzt, wenn 50 f_i 93 ist, in Rahmenlängen von 93 und 174 Rahmen umgesetzt, wenn 94 f_i 174 ist, und in eine Rahmenlänge von 174 Rahmen umgesetzt, wenn 175 f_i ist.

Entsprechend der eingangs wiedergegebenen Erläuterungen der Schwierigkeiten beim Stand der Technik ist die lineare An passungsmethode wirksam, wenn das Sprachmuster vollständig ist und kein Ausfall oder zusätzliches Rauschen in dem Sprach muster existiert. Da jedoch bei der linearen Anpassungsme thode das Sprachmuster linear verdichtet oder gedehnt wird, obwohl das Sprachmuster in Abhängigkeit von den Umständen im allgemeinen eine nicht-lineare Verdichtung oder Dehnung er fährt, wird die Genauigkeit der Spracherkennung extrem schlecht, wenn das Sprachmuster einen Ausfall oder zusätzliches Rau schen enthält.

Anhand eines Diagramms in Fig. 9 wird das Umsetzen der Länge des Sprachmusters in eine vorherbestimmte Länge erläutert. Wenn normale Sprachmuster eines in Fig. 9(A) und (B) darge stellten Worts "stop" verglichen werden, indem durch Zeit normierung die Längen der Sprachmuster auf dieselbe Länge linear verdichtet oder gedehnt werden, kann der Fehler zwi schen den zwei Sprachmusterun unterdrückt werden. Wenn jedoch eine erfolglose Sprachintervallfeststellung gemacht wird, und der Buchstabe "p" am Ende des Sprachmusters ausfällt, wie in Fig. 9(C) dargestellt ist, unterscheidet sich das in Fig. 9(A) oder (B) dargestellte Sprachmuster von dem in Fig. 9(C) dar gestellten Muster. In diesem Fall ist der Unterschied zwischen den beiden Sprachmustern speziell in der Nähe des Endes des Sprachmusters groß. Die fehlerhafte Übereinstimmung zwischen den in Fig. 9(B) und (C) dargestellten Sprachmustern ist durch ein strichpunktiertes Oval angezeigt.

Der Konsonant, welcher eine geringe Energie hat, wie beispiels weise der Buchstabe "p" in dem Wort "stop", ist äußerst schwie rig durch die Sprachintervall-Detektion festzustellen. Es kann eine zufriedenstellende Musteranpassung durchgeführt werden, selbst wenn der Konsonant des Wortes nicht festgestellt ist, wenn die nicht-lineare Anpassungsmethode angewendet wird. Wie eingangs beschrieben, erfordert jedoch die nicht lineare Anpassungsmethode eine große Anzahl von Operationen.

Als nächstes wird daher eine zweite Ausführungsform des Mu steranpassungssystems mit Merkmalen nach der Erfindung beschrieben, bei welchem das Anpassungsmuster in zufriedenstellender Weise mit Hilfe der linearen Anpassungsmethode durchgeführt werden kann, selbst wenn der Konsonant des Wortes nicht festgestellt wird.

In Fig. 10 ist die zweite Ausführungsform des Musteranpassungs systems mit Merkmalen nach der Erfindung beschrieben, welches in der Spracherkennungseinrichtung angewendet wird. In Fig. 10 sind die Teile, welche dieselben sind wie die entsprechenden Teile in Fig. 3, mit denselben Bezugszeichen bezeichnet und werden da her nicht noch einmal beschrieben.

Das Sprachintervall wird mittels des Sprachintervalldetektors 15 festgestellt, und die Vergleichseinrichtung 21 vergleicht das binäre Sprachmuster, das erzeugt wird und mit den in dem Wör terbuch 22 registrierten Sprachmustern in ähnlicher Weise wie bei der ersten in Verbindung mit Fig. 3 beschriebenen Ausfüh rungsform verglichen. Nach der Sprachintervall-Detektion wird das Sprachmuster von dem Sprachintervall-Detektor 15 einer Summierschaltung 41 zugeführt, welche eine Summe der Energie des Sprachmusters für jeden Rahmen erhält. Die Energiesumme von der Summierschaltung 41 wird mit einem vorherbestimmten Energie-Schwellenwert aus einem Schwellenwertspeicher 43 ver glichen, um so festzustellen, ob ein Energieeinbruch in dem Rahmen existiert oder nicht. Wenn der Energieeinbruch in dem Rahmen existiert, ist die Energiesumme von der Summierschal tung 41 kleiner als der vorherbestimmte Energieschwellenwert. Der Energieeinbruch entspricht einem Ton, wie beispiels weise dem vorstehend angeführten Konsonanten "p", welcher leicht ausfällt.

Wenn der Energieeinbruch existiert, stellt der Vergleicher 42 auch fest, ob der Energieeinbruch näher dem Anfang oder dem Ende des Wortes ist. Wenn beispielsweise der Energieeinbruch näher bei dem Anfang des Wortes liegt, wird der Anfangsteil des Wortes ausgeschieden, und das verkürzte Sprachmuster des Restteils des Wortes wird dem Register 18 zugeführt. Gleich zeitig wird dasselbe dem Register 18 zugeführte verkürzte Sprachmuster auch dem Vergleicher 17 zugeführt. Danach führen der Vergleicher 17 und das Register 18 ähnlich wie in der ersten Ausführungsform entsprechende Operationen aus.

Nach einem Vergleichen und Zuordnen, d. h. nach einem Kolla tionieren des verkürzten eingegebenen Sprachmusters mit dem registrierten Standardmuster in der Vergleichs-/Zuordnungseinrichtung 23 wird der Ähnlichkeitsgrad im Anschluß an den letzten ge speicherten Ähnlichkeitsgrad, welcher für das vollständige eingegebene Sprachmuster erhalten wird, in dem Register 24 gespeichert. Mit anderen Worten, das Vergleichen und Zuordnen findet zweimal bezüglich eines Standardmusters statt, d. h. einmal mit Hilfe des vollständigen, eingegebenen Sprachmusters und einmal mit Hilfe des verkürzten eingegebenen Sprachmusters; somit werden für eine eingegebene Sprache zwei Ähnlichkeits grade erhalten. Der größere Ähnlichkeitsgrad wird als der Ähnlichkeitsgrad des eingegebenen Sprachmusters weiter verwen det. Schließlich wird nach einem Vergleichen und Zuordnen der vollständigen und verkürzten eingegebenen Sprachmuster mit allen registrierten Standardmustern das Wort, welches den maximalen Ähnlichkeitsgrad hat, als das Erkennungsergebnis von dem Register 26 aus abgegeben.

In Fig. 10 ist ein durch eine strichpunktierte Linie einge rahmter Teil der Spracherkennungseinrichtung durch eine Kombi nation aus einem Mikrocomputer und einem Speicher realisiert. Anhand eines Flußdiagramms in Fig. 11 wird die Arbeitsweise des Mikrocomputers erläutert, wenn diese Kombination angewen det wird. In dieser Ausführungsform ist es nicht wesentlich, das eingegebene Sprachmuster wie in der ersten Ausführungs form in zwei oder mehr Rahmenlängen umzusetzen. Der Einfach heit halber soll daher das eingegebene Sprachmuster nur in eine Rahmenlänge umgesetzt werden.

In Fig. 11 wird bei einem Schritt S21 beurteilt, ob die Spracherkennungseinrichtung in dem Registrierbetrieb arbei tet oder nicht. Wenn das Ergebnis beim Schritt S21 nein ist, wird bei einem Schritt S22 die unbekannte Sprache eingegeben, und bei einem Schritt S23 wird die eingegebene Sprache in ein eingegebenes Sprachmuster mit einer vorherbestimmten Rah menlänge umgesetzt und dieses eingegebene Sprachmuster wird gespeichert. Bei einem Schritt S24 wird beurteilt, ob ein Energieeinbruch, welcher kleiner als ein vorherbestimmter Pe gel ist, in dem eingegebenen Sprachmuster vorhanden ist oder nicht. Der vorherbestimmte Pegel, welcher zum Feststellen des Energieeinbruchs verwendet wird, wird auf der Basis des Ener giepegels bestimmt, wenn keine Sprache eingegeben wird.

Wenn das Ergebnis beim Schritt S24 ja ist, wird bei einem Schritt S25 beurteilt, ob der Energieeinbruch näher bei dem Wortanfang liegt oder nicht. Wenn das Ergebnis beim Schritt S25 ja ist, wird bei einem Schritt S26 das eingegebene Sprach muster, welches einem Teil des Wortes nach dem Energieeinbruch bis zum Ende des Wortes entspricht, in eine vorherbestimmte Rahmenlänge umgesetzt, und dieses eingegebene Sprachmuster wird dann gespeichert. Wenn dagegen das Ergebnis beim Schritt S25 nein ist, wird bei einem Schritt S27 das eingegebene Sprachmuster, das einem Teil des Wortes von dem Wortanfang bis unmittelbar vor dem Energieeinbruch entspricht, in eine vorherbestimmte Rahmenlänge umgesetzt, und dies eingegebene Sprachmuster wird dann gespeichert.

Nach dem Schritt S26 oder S27 wird bei einem Schritt S28 das verkürzte eingegebene Sprachmuster und das vollständig eingegebene Sprachmuster mit demselben registrierten Stan dardmuster verglichen und zugeordnet, d. h. kollationiert, um zwei Ähnlichkeitsgrade zu erhalten, und der größere Ähnlich keitsgrad beibehalten.

Bei einem Schritt S29 wird beurteilt, ob die vollständigen und verkürzten eingegebenen Sprachmuster mit allen Standard mustern verglichen sind oder nicht. Der Schritt S28 wird wiederholt, wenn das Ergebnis beim Schritt S29 nein ist. Wenn dagegen das Ergebnis beim Schritt S29 ja ist, wird bei einem Schritt S32 der maximale Ähnlichkeitsgrad für die eingegebene Sprache erhalten. Bei einem Schritt S33 wird das Wort, wel ches den maximalen Ähnlichkeitsgrad hat, von dem Register 26 aus als das Erkennungsergebnis abgegeben, und der Prozeß ist beendet.

Wenn dagegen das Ergebnis beim Schritt S24 nein ist, wird bei einem Schritt S30 das vollständige eingegebene Sprachmuster mit dem Standardmuster verglichen und zugeordnet, und bei einem Schritt S31 wird beurteilt, ob das vollständige einge gebene Sprachmuster mit allen Standardmustern verglichen und zugeordnet ist oder nicht. Der Schritt S30 wird wiederholt, wenn das Ergebnis beim Schritt S31 nein ist. Wenn das Ergeb nis beim Schritt S31 ja ist, wird auf den Schritt S32 vor gerückt. Wenn das Ergebnis beim Schritt S21 ja ist, arbei tet die Spracherkennungseinrichtung in dem Registrierbetrieb, um Standardmuster von Worten in dem Wörterbuch zu registrie ren.

Als nächstes wird ein Prozeß beschrieben, um die Standard muster in dem Wörterbuch zu registrieren. Fig. 12 zeigt nur einen wesentlichen Teil der Spracherkennungseinrichtung be züglich der Registrierung der Standardmuster. In Fig. 12 sind diejenigen Teile, welche dieselben sind wie die entsprechen den Teile in Fig. 7 und 10, mit denselben Bezugszeichen be zeichnet und werden daher nicht noch einmal beschrieben. Die Arbeitsweise des in Fig. 12 dargestellten Systems ist grund sätzlich dieselbe wie diejenige der in Fig. 7 und 10 darge stellten Systeme. Selbstverständlich wird das eingegebene Sprachmuster, welches einem Teil des Wortes nach dem Energie einbruch bis zum Ende des Wortes entspricht, in eine vorher bestimmte Rahmenlänge umgesetzt, wenn der Energieeinbruch am Anfang des Wortes angeordnet ist. Wenn dagegen der Energie einbruch am Ende des Wortes zu finden ist, wird das eingege bene Sprachmuster, welches einem Teil des Wortes von dem Be ginn des Wortes an bis unmittelbar vor dem Energieeinbruch entspricht, in eine vorherbestimmte Rahmenlänge umgesetzt.

In Fig. 12 ist ein durch eine gestrichelte Linie eingerahmter Teil der Spracherkennungseinrichtung durch eine Kombination aus einem Mikrocomputer und einem Speicher realisiert. Anhand eines Flußdiagramms in Fig. 13 wird die Arbeitsweise des Mikrocomputers erläutert, wenn diese Kombination angewendet wird. In Fig. 13 wird bei einem Schritt S41 beurteilt, ob die Spracherkennungseinrichtung in dem Registrierbetrieb arbei tet oder nicht. Wenn das Ergebnis beim Schritt S41 ja ist, wird bei einem Schritt S42 das Sprachmuster der eingegebenen Sprache in eine vorherbestimmte Rahmenlänge umgesetzt und dieses Sprachmuster wird dann als das Standardmuster regi striert. Bei einem Schritt S43 wird beurteilt, ob der Ener gieeinbruch in dem Sprachmuster vorhanden ist oder nicht. Der Prozeß endet, d. h. die Registrierung dieser eingegebenen Sprache endet, wenn das Ergebnis beim Schritt S43 nein ist.

Wenn dagegen das Ergebnis beim Schritt S43 ja ist, wird bei einem Schritt S44 beurteilt, ob der Energieeinbruch näher bei dem Anfang des Wortes liegt oder nicht. Wenn das Ergeb nis beim Schritt S44 ja ist, wird bei einem Schritt S45 das eingegebene Sprachmuster, welches einem Teil des Wortes nach dem Energieeinbruch bis zum Wortende entspricht, in eine vor herbestimmte Rahmenlänge umgesetzt, und dieses eingegebene Sprachmuster wird dann als das Standardmuster registriert. Wenn dagegen das Ergebnis beim Schritt S44 nein ist, wird bei einem Schritt S46 das eingegebene Sprachmuster, welches einem Teil des Wortes von dem Wortanfang an bis unmittelbar vor dem Energieeinbruch entspricht, in eine vorherbestimmte Rahmenlänge umgesetzt, und dieses Sprachmuster wird dann als das Standardmuster gespeichert. Wenn folglich das Ergebnis beim Schritt S43 ja ist, werden zwei Arten von Standardmu stern in dem Wörterbuch bezüglich einer eingegebenen Sprache registriert. Mit anderen Worten, ein Standardmuster wird be züglich des vollständigen, eingegebenen Sprachmusters regi striert, und ein Standardmuster wird bezüglich des verkürzten eingegebenen Sprachmusters registriert.

Mit der zweiten Ausführungsform kann die Genauigkeit der Spracherkennung verbessert werden, da ein entsprechendes Standardmuster auch für die eingegebene Sprache registriert ist, von welcher ein Teil leicht ausfällt. Die Genauigkeit der Spracherkennung ist speziell dann beträchtlich verbes sert, wenn die ersten und zweiten Ausführungsformen verknüpft werden.

Nachstehend wird eine dritte Ausführungsform des Musteranpas sungssystems mit Merkmalen nach der Erfindung beschrieben, wobei die Musteranpassung in zufriedenstellender Weise mit Hilfe der linearen Anpassungsmethode durchgeführt werden kann, selbst wenn der Konsonant eines Wortes nicht festgestellt wird.

In Fig. 14 ist die dritte Ausführungsform des Musteranpas sungssystems mit Merkmalen nach der Erfindung dargestellt, welches bei der Spracherkennungseinrichtung angewendet ist. In Fig. 14 sind wiederum die Teile, welche entsprechenden Teilen in Fig. 10 entsprechen, mit denselben Bezugszeichen bezeichnet und wer den daher nicht noch einmal beschrieben.

Bei der zweiten Ausführungsform wird ein Teil der eingegebe nen Sprache festgestellt, in welchem der Energieeinbruch vor kommt. Bei dieser dritten Ausführungsform wird jedoch ein Teil der eingegebenen Sprache, in welchem der Energieein bruch vorliegt und die Spektralkomponente in dem hochfre quenten Bereich konzentriert ist, festgestellt, und zwar deswegen, da der Konsonant, welcher mittels der Sprachintervall-Detek tion schwierig festzustellen ist, eine verhältnismäßig geringe Energie hat und sich die Frequenzkomponenten in dem hochfrequenten Bereich konzentrieren.

Der Einfachheit halber soll die Bandpaßfilterbank 13 15 Bandpaßfilter aufweisen, die von einer minimalen Mittelfre quenz von 250 Hz in 1/3 Oktaven bis zu einer maximalen Mit tenfrequenz von 6500 Hz reichen. Die Ausgangssignale des A/D-Umsetzers 14, welche den ersten bis elften Bandpaß filtern in dem niederfrequenten Bereich entsprechen, werden in einer Summierschaltung 51 summiert, während die Ausgangs signale des A/D-Umsetzers 14, welche den zwölften bis fünf zehnten Bandpaßfiltern entsprechen, in einer Summierschaltung 52 summiert werden. Ein Vergleicher 53 vergleicht Ausgangssummen der Summierschaltungen 51 und 52 und gibt ein Signal "1" ab, wenn die Ausgangssumme der Summierschaltung 52 größer als diejenige der Summierschaltung 51 ist. Andernfalls gibt der Vergleicher 53 ein Signal "0" ab.

Bei dieser Ausführungsform wird die Konzentration der spek tralen Komponenten in dem hochfrequenten Bereich dadurch festgestellt, daß das zu analysierende Frequenzband in zwei Bereiche aufgeteilt wird. Es kann auch irgendein anderes geeignetes Verfahren angewendet werden, um die Konzentration der Spektralkomponenten in dem hochfrequenten Bereich fest zustellen. Beispielsweise kann die Konzentration festgestellt werden, wenn das zu analysierende Frequenzband in zwei Be reiche geteilt wird, und die hochfrequenten Komponenten ein Mehrfaches der niederfrequenten Komponenten sind, oder die Konzentration kann festgestellt werden, wenn eine Linie ent lang der Frequenzachsenrichtung der spektralen Verteilung gezogen wird, und die Linie eine negative Steigung hat.

Ein Addierer 54 addiert die Ausgangssummen der Summierschal tungen 51 und 52 und legt einen addierten Wert an einen Vergleicher 56 an. Der Vergleicher 56 gibt ein Signal "1" ab, wenn der addierte Wert kleiner als ein vorherbestimmter, in einem Speicher 55 gespeicherter Schwellenwert ist; andern falls gibt er ein Signal "0" ab. Dieser vorherbestimmte Schwellenwert wird verwendet, um den Energieeinbruch festzu stellen, und wird beispielsweise bei annähernd 1/5 des Ener giepegels eingestellt, welcher erhalten wird, wenn ein Vokal eingegeben wird. Ein Multiplizierer 57 multipliziert die Aus gangssignale der Vergleicher 53 und 56, und das unbekannte eingegebene Sprachmuster, welches vorübergehend in einem Re gister 58 gespeichert ist, wird an das Register 18 übertra gen, wenn der Multiplizierer 57 ein Signal "1" abgibt. Da nach wird das Erkennungsergebnis ähnlich wie bei den ersten und zweiten Ausführungsformen erhalten.

Nunmehr wird ein Prozeß beschrieben, um die Standardmuster in dem Wörterbuch zu registrieren. In Fig. 15 ist nur ein wesentlicher Teil der Spracherkennungseinrichtung bezüglich der Registrierung der Standardmuster dargestellt. In Fig. 15 sind diejenigen Teile, welche dieselben wie die entsprechen den Teile in Fig. 14 sind, mit denselben Bezugszeichen be zeichnet und werden daher nicht nochmals beschrieben. Die Arbeitsweise des in Fig. 15 dargestellten Systems ist grund sätzlich dieselbe wie diejenige der in Fig. 12 und 14 dar gestellten Systeme. Selbstverständlich wird das eingegebene Sprachmuster, welches einem Teil des Wortes nach dem Ener gieeinbruch bis zum Ende des Wortes entspricht, in eine vor herbestimmte Rahmenlänge umgesetzt, wenn der Energieeinbruch an dem Wortanfang zu finden ist, da dort die Spektralkompo nenten in dem hochfrequenten Bereich konzentriert werden. Das eingegebene Sprachmuster, welches einem Teil des Wortes von dem Wortanfang an bis unmittelbar vor dem Energieeinbruch entspricht, wird in eine vorherbestimmte Rahmenlänge umge setzt, wenn der Energieeinbruch am Wortende liegt, da dort die spektralen Komponenten im hochfrequenten Be reich konzentriert sind.

In Fig. 14 und 15 ist ein durch eine gestrichelte Linie ein gerahmter Teil der Spracherkennungseinrichtung durch eine Kombination aus einem Mikrocomputer und einen Speicher aus geführt. Anhand eines Flußdiagramms in Fig. 16 wird der Betrieb des Mikrocomputers erläutert, wenn diese Kombination angewen det wird. In dieser Ausführungsform ist es nicht wesentlich, das eingegebene Sprachmuster in zwei oder mehr Rahmenlängen wie in der ersten Ausführungsform umzusetzen. Folglich soll der Einfachheit halber das eingegebene Sprachmuster nur in eine Rahmenlänge umgesetzt werden.

In Fig. 16 wird bei einem Schritt S51 beurteilt, ob das ein gegebene Sprachmuster einen spezifischen Teil hat, in welchem ein Energieeinbruch vorhanden ist und die spektralen Kompo nenten in dem hochfrequenten Bereich konzentriert sind. Wenn das Ergebnis beim Schritt S51 ja ist, wird bei einem Schritt S52 das eingegebene Sprachmuster in eine vorherbestimmte Rah menlänge normiert. Bei einem Schritt S53 wird der spezielle Teil des eingegebenen Sprachmusters entfernt, und bei einem Schritt S54 wird das eingegebene Sprachmuster abgesehen von dem speziellen Teil in die vorherbestimmte Rahmenlänge nor miert.

Nach dem Schritt S54 werden bei einem Schritt S56 die zwei eingegebenen Sprachmuster, welche sich auf dieselbe einge gebene Sprache beziehen, mit den in dem Wörterbuch registrier ten Standardmustern verglichen. Bei einem Schritt S57 wird der Ähnlichkeitsgrad für die zwei eingegebenen Sprachmuster bezüglich aller Standardmuster berechnet. Bei einem Schritt S58 wird das Wort mit dem maximalen Ähnlichkeitsgrad als das Erkennungsergebnis ausgegeben und der Prozeß ist beendet. Wenn dagegen das Ergebnis beim Schritt S51 nein ist, wird bei einem Schritt S55 das eingegebene Sprachmuster in die vorherbestimmte Länge normiert, und bei einem Schritt S56 wird das eingegebene Sprachmuster mit den in dem Wörterbuch registrierten Standardmustern verglichen und zugeordnet. Da nach werden die Schritte S57 und S58 in ähnlicher Weise, wie oben beschrieben, ausgeführt.

Die Spracherkennungseinrichtung in dem Registrierbetrieb ar beitet in ähnlicher Weise wie im Falle der zweiten Ausfüh rungsform, außer daß bei der dritten Ausführungsform der spezielle Teil des Wortes festgestellt wird, in welchem der Energieeinbruch vorliegt und in welchem die spektralen Kom ponenten in dem hochfrequenten Bereich konzentriert sind. Dieser Unterschied ist jedoch aus Fig. 14 zu ersehen.

Bei der dritten Ausführungsform kann die Genauigkeit der Spracherkennung verbessert werden, da ein entsprechendes Standardmuster auch für die eingegebene Sprache registriert wird, von welcher ein Teil ausfällt. Die Genauigkeit des Spracherkennungssystems ist insbesondere dann, wenn die erste und dritte Ausführungsform verknüpft werden, erheblich verbessert. In den beschriebenen Ausführungsformen ist die Methode, um den Ähnlichkeitsgrad zu bestimmen, jedoch nicht auf die dort beschriebenen Methoden beschränkt.

Claims

1. Musteranpassungssystem für eine Spracherkennungseinrichtung, mit einem Wörterbuch zum Speichern von Standardsprachmustern, mit einer Umsetzeinrichtung, um ein eingegebenes Sprachmuster, welches eine beliebige Musterlänge hat, in zumindest ein umgesetztes Sprachmuster umzusetzen, welches eine Musterlänge hat, mit welcher Standardsprachmuster in dem Wörterbuch gespeichert sind, und mit einer Vergleichseinrichtung, um das umgesetzte Sprachmuster mit in dem Wörterbuch gespeicherten Standardmustern zu vergleichen, um ein Standardmuster zu erhalten, welches einen größten Ähnlichkeitsgrad mit dem umgesetzten Sprachmustern hat, dadurch gekennzeichnet, daß

a) in dem Wörterbuch (22) Standardsprachmuster mit zwei oder mehr verschiedenen Musterlängen gespeichert sind, wobei die verschiedenen Muster jeweils hinsichtlich ihrer Längen klassifiziert sind,
b) die Umsetzeinrichtung (15-20; 41-43; 51-58) dafür ausgebildet ist, ein eingegebenes Sprachmuster, welches eine beliebige Musterlänge hat, selektiv in eine der verschiedenen Musterlängen umzusetzen, und
c) eine Zuordnungseinrichtung (23-26) vorgesehen ist, welche das eingegebene, auf eine bestimmte Musterlänge umgesetzte Sprachmuster der entsprechenden Musterlänge der in dem Wörterbuch (22) gespeicherten Standardsprachmuster zuordnet.

2. Musteranpassungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Umsetzeinrichtung (15-20; 41-43; 51-58) dafür ausgebildet ist, die Rahmenlänge (L_x) eines Eingangssprachmusters auf bestimmte, im Wörterbuch gespeicherte und klassifizierte Werte zu komprimieren oder auszudehnen.

3. Musteranpassungssystem nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß das Wörterbuch (22) jedes Standardsprachmuster in mehreren voneinander unterschiedlichen Musterlängen (L₁-L₃) speichert, und daß die Umsetzeinrichtung (15-20) das eingegebene Sprachmuster in wenigstens eine der Längen der Standardsprachmuster abhängig davon umsetzt, ob die Länge des eingegebenen Sprachmusters vorgegebene Mustergrenzwertlängen (L_a, L_b) überschreitet und/oder unterschreitet.

4. Musteranpassungssystem nach Anspruch 3, dadurch gekennzeichnet, daß das Wörterbuch (22) jedes Standardsprachmuster in drei gegenseitig unterschiedlichen Musterlängen (L₁-L₃) speichert, und daß die Umsetzeinrichtung (15-20) das eingegebene Sprachmuster in das umgesetzte Sprachmuster mit der Musterlänge L₁, wenn L<L_a ist, mit der Musterlänge L₂, wenn L_a L L_b ist, und mit der Musterlänge L₃ umsetzt, wenn L_b<L ist, wobei mit L die beliebige Musterlänge des eingegebenen Sprachmusters bezeichnet ist, und L_a und L_b Mustergrenzwertlängen sind, wobei L_a<L_b ist.

5. Musteranpassungssystem nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß das Wörterbuch (22) jedes Standardsprachmuster in drei wechselweise verschiedenen Musterlängen (L1 bis L3) speichert, und die Umsetzeinrichtung (15-20) das eingegebene Sprachmuster in das umgesetzte Sprachmuster mit der Musterlänge L1, wenn beiden Bedingungen L<La und L<La+(La-Lb)/2 genügt ist, mit den Musterlängen L1 und L2, wenn beiden Bedingungen L<La und LLa+(a-Lb)/2 genügt ist, mit den Musterlängen L1 und L2, wenn beiden Bedingungen LaLLb und L<Lb+(La-Lb)/2 genügt ist, mit den Musterlängen L2 und L3, wenn beiden Bedingungen LaLLb und LLb+(La-Lb)/2 genügt ist, mit den Musterlängen L2 und L3, wenn beiden Bedingungen Lb<L und L<Lb-(La-Lb)/2 genügt ist, und mit den Musterlängen L2 und L3 umsetzt, wenn beiden Bedingungen Lb<La und LLb-(La-Lb)/2 genügt ist.

6. Musteranpassungssystem nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Wörterbuch (22) erste und zweite Standardsprachmuster bezüglich eines Wortes speichert, wenn ein Energiepegel in den Anfangs- oder Endteilen des Wortes kleiner als ein vorherbestimmter Pegel ist, wobei das erste Standardmuster dem ganzen Wort entspricht, und das zweite Standardmuster dem Wort ausschließlich dem Anfangs- oder Endteil entspricht.

7. Musteranpassungssystem nach Anspruch 1 oder 5, dadurch gekennzeichnet, daß die Vergleichs- und Zuordnungseinrichtung (21, 23-26) das umgesetzte Sprachmuster mit dem ersten und zweiten Standardmuster kollationiert und das Wort mit dem größten Ähnlichkeitsgrad auswählt, wenn eines der beiden Standardmuster eine größte Ähnlichkeit unter den in dem Wörterbuch (22) gespeicherten Standardmustern hat.

8. Musteranpassungssystem nach Anspruch 6, dadurch gekennzeichnet, daß der vorherbestimmte Pegel auf der Basis eines Energiepegels, der sich ergibt, wenn keine Spracheingabe erfolgt, festgelegt ist.

9. Musteranpassungssystem nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet daß das Wörterbuch (22) erste und zweite Standardsprachmuster bezüglich eines Wortes speichert, wenn ein Energiepegel am Wortanfang oder -ende niedriger als ein vorherbestimmter Pegel ist, und Spektralkomponenten hat, welche in einem hochfrequenten Bereich konzentriert sind, wobei das erste Standardmuster dem ganzen Wort entspricht und das zweite Standardmuster dem Wort ausschließlich dem Anfangs- oder Endteil entspricht.

10. Musteranpassungssystem nach Anspruch 6, dadurch gekennzeichnet, daß der vorherbestimmte Pegel niedriger als der Energiepegel eines Vokals ist.

11. Musteranpassungssystem nach Anspruch 10, dadurch gekennzeichnet, daß der vorherbestimmte Pegel annähernd ein Fünftel (1/5) des Energiepegels eines Vokals ist.