DE3819178A1

DE3819178A1 - Spracherkennungsverfahren und -einrichtung

Info

Publication number: DE3819178A1
Application number: DE3819178A
Authority: DE
Inventors: Takashi Ariyoshi; Toshiki Kawamoto; Seigou Yasuda; Syoji Kuriki; Tomofumi Nakatani
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1987-06-04
Filing date: 1988-06-06
Publication date: 1988-12-22
Also published as: US5091947A; DE3819178C2

Description

Die Erfindung betrifft ein Spracherkennungsverfahren und eine Spracherkennungseinrichtung, bei welchen sowohl eine sprecherunabhängige als auch eine sprecherabhängige Erkennung durchgeführt wird. Die Erfindung ist insbesondere bei Sprachausgabesystemen, wie einem Sprachbehandlungssystem und einem Sprach-Wortbearbeitungssystem anzuwenden.

Spracherkennung ist eine bekannte Methode, um ein unbekanntes Eingangssprachmuster dadurch zu identifizieren, daß es mit einem gespeicherten Bezugsmuster verglichen und dazwischen ein Ähnlichkeitsgrad berechnet wird. Spracherkennung kann in zwei Arten eingeteilt werden, nämlich eine sprecherunabhängige und eine sprecherabhängige Erkennung. Bei der herkömmlichen sprecherunabhängigen Erkennung wird ein Wörterbuch verwendet, das nur zum Speichern von Bezugsmustern gesprochener Worte für die sprecherunabhängige Erkennung ausgelegt ist. Ebenso wird bei der herkömmlichen sprecherabhängigen Erkennung ein Wörterbuch verwendet, das nur zum Speichern von Bezugsmustern von Worten für die sprecherabhängige Erkennung ausgelegt ist. Ein Bezugsmuster für die sprecherabhängige Erkennung wird auf der Basis von Sprachen erzeugt, welche von einer Vielzahl von Sprechern ausgesprochen worden sind, um ein von einer Einzelperson abhängiges, spezifisches Muster auszuschließen. Ein Bezugsmuster für die sprecherabhängige Erkennung wird für jede Einzelperson erzeugt und enthält folglich ein spezifisches einer Einzelperson eigenes Muster. Daher unterscheidet sich ein Bezugssprachmuster eines Wortes für die sprecherunabhängige Erkennung von einem Bezugssprachmuster desselben Wortes für die sprecherabhängige Erkennung. Das heißt, sowohl die sprachunabhängigen als auch die sprachabhängigen Bezugsmuster für ein gesprochenes Wort entsprechen einander nicht. Daher ist es sehr schwierig, ein Wörterbuch zu schaffen, das in dem derzeitigen Stand der Spracherkennungstechnik gemeinsam für sprachunabhängige und sprachabhängige Erkennungsprozesse verwendet wird.

Es ist bereits eine Spracherkennungseinrichtung vorgeschlagen worden, die sowohl die sprecherunabhängige als auch die sprecherabhängige Erkennung durchführen kann. Eine derartige Einrichtung enthält zwei Wörterbücher, von welchen eines für die sprecherunabhängige und das andere für die sprecherabhängige Erkennung verwendet wird. In diesem Fall ist ein Bezugssprachenmuster eines Wortes in jedem der beiden Wörterbücher gespeichert. Beispielsweise ist ein Sprachmuster eines Wortes, welches oft von vielen Personen benutzt werden kann, in dem Wörterbuch für die sprecherunabhängige Erkennung registriert. Wenn während des Betriebs eine unbekannte Eingangsstimme dem System zugeführt wird, wird ein Muster der Eingangsstimme mit den Sprachmustern sowohl für die sprecherunabhängige als auch für die sprecherabhängige Erkennung verglichen. Bei dieser Vorgehensweise werden dann Ähnlichkeitsgrade zwischen dem eingegebenen Sprachmuster und den Bezugsmustern sowohl für die sprecherunabhängige als auch für die sprecherabhängige Erkennung erhalten. Dann wird eine Sprache mit dem höchsten Ähnlichkeitsgrad als ein erster Kandidat der unbekannten Eingangssprache aus den berechneten Ähnlichkeitsgraden ausgewählt.

Die vorstehend beschriebene Spracherkennung hat jedoch den einen Nachteil, daß es oft zu einem Fehler bei der Erkennung kommt. Beispielsweise wählt die Einrichtung oft den ersten Kandidaten mit dem höchsten Ähnlichkeitsgrad aus den Bezugsmustern aus, welche in dem Wörterbuch für die sprecherunabhängige Erkennung gespeichert sind, selbst wenn die Eingangssprache von einer Person ausgesprochen worden ist, deren Sprachausdruck in dem Wörterbuch für sprecherabhängige Erkennung registriert worden ist. Natürlich ist dann der ausgewählte erste Kandidat falsch. Ein falscher Kandidat, oder Kandidaten, die auf den ersten Kandidaten folgen, können aus den Kandidaten ausgewählt werden, welche durch den Erkennungstyp erhalten worden ist, welcher nicht zu dem Sprecher paßt. Andererseits wählt die Einrichtung oft den ersten Kandidaten aus den registrierten Sprachen aus, die in dem Wörterbuch für sprecherabhängige Erkennung gespeichert sind, selbst wenn die Eingangssprache von einem Sprecher ausgesprochen ist, deren Sprachausdruck in dem Wörterbuch für sprecherabhängige Erkennung nicht registriert ist. Auch können ein falscher Kandidat oder Kandidaten, welche auf den ersten Kandidaten folgen, ausgewählt werden. Eigentlich können die Ähnlichkeitsgrade bezüglich der sprecherunabhängigen und der sprecherabhängigen Erkennung nicht gleichwertig behandelt werden, da es ein Unterschied in dem Sprachmuster und dem Algorithmus gibt.

Außerdem muß die Einrichtung zwei verschiedene Prozessoren enthalten, von welchen der eine ausschließlich für die sprecherunabhängige und der andere ausschließlich für die sprecherabhängige Erkennung verwendet wird. Dementsprechend ist die für die Spracherkennung verwendete Hardware auch beachtlich groß.

Gemäß der Erfindung sollen daher ein Spracherkennungsverfahren und eine Einrichtung zur Durchführung des Verfahrens geschaffen werden, bei welchen die vorstehenden Nachteile beseitigt sind, und welche durch Entfernen der vorstehend beschriebenen Tendenz eine Sprachidentifizierung mit einer hohen Genauigkeit durchführen können. Ferner soll eine Spracherkennungseinrichtung geschaffen werden, in welcher sowohl die sprecherunabhängige als auch die sprecherabhängige Erkennung mit einer reduzierten Hardware durchgeführt werden kann.

Gemäß der Erfindung ist dies bei einer Spracherkennungseinrichtung nach dem Oberbegriff des Anspruchs 1 durch die Merkmale im kennzeicchnenden Teil des Anspruchs 1 erreicht. Ferner ist dies bei einem Spracherkennungsverfahren durch die im Anspruch 9 angegebenen Schritte gemäß der Erfindung erreicht. Vorteilhafte Weiterbildungen sowohl der erfindungsgemäßen Einrichtung als auch des erfindungsgemäßen Verfahrens sind Gegenstand der entsprechenden, auf die jeweiligen Ansprüche rückbezogenen Unteransprüche.

Nachfolgend wird die Erfindung anhand der bevorzugten Ausführungsformen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen erläutert. Es zeigt:

Fig. 1 ein Blockdiagramm einer bevorzugten Ausführungsform der Erfindung;

Fig. 2 ein Blockdiagramm einer ins einzelne gehenden, in Fig. 1 dargestellten Sprachidentifizierungsschaltung;

Fig. 3A und 3B Flußdiagramme zum Erläutern der Arbeitsweise der in Fig. 1 dargestellten Einrichtung;

Fig. 4A und 4D Darstellungen zum Erläutern der Arbeitsweise der in Fig. 2 dargestellten Anordnung;

Fig. 5 ein Blockdiagramm einer weiteren Ausführungsform der in Fig. 1 dargestellten Sprachidentifizierungsschaltung;

Fig. 6 ein Blockdiagramm einer Sprachbehandlungseinrichtung, welche eine Anwendungsmöglichkeit der Erfindung ist;

Fig. 7 ein Blockdiagramm einer Einrichtung, mit welcher die in Fig. 1 dargestellte Anordnung erreicht ist;

Fig. 8A und 8B zum Erläutern einer Grundverarbeitung in der Spracherkennungsverarbeitung, welche auf einer binären Zeit-Spektrum-Musterverarbeitung basiert;

Fig. 9 eine Darstellung zum Erläutern eines binären Zeit- Spektrum-Musters eines unbekannten Eingangssprachmusters;

Fig. 10 eine Darstellung zum Erläutern eines Modell-(Bezugs-)Musters, das bei der binären Zeit-Spektrum-Musterverarbeitung verwendet ist;

Fig. 11 ein Blockdiagramm einer in Fig. 7 dargestellten Ähnlichkeitselement-Element-Berechnungseinheit;

Fig. 12A und 12B Darstellungen zum Erläutern der Arbeitsweise der in Fig. 11 dargestellten Ähnlichkeitselement-Berechnungseinheit;

Fig. 13A bis 13C Darstellungen zum Erläutern eines Beispiels der Berechnung, welche mittels der in Fig. 11 dargestellten Ähnlichkeitselement-Berechnungsschaltung durchgeführt ist;

Fig. 14 ein Flußdiagramm der Arbeitsweise der in Fig. 11 dargestellten Ähnlichkeitselement-Berechnungsschaltung und

Fig. 15 ein Blockdiagramm eines Systems zum Durchführen der in Fig. 7 dargestellten Anordnung.

In Fig. 1 ist ein Blockdiagramm einer bevorzugten Ausführungsform der Erfindung dargestellt. Hierbei wandelt ein Mikrophon 1 eine Stimme oder Sprache, welche eine Luftschwingung ist, in ein entsprechendes elektrisches Sprachsignal um. Eine Merkmalsextrahierschaltung 2 extrahiert Merkmalsmengen des Sprachsignals von dem Mikrophon 1 und erzeugt ein unbekanntes Sprachmuster. Laufend werden verschiedene Methoden zum Extrahieren von Merkmalen einer Sprache vorgeschlagen; eines von diesen kann zum Ausführen der Merkmalsextrahierschaltung verwendet werden. Wie später noch im einzelnen beschrieben wird, wird jedoch vorzugsweise ein Merkmalsextrahierverfahren angewendet, das auf einer binären Zeit-Spektrum-Musteranpassung (BTSP) basiert. Eine sprecherunabhängige Erkennungsschaltung 3 führt eine Anpassung zwischen dem unbekannten von der Merkmalsextrahierschaltung 2 erzeugten Sprachmuster und Bezugssprachmustern für die sprecherunabhängige Erkennung durch, welche in einem Wörterbuch 5 für sprecherunabhängige Sprachmuster gespeichert sind. Die sprecherunabhängige Erkennungsschaltung 3 gibt dann eine Anzahl Kandidaten für die unbekannte Sprache aus. In diesem Fall können alle Kandidaten mit Ähnlichkeitsgraden, die mehr als ein vorherbestimmter Schwellenwertpegel sind, ausgegeben werden; andererseits kann auch eine vorherbestimmte Anzahl Kandidaten ausgegeben werden. Obwohl irgendein Algorithmus für die sprecherunabhängige Erkennung zum Ausbilden der sprecherunabhängigen Erkennungsschaltung 3 verwendet werden kann, wird vorzugsweise ein Algorithmus benutzt, welcher auf der BTSP-Anpassung basiert. Eine sprecherabhängige Erkennungsschaltung 4 führt eine Anpassung zwischen dem unbekannten von der Merkmalsextrahierschaltung 2 gelieferten Sprachmuster und sprecherunabhängigen Bezugssprachmustern durch, welche in einem Wörterbuch 6 für sprecherunabhängige Bezugsmuster gespeichert sind. Dann gibt die sprecherunabhängige Erkennungsschaltung 4 eine Anzahl Kandidaten für die unbekannte Sprache aus. Obwohl einer der Algorithmen für die sprecherabhängige Erkennung zum Ausführen der sprecherabhängigen Erkennungsschaltung 4 verwendet werden kann, wird vorzugsweise ein Algorithmus benutzt, welcher auf der BTSP-Anpassung basiert.

Eine Sprachidentifizierungsschaltung 7 hat die Aufgabe, einen Koeffizienten k, welcher von einem Speicher 9 zugeführt worden ist, und einen Ähnlichkeitsgrad jedes einer vorherbestimmten Anzahl von Kandidaten zu multiplizieren, welche von der sprecherunabhängigen Erkennungsschaltung 4 geliefert werden. Ein Koeffizient k hat eine Funktion, nämlich einen Ähnlichkeitsgrad eines durch die sprecherunabhängige Erkennung erhaltenen Kandidaten zu korrigieren und um dabei das Auftreten eines Fehlers bei der Erkennung zu mindern. In dem Speicher 9 sind eine Anzahl verschiedener Werte der Koeffizienten k, nämlich k₁, k₂ und k₃ mit verschiedenen Werten gespeichert, und einer von ihnen kann durch einen Befehl von der Sprachidentifizierungsschaltung 7 aus ausgewählt werden.

Die Sprechidentifizierungsschaltung 7 hat ferner die Funktion, die Kandidaten, welche bei der sprecherunabhängigen Erkennung erhalten worden sind, und die Kandidaten, welche bei der sprecherabhängigen Erkennung erhalten worden sind, in abnehmender Reihenfolge des Ähnlichkeitsgrades anzuordnen, wobei mit dem höchsten Ähnlichkeitsgrad begonnen wird. Hierbei kann der Ähnlichkeitsgrad für jeden Kandidaten, welcher bei der sprecherunabhängigen Erkennung erhalten worden ist, durch den Koeffizienten k korrigiert werden. Die Sprachidentifizierungsschaltung 7 kann beginnend mit dem höchsten Ähnlichkeitsgrad einen Kandidaten nach dem anderen, beginnend mit dem höchsten Ähnlichkeitsgrad entsprechend einem Befehl von einer Eingabetastatur 8 aus an eine Sprachsyntheseschaltung 10 abgeben. Die Sprachsyntheseschaltung 10 führt eine Sprachsynthese mit Hilfe eines entsprechenden Sprachsynthesemusters durch, welche aus einem Sprachsynthese, Bezugsmuster-Wörterbuch 11 ausgelesen wird. In dem Wörterbuch 11 sind eine Vielzahl Sprachsynthese-Bezugsmuster gespeichert. Eine synthetische Sprache wird dann an einen Lautsprecher 12 abgegeben, welcher sie in eine entsprechende Lustschwingung umwandelt.

In Fig. 2 ist ein Blockdiagramm eines detaillierteren Aufbaus der in Fig. 1 dargestellten Sprachidentifizierschaltung 7 dargestellt. Die Schaltung 7 weist Speicher 71 und 72, eine Koeffizienten-Multiplizierschaltung 73, einen Kandidatenspeicher 74, eine Steuereinheit 75, eine Koeffizienten-Einstellschaltung 76, ein Hinweisregister 77 und eine Dekodierschaltung 78 auf. Mittels des Speichers 71 werden Ergebnisse gespeichert, welche an der sprecherunabhängigen Erkennungsschaltung 3 erhalten worden sind, d. h. ein Ähnlichkeitsgrad für jeden der Kandidaten. Mittels des Speichers 72 werden Ergebnisse gespeichert, welche an der sprecherabhängigen Erkennungsschaltung 4 erhalten worden sind, d. h. ein Ähnlichkeitsgrad für jeden der Kandidaten. Die Koeffizienten- Multiplizierschaltung 73 multipliziert einen Koeffizienten k und den Ähnlichkeitsgrad jedes der Kandidaten, welche von dem Speicher 71 geliefert werden. Wie vorstehend beschrieben, hat der Koeffizient k die Funktion, den bei der sprecherunabhängigen Erkennung erhaltenen Ähnlichkeitsgrad zu korrigieren, um dadurch Fehler bei der Erkennung zu verringern. Multiplikationsergebnisse, d. h. korrigierte Ähnlichkeitsgrade, werden dem Kandidatenspeicher 74 zugeführt. Die Ähnlichkeitsgrade, welche bei der sprecherunabhängigen Erkennung erhalten worden sind, werden unmittelbar dem Kandidatenspeicher 74 zugeführt. Die in dem Speicher 74 gespeicherten Daten werden in diesem durch die Steuereinheit 75 in abnehmender Reihenfolge des Ähnlichkeitsgrads angeordnet. Der Ähnlichkeitsgrad jedes Kandidaten, welcher mittels der sprecherunabhängigen Erkennung erhalten worden ist, ist durch den Koeffizienten k korrigiert worden. Wenn ein Ausgeben eines Kandidaten von der Steuereinheit 75 entsprechend einem Befehl von der Eingabetastatur 8 befohlen wird, wird ein Kandidat mit dem höchsten Ähnlichkeitsgrad unter den gespeicherten Kandidaten von der Sprachsyntheseschaltung 10 abgegeben. Gleichzeitig wird ein Hinweis, der verwendet wird, um anzuzeigen, daß der abgegebene Kandidat für die sprecherunabhängige oder -abhängige Erkennung von Belang ist, in das Hinweisregister 77 geschrieben wird. Die Steuereinheit 75 kann einen Befehl zum Einstellen des Koeffizienten k zu erzeugen, welcher an der Multiplizierschaltung 73 einzustellen ist, wenn eine vorherbestimmte Bedingung, welche später noch beschrieben wird, festgestellt wird. Dieser Befehl zur Koeffizienteneinstellung wird der Koeffizienteneinstellschaltung 76 zugeführt, welche eine entsprechende Speicheradresse an den Koeffizientenspeicher 9 abgibt.

Nunmehr wird anhand von Fig. 3 die Arbeitsweise der in Fig. 1 und 2 dargestellten Ausführungsform beschrieben. Nachstehend ist hierbei angenommen, daß der Koeffizientenspeicher 9 drei verschiedene Koeffizienten k₁, k₂ und k₃ (k₁<k₂<k₃) speichert; der Koeffizient k₂ wird anfangs in der Multiplizierschaltung 73 der Sprachidentifizierschaltung 7 gesetzt.

Während des Betriebs wird eine von einer Person ausgesprochene Sprache mittels des Mikrophons 1 in ein entsprechendes elektrisches Signal umgewandelt, welches dann der Merkmalsextrahierschaltung 2 zugeführt wird. Die Schaltung 2 erzeugt ein unbekanntes Sprachmuster der Eingangssprache, indem sie deren Merkmale extrahiert (Schritt 1001 in Fig. 3A). Das unbekannte Sprachmuster wird der sprecherunabhängigen Erkennungsschaltung 3 und auch der sprecherabhängigen Erkennungsschaltung 4 zugeführt. Die Schaltung 3 wählt eine Anzahl n Kandidaten für die eingegebene Stimme aus, welche den höchsten Ähnlichkeitsgrad haben, welcher durch die Anpassung erhalten worden ist (Schritt 1002). In ähnlicher Weise wählt die sprecherabhängige Erkennungsschaltung 4 eine Anzahl n Kandidaten für die eingegebene Sprache aus, welche den höchsten Ähnlichkeitsgrad haben, welcher durch Anpassung erhalten worden ist (Schritt 1002). Es wird nun angenommen, daß die Anzahl n Kandidaten, welche von der sprecherunabhängigen Erkennung erhalten worden ist, in abnehmender Reihenfolge des Ähnlichkeitsgrads folgendermaßen dargestellt werden:
WI1, WI2, . . . , WIn
und ein Ähnlichkeitsgrad jedes Kandidaten wird folgendermaßen dargestellt:
SI1, SI2, . . . , SIn.
Ferner wird angenommen, daß eine Anzahl n-Kandidaten, welcher bei der sprecherabhängigen Erkennung erhalten worden ist, in abnehmbarer Reihenfolge des Ähnlichkeitsgrads folgendermaßen dargestellt werden:
WD1, WD2, . . . , WDn
und ein Ähnlichkeitsgrad jedes Kandidaten folgendermaßen dargestellt wird:
SD1, SD2, . . . , SDn.
Die Kandidaten WI1, WI2, . . . , WIn werden zusammen mit dem Ähnlichkeitsgrad SI1, SI2, . . . , SIn in dem Speicher 71 gespeichert, wie in Fig. 4A dargestellt ist. Genauso werden die Kandidaten WD1, WD2, . . . , WDn in dem Speicher 72 zusammen mit dem Ähnlichkeitsgrad SD1, SD2, . . . , SDn gespeichert, wie in Fig. 4B dargestellt ist.

Die Ähnlichkeitsgrade SI1, SI2, . . . , SIn, welche bei der sprecherunabhängigen Erkennung erhalten werden, werden mit der Schaltung 73 mit dem Koeffizienten k₂ multipliziert, und die berechneten Ergebnisse k₂ · SI1, k₂ · SI2, . . . , k₂ · SIn werden dem Kandidatenspeicher 74 zugeführt. Andererseits werden die Ähnlichkeitsgrade SD1, SD2, . . . , SDn, welche durch die sprecherabhängige Erkennung erhalten worden sind, unmittelbar dem Kandidatenspeicher 74 zugeführt. Wenn alle Kandidaten (d. h. eine Anzahl von 2n Kandidaten) für die unbekannte Eingangssprache an den Kandidatenspeicher 74 transferiert worden sind, beginnt die Steuereinheit 75, alle Kandidaten in abnehmender Reihenfolge des Ähnlichkeitsgrads durch ein Vergleichen untereinander anzuordnen. Es sei nun angenommen, daß der Ähnlichkeitsgrad in einer Folge k₂ · SD1, k₂ · SD2, SD1, . . . , in abnehmender Reihenfolge des Ähnlichkeitsgrads angeordnet werden, wie in Fig. 4C dargestellt. Die Steuereinheit 75 befiehlt dann dem Kandidatenspeicher 74, einen Kandidaten mit dem höchsten Ähnlichkeitsgrad abzugeben. Bei der vorstehenden Annahme wird der Kandidat WI1 aus dem Speicher 74 gelesen und der Sprachsyntheseschaltung 10 zugeführt. Zu diesem Zeitpunkt wird dann ein Hinweis mit einem Wert "1" in dem Hinweisregister 77 registriert. Ein Wert "1" des Hinweises zeigt an, daß der Kandidat, welcher nunmehr aus dem Speicher 74 gelesen wird, ein bei der sprecherunabhängigen Erkennung erhaltener Kandidat ist, während ein Wert "0" des Hinweises anzeigt, daß der Kandidat, welcher nunmehr gelesen wird, ein bei der sprecherabhängigen Erkennung erhaltener Kandidat ist.

Die Sprachsyntheseschaltung 10 liest ein Sprachsynthesemuster aus, das dem Kandidaten WI1 aus dem Sprachsynthesewörterbuch 11 entspricht, und gibt eine Synthesesprache an dem Lautsprecher 12 ab. Folglich kann der Sprecher erkennen, ob die ausgesprochene Sprache richtig erkannt worden ist oder nicht.

Wie vorstehend beschrieben, ist der direkte Vergleich der Ähnlichkeitsgrade zwischen der sprecherunabhängigen und der -abhängigen Erkennung nicht vernünftig, weil der Erkennungsalgorithmus und das Verfahren zum Erzeugen von Bezugsmustern zwischen der sprecherunabhängigen und der -abhängigen Erkennung verschieden ist. Andererseits ermöglicht es die Verbindung des Korrekturkoeffizienten k, Ähnlichkeitsgrade, welche bei der sprecherunabhängigen bzw. bei der sprecherabhängigen Erkennung erhalten worden sind, gleichwertig zu behandeln. Im Ergebnis kann somit das Auftreten eines Erkennungsfehlers so reduziert werden, daß ein falscher Kandidat aus den sprecherunabhängigen oder -abhängigen Erkennungsergebnissen (Kandidaten) ausgewählt wird und an dem Lautsprecher dargestellt wird. Ein derartiger Erkennungsfehler kann bei Verwendung einer Anzahl Koeffizientenwerte extrem gemindert werden. Das heißt, da ein verschiedenes Erkennungsergebnis in Abhängigkeit von einem Umstand, unter welchem die sprecherunabhängigen Bezugsmuster erzeugt werden, einem Erkennungsumstand, usw. erhalten werden kann.

Wenn bei der vorstehenden Arbeitsweise der erste Kandidat WI1 falsch ist, drückt der Sprecher eine auf der Eingabetastatur 8 vorgesehene Löschtaste 81 um so den ersten Kandidaten WI1 zu löschen, und fordert den nächsten Kandidaten an (Schritt 1005 in Fig. 3B). Die Dekodierschaltung 78 unterscheidet das Drücken der Löschtaste 81 und befiehlt der Steuereinheit 75, den nächsten Kandidaten auszugeben. Dann wählt die Steuereinheit 75 den nächsten Kandidaten (WI2 in dem vorstehenden Beispiel aus) und führt ihn der Sprachsyntheseschaltung 10 zu (Schritt 106). Dann wird die dem Kandidaten WI2 entsprechende Synthesesprache über den Lautsprecher 12 abgegeben. Es wird dann geprüft, ob der ausgewählte Kandidat der richtige ist oder nicht (Schritt 1007). Wenn der ausgewählte Kandidat WI2 ebenfalls nicht der richtige ist, geht das Verfahren auf den Schritt 108 über, bei welchem durch die Steuereinheit 75 geprüft wird, ob alle Kandidaten (2n) aus dem Kandidatenspeicher 74 gelesen worden sind oder nicht. In dem Fall, daß der ausgewählte Kandidat falsch ist, ist der Inhalt des Hinweisregisters 77 nicht aktualisiert. Wenn alle Kandidaten ausgelesen worden sind, wird der Erkennungsprozeß zurückgewiesen. Wenn andererseits das Unterscheidungsergebnis beim Schritt 1008 nein ist, wird auf den Schritt 1006 zurückgekehrt. Dann wird der nächste Kandidat (der dritte Kandidat WD1) entsprechend dem Drücken der Löschtaste 81 gewählt. Wenn der Kandidat WD1 der richtige ist und daher eine Bestätigungstaste 82 gedrückt wird, wird beim Schritt 110 fortgefahren, bei welchem geprüft wird, ob der ausgewählte Kandidat ein Kandidat ist, welcher durch den Erkennungstyp (sprecherunabhängige oder -abhängige Erkennung) erhalten worden ist, was identisch mit dem für den gelöschten Kandidaten ist. Diese Unterscheidung kann mit Hilfe des in dem Register 77 gespeicherten Hinweises durchgeführt werden. Wenn der falsche erste Kandidat und der richtige Kandidat Kandidaten sind, welche mittels desselben Speichererkennungstyps erhalten worden sind, wird der Prozeß beendet. Wenn beispielsweise der zweite Kandidat WI2 der richtige ist, endet der Prozeß. Wenn andererseits der richtige Kandidat durch den Erkennungstyp erhalten wird, welcher sich von dem für den gelöschten ersten Kandidaten unterscheidet, wird auf den Schritt 1011 übergegangen. Beim Schritt 1011 wird der Wert des Koeffizienten k in der nachstehend noch näher beschriebenen Weise eingestellt.

In dem Beispiel der Fig. 4C wird der in dem Hinweisregister 77 eingestellte Wert in "0" geändert, wenn der richtige Kandidat WD1 aus dem Kandidatenspeicher 74 gelesen ist. Folglich kann herausgefunden werden, daß der Erkennungstyp für den dritten Kandidaten WD1 (d. h. die sprecherunabhängige Erkennung) verschieden ist von derjenigen für den ersten Kandidaten WI1. Dann wird bei dem Schritt 1011 fortgefahren, bei welchem der laufende Wert des Koeffizienten k eingestellt wird. In dem vorstehenden Beispiel sind die ersten und zweiten Kandidaten WI1 und WI2, welche mittels der sprecherunabhängigen Erkennung erhalten werden, falsch, und der dritte Kandidat WD1, welcher mittels der sprecherabhängigen Erkennung erhalten wird, ist der richtige. Dies bedeutet, daß der Koeffizient k₂, welcher laufend in der Multiplizierschaltung 73 gesetzt wird, größer ist als ein angemessener Wert. Daher versorgt die Steuereinheit 75 die Koeffizienteneinstellschaltung 76 mit einem Steuersignal, welches anzeigt, daß der Koeffizient k₃ welcher kleiner als der Koeffizient K₂ ist, in der Schaltung 73 eingestellt werden sollte. Die Koeffizienteneinstellschaltung 76 versorgt den Koeffizientenspeicher 9 mit einer Adresse des Koeffizienten k₃. Dadurch wird der in der Multiplizierschaltung 73 gesetzte Koeffizient k₂ durch den Koeffizienten k₃ ersetzt (Schritt 1011). Im Ergebnis kann dann der Koeffizient k auf einen entsprechenden Wert eingestellt werden.

Die Einstellung des Koeffizienten k kann auch in dem folgenden Fall durchgeführt werden. Es sei nunmehr angenommen, daß, wie in Fig. 4D dargestellt, Kandidaten in einer Folge WD1, WD₂, WI1, . . . , in abnehmender Reihenfolge des Ähnlichkeitsgrads angeordnet ist, und ein richtiger Kandidat der Kandidat WI1 ist. Das heißt, die Kandidaten WD1 und WD2 haben Ähnlichkeitsgrade, die höher als derjenige des Kandidaten WI1 ist. In diesem Fall sind dann zwei Kandidaten WD1 und WD2, welche bei der sprecherabhängigen Erkennung erhalten worden sind, beim Schritt 1005 gelöscht worden, und der Kandidat WI1, ist eines der Erkennungsergebnisse mit Hilfe der sprecherunabhängigen Erkennung. Dies bedeutet, daß der laufende Koeffizient k mit einem Wert k₂ kleiner als ein angemessener Wert ist. Daher wird der Wert k so eingestellt, daß er einen Wert größer als k₂ hat, d. h. in dem vorstehenden Beispiel wird k₁ eingestellt.

Wenn ferner in dem Beispiel der Fig. 4C der Kandidat WI2 der richtige ist, wird die Einstellung des Koeffizienten k nicht durchgeführt. Dies ist ein einfacher Fehler bei der sprecherunabhängigen Erkennung. Wie aus der vorstehenden Erläuterung zu ersehen ist, wird, wenn der richtige Kandidat denselben Erkennungstyp wie der gelöschte Kandidat hat, die Einstellung des Koeffizienten k nicht durchgeführt. Ebenso wird zum Beispiel nach Fig. 4D, wenn der Kandidat WD2 der richtige ist, die Einstellung des Koeffizienten k nicht durchgeführt.

Die Werte des Koeffizienten k können entsprechend einem Versuch ausgewählt werden. Obwohl drei Werte des Koeffizienten K in dem vorstehenden Ausführungsbeispiel verwendet sind, ist die Erfindung keineswegs hierauf beschränkt. Mit einer größeren Anzahl von Koeffizientenwerten kann die Genauigkeit bei der Spracherkennung erhöht werden. Obwohl der Ähnlichkeitsgrad, welcher durch die sprecherunabhängige Erkennung erhalten worden ist, korrigiert wird, indem der Koeffizient damit multipliziert wird, kann der Ähnlichkeitsgrad durch Addieren des Koeffizienten k oder mit Hilfe einer Kombination aus Multiplikation und Addition korrigiert werden. Ferner kann die Korrektur des Ähnlichkeitsgrads (bezüglich des Ähnlichkeitsgrads) bezüglich der sprecherabhängigen Erkennung möglich sein. In diesem Fall kann ein Koeffizient 1/k mit dem Ähnlichkeitsgrad multipliziert werden, welcher bei der sprecherabhängigen Erkennung erhalten worden ist. Jedoch kann in dem Fall, daß die Anordnung der Fig. 1 und 2 bei einer Sprachausgabeeinrichtung, wie einer Sprachbehandlungseinrichtung angewendet wird, der bestätigte oder richtige Kandidat über ein Terminal 13 geliefert werden. Anstelle von oder zusätzlich zu der Sprachsyntheseschaltung 10 kann eine Anzeigeeinheit verwendet werden, um den Kandidaten durch die Bedienungsperson zu bestätigen.

Fig. 5 ist ein Blockdiagramm einer Abwandlung der Ausführungsform der Fig. 2, wobei in Fig. 5 dieselben Elemente wie in Fig. 2 mit denselben Bezugszeichen bezeichnet sind. In Fig. 2 wird der Koeffizient k automatisch eingestellt. Bei der Anordnung nach Fig. 5 kann der Koeffizient k von Hand eingestellt werden. Die Eingabetastatur 8 hat eine Koeffizienteneinstelltaste 83, welche benutzt wird, um den Koeffizienten k anzuzeigen, welcher einen gewünschten Wert, wie k₁, k₂ und k₃ (k₁<k₂<k₃) hat. Jedesmal wenn die Koeffizienteneinstelltaste 83 gedrückt wird, kann ein Wert des Koeffizienten K infolge gewählt werden. Wenn die Taste 83 gedrückt wird, wird ein entsprechendes Signal dem Dekodierer 78 zugeführt, welcher dann eine entsprechende Adresse an den Koeffizientenspeicher 9 abgibt. Der Koeffizient k mit einem Wert, welcher durch die Adresse von dem Kodierer 78 aus bestimmt worden ist, wird an die Multiplizierschaltung 73 abgegeben.

Nunmehr wird anhand von Fig. 6 eine Anwendung der vorstehenden Ausführungsform beschrieben. Fig. 6 ist ein Blockdiagramm einer Sprachbehandlungseinrichtung. Die dargestellte Sprachbehandlungseinrichtung weist ein Mikrophon 21, einen Lautsprecher 22, eine Sprechschaltung 23, einen Haken(um)schalter 24, eine Merkmalsextrahierschaltung 25, eine Eingabetastatur 26, eine Steuerschaltung 27, eine Musteranpassungsschaltung 28, ein Bezugssprachmuster-Wörterbuch 29, eine Sprachsyntheseschaltung 30, ein Sprachsynthese-Bezugsmuster-Wörterbuch 31, einen Fernsprechnummer-Speicher 32, eine Ausgangssteuereinheit 33, eine Eingangssteuereinheit 34, eine Leitungssteuereinheit 35 und eine Leitung 36 auf. Die Musteranpassungsschaltung 28 entspricht der Kombination aus der sprecherunabhängigen Erkennungsschaltung 3, der sprecherabhängigen Erkennungsschaltung 4, der Sprachidentifizierschaltung 7 und dem Koeffizientenspeicher 9, welche in Fig. 1 dargestellt sind. Das Bezugsmuster-Wörterbuch 29 entspricht der Kombination aus dem sprecherunabhängigen Bezugsmusterwörterbuch 5 und dem sprecherabhängigen Bezugsmuster-Wörterbuch 6, die in Fig. 1 dargestellt sind. Die Merkmalsextrahierschaltung 26, die Sprachsyntheseschaltung 30 und das Sprachsynthese-Bezugsmuster-Wörterbuch 31 entsprechen der Merkmalsextrahierschaltung 2, der Sprachsyntheseschaltung 10 bzw. dem Sprachsynthese-Bezugsmuster-Wörterbuch 11, welche in Fig. 1 dargestellt sind. Das Mikrophon 21, der Lautsprecher 22 und die Eingabetastatur 26 entsprechen dem Mikrophon 1, dem Lautsprecher 12 bzw. der Eingabetastatur 8 der Fig. 1.

Merkmale der dargestellten Anwendung sind in der Anordnung der Anpassungsschaltung 8 und der Anordnung jeweils des Bezugsmuster-Wörterbuchs 29, des Sprachsynthese-Bezugsmuster-Wörterbuchs 31 und des Telefonnummer-Speichers 32 vorhanden. Die Anpassungsschaltung 8 ist entsprechend der vorstehend beschriebenen Ausführungsform ausgeführt. Daher ist eine Erläuterung der Anpassungsschaltung 8 entbehrlich.

In Fig. 6 ist ein Speicherbereich jeweils des Bezugsmuster-Wörterbuchs 29, des Sprachsynthese-Bezugsmuster-Wörterbuchs 31 und des Telefonnummer-Speichers 32 dargestellt. Jeder der Speicherbereiche ist in zwei Bereiche unterteilt, von denen der eine ein Beschreibbarbereich I und der andere ein Schreibsperrbereich II ist. Das Bezugsmuster-Wörterbuch 29 besteht aus dem sprecherunabhängigen Bezugsmuster-Wörterbuch 5, welches in dem Schreibsperrbereich II gebildet ist, und aus dem sprecherabhängigen Bezugsmuster-Wörterbuch 6, welches in dem beschreibbaren Bereich I ausgebildet ist. Das sprecherunabhängige Bezugsmuster-Wörterbuch 5 speichert eine Anzahl Bezugssprachenmuster von gesprochenen Worten, welche oft von vielen Personen verwendet werden, beispielsweise sprecherunabhängige Bezugssprachenmuster von Telefonnummern von öffentlichen Einrichtungen, wie Polizei, Feuer/Ambulanz, Wetterbericht und Uhrzeit. Für eine gesprochene Telefonnummer werden eine Anzahl sprecherunabhängiger Bezugsmuster In dem Schreibsperrbereich I gespeichert. Das sprecherabhängige Bezugsmuster-Wörterbuch 6 speichert sprecherunabhängige Bezugsmuster, welche durch Benutzer beliebig registriert werden können. Das Sprachsynthese-Bezugsmuster-Wörterbuch 31 speichert in dem Schreibsperrbereich II ein Sprachsynthese-Bezugsmuster für jede der Telefonnummern und speichert in dem beschreibbaren Bereich I ein Sprachsynthese-Bezugsmuster für jedes der Bezugsmuster, welche von Benutzern besetzt werden. In ähnlicher Weise werden Telefonnummern, welche durch die sprecherunabhängige Erkennung gewählt werden können, in dem Schreibsperrbereich II des Telefonnummer-Speichers 32 gespeichert, und Telefonnummern, welche durch die sprecherabhängige Erkennung gewählt werden können, werden in dem beschreibbaren Bereich I gespeichert.

Zu Beginn der Sprachbehandlung befiehlt ein Sprecher die Durchführung einer Sprachbehandlung an der Steuereinheit 27 mit Hilfe der Eingabetastatur 26. Dann wird eine von dem Sprecher erzeugte Sprache der Merkmalsextrahierschaltung 25 über das Mikrophon 21 zugeführt. Die Merkmalsextrahierschaltung 25 erzeugt ein unbekanntes Sprachmuster und liefert es an die Steuereinheit 27. Die Steuereinheit 27 gibt das unbekannte Sprachmuster an die Musteranpassungsschaltung 28 ab. Die Musteranpassungschaltung 28 bestimmt den ersten Kandidaten für die unbekannte Sprache entsprechend dem vorstehend anhand von Fig. 1 bis 5 beschriebenen Ablauf. Der erste Kandidat wird an die Sprachsyntheseschaltung 30 angelegt, welche ein dem ersten Kandidaten entsprechendes Sprachsynthese-Bezugsmuster ausliest und erzeugt die Synthesesprache. Dann wird die Synthesesprache über den Lautsprecher 22 an den Sprecher abgegeben. Wenn zu diesem Zeitpunkt der erste Kandidat falsch ist, drückt der Sprecher, wie vorher beschrieben, die Löschtaste 81. Entsprechend der Betätigung der Löschtaste gibt dann die Musteranpassungsschaltung 28 den zweiten Kandidaten an die Sprachsyntheseschaltung 30 ab. Dann wird die dem zweiten Kandidaten entsprechende Syntheseschaltung an den Sprecher abgegeben. Wenn zu diesem Zeitpunkt der zweite Kandidat richtig ist, drückt der Sprecher die Betätigungstaste 82 auf der Tastatur 26. Dann gibt mittels der Steuereinheit 27 die Musteranpassungsschaltung 28 den zweiten Kandidaten an die Ausgangssteuereinheit 33 ab. Die Steuereinheit 33 liest die dem zweiten Kandidaten entsprechende Telefonnummer aus dem Telefonnummer-Speicher 32 und gibt sie über die Leitungssteuereinheit 35 an die Leitung 36 ab. Die Sprachbehandlungseinrichtung der Fig. 6 hat eine hohe Zuverlässigkeit und eine hohe Wirksamkeit, da die Musteranpassungsschaltung 28 den Aufbau der vorstehend beschriebenen Ausführungsform hat. Da außerdem eine Wählinformation von öffentlichen Einrichtungen, welche oft von vielen Benutzern verwendet werden, vorher registriert werden, ist es für den Benutzer nicht notwendig, die Bezugsmuster deren Telefonnummern zu registrieren.

Nunmehr wird ein weiterer Aufbau der Ausführungsform der Fig. 1 und 2 im einzelnen beschrieben. In Fig. 7 ist dieser detaillierte Aufbau der Ausführungsform nach Fig. 1 und 2 dargestellt. Die dargestellte Spracherkennungseinrichtung weist einen Prozessor 100 mit der Funktion, Merkmale einer unbekannten Eingangssprache zu extrahieren, einen Prozessor 200 mit den Funktionen, die unbekannte Sprache zu identifizieren und andere Verarbeitungen durchzuführen, einen Programmfestwertspeicher (Programm ROM) 300, einen Modell-Bezugs-Randomspeicher (RAM) 400, einen Zentraleinheit-Bus 500 und eine periphere Einheit 600 auf. Der Prozessor 100 entspricht der in Fig. 2 dargestellten Merkmalsextrahierschaltung 2, und der Prozessor 200 entspricht der Kombination aus der sprecherunabhängigen Erkennungsschaltung 3, der sprecherabhängigen Erkennungsschaltung 4, der Sprachidentifizierschaltung 7 und der Koeffizientenschaltung 9 der Fig. 1. Ein Programm zum Durchführen der Spracherkennung ist in dem Programm-ROM 300 gespeichert. Das heißt, der ROM 300 speichert ein Programm für die sprecherunabhängige Erkennung, was in dem Block 3 der Fig. 1 durchgeführt wird, und ein Programm für die sprecherabhängige Erkennung, was in dem Block 4 durchgeführt wird. Wie später noch im einzelnen beschrieben sind, werden Elemente, um den Ähnlichkeitsgrad zu erhalten, mittels einer hardware berechnet. Der Modell-RAM 400 entspricht der Kombination aus den sprecherunabhängigen und -abhängigen Bezugsmuster-Wörterbüchern 5 und 6 der Fig. 1. Der Zentraleinheit-Bus 500 verbindet die Prozessoren 100 und 200, den ROM 300 und den RAM 400 miteinander. Die periphere Einheit 600 entspricht der Tastatur 8, der Sprachsyntheseschalter 10, dem Sprachsynthese-Bezugsmuster-Wörterbuch 11 und dem Lautsprecher 12 der Fig. 1. Der Prozessor 100 ist ein hochintegrierter (LSI-)Schaltkreis, der entsprechend ausgelegt ist, um Merkmale einer unbekannten Eingangssprache zu extrahieren und um ein Leistungsspektrum- und ein binäres Zeit-Spektrum-Muster in einem Zeitraum von 10 ms zu erzeugen. Das Leistungsspektrum- und das binäre Zeit-Spektrum-Muster sind in der US-Patentanmeldung Nr. 5 96 586 der Anmelderin der vorliegenden Anmeldung beschrieben. Der Prozessor 100 erhält die folgenden Bauelemente.

Ein Mikrophonverstärker 41 verstärkt das von dem Mikrophon 1 zugeführte Sprachsignal. Ein Tiefpaßfilter 42 entfernt unnötige hochfrequente Komponenten, welche in dem verstärkten Sprachsignal enthalten sind, um ein Schleifenrauschen zu entfernen, welches beim Abtasten des eingegebenen Sprachsignals vorkommt. Eine automatische Verstärkungsregelungs- und Vorverzerrungsschaltung 43 setzt einen Pegel des Sprachsignals in einen entsprechenden Pegelbereich, und hebt hochfrequente Komponenten am Ausgang des Tiefpaßfilters 42 an, um deren Leistung auszugleichen. Ein Block 45 besteht aus einem Tiefpaßfilter 45 c, einem Detektor 45 b und einem Tiefpaßfilter 45 c und erzeugt ein Leistungsspektrum des Eingangssprachsignals in einem Intervall von 1/3 oct. in einem Bereich von 250 kHz bis 6,35 kHz. Ein Q-Wert des Blocks 45 wird auf 6 gesetzt. Eine Filtersteuereinheit 44 steuert das Tiefpaßfilter 45 a, den Detektor 45 b und das Tiefpaßfilter 45 c des Blockes 45, welcher durch geschaltete Kondensatoren gebildet ist. Ein Analog/Digital-Umsetzer 46 setzt die Leistungsspektrumsdaten der Eingangssprachsignale in Digitalwerte von 8 Bits um. Ein Register 47 speichert die Leistungsspektrumsdaten in digitaler Form. Ein LOG-Umsetzer 48 setzt die Leistungsspektrumsdaten in Daten auf der logarithmischen Achse um. Ein LSFL-Filter 49 führt eine Korrektur mit Hilfe der dem kleinsten Quadratwurzelfehler entsprechenden Näherungslinie durch, um die Klang- bzw. Tonquelleneigenschaften eines Sprechers zu normalisieren. Ein Binärumsetzer 50 teilt einen Binärwert "1" unter 15 Kanälen einem Kanal zu, welcher einen Wert hat, der gleich oder größer als eine Hälfte jedes lokalen Spitzenwerts in dem Leistungsspektrum ist, und ordnet einen Binärwert "0" einem Kanal mit einem Wert zu, welcher kleiner als eine Hälfte jedes lokalen Spitzenwerts ist.

Eine weitere Erklärung des LOG-Umsetzers 48, des LSFL-Filters 49 und des Binärumsetzers 50 wird nachstehend noch gegeben. Bekanntlich kann ein Zeit-Spektrummuster (TSP) als Merkmalsmengen für eine Spracherkennung verwendet werden. Das Zeit-Spektrum-Muster enthält eine Übertragungs- bzw. eine Transfercharakteristik einer Kehle und eine Ton.- bzw. Klangquellencharakteristik. Ein in dem Zeit-Spektrumsmuster beobachteter Spitzenwert wird als ein lokaler Spitzenwert definiert. Ferner ist die Tatsache bekannt, daß der Frequenzverlauf der menschlichen Stimme im hochfrequenten Bereich gedämpft ist, und daß die Frequenzkennlinien sich in Abhängigkeit von der jeweiligen Person beträchtlich ändern. Aus den vorstehenden Gründen wird das Sprachsignal vor einer binären Bewertung der dem kleinsten Quadratwurzelfehler entsprechenden Näherungslinie korrigiert. Bezüglich Frequenzdaten des Sprachsignals, welches in einem Intervall von 10 ms erhalten wird, wird die Ausgleichslinie nach der Methode des kleinsten Quadrats (least square fit line) berechnet. Dann wird ein Wert auf der berechneten Linie von den Frequenzdaten subtrahiert. Danach werden die korrigierten Frequenzdaten einer binären Bewertung unterzogen.

In Fig. 8A ist ein Beispiel eines Zeit-Spektrumsmusters dargestellt, das am Ausgang des Blockes 45 erhalten worden ist; in Fig. 8B ist das korrigierte Zeit-Spektrumsmuster dargestellt, das am Ausgang des LSFL-Filters 49 erhalten worden ist, und es ist auch ein binäres Zeit-Spektrumsmuster dargestellt, das am Ausgang des Binärumsetzers 50 erhalten worden ist. Ein Buchstabe L bezeichnete die nach der Methode des kleinsten Quadrates ermittelte Ausgleichslinie, und die Buchstaben LP bezeichnen einen lokalen Spitzenwert. Wie vorstehend beschrieben, ist in dem erfindungsgemäßen System das Sprachsignal in 15 Kanäle unterteilt, und folglich gibt der Binärumsetzer 50 das binäre Zeit-Spektrumsmuster eines zweidimensionalen Frequenz-Zeit-Musters ab, wie in Fig. 9 dargestellt ist.

Ein Zeitgeber 51 erzeugt einen Impuls mit einer konstanten Periode (10 ms) und gibt ihn als Unterbrechungssignal an den Prozessor 200 ab. Der Prozessor 200 ist durch eine LSI-Schaltung gebildet, welche die Funktion hat, eine Spracherkennungsverarbeitung und andere Verarbeitungen durchzuführen. Der Prozessor 200 erhält die folgenden Elemente.

Eine Zentraleinheit (CPU) 61 ist eine 16 Bit Universal-Zentraleinheit und führt das Programm durch, das in dem Programm-Festwertspeicher (ROM) 300 gespeichert ist, welches extern mit dem Prozessor 200 verbunden ist. Eine Bus-Steuereinheit 62 steuert einen internen Bus 63, welcher in dem Prozessor 200 untergebracht ist, und einen Zentraleinheit-Bus 500, welcher außerhalb der Prozessoren 100 und 200 vorgesehen ist. Eine Speicher-Steuereinheit 64 versorgt den Programm-ROM 300 mit einem Chip-Auswählsignal. Eine Unterbrecher-Steuereinheit 65 gibt das Zeitgebersignal von dem Prozessor 100 ein und führt die Unterbrechungssteuerung durch. Ein Parallelanschluß 66 wird verwendet, um eine Verbindung mit der peripheren Einheit 600 herzustellen. Ein Steuersignalgenerator 67 erzeugt verschiedene Steuersignale, welche in dem Prozessor 200 verwendet werden. Ein Taktgenerator 68 erzeugt einen Baud-Ratentakt, welcher notwendig ist, wenn eine serielle Schnittstelle mit dem Prozessor 200 verbunden ist. Eine Ähnlichkeitselement-Berechnungseinheit (die nachstehend der Einfachheit halber auch als SECU-Einheit bezeichnet wird) 69 gibt das unbekannte Eingangsmuster, das in der Form des binären Zeit-Spektrumsmusters beschrieben ist, wie in Fig. 9 dargestellt ist, und ein Modellmuster ein, welches ein Bezugsmuster ist, das aus dem Modell-Random-Speicher (RAM) 400 abgeleitet ist. Die SECU-Einheit 69 berechnet mit hoher Geschwindigkeit den Wert von Elementen Pd, Py, Pv und Pi, die notwendig sind, um den Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und dem Modell- bzw. Bezugsmuster zu erhalten. Die SECU-Einheit 69 kann den Ähnlichkeitsgrad jeweils auf der Basis der sprecherunabhängigen und -abhängigen Erkennung berechnen. Die vorstehenden vier Elemente werden später noch im einzelnen beschrieben.

Der Programm-ROM 300 speichert ein Steuerprogramm mit den folgenden Inhalten, welche von der Zentraleinheit (CPU) 61 und der Speicher-Steuereinheit 64 in dem Prozessor 200 durchgeführt werden. Ein erstes Steuerprogramm steuert die Operation so, daß, wenn das von dem Zeitgeber 61 abgeleitete Unterbrechungssignal an die Unterbrecher-Steuereinheit 65 angelegt wird, die Zentraleinheit (CPU) 61 das binäre Zeit-Spektrumsmuster von dem Binärumsetzer 50 über den Zentraleinheit-Bus 500 und die Bus-Steuereinheit 62 eingibt. Ein zweites Steuerprogramm steuert eine Operation, so daß die Zentraleinheit (CPU) 61 einen Sprachabschnitt in dem binären Zeit-Spektrumsmuster festsetzt. Bei dem festgesetzten Sprachabschnitt wird entschieden, ob es ein unbekanntes Eingangsmuster ist und es wird dann zum Vergleich mit dem Bezugsmuster dargeboten. Bei dem Vergleich zwischen dem unbekannten Sprachmuster und dem Bezugsmuster wird vorzugsweise das herkömmliche Zeilenschrumpfungs- oder -Verengungsverfahren (line shrinking or narrowing method) angewendet, um eine Veränderung in der Frequenz und der Zeit des unbekannten Musters auszugleichen. Beispielsweise sind die bekannten Zeilenverengungsverfahren in "Japanese Electronic Communications Society Report PRL-75-66, Sten. 9 bis 56 beschrieben. Ein drittes Steuerprogramm steuert eine Operation, so daß ein unbekanntes Eingangssprachenmuster der SECU-Einheit 69 zugeführt wird; das in dem Randomspeicher 400 gespeicherte Modellmuster wird der SECU-Einheit 69 entsprechend dem Speichertransfer unter der Steuerung der Speichersteuereinheit 64 zugeführt, so daß die Zentraleinheit 61 Elemente PD, Py, Pv und Pi von der SECU-Einheit 69 erhält. Ein viertes Steuerprogramm steuert eine Operation, so daß die Zentraleinheit 61 den Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und jedem der Modellmuster mit Hilfe der berechneten Werte der vier Elemente berechnet, und wählt ein Modell mit dem höchsten Ähnlichkeitsgrad aus.

Der Modell-Randomspeicher 400 entspricht der Kombination aus dem sprecherunabhängigen Bezugsmuster-Wörterbuch 5 und dem sprecherabhängigen Bezugsmuster-Wörterbuch 6.

Der Ähnlichkeitsgrad Syi zwischen dem unbekannten Eingangsmuster und einem Modellmuster ist folgendermaßen definiert:

Syi = [PV/(Pd-Pv)] · [Pi/(Py - Pi)] (1)

wobei ist:

In den vorstehenden Gleichungen bezeichnet "·" eine Multiplikation; "f" bezeichnet eine Frequenz und entspricht dem jeweiligen Kanal, "t" bezeichnet eine Zeit und entspricht dem jeweiligen Rahmen und "∩" bezeichnet eine UND-Operation (wenn y =1 und mi 0 ist, ein Ergebnis der UND-Operation 1 ist und in anderen Fällen ein Ergebnis der UND-Operation 0 ist und in anderen Fällen ein Ergebnis der UND-Operation 0 ist). Ein Rahmen bezeichnet eine Datengruppe von 15 Kanälen, die jeweils in einem Intervall von 10 ms erhalten worden sind, wie in Fig. 9 dargestellt ist. Eine Funktion "y(f, t)" bezeichnet einen Wert, welcher in den Frequenz-Zeit-Koordinaten (f, t) des unbekannten Eingangs-Musters angeordnet ist. Beispielsweise ist in Fig. 9 y (15,3)=0 dargestellt.

Fig. 10 zeigt ein Modellmuster eines Wortes, welches ein Bezugsmuster ist. Eine Funktion "mi(f, t)" bezeichnet einen Wert, welcher in den Frequenz-Zeit-Koordinaten (f, t) des Modellmusters positioniert ist. Beispielsweise ist in Fig. 10 (in dezimaler Schreibweise) mi (3,3)=3 dargestellt. Im allgemeinen wird ein Modellmuster durch Addieren einer Anzahl Muster erzeugt. Beispielsweise bedeutet in dem Fall, daß das Modellmuster der Fig. 10 aus drei Mustern erzeugt wird, ein Wert "3", welcher an den Koordinaten (3, 3) des Modellmusters angeordnet ist, das einen Wert an den Koordinaten (3, 3) jedes der drei Muster "1" ist. Im allgemeinen kann in dem Fall, daß ein Wert jedes Kanals des unbekannten Eingangsmusters durch ein Bit dargestellt ist und die Anzahl Kanäle, welche einen Rahmen bilden, m ist, ein Rahmen des unbekannten Eingangsmusters durch m Bits dargestellt werden. Im Beispiel der Fig. 9 kann ein Rahmen des unbekannten Eingangsmusters durch 2 Bytes dargestellt werden. Andererseits kann in dem Fall, daß ein Wert jedes der m Kanäle des Modellmusters mit n Bits dargestellt ist, ein Rahmen davon durch n × m Bits dargestellt werden. Beispielsweise kann ein Rahmen des Modellmusters der Fig. 10 durch vier Bytes dargestellt werden.

Wie aus der vorstehenden Beschreibung zu ersehen, entspricht das Element pd der Summe von Werten, die in einem Modellmuster enthalten sind. Das Element Py entspricht der Anzahl eines Werts "1", der in einem unbekannten Eingangsmuster enthalten ist. Das Element Pi entspricht der Anzahl eines Punktes auf den Koordinaten (f, t), an welchen entweder ein unbekanntes Eingangsmuster oder das Modellmuster einen Wert von "0" haben. Ein Element Pv entspricht der Summe eines Werts, welcher an jedem des oben genannten Punktes auf der Koordinate (f, t) des Modellmusters positioniert ist.

Die Berechnung der Gl. (1) wird von der SECU-Einheit 69 durchgeführt. Es sei nun angenommen, daß, wie in Fig. 12A dargestellt, ein Rahmen des unbekannten Eingangsmusters mit U bezeichnet ist (15 Kanäle: 16 Bits). Es sei ferner angenommen, daß ein Wert jedes der 15 Kanäle aus n Bits zusammengestellt ist. In diesem Fall ist es möglich, einen Rahmen des Modellmusters zu behandeln, wie in Fig. 12B dargestellt ist. Das heißt, eine Gruppe des höchstwertigen Bits in jedem Kanal ist durch T _n-1 dargestellt, das folgende höchstwertige Bit jedes Kanals ist durch T _n-2 dargestellt, und jedes der folgenden Bits ist auf diese Weise dargestellt. Das niedrigstwertige Bit jedes Kanals ist durch T₀ dargestellt. Beispielsweise kann wie in Fig. 13A dargestellt, in dem Fall, daß ein Wert jedes Kanals durch 2 Bits dargestellt ist, d. h. n =2 ist, ein Rahmen in zwei Teile T₁ und T₀ aufgeteilt werden. Der Teil T₁ ist eine Gruppe des höchstwertigen Bits (× 2¹) jedes Kanals, und der Teil t 0 ist eine Gruppe des niedrigstwertigen Bits (× 2⁰). Die SECU-Einheit 69 ist entsprechend ausgelegt, um die Elemente Pd, PY, Pv und Pi des in der Gl. (2) dargestellten Ähnlichkeitsgrads mit Hilfe der Daten U, T _n-1, T _n-2 . . . , T₀ zu berechnen.

Fig. 11 ist ein Blockdiagramm, das den Aufbau der SECU-Einheit 69 im einzelnen zeigt, welche die folgenden Elemente enthält. Eine Lösch-Steuereinheit 69 a löscht ein Rahmendaten-Register 69 a und ein Wortdaten-Register 69 i. Ein Register 69 c für unbekannte Daten ist ein 16 Bit-Register um vorübergehend einen Rahmen des unbekannten Eingangsmusters U zu speichern. Ein Modelldaten-Register 69 b ist ein 16 Bit-Register, um nacheinander die Daten T _n-1, T _n-2, . . . , T₀ nacheinander zu speichern, welche einem Rahmen des Modellmusters eines Wortes entsprechen. Eine Schaltung 69 e führt eine logische Operation zwischen den Daten, welche in dem Modelldaten-Register 69 b gespeichert sind, und den Daten durch, welche in dem Register 69 c für unbekannte Daten gespeichert sind, und erzeugt Daten, bezüglich der Elemente Py, Pi, Pd und Pv, um den Ähnlichkeitsgrad zu beschreiben. Die Daten bezüglich der Elemente Py, Pi werden einem Rahmendatenregister 69 g zugeführt, und die Daten bezüglich der Elemente Pd und Py werden einem Rahmendaten-Addierer 69 f zugeführt. Das Rahmendaten-Registers 69 g ist ein Register, und vorübergehend die Elemente bezüglich eines Rahmens zu speichern. Der Rahmendaten-Addierer 69 f addiert die von der Schaltung 69 e gelieferten Daten zu Daten, welche dadurch erhalten werden, daß die aus dem Rahmendaten-Register 69 g gelesenen Daten um ein Bit in Richtung höherer Ordnung verschoben werden. Das vorstehend beschriebene Datenverschieben entspricht einem Verdoppeln des durch die Daten dargestellten Wertes. Ein Wortdaten-Register 69 i ist ein Register, um berechnete Werte der Elemente Py, Pi, Pd und Pv bezüglich der Gesamtheit des Modellmusters des einen Wortes zu speichern. Ein Wortdaten-Addierer 69 f addiert jedes der Elemente Py, Pi, Pd und Pv, die in dem Wortdaten-Register 69 i gespeichert sind, zu den entsprechenden, in dem Rahmendaten-Register 69 g gespeicherten Elementen. Ein Ausgangspuffer 69 d ist ein Puffer, um jedes in dem Wortdaten-Register 69 i gespeicherte Element an den Datenbus 63 zu übertragen.

In Fig. 14 ist ein Flußdiagramm der Arbeitsweise der SECU-Einheit 69 dargestellt. In Fig. 14 wird das Wortdaten-Register 69 i gelöscht (Schritt 1021). Dann wird das Rahmendaten-Register 69 g gelöscht, und gleichzeitig werden die Daten U, die zu einem Rahmen des unbekannten Eingangsmusters beitragen, an das Register 69 c für unbekannte Daten übertragen (Schritt 1022). Danach wird ein Rahmen der Modelldaten sequentiell an das Modelldaten-Register 69 b übertragen, wobei von den Daten T _n-1 aus begonnen wird (Schritt 1023). Der Schritt 1023 wird wiederholt durchgeführt, bis die niedrigsten Daten T₀ übertragen sind (Schritt 1024). Die Folge, welche sich aus dem Schritt 1022 bis 1024 zusammensetzt, wird wiederholt durchgeführt, bis alle Rahmen verarbeitet sind (Schritt 1025).

Entsprechend dem vorstehend beschriebenen Ablauf führt die SECU-Einheit 69 die folgenden Berechnungen durch. In der Gl. (1) nimmt jeweils y (f, t) und mi (f, t) ∩y (f, t) einen Wert von einem Bit an. Folglich werden Elemente Py, Pi für einen Rahmen, d. h.

an das Rahmenregister 69 g übertragen, unmittelbar nachdem alle Daten T _n-1, T _n-2 . . . , T₀ an das Modelldaten-Register 69 b übertragen worden sind.

Andererseits nimmt jeweils mi (f, t) und mi (f, t) · y (f, t) einen Wert von n Bits an. Daher werden Elemente Pd und Pf für einen Rahmen, d. h.

folgendermaßen erhalten. Zuerst wird das Element Mi (f, t) für die Daten T _n-1 berechnet. Ein berechnetes Ergebnis wird um ein Bit nach oben (in Richtung höherer Ordnung) verschoben. Anschließend wird das Element mi (f, t) für die nächsten Daten T _n-2 berechnet. Dann wird ein berechnetes Ergebnis für die Daten T _n-2 zu dem verschobenen Ergebnis für die Daten T _n-1 addiert. Auf diese Weise wird die Berechnung wiederholt durchgeführt, bis die Daten T₀ verarbeitet sind. Ebenso wird das Element

für einen Rahmen berechnet. Wenn beispielsweise ein Rahmen des in Fig. 13A dargestellten Modellmusters und ein Rahmen eines in Fig. 13C dargestellten, unbekannten Eingangsmusters verarbeitet werden, wird mit (f, t) und mi (f, t) · y (f, t) für die in Fig. 13B dargestellten Daten T _i berechnet. In diesem Fall ist in der binären Schreibweise (entsprechend 2 in der dezimalen Schreibweise) mi (f, t) =10 und mi (f, t) · y (f, t) =10 (entsprechend 2 in in der dezimalen Schreibweise). Die erhaltenen Binärwerte von Elementen mi (f, t) und mi (f, t) y (f, t) werden jeweils um ein Bit aufwärts verschoben, so daß verschobene Werte von 100 bzw. 100 erhalten werden. Als nächstes werden mi (f, t) und mi (f, t) · y (f, t) für die in Fig. 13b dargestellten Daten t₀ berechnet. In diesem Fall ist dann mi (f, t) =10 (entsprechend 2 in der dezimalen Schreibweise) und mi (f, t) · y (f, t) =01 (entsprechend 1 in dezimaler Schreibweise). Dann wird bezüglich mi (f, t) ein Binärwert von 100 und ein Binärwert von 10 zueinander addiert, so daß ein addierter Wert von 110 (entsprechend 6 in dezimaler Schreibweise) als ein Wert von

erhalten wird. In ähnlicher Weise wird bezüglich mi (f, t) · y (f, t) ein Binärwert von 100 zu einem Binärwert von 01 addiert, so daß ein addierter Wert von 101 (entsprechend 5 in dezimaler Schreibweise) als ein Wert von

erhalten wird.

Wenn auf diese Weise alle vier Elemente für einen Rahmen in dem Rahmenregister 69 g enthalten sind, werden diese Werte zu Endwerten von den jeweiligen Elementen addiert, welche bis zu diesem Zeitpunkt erhalten worden sind.

Wie aus der vorstehenden Beschreibung zu ersehen ist, ist der Aufbau der SECU-Einheit 69 sehr vereinfacht, und es kann daher eine hochschnelle Berechnung des Ähnlichkeitsgrades zwischen dem unbekannten Eingangsmuster und dem Modellmuster erhalten werden. Das heißt, die vier Elemente Py, Pi, Pd und Pv können bezüglich des Modellmusters des einen Wortes erhalten werden, unmittelbar nachdem der letzte Rahmen des Modellmusters an das Modelldatenregister 69 b übertragen ist.

Es sollte insbesondere beachtet werden, daß die Elemente zum Beschreiben des Ähnlichkeitsgrades unabhängig von der Anzahl Bits erhalten werden können, welche zum Darstellen eines Wertes jedes Kanals verwendet werden, der in einem Rahmen des Modellmusters enthalten ist, da die Berechnung in der SECU-Einheit 69 so durchgeführt wird, daß von Daten aus gestartet wird, die entsprechend dem höchstwertigen Bit positioniert sind. Aus diesem Grund kann die SECU-Einheit 69 im allgemeinen bei der sprecherunabhängigen und der -abhängigen Erkennung verwendet werden, welche beide auf der Methode des binären Zeit-Spektrums-Musters basieren. Das heißt, es ist möglich, die sprecherunabhängige und die sprecherabhängige Erkennung mit nur einem Prozessor 200 durchzuführen. In dem herkömmlichen Spracherkennungssystem behandelt ein Prozessor die sprecherabhängige und der andere Prozessor die sprecherabhängige Erkennung, da die Algorithmen zwischen beiden Erkennungstypen infolge der Unterschiede zwischen den Wörterbüchern verschieden sind. Daher kann im Vergleich zu dem herkömmlichen System die hardware des Systems der Fig. 7 kompakt ausgebildet werden.

Außerdem ist zu beachten, daß die Berechnung der Elemente, welche zum Beschreiben des Ähnlichkeitsgrades verwendet worden sind, mit Hilfe der SECU-Einheit 69 durchgeführt werden, welche die in Fig. 11 dargestellte Hardware aufweisen. Daher können mit Hilfe der Zentraleinheit (CPU) 61 in den Prozessor 200 zusätzlich zu der Spracherkennung auch in dem Programm-Festwertspeicher (ROM) 300 gespeichert Anwendungsprogramme behandelt werden. In dem herkömmlichen System wird die Berechnung, welche der von der SECU-Einheit 69 durchgeführten Berechnung entspricht, von der Zentraleinheit in dem Prozessor durchgeführt werden. Daher muß die Zentraleinheit eine sehr große Datenmenge behandeln, um die Spracherkennung durchzuführen. Aus diesem Grund führt die Zentraleinheit in dem herkömmlichen System kaum Anwendungsprogramme durch.

Ferner sind die Programme für die Spracherkennung in dem Programm-Festwertspeicher (ROM) 300 gespeichert, welcher extern mit dem Prozessor 200 verbunden ist, welcher die Zentraleinheit 61 enthält. Folglich ist eine Änderung in dem Programm leicht möglich, indem der ROM 300 durch einen anderen ausgetauscht wird oder dessen Inhalt neu geschrieben wird. Andererseits ist eine Änderung der Programme, welche von der Zentraleinheit durchgeführt wird, unmöglich, da der herkömmliche Prozessor, der ausschließlich für die Spracherkennung in LSI-Technik ausgelegt ist, in sich den Festwertspeicher (ROM) enthält.

Fig. 15 ist ein schematisches Blockdiagramm eines Spracherkenungssystems mit einem Personalcomputer. Ein Universal-Personalcomputer 140 hat einen Erweiterungsschlitz, welcher mit einem Bus 150 einer Zentraleinheit (CPU) 141 verbunden ist. Daher kann ein Spracherkennungssystem erhalten werden, indem eine Spracherkennungskarte 160 in den Erweiterungsschlitz eingeführt wird. Es sind nur ein Prozessor 161 und ein Dekodierer 62 zum Durchführen von Adressenkodierern notwendig, die auf der Spracherkennungskarte 160 angebracht sind. Diese Teile sind mit dem Bus 150 verbunden. Die Zentraleinheit 141 führt alle Funktionen durch, welche durch den Prozessor 200 durchgeführt werden. Die Programme und Modelldaten sind in einer Festplatte 180 und einer Floppy Disk 190 gespeichert und werden an einen Programm-Random-Speicher (RAM) 142 und einen Modell-Random-Speicher (RAM) 143 übertragen.

Claims

1. Spracherkennungseinrichtung, mit einer Merkmalsextrahiereinrichtung (2), um Merkmale einer unbekannten Eingangssprache zu extrahieren und um ein entsprechendes unbekanntes Sprachmuster zu erzeugen, mit einer Speichereinrichtung (5) zum Speichern von sprecherunabhängigen Bezugsmustern, mit einer Speichereinrichtung (6) zum Speichern von sprecherabhängigen Bezugsmustern, mit einer sprecherunabhängigen Erkennungseinrichtung (3), um einen Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und jedem der sprecherunabhängigen Bezugsmuster zu berechnen und um zumindest einen Kandidaten für das unbekannte Eingangsmuster zu erzeugen, und mit einer sprecherabhängigen Erkennungseinrichtung (4), um einen Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und jedem der sprecherabhängigen Bezugsmuster zu berechnen und um zumindest einen Kandidaten für ein unbekanntes Eingangsmuster zu erzeugen, dadurch gekennzeichnet, daß die Spracherkennungseinrichtung ferner aufweist; eine Koeffizienten-Speichereinrichtung (9), um zumindest einen Koeffizienten zum Korrigieren des Ähnlichkeitsgrades zu speichern, welcher entweder durch die sprecherunabhängige oder die sprecherabhängige Erkennungseinrichtung erhalten wird, und eine Sprachidentifizierungseinrichtung (7), um den Ähnlichkeitsgrad des einen Kandidaten, der entweder von der sprecherunabhängigen oder von der sprecherabhängigen Erkennungseinrichtung geliefert worden ist, mit korrigierten Ähnlichkeitsgraden des Kandidaten zu vergleichen, welcher zu der anderen Erkennungseinrichtung in Bezug gesetzt worden ist, wobei dies erhalten wird, indem eine vorherbestimmte Operation bezüglich des Ähnlichkeitsgrades jedes Kandidaten durchgeführt wird, welcher von der anderen Erkennungseinrichtung geliefert wird, und um unter den Kandidaten, die von der sprecherunabhängigen und der sprecherabhängigen Erkennungseinrichtung geliefert worden sind, einen Kandidaten mit dem höchsten Ähnlichkeitsgrad zu bestimmen, was dann Identifizierungsergebnis ist.

2. Spracherkennungseinrichtung nach Anspruch 1, gekennzeichnet durch eine Bestätigungseinrichtung (10, 11 12), um den Kandidaten mit dem höchsten Ähnlichkeitsgrad an einen Lautsprecher abzugeben, welcher die Sprache hervorbringt, um zu bestätigen, ob der Kandidat der richtige ist oder nicht.

3. Spracherkennungseinrichtung nach Anspruch 2, gekennzeichnet durch eine Löscheinrichtung (8, 78) zum Löschen des Kandidaten, wenn bestätigt wird, daß er der falsche ist, durch eine Kandidaten-Auswähleinrichtung (74, 75), um nacheinander einzeln andere Kandidaten aus den Kandidaten in abnehmender Reihenfolge des Ähnlichkeitsgrads auszuwählen, und durch eine Koeffizienten-Einstelleinrichtung (76), um einen Wert des Koeffizienten einzustellen, wenn ein Kandidat, welcher durch die Kandidaten-Auswähleinrichtung (74, 75) ausgewählt ist und von der Bestätigungseinrichtung bestätigt wird, daß er der richtige ist, eines der Bezugsmuster ist, zu welchem der gelöschte Kandidat nicht gehört, so daß eines der Bezugsmuster, zu welchen der gelöschte Kandidat gehört, als der erste Kandidat ausgewählt wird, wenn dieselbe Eingangssprache verarbeitet wird.

4. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der Wert des Koeffizienten auf Versuchsbasis bestimmt wird.

5. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die vorherbestimmte Operation eine Multiplikation ist, bei welcher der Koeffizient mit dem Ähnlichkeitsgrad jedes Kandidaten multipliziert wird, welcher entweder zu der sprecherunabhängigen oder zu der sprecherabhängigen Erkennung gehört.

6. Spracherkennungseinrichtung nach Anspruch 5, dadurch gekennzeichnet, daß zusätzlich zu der Multiplikation eine Addition durchgeführt wird, bei welcher das Multiplikationsergebnis dadurch korrigiert wird, daß ein vorherbestimmter Wert des Koeffizienten zu dem Multiplikationsergebnis addiert wird.

7. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der Koeffizient eine Vielzahl verschiedener Werte hat, und daß die Spracherkennungseinrichtung ferner Einrichtungen aufweist, um einen der vorherbestimmten Werte des Koeffizienten von Hand einzustellen, welcher der vorherbestimmten Operation zu unterziehen ist.

8. Spracherkennungseinrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die sprecherunabhängige Bezugsmuster speichernde Einrichtung (5) eine Bezugssprache bezüglich einer öffentlichen Einrichtung speichert, und daß die Spracherkennungseinrichtung ferner eine Einrichtung (32) zum Speichern von Telefonnummern und eine Übertragungseinrichtung (23, 33, 34, 35) zum Herstellen einer Verbindung mit einer Fernsprecheinrichtung und eine Steuereinrichtung (27) aufweist, um eine Telefonnummer entsprechend dem Erkennungsergebnis, welches von der Sprachidentifizierungseinrichtung ausgegeben worden ist, aus den Telefonnummern auszuwählen, welche in der Telefonnummern-Speichereinrichtung gespeichert sind, so daß die ausgewählte Telefonnummer an die Fernmeldeeinrichtung abgegeben wird.

9. Spracherkennungsverfahren, bei welchem ein unbekanntes Eingangssprachmuster einer unbekannten Eingangssprache aus Merkmalen erzeugt wird, welche aus der unbekannten Eingangssprache extrahiert worden sind, und bei welchem ein Ähnlichkeitsgrad zwischen dem erzeugten unbekannten Muster und Bezugsmustern berechnet wird, welche aus Bezugsmuster, welche ausschließlich für eine sprecherunabhängige Erkennung verwendet werden und aus Bezugsmustern zusammengesetzt sind, welche ausschließlich für eine sprecherabhängige Erkennung verwendet werden, dadurch gekennzeichnet, daß der Ähnlichkeitsgrad jedes Kandidaten entweder bezüglich der sprecherunabhängigen oder sprecherabhängigen Erkennung korrigiert wird, indem der Ähnlichkeitsgrad einer vorherbestimmten Operation unterzogen wird, und daß dann ein Kandidat mit dem höchsten Ähnlichkeitsgrad bei einem Identifizierungsergebnis bestimmt wird.

10. Spracherkennungsverfahren nach Anspruch 9, dadurch gekennzeichnet, daß der Kandidat mit dem höchsten Ähnlichkeitsgrad an einen Lautsprecher abgegeben wird, welcher die Sprache abgibt, um dadurch zu bestätigen, ob der Kandidat der richtige ist oder nicht..

11. Spracherkennungsverfahren nach Anspruch 10, dadurch gekennzeichnet, daß der Kandidat gelöscht wird, wenn bestätigt wird, daß er der falsche ist, daß nacheinander einzeln andere Kandidaten aus den Kandidaten in abnehmender Reihenfolge des Ähnlichkeitsgrads ausgewählt werden, und daß ein Wert des Koeffizienten eingestellt wird, wenn ein Kandidat, welcher durch den Auswählschritt ausgewählt wird, bei welchem bei dem Bestätigungsschritt bestätigt wird, daß er der richtige ist, eines der Bezugsmuster ist, zu welchen der gelöschte Kandidat nicht gehört, so daß eines der Bezugsmuster, zu welchen der gelöschte Kandidat gehört, wahrscheinlich nicht bei dem folgenden Erkennungsschritt ausgewählt wird.

12. Spracherkennungsverfahren nach Anspruch 9, dadurch gekennzeichnet, daß die vorherbestimmte Operation eine Multiplikation ist, bei welcher der Koeffizient mit dem Ähnlichkeitsgrad jedes Kandidaten multipliziert wird, welcher entweder zu der sprecherunabhängigen oder zu der sprecherabhängigen Erkennung gehört.

13. Spracherkennungseinrichtung, mit einer Merkmalsextrahiereinrichtung (100) zum Extrahieren von Merkmalen einer unbekannten Eingangssprache und zum Erzeugen eines entsprechenden unbekannten Sprachmusters, wobei die Merkmalsextrahiereinrichtung durch einen Prozessor (100) in Form einer LSI-Schaltung gebildet ist, mit einer Speichereinrichtung (100) zum Speichern von Bezugssprachmustern, mit einer Spracherkennungseinrichtung (69), um einen Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und jedem der Bezugsmuster zu berechnen und um eine Anzahl Kandidaten für das unbekannte Eingangsmuster zu erzeugen, und mit einer Sprachidentifizierungseinrichtung (61), um einen Kandidaten mit dem höchsten Ähnlichkeitsgrad aus Kandidaten auszuwählen, dadurch gekennzeichnet, daß die Spracherkennungseinrichtung (69) und die Sprachidentifizierungseinrichtung (61) durch einen zweiten Prozessor (100) in Form einer LSI-Schaltung gebildet sind, und daß die ersten und zweiten Prozessoren und die Bezugsmuster-Speichereinrichtungen gemeinsam mit einem Bus verbunden sind, so daß der zweite Prozessor im allgemeinen für die sprecherunabhängige und/oder sprecherabhängige Erkennung verwendet werden kann.

14. Spracherkennungseinrichtung nach Anspruch 13, dadurch gekennzeichnet, daß jedes der unbekannten Eingangsmuster und die Bezugsmuster ein zweidimensionales Muster aus Zeit und Frequenz mit einer Anzahl Rahmen sind, wobei in jedem Rahmen enthaltene Rahmendaten Leistungsdaten einer Sprache sind, die in einer Anzahl Frequenzkanälen extrahiert worden ist, und daß die Spracherkennungseinrichtung ferner eine erste Speichereinrichtung (69 c) zum sequentiellen Speichern der Rahmendaten des unbekannten, von der Merkmalsextrahiereinrichtung gelieferten Sprachmusters, eine zweite Speichereinrichtung (69 b) zum sequentiellen Speichern der Rahmendaten eines der Bezugsmuster, welches von der Bezugsmuster-Speichereinrichtung geliefert wird, eine eine logische Operation durchführende Einrichtung (69 e) um eine vorherbestimmte Operation zwischen den Rahmendaten des unbekannten Musters und jeder der Unterteilungen der Rahmendaten des Bezugsmusters durchzuführen, um dadurch vorherbestimmte Elemente zu erzeugen, die zum Berechnen des Ähnlichkeitsgrades eines Kandidaten notwendig sind, ein erstes Register (69 g), um die berechneten Elemente bezüglich der Rahmendaten zu speichern, einen ersten Addierer (69 f), um die berechneten Elemente, welche von der die logische Operation durchführenden Einrichtungen geliefert sind, zu Daten zu addieren, welche durch Verdoppeln der Elemente erhalten worden sind, welche aus dem ersten Register gelesen werden, und um ein Additionsergebnis in das erste Register zu schreiben, ein zweites Register (69 i), um berechnete Elemente bezüglich der Gesamtheit eines unbekannten Musters zu speichern, und einen zweiten Addierer (69 h) aufweist, um die Elemente, welche aus dem ersten Register gelesen werden, zu den Elementen zu addieren, welche aus dem zweiten Register gelesen werden, und um ein Additionsergebnis in das zweite Register zu schreiben, so daß der Ähnlichkeitsgrad eines Kandidaten durch die berechneten Elemente bezüglich eines unbekannten Musters dargestellt wird, welche in dem Wortdatenregister gespeichert sind.