DE3819178C2 - - Google Patents

Info

Publication number
DE3819178C2
DE3819178C2 DE3819178A DE3819178A DE3819178C2 DE 3819178 C2 DE3819178 C2 DE 3819178C2 DE 3819178 A DE3819178 A DE 3819178A DE 3819178 A DE3819178 A DE 3819178A DE 3819178 C2 DE3819178 C2 DE 3819178C2
Authority
DE
Germany
Prior art keywords
speaker
candidate
similarity
pattern
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE3819178A
Other languages
English (en)
Other versions
DE3819178A1 (de
Inventor
Takashi Ariyoshi
Toshiki Yokohama Kanagawa Jp Kawamoto
Seigou Yokosuka Kanagawa Jp Yasuda
Syoji Kuriki
Tomofumi Yokohama Kanagawa Jp Nakatani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP63126847A external-priority patent/JPH01309099A/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE3819178A1 publication Critical patent/DE3819178A1/de
Application granted granted Critical
Publication of DE3819178C2 publication Critical patent/DE3819178C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Description

Die Erfindung betrifft ein Spracherkennungsverfahren nach dem Anspruch 1 sowie eine Spracherkennungseinrichtung zur Durchführung dieses Verfahrens nach Anspruch 4.
Aus der DE 31 29 282 A1 ist bereits eine Spracherkennungs­ einrichtung bekannt, die neben einer Merkmalsextrahierein­ richtung, um Merkmale einer unbekannten Eingangssprache zu extrahieren und um ein entsprechendes unbekanntes Sprach­ muster zu erzeugen, auch eine Speichereinrichtung aufweist zum Speichern von sprecherabhängigen Bezugsmustern. Diese bekannte Spracherkennungseinrichtung umfaßt ferner eine sprecherabhängige Erkennungseinrichtung, um einen Ähnlich­ keitsgrad zwischen den unbekannten Eingangsmuster und jedem der sprecherabhängigen Bezugsmuster zu berechnen und um zumindest einen Kandidaten für ein unbekanntes Eingangsmu­ ster zu erzeugen.
Aus der DE 31 29 353 A1 ist ebenfalls eine Spracherken­ nungseinrichtung bekannt, die eine Merkmalsextrahierein­ richtung enthält, um Merkmale einer unbekannten Eingangs­ sprache zu extrahieren und um ein entsprechendes unbekann­ tes Sprachmuster zu erzeugen. Es ist ferner eine Speicher­ einrichtung zum Speichern von sprecherunabhängigen Bezugs­ mustern und auch eine sprecherunabhängige Erkennungsein­ richtung vorhanden, um einen Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und jedem der sprecherunabhängi­ gen Bezugsmuster zu berechnen und um zumindest einen Kandi­ daten für das bekannte Eingangsmuster zu erzeugen.
Aus der EP 01 91 354 A1 ist ein Spracherkennungsverfahren be­ kannt, bei welchem zunächst eine Trainingsfolge durchge­ führt wird und zu Beginn eine grobe Wortauswahl vorgenommen wird, um dadurch eine Vorentscheidung zu treffen, ob die ausgewählten Worte richtig oder falsch sind. Bei diesen Vorauswahlen bzw. der Trainingsfolge wird jeder Laut mit einem vorgewählten Wort verglichen bzw. an dieses angepaßt, um dadurch eine Wahrscheinlichkeitsgröße zu erhalten, mit welcher die Erkennung durchgeführt werden kann. Auf der Grundlage der Erkenntnis des richtigen oder fehlerhaften Ergebnisses der Grobauswahl und in Kombination mit der Wahrscheinlichkeitsgröße wird dann eine Diskriminierung vorgenommen, um zu bestimmen, wie jeder Laut in jedem Wort­ modell gewichtet werden muß, um eine optimale Entscheidung zwischen ähnlichen Worten zu erreichen. Dabei werden die Wichtungskoeffizienten gewonnen und diese werden mit den Wortmodellen abgespeichert und werden zu einem späteren Zeitpunkt verwendet, und zwar während der aktuellen Sprach­ erkennung.
Darüber hinaus ist es der Fachwelt auch bekannt, daß der Ähnlichkeitsgrad, der von einer sprecherunabhängigen Spracherkennung erhalten wird und der Ähnlichkeitsgrad, der von einer sprecherabhängigen Spracherkennung erhalten wird, nicht in gleicher Weise behandelt werden kann.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Spracherkennungsverfahren und auch eine Spracherken­ nungseinrichtung zur Durchführung dieses Verfahrens zu schaffen, bei welchem bzw. bei welcher sowohl eine spre­ cherunabhängige Erkennung als auch eine sprecherabhängige Erkennung mit hoher Geschwindigkeit realisiert werden kann, wobei die beiden Erkennungsarten sich gegenseitig unter­ stützen sollen, um eine hohe Genauigkeit der Sprach- bzw. Wortidentifizierung zu erreichen.
Diese Aufgabe wird erfindungsgemäß durch die im Anspruch 1 aufgeführten Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den Un­ teransprüchen 2 und 3.
Die Spracherkennungseinrichtung zur Durchführung des erfin­ dungsgemäßen Verfahrens ergibt sich aus dem Anspruch 4.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen dieser Spracherkennungseinrichtung ergeben sich aus den Unteransprüchen 5 bis 11.
Im folgenden wird die Erfindung anhand von Ausführungsbei­ spielen unter Hinweis auf die Zeichnung näher erläutert.
Es zeigt
Fig. 1 ein Blockdiagramm einer bevorzugten Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 2 ein Blockdiagramm einer ins einzelne gehenden, in Fig. 1 dargestellten Sprachidentifizierungsschaltung;
Fig. 3A und 3B Flußdiagramme zum Erläutern der Arbeitsweise der in Fig. 1 dargestellten Einrichtung;
Fig. 4A und 4D Darstellungen zum Erläutern der Arbeitsweise der in Fig. 2 dargestellten Anordnung;
Fig. 5 ein Blockdiagramm einer weiteren Ausführungsform der in Fig. 1 dargestellten Sprachidentifizierungsschaltung;
Fig. 6 ein Blockdiagramm einer Sprachbehandlungseinrichtung, welche eine Anwendungsmöglichkeit der Erfindung ist;
Fig. 7 ein Blockdiagramm einer Einrichtung, mit welcher die in Fig. 1 dargestellte Anordnung erreicht ist;
Fig. 8A und 8B zum Erläutern einer Grundverarbeitung in der Spracherkennungsverarbeitung, welche auf einer binären Zeit-Spektrum-Musterverarbeitung basiert;
Fig. 9 eine Darstellung zum Erläutern eines binären Zeit- Spektrum-Musters eines unbekannten Eingangssprachmusters;
Fig. 10 eine Darstellung zum Erläutern eines Bezugsmusters, das bei der binären Zeit-Spektrum-Musterverarbeitung verwendet wird;
Fig. 11 ein Blockdiagramm einer in Fig. 7 dargestellten Ähnlichkeitselement-Berechnungseinheit;
Fig. 12A und 12B Darstellungen zum Erläutern der Arbeitsweise der in Fig. 11 dargestellten Ähnlichkeitselement-Berechnungseinheit;
Fig. 13A bis 13C Darstellungen zum Erläutern eines Beispiels der Berechnung, welche mittels der in Fig. 11 dargestellten Ähnlichkeitselement-Berechnungseinheit durchgeführt wird;
Fig. 14 ein Flußdiagramm der Arbeitsweise der in Fig. 11 dargestellten Ähnlichkeitselement-Berechnungseinheit und
Fig. 15 ein Blockdiagramm eines Systems zur Ausführung der in Fig. 7 dargestellten Anordnung.
In Fig. 1 ist ein Blockdiagramm einer bevorzugten Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Hierbei wandelt ein Mikrophon 1 eine Stimme oder Sprache, welche eine Luftschwingung ist, in ein entsprechendes elektrisches Sprachsignal um. Eine Merkmalsextrahierschaltung 2 extrahiert Merkmalsmengen des Sprachsignals von dem Mikrophon 1 und erzeugt ein unbekanntes Sprachmuster. Laufend werden verschiedene Methoden zum Extrahieren von Merkmalen einer Sprache vorgeschlagen; eines von diesen kann zum Ausführen der Merkmalsextrahierschaltung verwendet werden. Wie später noch im einzelnen beschrieben wird, wird jedoch vorzugsweise ein Merkmalsextrahierverfahren angewendet, das auf einer binären Zeit-Spektrum-Musteranpassung (BTSP) basiert. Eine sprecherunabhängige Erkennungsschaltung 3 führt eine Anpassung zwischen dem unbekannten von der Merkmalsextrahierschaltung 2 erzeugten Sprachmuster und Bezugssprachmustern für die sprecherunabhängige Erkennung durch, welche in einem Wörterbuch 5 für sprecherunabhängige Sprachmuster gespeichert sind. Die sprecherunabhängige Erkennungsschaltung 3 gibt dann eine Anzahl Kandidaten für die unbekannte Sprache aus. In diesem Fall können alle Kandidaten mit Ähnlichkeitsgraden, die mehr als ein vorherbestimmter Schwellenwertpegel sind, ausgegeben werden; andererseits kann auch eine vorherbestimmte Anzahl Kandidaten ausgegeben werden. Obwohl irgendein Algorithmus für die sprecherunabhängige Erkennung zum Ausbilden der sprecherunabhängigen Erkennungsschaltung 3 verwendet werden kann, wird vorzugsweise ein Algorithmus benutzt, welcher auf der BTSP-Anpassung basiert. Eine sprecherabhängige Erkennungsschaltung 4 führt eine Anpassung zwischen dem unbekannten von der Merkmalsextrahierschaltung 2 gelieferten Sprachmuster und sprecherabhängigen Bezugssprachmustern durch, welche in einem Wörterbuch 6 für sprecherabhängige Bezugsmuster gespeichert sind. Dann gibt die sprecherabhängige Erkennungsschaltung 4 eine Anzahl Kandidaten für die unbekannte Sprache aus. Obwohl einer der Algorithmen für die sprecherabhängige Erkennung zum Ausführen der sprecherabhängigen Erkennungsschaltung 4 verwendet werden kann, wird vorzugsweise ein Algorithmus benutzt, welcher auf der BTSP-Anpassung basiert.
Eine Sprachidentifizierungsschaltung 7 hat die Aufgabe, einen Koeffizienten k, welcher von einem Speicher 9 zugeführt worden ist, und einen Ähnlichkeitsgrad jedes einer vorherbestimmten Anzahl von Kandidaten zu multiplizieren, welche von der sprecherabhängigen Erkennungsschaltung 4 geliefert werden. Ein Koeffizient k hat eine Funktion, nämlich einen Ähnlichkeitsgrad eines durch die sprecherabhängige Erkennung erhaltenen Kandidaten zu korrigieren und um dabei das Auftreten eines Fehlers bei der Erkennung zu mindern. In dem Speicher 9 sind eine Anzahl verschiedener Werte der Koeffizienten k, nämlich k₁, k₂ und k₃ mit verschiedenen Werten gespeichert, und einer von ihnen kann durch einen Befehl von der Sprachidentifizierungsschaltung 7 aus ausgewählt werden.
Die Sprachidentifizierungsschaltung 7 hat ferner die Funktion, die Kandidaten, welche bei der sprecherunabhängigen Erkennung erhalten worden sind, und die Kandidaten, welche bei der sprecherabhängigen Erkennung erhalten worden sind, in abnehmender Reihenfolge des Ähnlichkeitsgrades anzuordnen, wobei mit dem höchsten Ähnlichkeitsgrad begonnen wird. Hierbei kann der Ähnlichkeitsgrad für jeden Kandidaten, welcher bei der sprecherunabhängigen Erkennung erhalten worden ist, durch den Koeffizienten k korrigiert werden. Die Sprachidentifizierungsschaltung 7 kann beginnend mit dem höchsten Ähnlichkeitsgrad einen Kandidaten nach dem anderen, beginnend mit dem höchsten Ähnlichkeitsgrad entsprechend einem Befehl von einer Eingabetastatur 8 aus an eine Sprachsyntheseschaltung 10 abgeben. Die Sprachsyntheseschaltung 10 führt eine Sprachsynthese mit Hilfe eines entsprechenden Sprachsynthesemusters durch, welche aus einem Sprachsynthese, Bezugsmuster-Wörterbuch 11 ausgelesen wird. In dem Wörterbuch 11 sind eine Vielzahl Sprachsynthese-Bezugsmuster gespeichert. Eine synthetische Sprache wird dann an einen Lautsprecher 12 abgegeben, welcher sie in eine entsprechende Luftschwingung umwandelt.
In Fig. 2 ist ein Blockdiagramm eines detaillierteren Aufbaus der in Fig. 1 dargestellten Sprachidentifizierschaltung 7 dargestellt. Die Schaltung 7 weist Speicher 71 und 72, eine Koeffizienten-Multiplizierschaltung 73, einen Kandidatenspeicher 74, eine Steuereinheit 75, eine Koeffizienten-Einstellschaltung 76, ein Hinweisregister 77 und eine Dekodierschaltung 78 auf. Mittels des Speichers 71 werden Ergebnisse gespeichert, welche an der sprecherunabhängigen Erkennungsschaltung 3 erhalten worden sind, d. h. ein Ähnlichkeitsgrad für jeden der Kandidaten. Mittels des Speichers 72 werden Ergebnisse gespeichert, welche an der sprecherabhängigen Erkennungsschaltung 4 erhalten worden sind, d. h. ein Ähnlichkeitsgrad für jeden der Kandidaten. Die Koeffizienten- Multiplizierschaltung 73 multipliziert einen Koeffizienten k und den Ähnlichkeitsgrad jedes der Kandidaten, welche von dem Speicher 71 geliefert werden. Wie vorstehend beschrieben, hat der Koeffizient k die Funktion, den bei der sprecherunabhängigen Erkennung erhaltenen Ähnlichkeitsgrad zu korrigieren, um dadurch Fehler bei der Erkennung zu verringern. Multiplikationsergebnisse, d. h. korrigierte Ähnlichkeitsgrade, werden dem Kandidatenspeicher 74 zugeführt. Die Ähnlichkeitsgrade, welche bei der sprecherunabhängigen Erkennung erhalten worden sind, werden unmittelbar dem Kandidatenspeicher 74 zugeführt. Die in dem Speicher 74 gespeicherten Daten werden in diesem durch die Steuereinheit 75 in abnehmender Reihenfolge des Ähnlichkeitsgrads angeordnet. Der Ähnlichkeitsgrad jedes Kandidaten, welcher mittels der sprecherunabhängigen Erkennung erhalten worden ist, ist durch den Koeffizienten k korrigiert worden. Wenn ein Ausgeben eines Kandidaten von der Steuereinheit 75 entsprechend einem Befehl von der Eingabetastatur 8 befohlen wird, wird ein Kandidat mit dem höchsten Ähnlichkeitsgrad unter den gespeicherten Kandidaten von der Sprachsyntheseschaltung 10 abgegeben. Gleichzeitig wird ein Hinweis, der verwendet wird, um anzuzeigen, daß der abgegebene Kandidat für die sprecherunabhängige oder -abhängige Erkennung von Belang ist, in das Hinweisregister 77 geschrieben. Die Steuereinheit 75 kann einen Befehl zum Einstellen des Koeffizienten k erzeugen, welcher an der Multiplizierschaltung 73 einzustellen ist, wenn eine vorherbestimmte Bedingung, welche später noch beschrieben wird, festgestellt wird. Dieser Befehl zur Koeffizienteneinstellung wird der Koeffizienteneinstellschaltung 76 zugeführt, welche eine entsprechende Speicheradresse an den Koeffizientenspeicher 9 abgibt.
Nunmehr wird anhand von Fig. 3 die Arbeitsweise der in Fig. 1 und 2 dargestellten Ausführungsform beschrieben. Nachstehend ist hierbei angenommen, daß der Koeffizientenspeicher 9 drei verschiedene Koeffizienten k₁, k₂ und k₃ (k₁<k₂<k₃) speichert; der Koeffizient k₂ wird anfangs in der Multiplizierschaltung 73 der Sprachidentifizierschaltung 7 gesetzt.
Während des Betriebs wird eine von einer Person ausgesprochene Sprache mittels des Mikrophons 1 in ein entsprechendes elektrisches Signal umgewandelt, welches dann der Merkmalsextrahierschaltung 2 zugeführt wird. Die Schaltung 2 erzeugt ein unbekanntes Sprachmuster der Eingangssprache, indem sie deren Merkmale extrahiert (Schritt 1001 in Fig. 3A). Das unbekannte Sprachmuster wird der sprecherunabhängigen Erkennungsschaltung 3 und auch der sprecherabhängigen Erkennungsschaltung 4 zugeführt. Die Schaltung 3 wählt eine Anzahl n Kandidaten für die eingegebene Stimme aus, welche den höchsten Ähnlichkeitsgrad haben, welcher durch die Anpassung erhalten worden ist (Schritt 1002). In ähnlicher Weise wählt die sprecherabhängige Erkennungsschaltung 4 eine Anzahl n Kandidaten für die eingegebene Sprache aus, welche den höchsten Ähnlichkeitsgrad haben, welcher durch Anpassung erhalten worden ist (Schritt 1002). Es wird nun angenommen, daß die Anzahl n Kandidaten, welche von der sprecherunabhängigen Erkennung erhalten worden ist, in abnehmender Reihenfolge des Ähnlichkeitsgrads folgendermaßen dargestellt werden:
WI1, WI2, . . . , WIn
und ein Ähnlichkeitsgrad jedes Kandidaten wird folgendermaßen dargestellt:
SI1, SI2, . . . , SIn.
Ferner wird angenommen, daß eine Anzahl n-Kandidaten, welcher bei der sprecherabhängigen Erkennung erhalten worden ist, in abnehmbarer Reihenfolge des Ähnlichkeitsgrads folgendermaßen dargestellt werden:
WD1, WD2, . . . , WDn
und ein Ähnlichkeitsgrad jedes Kandidaten folgendermaßen dargestellt wird:
SD1, SD2, . . . , SDn.
Die Kandidaten WI1, WI2, . . . , WIn werden zusammen mit dem Ähnlichkeitsgrad SI1, SI2, . . . , SIn in dem Speicher 71 gespeichert, wie in Fig. 4A dargestellt ist. Genauso werden die Kandidaten WD1, WD2, . . . , WDn in dem Speicher 72 zusammen mit dem Ähnlichkeitsgrad SD1, SD2, . . . , SDn gespeichert, wie in Fig. 4B dargestellt ist.
Die Ähnlichkeitsgrade SI1, SI2, . . . , SIn, welche bei der sprecherunabhängigen Erkennung erhalten werden, werden mit der Schaltung 73 mit dem Koeffizienten k₂ multipliziert, und die berechneten Ergebnisse k₂ · SI1, k₂ · SI2, . . . , k₂ · SIn werden dem Kandidatenspeicher 74 zugeführt. Andererseits werden die Ähnlichkeitsgrade SD1, SD2, . . . , SDn, welche durch die sprecherabhängige Erkennung erhalten worden sind, unmittelbar dem Kandidatenspeicher 74 zugeführt. Wenn alle Kandidaten (d. h. eine Anzahl von 2n Kandidaten) für die unbekannte Eingangssprache an den Kandidatenspeicher 74 transferiert worden sind, beginnt die Steuereinheit 75, alle Kandidaten in abnehmender Reihenfolge des Ähnlichkeitsgrads durch ein Vergleichen untereinander anzuordnen. Es sei nun angenommen, daß der Ähnlichkeitsgrad in einer Folge k₂ · SD1, k₂ · SD2, SD1, . . . , in abnehmender Reihenfolge des Ähnlichkeitsgrads angeordnet werden, wie in Fig. 4C dargestellt. Die Steuereinheit 75 befiehlt dann dem Kandidatenspeicher 74, einen Kandidaten mit dem höchsten Ähnlichkeitsgrad abzugeben. Bei der vorstehenden Annahme wird der Kandidat WI1 aus dem Speicher 74 gelesen und der Sprachsyntheseschaltung 10 zugeführt. Zu diesem Zeitpunkt wird dann ein Hinweis mit einem Wert "1" in dem Hinweisregister 77 registriert. Ein Wert "1" des Hinweises zeigt an, daß der Kandidat, welcher nunmehr aus dem Speicher 74 gelesen wird, ein bei der sprecherunabhängigen Erkennung erhaltener Kandidat ist, während ein Wert "0" des Hinweises anzeigt, daß der Kandidat, welcher nunmehr gelesen wird, ein bei der sprecherabhängigen Erkennung erhaltener Kandidat ist.
Die Sprachsyntheseschaltung 10 liest ein Sprachsynthesemuster aus, das dem Kandidaten WI1 aus dem Sprachsynthesewörterbuch 11 entspricht, und gibt eine Synthesesprache an dem Lautsprecher 12 ab. Folglich kann der Sprecher erkennen, ob die ausgesprochene Sprache richtig erkannt worden ist oder nicht.
Wie vorstehend beschrieben, ist der direkte Vergleich der Ähnlichkeitsgrade zwischen der sprecherunabhängigen und der -abhängigen Erkennung nicht vernünftig, weil der Erkennungsalgorithmus und das Verfahren zum Erzeugen von Bezugsmustern zwischen der sprecherunabhängigen und der -abhängigen Erkennung verschieden ist. Andererseits ermöglicht es die Verbindung des Korrekturkoeffizienten k, Ähnlichkeitsgrade, welche bei der sprecherunabhängigen bzw. bei der sprecherabhängigen Erkennung erhalten worden sind, gleichwertig zu behandeln. Im Ergebnis kann somit das Auftreten eines Erkennungsfehlers so reduziert werden, daß ein falscher Kandidat aus den sprecherunabhängigen oder -abhängigen Erkennungsergebnissen (Kandidaten) ausgewählt wird und an dem Lautsprecher dargestellt wird. Ein derartiger Erkennungsfehler kann bei Verwendung einer Anzahl Koeffizientenwerte extrem gemindert werden. Das heißt, da ein verschiedenes Erkennungsergebnis in Abhängigkeit von einem Umstand, unter welchem die sprecherunabhängigen Bezugsmuster erzeugt werden, einem Erkennungsumstand, usw. erhalten werden kann.
Wenn bei der vorstehenden Arbeitsweise der erste Kandidat WI1 falsch ist, drückt der Sprecher eine auf der Eingabetastatur 8 vorgesehene Löschtaste 81 um so den ersten Kandidaten WI1 zu löschen, und fordert den nächsten Kandidaten an (Schritt 1005 in Fig. 3B). Die Dekodierschaltung 78 unterscheidet das Drücken der Löschtaste 81 und befiehlt der Steuereinheit 75, den nächsten Kandidaten auszugeben. Dann wählt die Steuereinheit 75 den nächsten Kandidaten (WI2 in dem vorstehenden Beispiel aus) und führt ihn der Sprachsyntheseschaltung 10 zu (Schritt 106). Dann wird die dem Kandidaten WI2 entsprechende Synthesesprache über den Lautsprecher 12 abgegeben. Es wird dann geprüft, ob der ausgewählte Kandidat der richtige ist oder nicht (Schritt 1007). Wenn der ausgewählte Kandidat WI2 ebenfalls nicht der richtige ist, geht das Verfahren auf den Schritt 108 über, bei welchem durch die Steuereinheit 75 geprüft wird, ob alle Kandidaten (2n) aus dem Kandidatenspeicher 74 gelesen worden sind oder nicht. In dem Fall, daß der ausgewählte Kandidat falsch ist, ist der Inhalt des Hinweisregisters 77 nicht aktualisiert. Wenn alle Kandidaten ausgelesen worden sind, wird der Erkennungsprozeß zurückgewiesen. Wenn andererseits das Unterscheidungsergebnis beim Schritt 1008 nein ist, wird auf den Schritt 1006 zurückgekehrt. Dann wird der nächste Kandidat (der dritte Kandidat WD1) entsprechend dem Drücken der Löschtaste 81 gewählt. Wenn der Kandidat WD1 der richtige ist und daher eine Bestätigungstaste 82 gedrückt wird, wird beim Schritt 110 fortgefahren, bei welchem geprüft wird, ob der ausgewählte Kandidat ein Kandidat ist, welcher durch den Erkennungstyp (sprecherunabhängige oder -abhängige Erkennung) erhalten worden ist, was identisch mit dem für den gelöschten Kandidaten ist. Diese Unterscheidung kann mit Hilfe des in dem Register 77 gespeicherten Hinweises durchgeführt werden. Wenn der falsche erste Kandidat und der richtige Kandidat Kandidaten sind, welche mittels desselben Speichererkennungstyps erhalten worden sind, wird der Prozeß beendet. Wenn beispielsweise der zweite Kandidat WI2 der richtige ist, endet der Prozeß. Wenn andererseits der richtige Kandidat durch den Erkennungstyp erhalten wird, welcher sich von dem für den gelöschten ersten Kandidaten unterscheidet, wird auf den Schritt 1011 übergegangen. Beim Schritt 1011 wird der Wert des Koeffizienten k in der nachstehend noch näher beschriebenen Weise eingestellt.
In dem Beispiel der Fig. 4C wird der in dem Hinweisregister 77 eingestellte Wert in "0" geändert, wenn der richtige Kandidat WD1 aus dem Kandidatenspeicher 74 gelesen ist. Folglich kann herausgefunden werden, daß der Erkennungstyp für den dritten Kandidaten WD1 (d. h. die sprecherabhängige Erkennung) verschieden ist von derjenigen für den ersten Kandidaten WI1. Dann wird bei dem Schritt 1011 fortgefahren, bei welchem der laufende Wert des Koeffizienten k eingestellt wird. In dem vorstehenden Beispiel sind die ersten und zweiten Kandidaten WI1 und WI2, welche mittels der sprecherunabhängigen Erkennung erhalten werden, falsch, und der dritte Kandidat WD1, welcher mittels der sprecherabhängigen Erkennung erhalten wird, ist der richtige. Dies bedeutet, daß der Koeffizient k₂, welcher laufend in der Multiplizierschaltung 73 gesetzt wird, größer ist als ein angemessener Wert. Daher versorgt die Steuereinheit 75 die Koeffizienteneinstellschaltung 76 mit einem Steuersignal, welches anzeigt, daß der Koeffizient k₃ welcher kleiner als der Koeffizient K₂ ist, in der Schaltung 73 eingestellt werden sollte. Die Koeffizienteneinstellschaltung 76 versorgt den Koeffizientenspeicher 9 mit einer Adresse des Koeffizienten k₃. Dadurch wird der in der Multiplizierschaltung 73 gesetzte Koeffizient k₂ durch den Koeffizienten k₃ ersetzt (Schritt 1011). Im Ergebnis kann dann der Koeffizient k auf einen entsprechenden Wert eingestellt werden.
Die Einstellung des Koeffizienten k kann auch in dem folgenden Fall durchgeführt werden. Es sei nunmehr angenommen, daß, wie in Fig. 4D dargestellt, Kandidaten in einer Folge WD1, WD2, WI1, . . . , in abnehmender Reihenfolge des Ähnlichkeitsgrads angeordnet sind, und ein richtiger Kandidat der Kandidat WI1 ist. Das heißt, die Kandidaten WD1 und WD2 haben Ähnlichkeitsgrade, die höher als derjenige des Kandidaten WI1 ist. In diesem Fall sind dann zwei Kandidaten WD1 und WD2, welche bei der sprecherabhängigen Erkennung erhalten worden sind, beim Schritt 1005 gelöscht worden, und der Kandidat WI1, ist eines der Erkennungsergebnisse mit Hilfe der sprecherunabhängigen Erkennung. Dies bedeutet, daß der laufende Koeffizient k mit einem Wert k₂ kleiner als ein angemessener Wert ist. Daher wird der Wert k so eingestellt, daß er einen Wert größer als k₂ hat, d. h. in dem vorstehenden Beispiel wird k₁ eingestellt.
Wenn ferner in dem Beispiel der Fig. 4C der Kandidat WI2 der richtige ist, wird die Einstellung des Koeffizienten k nicht durchgeführt. Dies ist ein einfacher Fehler bei der sprecherunabhängigen Erkennung. Wie aus der vorstehenden Erläuterung zu ersehen ist, wird, wenn der richtige Kandidat denselben Erkennungstyp wie der gelöschte Kandidat hat, die Einstellung des Koeffizienten k nicht durchgeführt. Ebenso wird zum Beispiel nach Fig. 4D, wenn der Kandidat WD2 der richtige ist, die Einstellung des Koeffizienten k nicht durchgeführt.
Die Werte des Koeffizienten k können entsprechend einem Versuch ausgewählt werden. Obwohl drei Werte des Koeffizienten K in dem vorstehenden Ausführungsbeispiel verwendet sind, ist die Erfindung keineswegs hierauf beschränkt. Mit einer größeren Anzahl von Koeffizientenwerten kann die Genauigkeit bei der Spracherkennung erhöht werden. Obwohl der Ähnlichkeitsgrad, welcher durch die sprecherunabhängige Erkennung erhalten worden ist, korrigiert wird, indem der Koeffizient damit multipliziert wird, kann der Ähnlichkeitsgrad durch Addieren des Koeffizienten k oder mit Hilfe einer Kombination aus Multiplikation und Addition korrigiert werden. Ferner kann die Korrektur des Ähnlichkeitsgrads (bezüglich des Ähnlichkeitsgrads) bezüglich der sprecherabhängigen Erkennung durchgeführt werden. In diesem Fall kann ein Koeffizient 1/k mit dem Ähnlichkeitsgrad multipliziert werden, welcher bei der sprecherabhängigen Erkennung erhalten worden ist. Jedoch kann in dem Fall, daß die Anordnung der Fig. 1 und 2 bei einer Sprachausgabeeinrichtung, wie einer Sprachbehandlungseinrichtung angewendet wird, der bestätigte oder richtige Kandidat über ein Terminal 13 geliefert werden. Anstelle von oder zusätzlich zu der Sprachsyntheseschaltung 10 kann eine Anzeigeeinheit verwendet werden, um den Kandidaten durch die Bedienungsperson zu bestätigen.
Fig. 5 ist ein Blockdiagramm einer Abwandlung der Ausführungsform der Fig. 2, wobei in Fig. 5 dieselben Elemente wie in Fig. 2 mit denselben Bezugszeichen bezeichnet sind. In Fig. 2 wird der Koeffizient k automatisch eingestellt. Bei der Anordnung nach Fig. 5 kann der Koeffizient k von Hand eingestellt werden. Die Eingabetastatur 8 hat eine Koeffizienteneinstelltaste 83, welche benutzt wird, um den Koeffizienten k anzuzeigen, welcher einen gewünschten Wert, wie k₁, k₂ und k₃ (k₁<k₂<k₃) hat. Jedesmal wenn die Koeffizienteneinstelltaste 83 gedrückt wird, kann ein Wert des Koeffizienten K infolge gewählt werden. Wenn die Taste 83 gedrückt wird, wird ein entsprechendes Signal dem Dekodierer 78 zugeführt, welcher dann eine entsprechende Adresse an den Koeffizientenspeicher 9 abgibt. Der Koeffizient k mit einem Wert, welcher durch die Adresse von dem Kodierer 78 aus bestimmt worden ist, wird an die Multiplizierschaltung 73 abgegeben.
Nunmehr wird anhand von Fig. 6 eine Anwendung der vorstehenden Ausführungsform beschrieben. Fig. 6 ist ein Blockdiagramm einer Sprachbehandlungseinrichtung. Die dargestellte Sprachbehandlungseinrichtung weist ein Mikrophon 21, einen Lautsprecher 22, eine Sprechschaltung 23, einen Haken(um)schalter 24, eine Merkmalsextrahierschaltung 25, eine Eingabetastatur 26, eine Steuerschaltung 27, eine Musteranpassungsschaltung 28, ein Bezugssprachmuster-Wörterbuch 29, eine Sprachsyntheseschaltung 30, ein Sprachsynthese-Bezugsmuster-Wörterbuch 31, einen Fernsprechnummer-Speicher 32, eine Ausgangssteuereinheit 33, eine Eingangssteuereinheit 34, eine Leitungssteuereinheit 35 und eine Leitung 36 auf. Die Musteranpassungsschaltung 28 entspricht der Kombination aus der sprecherunabhängigen Erkennungsschaltung 3, der sprecherabhängigen Erkennungsschaltung 4, der Sprachidentifizierschaltung 7 und dem Koeffizientenspeicher 9, welche in Fig. 1 dargestellt sind. Das Bezugsmuster-Wörterbuch 29 entspricht der Kombination aus dem sprecherunabhängigen Bezugsmusterwörterbuch 5 und dem sprecherabhängigen Bezugsmuster-Wörterbuch 6, die in Fig. 1 dargestellt sind. Die Merkmalsextrahierschaltung 26, die Sprachsyntheseschaltung 30 und das Sprachsynthese-Bezugsmuster-Wörterbuch 31 entsprechen der Merkmalsextrahierschaltung 2, der Sprachsyntheseschaltung 10 bzw. dem Sprachsynthese-Bezugsmuster-Wörterbuch 11, welche in Fig. 1 dargestellt sind. Das Mikrophon 21, der Lautsprecher 22 und die Eingabetastatur 26 entsprechen dem Mikrophon 1, dem Lautsprecher 12 bzw. der Eingabetastatur 8 der Fig. 1.
Merkmale der dargestellten Anwendung sind in der Anordnung der Anpassungsschaltung 28 und der Anordnung jeweils des Bezugsmuster-Wörterbuchs 29, des Sprachsynthese-Bezugsmuster-Wörterbuchs 31 und des Telefonnummer-Speichers 32 vorhanden. Die Anpassungsschaltung 28 ist entsprechend der vorstehend beschriebenen Ausführungsform ausgeführt. Daher ist eine Erläuterung der Anpassungsschaltung 28 entbehrlich.
In Fig. 6 ist ein Speicherbereich jeweils des Bezugsmuster-Wörterbuchs 29, des Sprachsynthese-Bezugsmuster-Wörterbuchs 31 und des Telefonnummer-Speichers 32 dargestellt. Jeder der Speicherbereiche ist in zwei Bereiche unterteilt, von denen der eine ein Beschreibbarbereich I und der andere ein Schreibsperrbereich II ist. Das Bezugsmuster-Wörterbuch 29 besteht aus dem sprecherunabhängigen Bezugsmuster-Wörterbuch 5, welches in dem Schreibsperrbereich II gebildet ist, und aus dem sprecherabhängigen Bezugsmuster-Wörterbuch 6, welches in dem beschreibbaren Bereich I ausgebildet ist. Das sprecherunabhängige Bezugsmuster-Wörterbuch 5 speichert eine Anzahl Bezugssprachenmuster von gesprochenen Worten, welche oft von vielen Personen verwendet werden, beispielsweise sprecherunabhängige Bezugssprachenmuster von Telefonnummern von öffentlichen Einrichtungen, wie Polizei, Feuer/Ambulanz, Wetterbericht und Uhrzeit. Für eine gesprochene Telefonnummer werden eine Anzahl sprecherunabhängiger Bezugsmuster In dem Schreibsperrbereich I gespeichert. Das sprecherabhängige Bezugsmuster-Wörterbuch 6 speichert sprecherunabhängige Bezugsmuster, welche durch Benutzer beliebig registriert werden können. Das Sprachsynthese-Bezugsmuster-Wörterbuch 31 speichert in dem Schreibsperrbereich II ein Sprachsynthese-Bezugsmuster für jede der Telefonnummern und speichert in dem beschreibbaren Bereich I ein Sprachsynthese-Bezugsmuster für jedes der Bezugsmuster, welche von Benutzern besetzt werden. In ähnlicher Weise werden Telefonnummern, welche durch die sprecherunabhängige Erkennung gewählt werden können, in dem Schreibsperrbereich II des Telefonnummer-Speichers 32 gespeichert, und Telefonnummern, welche durch die sprecherabhängige Erkennung gewählt werden können, werden in dem beschreibbaren Bereich I gespeichert.
Zu Beginn der Sprachbehandlung befiehlt ein Sprecher die Durchführung einer Sprachbehandlung an der Steuereinheit 27 mit Hilfe der Eingabetastatur 26. Dann wird eine von dem Sprecher erzeugte Sprache der Merkmalsextrahierschaltung 25 über das Mikrophon 21 zugeführt. Die Merkmalsextrahierschaltung 25 erzeugt ein unbekanntes Sprachmuster und liefert es an die Steuereinheit 27. Die Steuereinheit 27 gibt das unbekannte Sprachmuster an die Musteranpassungsschaltung 28 ab. Die Musteranpassungschaltung 28 bestimmt den ersten Kandidaten für die unbekannte Sprache entsprechend dem vorstehend anhand von Fig. 1 bis 5 beschriebenen Ablauf. Der erste Kandidat wird an die Sprachsyntheseschaltung 30 angelegt, welche ein dem ersten Kandidaten entsprechendes Sprachsynthese-Bezugsmuster ausliest und erzeugt die Synthesesprache. Dann wird die Synthesesprache über den Lautsprecher 22 an den Sprecher abgegeben. Wenn zu diesem Zeitpunkt der erste Kandidat falsch ist, drückt der Sprecher, wie vorher beschrieben, die Löschtaste 81. Entsprechend der Betätigung der Löschtaste gibt dann die Musteranpassungsschaltung 28 den zweiten Kandidaten an die Sprachsyntheseschaltung 30 ab. Dann wird die dem zweiten Kandidaten entsprechende Syntheseschaltung an den Sprecher abgegeben. Wenn zu diesem Zeitpunkt der zweite Kandidat richtig ist, drückt der Sprecher die Betätigungstaste 82 auf der Tastatur 26. Dann gibt mittels der Steuereinheit 27 die Musteranpassungsschaltung 28 den zweiten Kandidaten an die Ausgangssteuereinheit 33 ab. Die Steuereinheit 33 liest die dem zweiten Kandidaten entsprechende Telefonnummer aus dem Telefonnummer-Speicher 32 und gibt sie über die Leitungssteuereinheit 35 an die Leitung 36 ab. Die Sprachbehandlungseinrichtung der Fig. 6 hat eine hohe Zuverlässigkeit und eine hohe Wirksamkeit, da die Musteranpassungsschaltung 28 den Aufbau der vorstehend beschriebenen Ausführungsform hat. Da außerdem eine Wählinformation von öffentlichen Einrichtungen, welche oft von vielen Benutzern verwendet werden, vorher registriert werden, ist es für den Benutzer nicht notwendig, die Bezugsmuster deren Telefonnummern zu registrieren.
Nunmehr wird ein weiterer Aufbau der Ausführungsform der Fig. 1 und 2 im einzelnen beschrieben. In Fig. 7 ist dieser detaillierte Aufbau der Ausführungsform nach Fig. 1 und 2 dargestellt. Die dargestellte Spracherkennungseinrichtung weist einen Prozessor 100 mit der Funktion, Merkmale einer unbekannten Eingangssprache zu extrahieren, einen Prozessor 200 mit den Funktionen, die unbekannte Sprache zu identifizieren und andere Verarbeitungen durchzuführen, einen Programmfestwertspeicher (Programm ROM) 300, einen Modell-Bezugs-Randomspeicher (RAM) 400, einen Zentraleinheit-Bus 500 und eine periphere Einheit 600 auf. Der Prozessor 100 entspricht der in Fig. 2 dargestellten Merkmalsextrahierschaltung 2, und der Prozessor 200 entspricht der Kombination aus der sprecherunabhängigen Erkennungsschaltung 3, der sprecherabhängigen Erkennungsschaltung 4, der Sprachidentifizierschaltung 7 und der Koeffizientenschaltung 9 der Fig. 1. Ein Programm zum Durchführen der Spracherkennung ist in dem Programm-ROM 300 gespeichert. Das heißt, der ROM 300 speichert ein Programm für die sprecherunabhängige Erkennung, was in dem Block 3 der Fig. 1 durchgeführt wird, und ein Programm für die sprecherabhängige Erkennung, was in dem Block 4 durchgeführt wird. Wie später noch im einzelnen beschrieben wird, werden Elemente, um den Ähnlichkeitsgrad zu erhalten, mittels einer hardware berechnet. Der Modell-RAM 400 entspricht der Kombination aus den sprecherunabhängigen und -abhängigen Bezugsmuster-Wörterbüchern 5 und 6 der Fig. 1. Der Zentraleinheit-Bus 500 verbindet die Prozessoren 100 und 200, den ROM 300 und den RAM 400 miteinander. Die periphere Einheit 600 entspricht der Tastatur 8, der Sprachsyntheseschalter 10, dem Sprachsynthese-Bezugsmuster-Wörterbuch 11 und dem Lautsprecher 12 der Fig. 1. Der Prozessor 100 ist ein hochintegrierter (LSI-)Schaltkreis, der entsprechend ausgelegt ist, um Merkmale einer unbekannten Eingangssprache zu extrahieren und um ein Leistungsspektrum- und ein binäres Zeit-Spektrum-Muster in einem Zeitraum von 10 ms zu erzeugen. Das Leistungsspektrum- und das binäre Zeit-Spektrum-Muster sind in der US-Patentanmeldung Nr. 5 96 586 der Anmelderin der vorliegenden Anmeldung beschrieben. Der Prozessor 100 erhält die folgenden Bauelemente.
Ein Mikrophonverstärker 41 verstärkt das von dem Mikrophon 1 zugeführte Sprachsignal. Ein Tiefpaßfilter 42 entfernt unnötige hochfrequente Komponenten, welche in dem verstärkten Sprachsignal enthalten sind, um ein Schleifenrauschen zu entfernen, welches beim Abtasten des eingegebenen Sprachsignals vorkommt. Eine automatische Verstärkungsregelungs- und Vorverzerrungsschaltung 43 setzt einen Pegel des Sprachsignals in einen entsprechenden Pegelbereich, und hebt hochfrequente Komponenten am Ausgang des Tiefpaßfilters 42 an, um deren Leistung auszugleichen. Ein Block 45 besteht aus einem Tiefpaßfilter 45c, einem Detektor 45b und einem Tiefpaßfilter 45c und erzeugt ein Leistungsspektrum des Eingangssprachsignals in einem Intervall von 1/3 oct. in einem Bereich von 250 kHz bis 6,35 kHz. Ein Q-Wert des Blocks 45 wird auf 6 gesetzt. Eine Filtersteuereinheit 44 steuert das Tiefpaßfilter 45a, den Detektor 45b und das Tiefpaßfilter 45c des Blockes 45. Ein Analog/Digital-Umsetzer 46 setzt die Leistungsspektrumsdaten der Eingangssprachsignale in Digitalwerte von 8 Bits um. Ein Register 47 speichert die Leistungsspektrumsdaten in digitaler Form. Ein LOG-Umsetzer 48 setzt die Leistungsspektrumsdaten in Daten auf der logarithmischen Achse um. Ein LSFL-Filter 49 führt eine Korrektur mit Hilfe der dem kleinsten Quadratwurzelfehler entsprechenden Näherungslinie durch, um die Klang- bzw. Tonquelleneigenschaften eines Sprechers zu normalisieren. Ein Binärumsetzer 50 teilt einen Binärwert "1" unter 15 Kanälen einem Kanal zu, welcher einen Wert hat, der gleich oder größer als eine Hälfte jedes lokalen Spitzenwerts in dem Leistungsspektrum ist, und ordnet einen Binärwert "0" einem Kanal mit einem Wert zu, welcher kleiner als eine Hälfte jedes lokalen Spitzenwerts ist.
Eine weitere Erklärung des LOG-Umsetzers 48, des LSFL-Filters 49 und des Binärumsetzers 50 wird nachstehend noch gegeben. Bekanntlich kann ein Zeit-Spektrummuster (TSP) als Merkmalsmengen für eine Spracherkennung verwendet werden. Das Zeit-Spektrum-Muster enthält eine Übertragungs- bzw. eine Transfercharakteristik einer Kehle und eine Ton- bzw. Klangquellencharakteristik. Ein in dem Zeit-Spektrumsmuster beobachteter Spitzenwert wird als ein lokaler Spitzenwert definiert. Ferner ist die Tatsache bekannt, daß der Frequenzverlauf der menschlichen Stimme im hochfrequenten Bereich gedämpft ist, und daß die Frequenzkennlinien sich in Abhängigkeit von der jeweiligen Person beträchtlich ändern. Aus den vorstehenden Gründen wird das Sprachsignal vor einer binären Bewertung der dem kleinsten Quadratwurzelfehler entsprechenden Näherungslinie korrigiert. Bezüglich Frequenzdaten des Sprachsignals, welches in einem Intervall von 10 ms erhalten wird, wird die Ausgleichslinie nach der Methode des kleinsten Quadrats berechnet. Dann wird ein Wert auf der berechneten Linie von den Frequenzdaten subtrahiert. Danach werden die korrigierten Frequenzdaten einer binären Bewertung unterzogen.
In Fig. 8A ist ein Beispiel eines Zeit-Spektrumsmusters dargestellt, das am Ausgang des Blockes 45 erhalten worden ist; in Fig. 8B ist das korrigierte Zeit-Spektrumsmuster dargestellt, das am Ausgang des LSFL-Filters 49 erhalten worden ist, und es ist auch ein binäres Zeit-Spektrumsmuster dargestellt, das am Ausgang des Binärumsetzers 50 erhalten worden ist. Ein Buchstabe L bezeichnet die nach der Methode des kleinsten Quadrates ermittelte Ausgleichslinie, und die Buchstaben LP bezeichnen einen lokalen Spitzenwert. Wie vorstehend beschrieben, ist in dem System das Sprachsignal in 15 Kanäle unterteilt, und folglich gibt der Binärumsetzer 50 das binäre Zeit-Spektrumsmuster eines zweidimensionalen Frequenz-Zeit-Musters ab, wie in Fig. 9 dargestellt ist.
Ein Zeitgeber 51 erzeugt einen Impuls mit einer konstanten Periode (10 ms) und gibt ihn als Unterbrechungssignal an den Prozessor 200 ab. Der Prozessor 200 ist durch eine LSI-Schaltung gebildet, welche die Funktion hat, eine Spracherkennungsverarbeitung und andere Verarbeitungen durchzuführen. Der Prozessor 200 erhält die folgenden Elemente.
Eine Zentraleinheit (CPU) 61 ist eine 16 Bit Universal-Zentraleinheit und führt das Programm aus, das in dem Programm-Festwertspeicher (ROM) 300 gespeichert ist, welcher extern mit dem Prozessor 200 verbunden ist. Eine Bus-Steuereinheit 62 steuert einen internen Bus 63, welcher in dem Prozessor 200 untergebracht ist, und einen Zentraleinheit-Bus 500, welcher außerhalb der Prozessoren 100 und 200 vorgesehen ist. Eine Speicher-Steuereinheit 64 versorgt den Programm-ROM 300 mit einem Chip-Auswählsignal. Eine Unterbrecher-Steuereinheit 65 gibt das Zeitgebersignal von dem Prozessor 100 ein und führt die Unterbrechungssteuerung durch. Ein Parallelanschluß 66 wird verwendet, um eine Verbindung mit der peripheren Einheit 600 herzustellen. Ein Steuersignalgenerator 67 erzeugt verschiedene Steuersignale, welche in dem Prozessor 200 verwendet werden. Ein Taktgenerator 68 erzeugt einen Baud-Ratentakt, welcher notwendig ist, wenn eine serielle Schnittstelle mit dem Prozessor 200 verbunden ist. Eine Ähnlichkeitselement-Berechnungseinheit (die nachstehend der Einfachheit halber auch als SECU-Einheit bezeichnet wird) 69 gibt das unbekannte Eingangsmuster, das in der Form des binären Zeit-Spektrumsmusters beschrieben ist, wie in Fig. 9 dargestellt ist, und ein Bezugsmuster ein, das aus dem Modell-Random-Speicher (RAM) 400 abgeleitet ist. Die SECU-Einheit 69 berechnet mit hoher Geschwindigkeit den Wert von Elementen Pd, Py, Pv und Pi, die notwendig sind, um den Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und dem Modell- bzw. Bezugsmuster zu erhalten. Die SECU-Einheit 69 kann den Ähnlichkeitsgrad jeweils auf der Basis der sprecherunabhängigen und -abhängigen Erkennung berechnen. Die vorstehenden vier Elemente werden später noch im einzelnen beschrieben.
Der Programm-ROM 300 speichert ein Steuerprogramm mit den folgenden Inhalten, welche von der Zentraleinheit (CPU) 61 und der Speicher-Steuereinheit 64 in dem Prozessor 200 durchgeführt werden. Ein erstes Steuerprogramm steuert die Operation so, daß, wenn das von dem Zeitgeber 61 abgeleitete Unterbrechungssignal an die Unterbrecher-Steuereinheit 65 angelegt wird, die Zentraleinheit (CPU) 61 das binäre Zeit-Spektrumsmuster von dem Binärumsetzer 50 über den Zentraleinheit-Bus 500 und die Bus-Steuereinheit 62 eingibt. Ein zweites Steuerprogramm steuert eine Operation, so daß die Zentraleinheit (CPU) 61 einen Sprachabschnitt in dem binären Zeit-Spektrumsmuster festsetzt. Bei dem festgesetzten Sprachabschnitt wird entschieden, ob es ein unbekanntes Eingangsmuster ist und es wird dann zum Vergleich mit dem Bezugsmuster dargeboten. Bei dem Vergleich zwischen dem unbekannten Sprachmuster und dem Bezugsmuster wird vorzugsweise das herkömmliche Zeilenschrumpfungs- oder -Verengungsverfahren angewendet, um eine Veränderung in der Frequenz und der Zeit des unbekannten Musters auszugleichen. Beispielsweise sind die bekannten Zeilenverengungsverfahren in "Japanese Electronic Communications Society Report PRL-75-66, Sten. 9 bis 56 beschrieben. Ein drittes Steuerprogramm steuert eine Operation, so daß ein unbekanntes Eingangssprachenmuster der SECU-Einheit 69 zugeführt wird; das in dem Randomspeicher 400 gespeicherte Bezugsmuster wird der SECU-Einheit 69 entsprechend dem Speichertransfer unter der Steuerung der Speichersteuereinheit 64 zugeführt, so daß die Zentraleinheit 61 Elemente PD, Py, Pv und Pi von der SECU-Einheit 69 erhält. Ein viertes Steuerprogramm steuert eine Operation, so daß die Zentraleinheit 61 den Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und jedem der Bezugsmuster mit Hilfe der berechneten Werte der vier Elemente berechnet, und wählt ein Muster mit dem höchsten Ähnlichkeitsgrad aus.
Der Modell-Randomspeicher 400 entspricht der Kombination aus dem sprecherunabhängigen Bezugsmuster-Wörterbuch 5 und dem sprecherabhängigen Bezugsmuster-Wörterbuch 6.
Der Ähnlichkeitsgrad Syi zwischen dem unbekannten Eingangsmuster und einem Bezugsmuster ist folgendermaßen definiert:
Syi = [PV/(Pd-Pv)] · [Pi/(Py - Pi)] (1)
wobei ist:
In den vorstehenden Gleichungen bezeichnet "·" eine Multiplikation; "f" bezeichnet eine Frequenz und entspricht dem jeweiligen Kanal, "t" bezeichnet eine Zeit und entspricht dem jeweiligen Rahmen und "∩" bezeichnet eine UND-Operation (wenn y =1 und mi 0 ist, ein Ergebnis der UND-Operation 1 ist und in anderen Fällen ein Ergebnis der UND-Operation 0 ist und in anderen Fällen ein Ergebnis der UND-Operation 0 ist). Ein Rahmen bezeichnet eine Datengruppe von 15 Kanälen, die jeweils in einem Intervall von 10 ms erhalten worden sind, wie in Fig. 9 dargestellt ist. Eine Funktion "y(f, t)" bezeichnet einen Wert, welcher in den Frequenz-Zeit-Koordinaten (f, t) des unbekannten Eingangs-Musters angeordnet ist. Beispielsweise ist in Fig. 9 y (15,3)=0 dargestellt.
Fig. 10 zeigt ein Bezugsmuster eines Wortes. Eine Funktion "mi(f, t)" bezeichnet einen Wert, welcher in den Frequenz-Zeit-Koordinaten (f, t) des Bezugsmusters positioniert ist. Beispielsweise ist in Fig. 10 (in dezimaler Schreibweise) mi (3,3)=3 dargestellt. Im allgemeinen wird ein Bezugsmuster durch Addieren einer Anzahl Muster erzeugt. Beispielsweise bedeutet in dem Fall, daß das Bezugsmuster der Fig. 10 aus drei Mustern erzeugt wird, ein Wert "3", welcher an den Koordinaten (3, 3) des Bezugsmusters angeordnet ist, das einen Wert an den Koordinaten (3, 3) jedes der drei Muster "1" ist. Im allgemeinen kann in dem Fall, daß ein Wert jedes Kanals des unbekannten Eingangsmusters durch ein Bit dargestellt ist und die Anzahl Kanäle, welche einen Rahmen bilden, m ist, ein Rahmen des unbekannten Eingangsmusters durch m Bits dargestellt werden. Im Beispiel der Fig. 9 kann ein Rahmen des unbekannten Eingangsmusters durch 2 Bytes dargestellt werden. Andererseits kann in dem Fall, daß ein Wert jedes der m Kanäle des Bezugsmusters mit n Bits dargestellt ist, ein Rahmen davon durch n × m Bits dargestellt werden. Beispielsweise kann ein Rahmen des Bezugsmusters der Fig. 10 durch vier Bytes dargestellt werden.
Wie aus der vorstehenden Beschreibung zu ersehen, entspricht das Element pd der Summe von Werten, die in einem Bezugsmuster enthalten sind. Das Element Py entspricht der Anzahl eines Werts "1", der in einem unbekannten Eingangsmuster enthalten ist. Das Element Pi entspricht der Anzahl eines Punktes auf den Koordinaten (f, t), an welchen entweder ein unbekanntes Eingangsmuster oder das Bezugsmuster einen Wert von "0" haben. Ein Element Pv entspricht der Summe eines Werts, welcher an jedem des oben genannten Punktes auf der Koordinate (f, t) des Bezugsmusters positioniert ist.
Die Berechnung der Gl. (1) wird von der SECU-Einheit 69 durchgeführt. Es sei nun angenommen, daß, wie in Fig. 12A dargestellt, ein Rahmen des unbekannten Eingangsmusters mit U bezeichnet ist (15 Kanäle: 16 Bits). Es sei ferner angenommen, daß ein Wert jedes der 15 Kanäle aus n Bits zusammengestellt ist. In diesem Fall ist es möglich, einen Rahmen des Bezugsmusters zu behandeln, wie in Fig. 12B dargestellt ist. Das heißt, eine Gruppe des höchstwertigen Bits in jedem Kanal ist durch Tn-1 dargestellt, das folgende höchstwertige Bit jedes Kanals ist durch Tn-2 dargestellt, und jedes der folgenden Bits ist auf diese Weise dargestellt. Das niedrigstwertige Bit jedes Kanals ist durch T₀ dargestellt. Beispielsweise kann wie in Fig. 13A dargestellt, in dem Fall, daß ein Wert jedes Kanals durch 2 Bits dargestellt ist, d. h. n =2 ist, ein Rahmen in zwei Teile T₁ und T₀ aufgeteilt werden. Der Teil T₁ ist eine Gruppe des höchstwertigen Bits (× 2¹) jedes Kanals, und der Teil t 0 ist eine Gruppe des niedrigstwertigen Bits (× 2⁰). Die SECU-Einheit 69 ist entsprechend ausgelegt, um die Elemente Pd, PY, Pv und Pi des in der Gl. (2) dargestellten Ähnlichkeitsgrads mit Hilfe der Daten U, Tn-1, Tn-2 . . . , T₀ zu berechnen.
Fig. 11 ist ein Blockdiagramm, das den Aufbau der SECU-Einheit 69 im einzelnen zeigt, welche die folgenden Elemente enthält. Eine Lösch-Steuereinheit 69a löscht ein Rahmendaten-Register 69a und ein Wortdaten-Register 69i. Ein Register 69c für unbekannte Daten ist ein 16 Bit-Register um vorübergehend einen Rahmen des unbekannten Eingangsmusters U zu speichern. Ein Modelldaten-Register 69b ist ein 16 Bit-Register, um nacheinander die Daten Tn-1, Tn-2, . . . , T₀ nacheinander zu speichern, welche einem Rahmen des Bezugsmusters eines Wortes entsprechen. Eine Schaltung 69e führt eine logische Operation zwischen den Daten, welche in dem Modelldaten-Register 69b gespeichert sind, und den Daten durch, welche in dem Register 69c für unbekannte Daten gespeichert sind, und erzeugt Daten, bezüglich der Elemente Py, Pi, Pd und Pv, um den Ähnlichkeitsgrad zu beschreiben. Die Daten bezüglich der Elemente Py, Pi werden einem Rahmendatenregister 69g zugeführt, und die Daten bezüglich der Elemente Pd und Py werden einem Rahmendaten-Addierer 69f zugeführt. Das Rahmendaten-Registers 69g ist ein Register, und vorübergehend die Elemente bezüglich eines Rahmens zu speichern. Der Rahmendaten-Addierer 69f addiert die von der Schaltung 69e gelieferten Daten zu Daten, welche dadurch erhalten werden, daß die aus dem Rahmendaten-Register 69g gelesenen Daten um ein Bit in Richtung höherer Ordnung verschoben werden. Das vorstehend beschriebene Datenverschieben entspricht einem Verdoppeln des durch die Daten dargestellten Wertes. Ein Wortdaten-Register 69i ist ein Register, um berechnete Werte der Elemente Py, Pi, Pd und Pv bezüglich der Gesamtheit des Bezugsmusters des einen Wortes zu speichern. Ein Wortdaten-Addierer 69f addiert jedes der Elemente Py, Pi, Pd und Pv, die in dem Wortdaten-Register 69i gespeichert sind, zu den entsprechenden, in dem Rahmendaten-Register 69g gespeicherten Elementen. Ein Ausgangspuffer 69d ist ein Puffer, um jedes in dem Wortdaten-Register 69i gespeicherte Element an den Datenbus 63 zu übertragen.
In Fig. 14 ist ein Flußdiagramm der Arbeitsweise der SECU-Einheit 69 dargestellt. In Fig. 14 wird das Wortdaten-Register 69i gelöscht (Schritt 1021). Dann wird das Rahmendaten-Register 69g gelöscht, und gleichzeitig werden die Daten U, die zu einem Rahmen des unbekannten Eingangsmusters beitragen, an das Register 69c für unbekannte Daten übertragen (Schritt 1022). Danach wird ein Rahmen der Bezugsdaten sequentiell an das Modelldaten-Register 69b übertragen, wobei von den Daten Tn-1 aus begonnen wird (Schritt 1023). Der Schritt 1023 wird wiederholt durchgeführt, bis die niedrigsten Daten T₀ übertragen sind (Schritt 1024). Die Folge, welche sich aus dem Schritt 1022 bis 1024 zusammensetzt, wird wiederholt durchgeführt, bis alle Rahmen verarbeitet sind (Schritt 1025).
Entsprechend dem vorstehend beschriebenen Ablauf führt die SECU-Einheit 69 die folgenden Berechnungen durch. In der Gl. (1) nimmt jeweils y (f, t) und mi (f, t) ∩y (f, t) einen Wert von einem Bit an. Folglich werden Elemente Py, Pi für einen Rahmen, d. h.
an das Rahmenregister 69g übertragen, unmittelbar nachdem alle Daten Tn-1, Tn-2 . . . , T₀ an das Modelldaten-Register 69b übertragen worden sind.
Andererseits nimmt jeweils mi (f, t) und mi (f, t) · y (f, t) einen Wert von n Bits an. Daher werden Elemente Pd und Pf für einen Rahmen, d. h.
folgendermaßen erhalten. Zuerst wird das Element Mi (f, t) für die Daten Tn-1 berechnet. Ein berechnetes Ergebnis wird um ein Bit nach oben (in Richtung höherer Ordnung) verschoben. Anschließend wird das Element mi (f, t) für die nächsten Daten Tn-2 berechnet. Dann wird ein berechnetes Ergebnis für die Daten Tn-2 zu dem verschobenen Ergebnis für die Daten Tn-1 addiert. Auf diese Weise wird die Berechnung wiederholt durchgeführt, bis die Daten T₀ verarbeitet sind. Ebenso wird das Element
für einen Rahmen berechnet. Wenn beispielsweise ein Rahmen des in Fig. 13A dargestellten Bezugsmusters und ein Rahmen eines in Fig. 13C dargestellten, unbekannten Eingangsmusters verarbeitet werden, wird mit (f, t) und mi (f, t) · y (f, t) für die in Fig. 13B dargestellten Daten Ti berechnet. In diesem Fall ist in der binären Schreibweise (entsprechend 2 in der dezimalen Schreibweise) mi (f, t) =10 und mi (f, t) · y (f, t) =10 (entsprechend 2 in in der dezimalen Schreibweise). Die erhaltenen Binärwerte von Elementen mi (f, t) und mi (f, t) y (f, t) werden jeweils um ein Bit aufwärts verschoben, so daß verschobene Werte von 100 bzw. 100 erhalten werden. Als nächstes werden mi (f, t) und mi (f, t) · y (f, t) für die in Fig. 13b dargestellten Daten t₀ berechnet. In diesem Fall ist dann mi (f, t) =10 (entsprechend 2 in der dezimalen Schreibweise) und mi (f, t) · y (f, t) =01 (entsprechend 1 in dezimaler Schreibweise). Dann wird bezüglich mi (f, t) ein Binärwert von 100 und ein Binärwert von 10 zueinander addiert, so daß ein addierter Wert von 110 (entsprechend 6 in dezimaler Schreibweise) als ein Wert von
erhalten wird. In ähnlicher Weise wird bezüglich mi (f, t) · y (f, t) ein Binärwert von 100 zu einem Binärwert von 01 addiert, so daß ein addierter Wert von 101 (entsprechend 5 in dezimaler Schreibweise) als ein Wert von
erhalten wird.
Wenn auf diese Weise alle vier Elemente für einen Rahmen in dem Rahmenregister 69g enthalten sind, werden diese Werte zu Endwerten von den jeweiligen Elementen addiert, welche bis zu diesem Zeitpunkt erhalten worden sind.
Wie aus der vorstehenden Beschreibung zu ersehen ist, ist der Aufbau der SECU-Einheit 69 sehr vereinfacht, und es kann daher eine hochschnelle Berechnung des Ähnlichkeitsgrades zwischen dem unbekannten Eingangsmuster und dem Bezugsmuster erhalten werden. Das heißt, die vier Elemente Py, Pi, Pd und Pv können bezüglich des Bezugsmusters des einen Wortes erhalten werden, unmittelbar nachdem der letzte Rahmen des Bezugsmusters an das Modelldatenregister 69b übertragen ist.
Es sollte insbesondere beachtet werden, daß die Elemente zum Beschreiben des Ähnlichkeitsgrades unabhängig von der Anzahl Bits erhalten werden können, welche zum Darstellen eines Wertes jedes Kanals verwendet werden, der in einem Rahmen des Bezugsmusters enthalten ist, da die Berechnung in der SECU-Einheit 69 so durchgeführt wird, daß von Daten aus gestartet wird, die entsprechend dem höchstwertigen Bit positioniert sind. Aus diesem Grund kann die SECU-Einheit 69 im allgemeinen bei der sprecherunabhängigen und der -abhängigen Erkennung verwendet werden, welche beide auf der Methode des binären Zeit-Spektrums-Musters basieren. Das heißt, es ist möglich, die sprecherunabhängige und die sprecherabhängige Erkennung mit nur einem Prozessor 200 durchzuführen. In dem herkömmlichen Spracherkennungssystem behandelt ein Prozessor die sprecherabhängige oder ein Prozessor die sprecherabhängige Erkennung, wobei die Algorithmen zwischen beiden Erkennungstypen infolge der Unterschiede zwischen den Wörterbüchern verschieden sind. Daher kann im Vergleich zu dem herkömmlichen System die hardware des Systems der Fig. 7 kompakt ausgebildet werden.
Außerdem ist zu beachten, daß die Berechnung der Elemente, welche zum Beschreiben des Ähnlichkeitsgrades verwendet werden, mit Hilfe der SECU-Einheit 69 durchgeführt werden, welche die in Fig. 11 dargestellte Hardware aufweisen. Daher können mit Hilfe der Zentraleinheit (CPU) 61 in den Prozessor 200 zusätzlich zu der Spracherkennung auch in dem Programm-Festwertspeicher (ROM) 300 gespeichert Anwendungsprogramme behandelt werden.
Ferner sind die Programme für die Spracherkennung in dem Programm-Festwertspeicher (ROM) 300 gespeichert, welcher extern mit dem Prozessor 200 verbunden ist, welcher die Zentraleinheit 61 enthält. Folglich ist eine Änderung in dem Programm leicht möglich, indem der ROM 300 durch einen anderen ausgetauscht wird oder dessen Inhalt neu geschrieben wird. Andererseits ist eine Änderung der Programme, welche von der Zentraleinheit durchgeführt wird, unmöglich, da der herkömmliche Prozessor, der ausschließlich für die Spracherkennung in LSI-Technik ausgelegt ist, in sich den Festwertspeicher (ROM) enthält.
Fig. 15 ist ein schematisches Blockdiagramm eines Spracherkenungssystems mit einem Personalcomputer. Ein Universal-Personalcomputer 140 hat einen Erweiterungsschlitz, welcher mit einem Bus 150 einer Zentraleinheit (CPU) 141 verbunden ist. Daher kann ein Spracherkennungssystem erhalten werden, indem eine Spracherkennungskarte 160 in den Erweiterungsschlitz eingeführt wird. Es sind nur ein Prozessor 161 und ein Dekodierer 62 zum Durchführen von Adressenkodierern notwendig, die auf der Spracherkennungskarte 160 angebracht sind. Diese Teile sind mit dem Bus 150 verbunden. Die Zentraleinheit 141 führt alle Funktionen durch, welche durch den Prozessor 200 durchgeführt werden. Die Programme und Bezugsdaten sind in einer Festplatte 180 und einer Floppy Disk 190 gespeichert und werden an einen Programm-Random-Speicher (RAM) 142 und einen Modell-Random-Speicher (RAM) 143 übertragen.

Claims (11)

1. Spracherkennungsverfahren, gemäß welchem während einer Anpassungsphase ein zu erkennendes Eingangssprachmuster einer Eingangsphase aus Merkmalen erzeugt wird, welche aus der unbekannten Eingangssprache extrahiert werden, wo­ nach mit Hilfe einer sprecherunabhängigen Erkennungsschal­ tung (3) eine Anzahl an Musterkandidaten eines ersten Typs gewonnen werden und mit Hilfe einer sprecherabhängigen Er­ kennungsschaltung (4) eine Anzahl an Musterkandidaten eines zweiten Typs gewonnen werden, die Musterkandidaten des ersten und des zweiten Typs in abnehmender Reihenfolge des Ähnlichkeitsgrades angeordnet werden und die einzelnen Musterkandidaten auf ihre Richtigkeit hin überprüft werden, abhängig von dem Überprüfungsergebnis einer der beiden Kandidatentypen mit einer spezifischen Korrekturgröße kor­ rigiert wird und die Spracherkennung dann mit dem korri­ gierten Kandidatentypen durchgeführt wird.
2. Spracherkennungsverfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Korrektur eine Multiplikation ist, bei welcher der Ähnlichkeitsgrad jedes Kandidaten mit einem Koeffizienten multipliziert wird, welcher entweder zu der sprecherunabhängigen oder zu der sprecherabhängigen Erkennung gehört.
3. Spracherkennungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß der Kandidat mit dem höchsten Ähnlichkeitsgrad akustisch zur Anzeige gebracht wird.
4. Spracherkennungseinrichtung, mit einer Merkmalsextrahiereinrichtung (2), um Merkmale einer unbekannten Eingangssprache zu extrahieren und um ein entsprechendes unbekanntes Sprachmuster zu erzeugen, zur Durchführung des Ver­ fahrens nach einem der Ansprüche 1 bis 3, gekennzeichnet durch eine Speichereinrichtung (5) zum Speichern von sprecherunabhängigen Bezugsmustern, mit einer Speichereinrichtung (6) zum Speichern von sprecherabhängigen Bezugsmustern, mit einer sprecherunabhängigen Erkennungseinrichtung (3), um einen Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster und jedem der spre­ cherunabhängigen Bezugsmuster zu berechnen und um zumindest einen Kandidaten für das unbekannte Eingangsmuster zu er­ zeugen, durch eine sprecherunabhängigen Erkennungseinrich­ tung (4), um einen Ähnlichkeitsgrad zwischen dem unbekann­ ten Eingangsmuster und jedem der sprecherabhängigen Bezugs­ muster zu berechnen und um zumindest einen Kandidaten für ein unbekanntes Eingangsmuster zu erzeugen, durch eine Koeffizienten-Speichereinrichtung (9), um zumindest einen Koeffizienten zum Korrigieren des Ähnlichkeitsgrades zu speichern, welcher entweder durch die sprecherunabhängige oder die sprecherabhängige Erkennungseinrichtung erhalten wird, und durch eine Sprachidentifizierungseinrichtung (7), um den Ähnlichkeitsgrad des Kandidaten, der entweder von der sprecherunabhängigen oder von der sprecherabhängigen Erkennungseinrichtung geliefert worden ist, mit korrigier­ ten Ähnlichkeitsgraden des Kandidaten zu vergleichen, wel­ cher von der anderen Erkennungseinrichtung erhalten worden ist und um unter den Kandidaten, die von der sprecherunab­ hängigen und der sprecherabhängigen Erkennungseinrichtung geliefert worden sind, einen Kandidaten mit dem höchsten Ähnlichkeitsgrad zu bestimmen.
5. Spracherkennungseinrichtung nach Anspruch 4, gekennzeichnet durch eine Bestätigungseinrichtung (10, 11 12), um den Kandidaten mit dem höchsten Ähnlichkeitsgrad an einen Lautsprecher abzugeben.
6. Spracherkennungseinrichtung nach Anspruch 4 oder 5, gekennzeichnet durch eine Löscheinrichtung (8, 78) zum Löschen des Kandidaten, wenn bestätigt wird, daß er der falsche ist, durch eine Kandidaten-Auswähleinrichtung (74, 75), um nacheinander einzeln andere Kandidaten aus den Kandidaten in abnehmender Reihenfolge des Ähnlichkeitsgrads auszuwählen, und durch eine Koeffizienten-Einstelleinrichtung (76), um einen Wert des Koeffizienten einzustellen, wenn ein Kandidat, welcher durch die Kandidaten-Auswähleinrichtung (74, 75) ausgewählt ist und von der Bestätigungseinrichtung bestätigt wird, daß er der richtige ist.
7. Spracherkennungseinrichtung nach Anspruch 6, gekennzeichnet durch eine Additionseinrich­ tung, durch die das Koeffizienten-Multiplikationsergebnis dadurch korrigiert wird, daß ein vorherbestimmter Wert des Koeffizienten zu dem Multiplikationsergebnis addiert wird.
8. Spracherkennungseinrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß der Koeffi­ zient eine Vielzahl verschiedener Werte hat, und daß die Spracherkennungseinrichtung ferner Einrichtungen (8, 76) aufweist, um einen der vorherbestimmten Werte des Koeffi­ zienten von Hand einzustellen, welcher der vorherbestimmten Operation zu unterziehen ist.
9. Spracherkennungseinrichtung nach einem der Ansprüche 4 bis 8, dadurch gekennzeichnet, daß die sprecher­ unabhängige Bezugsmuster speichernde Einrichtung (5) eine Bezugssprache bezüglich einer öffentlichen Einrichtung speichert, und daß die Spracherkennungseinrichtung ferner eine Einrichtung (32) zum Speichern von Telefonnummern und eine Übertragungseinrichtung (23, 33, 34, 35) zum Herstel­ len einer Verbindung mit einer Fernsprecheinrichtung und eine Steuereinrichtung (27) aufweist, um eine Telefonnummer entsprechend dem Erkennungsergebnis, welches von der Sprachidentifizierungseinrichtung ausgegeben worden ist, aus den Telefonnummern auszuwählen, welche in der Telefon­ nummern-Speichereinrichtung gespeichert sind, so daß die ausgewählte Telefonnummer an die Fernmeldeeinrichtung abge­ geben wird.
10. Spracherkennungseinrichtung nach einem der Ansprüche 4 bis 9, dadurch gekennzeichnet, daß die Merkmals­ extrahiereinrichtung, die Spracherkennungseinrichtung (69) und die Sprachidentifizierungseinrichtung (61) durch Pro­ zessoren (100, 200) in Form jeweils einer LSI-Schaltung gebildet sind, und daß die Prozessoren (100, 200) und die Bezugsmuster-Speichereinrichtungen gemeinsam mit einem Bus (500) verbunden sind, so daß ein Prozessor im allgemeinen für die sprecherunabhängige und/oder die sprecherabhängige Erkennung verwendet werden kann.
11. Spracherkennungseinrichtung nach Anspruch 10, dadurch gekennzeichnet, daß jedes der unbe­ kannten Eingangsmuster und die Bezugsmuster ein zweidimen­ sionales Muster aus Zeit und Frequenz mit einer Anzahl Rah­ men sind, wobei in jedem Rahmen enthaltene Rahmendaten Lei­ stungsdaten einer Sprache sind, die in einer Anzahl Fre­ quenzkanälen extrahiert worden ist, und daß die Spracher­ kennungseinrichtung ferner eine erste Speichereinrichtung (69c) zum sequentiellen Speichern der Rahmendaten des unbe­ kannten, von der Merkmalsextrahiereinrichtung gelieferten Sprachmusters, eine zweite Speichereinrichtung (69b) zum sequentiellen Speichern der Rahmendaten eines der Bezugsmu­ ster, welches von der Bezugsmuster-Speichereinrichtung ge­ liefert wird, eine eine logische Operation durchführende Einrichtung (69e), um eine vorherbestimmte Operation zwi­ schen den Rahmendaten des unbekannten Musters und jeder der Unterteilungen der Rahmendaten des Bezugsmusters durchzu­ führen, um dadurch vorherbestimmte Elemente zu erzeugen, die zum Berechnen des Ähnlichkeitsgrades eines Kandidaten notwendig sind, ein erstes Register (69g), um die berechne­ ten Elemente bezüglich der Rahmendaten zu speichern, einen ersten Addierer (69f), um die berechneten Elemente, von der die logische Operation durchführenden Einrichtungen gelie­ fert sind, zu Daten zu addieren, welche durch Verdoppeln der Elemente erhalten worden sind, welche aus dem ersten Register gelesen werden, und um ein Additionsergebnis in das erste Register zu schreiben, ein zweites Register (69i), um berechnete Elemente bezüglich der Gesamtheit eines unbekannten Musters zu speichern, und einen zweiten Addierer (69h) aufweist, um die Elemente, welche aus dem ersten Register gelesen werden, zu den Elementen zu addie­ ren, welche aus dem zweiten Register gelesen werden, und um ein Additionsergebnis in das zweite Register zu schreiben, so daß der Ähnlichkeitsgrad eines Kandidaten durch die be­ rechneten Elemente bezüglich eines unbekannten Musters dar­ gestellt wird, welche in dem Wortdatenregister gespeichert sind.
DE3819178A 1987-06-04 1988-06-06 Spracherkennungsverfahren und -einrichtung Granted DE3819178A1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP14034487 1987-06-04
JP14367287 1987-06-08
JP2532688 1988-02-04
JP63126847A JPH01309099A (ja) 1987-06-04 1988-05-23 音声応答装置

Publications (2)

Publication Number Publication Date
DE3819178A1 DE3819178A1 (de) 1988-12-22
DE3819178C2 true DE3819178C2 (de) 1991-06-20

Family

ID=27458289

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3819178A Granted DE3819178A1 (de) 1987-06-04 1988-06-06 Spracherkennungsverfahren und -einrichtung

Country Status (2)

Country Link
US (1) US5091947A (de)
DE (1) DE3819178A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
US5127043A (en) * 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
GB9116433D0 (en) * 1991-07-30 1991-09-11 Active Noise & Vibration Tech Noise reduction system
JPH0535293A (ja) * 1991-08-01 1993-02-12 Fujitsu Ltd 音声認識装置における認識候補数設定方式
JP3088035B2 (ja) * 1991-12-18 2000-09-18 パイオニアビデオ株式会社 ディジタル信号プロセッサ
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5566229A (en) * 1992-08-24 1996-10-15 At&T Voice directed communications system employing shared subscriber identifiers
US5325421A (en) * 1992-08-24 1994-06-28 At&T Bell Laboratories Voice directed communications system platform
KR100202425B1 (ko) * 1992-08-27 1999-06-15 정호선 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
US5717743A (en) * 1992-12-16 1998-02-10 Texas Instruments Incorporated Transparent telephone access system using voice authorization
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
JP3968133B2 (ja) * 1995-06-22 2007-08-29 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
DE19533541C1 (de) 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US5893902A (en) * 1996-02-15 1999-04-13 Intelidata Technologies Corp. Voice recognition bill payment system with speaker verification and confirmation
US5719921A (en) 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
US5905773A (en) * 1996-03-28 1999-05-18 Northern Telecom Limited Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
KR100534502B1 (ko) * 1996-07-11 2006-11-10 가부시키가이샤 세가 음성인식장치,음성인식방법및이것을이용한게임기
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5987414A (en) * 1996-10-31 1999-11-16 Nortel Networks Corporation Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US5899976A (en) * 1996-10-31 1999-05-04 Microsoft Corporation Method and system for buffering recognized words during speech recognition
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
US5839107A (en) * 1996-11-29 1998-11-17 Northern Telecom Limited Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing
US5987408A (en) * 1996-12-16 1999-11-16 Nortel Networks Corporation Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US5924070A (en) * 1997-06-06 1999-07-13 International Business Machines Corporation Corporate voice dialing with shared directories
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JP3050180B2 (ja) * 1997-08-08 2000-06-12 日本電気株式会社 音声認識装置
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US6122361A (en) * 1997-09-12 2000-09-19 Nortel Networks Corporation Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
US5995929A (en) * 1997-09-12 1999-11-30 Nortel Networks Corporation Method and apparatus for generating an a priori advisor for a speech recognition dictionary
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
WO1999018566A2 (en) * 1997-10-07 1999-04-15 Koninklijke Philips Electronics N.V. A method and device for activating a voice-controlled function in a multi-station network through using both speaker-dependent and speaker-independent speech recognition
US6253173B1 (en) 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
JP3899498B2 (ja) * 1997-11-12 2007-03-28 株式会社セガ ゲーム機
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
KR100577990B1 (ko) * 1997-12-31 2006-08-30 엘지전자 주식회사 화자종속/독립음성인식장치
US6246987B1 (en) * 1998-02-04 2001-06-12 Alcatel Usa Sourcing, L.P. System for permitting access to a common resource in response to speaker identification and verification
US6233315B1 (en) 1998-05-21 2001-05-15 Bell Atlantic Network Services, Inc. Methods and apparatus for increasing the utility and interoperability of peripheral devices in communications systems
US6229880B1 (en) 1998-05-21 2001-05-08 Bell Atlantic Network Services, Inc. Methods and apparatus for efficiently providing a communication system with speech recognition capabilities
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6208964B1 (en) 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US6744860B1 (en) 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
US6832194B1 (en) * 2000-10-26 2004-12-14 Sensory, Incorporated Audio recognition peripheral system
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US20030101052A1 (en) * 2001-10-05 2003-05-29 Chen Lang S. Voice recognition and activation system
US7212248B2 (en) * 2002-09-09 2007-05-01 The Directv Group, Inc. Method and apparatus for lipsync measurement and correction
US7676026B1 (en) 2005-03-08 2010-03-09 Baxtech Asia Pte Ltd Desktop telephony system
US7948558B2 (en) * 2006-09-29 2011-05-24 The Directv Group, Inc. Audio video timing measurement and synchronization
KR20120063982A (ko) * 2010-12-08 2012-06-18 한국전자통신연구원 시각장애 사용자를 위한 인터페이스 장치 및 방법
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
US4400828A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Word recognizer
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
DE3129282A1 (de) * 1981-07-24 1983-02-10 Siemens AG, 1000 Berlin und 8000 München Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen
DE3129353A1 (de) * 1981-07-24 1983-02-10 Siemens AG, 1000 Berlin und 8000 München Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen
JPS5879300A (ja) * 1981-11-06 1983-05-13 日本電気株式会社 パタ−ン距離計算方式
JPS59192A (ja) * 1982-06-25 1984-01-05 株式会社東芝 個人照合装置
JPS59178587A (ja) * 1983-03-30 1984-10-09 Nec Corp 話者確認システム
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen

Also Published As

Publication number Publication date
US5091947A (en) 1992-02-25
DE3819178A1 (de) 1988-12-22

Similar Documents

Publication Publication Date Title
DE3819178C2 (de)
DE3247229C2 (de)
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69320722T2 (de) Quantisierungsbitzahlzuweisung dadurch, dass zuerst das Subband mit der höchsten Signal/Verdeckungsrate ausgewählt wird
DE3854154T2 (de) Vorrichtung und Verfahren zur Erzeugung von Daten für einen Druckvorgang, und ein Drucker, in Kombination mit der Vorrichtung, zur Ausführung des Druckvorganges.
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69422406T2 (de) Verfahren zum Durchführen eines Vergleichs von Datenketten
DE2659096C2 (de)
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE4031638C2 (de)
DE2659083A1 (de) Verfahren und vorrichtung zur sprechererkennung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1214703A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE69329354T2 (de) Verfahren und Gerät zur Mustererkennung
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE3503508A1 (de) Verfahren und vorrichtung zum erzeugen eines signals erhoehter bildschaerfe
DE3736193A1 (de) Sprachsignal-kodierverfahren
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE3733391A1 (de) Verfahren zur spracherkennung
DE4002336A1 (de) Bezugsmuster-erneuerungsverfahren
EP0595889B1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
DE2720666A1 (de) Verfahren und anordnung zur geraeuschanalyse

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee