DE69032282T2

DE69032282T2 - System zur Spracherkennung

Info

Publication number: DE69032282T2
Application number: DE69032282T
Authority: DE
Inventors: Shinta Kimura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-12-06
Filing date: 1990-12-04
Publication date: 1998-08-20
Anticipated expiration: 2010-12-05
Also published as: EP0431890A3; EP0431890A2; JP3045510B2; EP0431890B1; DE69032282D1; JPH03177899A; US5257314A

Description

Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, das eine durch einen Bediener eingegebene Sprache sofort erkennen und analysieren kann.
In jüngster Zeit werden Spracherkennungssysteme weithin auf dem Gebiet der Fabrikautomatisierung zum automatischen Klassifizieren verschiedener Gegenstände genutzt. Wenn ein Bediener den Namen eines Gegenstandes und dessen Bestimmung liest, erkennt bei der Fabrikautomatisierung das Spracherkennungssystem die Sprache, und der Gegenstand wird gemäß der Bestimmung auf einem Förderband klassifiziert. Ferner werden automatisch der Name, der Preis, die Bestimmung und dergleichen des Gegenstandes gestützt auf obige Erkennung auf ein gedruckt.
Im allgemeinen hat das Spracherkennungssystem zumindest ein Wörterbuch (engl. word dictionary) als Speichermittel, das verschiedene Wörter speichert. Kurz gesagt wird, wenn die Sprache des Bedieners in das Spracherkennungssystem eingegeben wird, in dem Wörterbuch nach einem der Sprache entsprechenden Wort sequentiell gesucht. Wenn in dem Wörterbuch ein der Sprache entsprechendes Wort gefunden wird, wird das Wort auf einer CRT angezeigt und auf das Etikett gedruckt.
In diesem Fall ist es notwendig, in dem Wörterbuch so viele Wörter wie möglich zu speichern, um einen genauen Treffer sicherzustellen.
Infolge struktureller Beschränkungen des Speichermittels gibt es jedoch in dem Wörterbuch eine Beschränkung der Kapazität (Anzahl von Wörtern oder Vokabular, das gespeichert werden soll). Je größer die Kapazität wird, desto länger wird im Gegenteil die Zeit, die notwendig ist, um nach dem ent sprechenden Wort zu suchen.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Spracherkennungssystem zu schaffen, das eine Hochgeschwindigkeitssuche nach einem entsprechenden Wort ermöglicht.
Gemäb der vorliegenden Erfindung wird ein Spracherkennungssystem geschaffen, das enthält: ein Mikrophon zum Umwandeln einer Sprache in ein elektrisches Sprachsignal mit einem Sprachton-Teil und einem Nicht-Sprach-Teil; eine akustische Verarbeitungseinheit zum Detektieren einer Leistung und eines Spektrums des elektrischen Sprachsignals gemäß einem vorbestimmten Abtastzeitintervall und Ausgeben von Leistung-Zeitreihendaten und Spektrum-Zeitreihendaten bei dem vorbestimmten Abtastzeitintervall, auf die im folgenden als Merkmal- Zeitreihendaten verwiesen wird; eine Sprachabschnitt-Detektionseinheit zum Empfangen der Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit, Detektieren eines Startpunktes und eines Endpunktes des Sprachton-Teils und Ausgeben eines Ende-Entscheidungssignals, wenn das Ende des Sprachton-Teils entschieden ist; ein Wörterbuch zum Speichern von Wortkennsätzen oder Wortetiketten (engl. word labels), den Wortetiketten entsprechenden Wortnummern und Wortschablonen, die durch die den Wortetiketten entsprechenden Merkmal- Zeitreihendaten gebildet werden, welche Wortetiketten gemäß einer Verwendungshäufigkeit oder -frequenz des Wortes ge.ordnet sind; eine Verifikationseinheit zum Empfangen der Merkmal-Zeitreihendaten der zu verifizierenden Sprache, Verifizieren der Merkmal-Zeitreihendaten mit der in dem Wörterbuch gespeicherten Wortschablone und Berechnen eines Grads einer Ähnlichkeit zwischen der Sprache und der Wortschablone; eine Sortiereinheit zum Sortieren der in der Verifikationseinheit berechneten Daten gemäß dem Grad einer Ähnlichkeit, welche Daten in der Reihenfolge des höheren Ähnlichkeitsgrades sortiert sind; eine Auswahleinheit zum Auswählen eines oder mehrerer Wörter mit einem höheren Grad einer Ähnlichkeit aus den in der Sortiereinheit sortierten Wörtern und Ausgeben dieser Wörter an eine Anzeigeeinheit, worin das Auswahlmittel die Wörter mit einem höheren Ähnlichkeitsgrad an das Anzeigemittel ausgibt, wenn das Entscheidungssignal von dem Sprachabschnitt-Detektionsmittel erzeugt wird, selbst wenn die Prüf oder Verifikationsoperation in dem Verifikationsmittel im Gange ist;
ein Wortfrequenz-Wörterbuch (engl. word frequency dictionary) zum Speichern von Wortetiketten, jedem Wortetikett entsprechenden Wortnummern, durch die jedem Wortetikett entsprechenden Merkmal-Zeitreihendaten gebildeten Wortschablonen und Frequenzdaten, die an jedes Wortetikett angefügt sind; und eine Wörterbuch-Sortiereinheit, die zwischen dem Wörterbuch und dem Wortfrequenz-Wörterbuch vorgesehen ist, zum Sortieren der Wortetiketten des Frequenz-Wörterbuchs in der Reihenfolge einer höheren Frequenz und Ausgeben sortierter Wörter an das Wörterbuch.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

In den Zeichnungen ist:
Fig. 1 ein schematisches Blockdiagramm eines herkömmlichen Spracherkennungs systems;
Fig. 2 eine graphische Darstellung zum Erläutern eines Sprachtons und Nicht-Sprachtons;
Fig. 3 eine Darstellung zum Erläutern von Sprachverarbeitungsschritten in einer Sprachabschnitt-Detektionseinheit;
Fig. 4 eine Darstellung zum Erläutern des Inhalts eines Wörterbuchs in der herkömmlichen Technik;
Fig. 5 ein Signalzeitdiagramm für jedes der Signale in dem Fall eines kleinen Vokabulars;
Fig. 6 ein Signalzeitdiagramm für jedes der Signale in dem Fall eines großen Vokabulars in einer herkömmlichen Technik;
Fig. 7 ein schematisches Blockdiagramm eines Spracherken nungssystems gemäß der vorliegenden Erfindung;
Fig. 8 ein Signalzeitdiagramm für jedes der Signale entsprechend der vorliegenden Erfindung;
Fig. 9 eine Darstellung zum Erläutern des Inhalts eines Frequenz-Wörterbuchs gemäß der vorliegenden Erfindung;
Fig. 10 eine Darstellung zum Erläutern einer Ausgabe der Wörterbuch-Sortiereinheit gemäß der vorliegenden Erfindung;
Fig. 11 eine Darstellung zum Erläutern des Inhalts eines Wörterbuchs gemäß der vorliegenden Erfindung;
Fig. 12 ein Flußdiagramm zum Erläutern einer Spracheinga beoperation gemäß der vorliegenden Erfindung;
Fig. 13 ein Flußdiagramm zum Erläutern einer Verifikationsoperation gemäß der vorliegenden Erfindung; und
Fig. 14 ein Flußdiagramm zum Erläutern einer Anzeigeoperation gemäß der vorliegenden Erfindung.
Bevor die bevorzugten Ausführungsformen beschrieben werden, wird ein herkömmliches Spracherkennungssystem erläutert.
Figur 1 ist ein schematisches Blockdiagramm eines herkömmlichen Spracherkennungssystems. In Fig. 1 bezeichnet Bezugsziffer 1 ein Mikrophon, 2 eine akustische Verarbeitungseinheit, 3 eine Sprachabschnitt-Detektionseinheit&sub1; 4 einen Parameterpuffer, 5 eine Verifikationseinheit, 6 ein Wörterbuch, 7 eine Sortiereinheit, 8 einen Zwischenspeicher, 9 einen Pufferspeicher zum Speichern resultierender Daten, 10 eine Auswahleinheit, 11 eine Entscheidungseinheit, 12 einen Auswahlschalter und 13 eine CRT.
Das Mikrophon 1 wandelt eine Sprache in ein elektrisches Sprachsignal um. Im allgemeinen wird die Sprache durch einen Sprachton-Teil und einen Nicht-Sprachton-Teil (engl. non voice sound portion) gebildet.
Die akustische Verarbeitungseinheit 2 detektiert eine Leistung (Energie einer Sprache) und ein Spektrum des elektrischen Sprachsignals gemäß einem Abtastzeitintervall von mehreren Millisekunden bis mehreren zehn Millisekunden. Die akustische Verarbeitungseinheit 2 wandelt das elektrische Sprachsignal in Merkmal-Zeitreihendaten um, die in einem Wörterbuch als eine Schablone gespeichert werden sollen. Als ein Verfahren einer Spektrumsanalyse gibt es mehrere bekannte Verfahren, z.B. ein eine Analogfilterbank verwendendes Verfahren, ein eine Digitalfilterbank verwendendes Verfahren und ein FFT (Fast Fourier-Transformation) verwendendes Verfahren, in der herkömmlichen Technik. Die akustische Verarbeitungseinheit 2 gibt Leistung-Zeitreihendaten (oberer seitlicher Pfeil) und Spektrum-Zeitreihendaten (unterer seitlicher Pfeil) aus.
Die Sprachabschnitt-Detektionseinheit 3 empfängt die Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit 2 und einen Leistung-Schwellenpegel Pth und einen Zeit- Schwellenpegel Lth von einer (nicht dargestellten) externen Einheit. Die Sprachabschnitt-Detektionseinheit 3 detektiert einen Startpunkt und einen Endpunkt des Sprachtons. Weil jedoch der Endpunkt des Sprachtons in einem ersten Schritt nicht entschieden werden kann, wird ein "Kandidaten-Endpunkt" eingerichtet, und die Sprachabschnitt-Detektionseinheit 3 detektiert den tatsächlichen Endpunkt, "Endpunkt-Entscheidung" genannt, in einem Endschritt.
Der Parameterpuffer 4 speichert vorübergehend die Spektrum-Zeitreihendaten von der akustischen Verarbeitungseinheit
Die Verifikationseinheit 5 empfängt den Startpunkt und den Kandidaten-Endpunkt des Sprachtons von der Sprachabschnitt-Detektionseinheit 3. Sie empfängt auch den Sprachton- Teil der Spektrum-Zeitreihendaten von dem Parameterpuffer 4. Ferner führt die Verifikationseinheit 5 eine Berechnung eines Grads einer Ahnlichkeit (oder eines Abstands oder einer Wahrscheinlichkeit) zwischen den Spektrum-Zeitreihendaten der Sprache und der in dem Wörterbuch 6 gespeicherten Wortschablone aus. Im allgemeinen wird der Grad einer Ähnlichkeit (oder eine Distanz oder Wahrscheinlichkeit) für jede Wortschablone unter Verwendung eines DP-Vergleichsverfahrens sequentiell berechnet. Demgemäß wird die Verifikationsoperation durch die Detektion des Kandidaten-Endpunktes begonnen und durch die Löschung des Kandidaten-Endpunktes gestoppt. A1 bezeichnet ein Endpunktkandidatur-Detektionssignal, A2 ein Ende-Kandidatur-Löschsignal und A3 ein Ende-Entscheidungssignal.
Das Wörterbuch 6 speichert Wortnummern, Wortetiketten und Wortschablonen (Merkmal-Zeitreihendaten), wie in Fig. 4 gezeigt ist.
Die Sortiereinheit 7 empfängt die Wortnummer und den Grad einer Ähnlichkeit von der Verifikationseinheit 5, und die Wörter werden gemäß dem Grad einer Ähnlichkeit sortiert. Das heißt, ein Wort mit einem höheren Ähnlichkeitsgrad wird bei dem oberen Teil einer Ähnlichkeitstabelle eingeordnet. Die Ordnung oder Reihenfolge des Grads einer Ähnlichkeit ist in dem Zwischenspeicher 8 gespeichert.
Der Pufferspeicher 9 speichert die resultierenden Sortierdaten nach einer Verifikation.
Die Auswahleinheit 10 empfängt ein Wortetikett entsprechend der Wortnummer des oberen Wortkandidaten (z.B. eines der Wörter, die vom 1. bis zum 20. eingeordnet sind) in dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13. Die Auswahleinheit 10 empfängt auch das Wortetikett entsprechend der Wortnummer des nächsten Wortkandidaten (z.B. eines der Wörter, das vom 20. bis zum 40. eingeordnet ist) in dem Wörterbuch 6 und überträgt dieses Wort zur Anzeige 13.
Die Entscheidungseinheit 11 berechnet eine UND-Logik zwischen einem Verifikationsabschlußsignal und einem Ende-Entscheidungssignal und sendet die resultierenden Daten an die Auswahleinheit 10.
Der Kandidatenauswahlschalter 12 wird von dem Bediener verwendet. Der Bediener drückt diesen Schalter 12, wenn das entsprechende Wort auf der Anzeige 13 nicht enthalten ist. Figur 2 ist eine graphische Darstellung zum Erläutern eines Sprachtons und Nicht-Sprachtons. Die Ordinate Pi bezeichnet die Sprachleistung, und die Abszisse "i" bezeichnet die Zeit. Das Symbol Pth bezeichnet die Schwellenleistung der Sprache, und das Symbol Lth bezeichnet den Zeit-Schwellenpegel des Nicht-Sprachtons. Ferner bezeichnet P1 den Startpunkt des Sprachtons, P2 und P4 bezeichnen die Endpunktkandidaten des Sprachtons, P3 bezeichnet einen Anstiegs- oder führenden Punkt (engl. leading pomt), und P5 bezeichnet einen Ende-Entscheidungspunkt. Ferner bezeichnet S0 den Zustand eines Nicht-Sprachtons, S1 bezeichnet den Zustand des Sprachtons, und S2 bezeichnet den Zustand der Ende-Entscheidung. Ferner bezeichnen i1 bis i5 noch Grenzlinien jedes Zustands. Eine Sprache über dem Leistung-Schwellenpegel Pth wird ein Sprachton genannt, und eine Sprache unter dem Leistung- Schwellenpegel Pth wird ein Nicht-Sprachton genannt.
Figur 3 ist eine Darstellung zum Erläutern der Sprachverarbeitungsschritte in der Sprachabschnitt-Detektionseinheit. Wie in der Zeichnung dargestellt ist, nimmt die Sprachabschnitt-Detektionseinheit 3 drei Zustände ein, d.h. den Nicht-Sprachton-Zustand S0, den Sprachton-Zustand S1 und den Ende-Entscheidung-Zustand S2.
In dem Zustand S0 wird die Sprachleistung Pi überprüft, um zu bestimmen, ob sie den Schwellenpegel Pth übersteigt oder nicht. Wenn die Sprachleistung Pi den Schwellenpegel Pth übersteigt, wechselt der Zustand S0 zu dem Zustand S1. Der Startpunkt P1 entspricht dem Start des Zustands S1. Der Wert des Startpunktes P1 wird in einem (nicht dargestellten) Register "st" gehalten.
In dem Zustand S1 wird die Sprachleistung Pi überprüft, um zu bestimmen, ob sie niedriger als der Schwellenpegel Pth ist oder nicht. Wenn die Sprachleistung Pi niedriger als der Schwellenpegel Pth ist, wechselt der Zustand S1 zu dem Zustand S2. Der Kandidatenendpunkt P2 entspricht dem Ende des Zustands S1. Der Wert des Kandidatenendpunkts P2 wird in einem (nicht dargestellten) Register "etmp" gehalten.
In dem Zustand S2 werden zwei Zustände überprüft. Eine Überprüfung besteht darin, zu bestimmen, ob die Sprachleistung Pi den Schwellenpegel Pth übersteigt oder nicht, und die andere Überprüfung besteht darin, zu bestimmen, ob die Differenz zwischen der Zeit (i) und der in dem Register "etmp" gehaltenen Zeit die Zeitschwelle Lth (z.B. 0,3 s) überschreitet.
In dem erstgenannten Fall wird der Zustand von dem Zustand S2 zu dem Zustand S1 zu dem Zeitpunkt geändert, wenn die Sprachleistung Pi den Schwellenpegel Pth übersteigt. In dem letztgenannten Fall wird der Zustand von dem Zustand S2 zu dem Zustand S1 zu dem Zeitpunkt geändert, wenn die Diffe renz zwischen der Zeit (i) und der in dem Register "etmp" gehaltenen Zeit die Zeitschwelle Lth übersteigt. Dieser Zeitpunkt (der Punkt P5) entspricht dem Ende-Entscheidungspunkt.
Die Sprachabschnitt-Detektionseinheit 3 gibt das Endpunktkandidatur-Detektionssignal A1 an die Verifikationsein heit 5 aus, wenn der Zustand von dem Zustand S1 zu dem Zustand S2 geändert wird. Die Sprachabschnitt-Detektionseinheit 3 gibt ferner das Endpunktkandidatur-Löschsignal A2 an die Verifikationseinheit 5 aus, wenn der Zustand von dem Zustand S2 zu dem Zustand S1 geändert wird, und gibt das Ende-Ent scheidungssignal A3 an die Entscheidungseinheit 11 aus, wenn der Zustand von dem Zustand S2 zu dem Zustand 50 geändert wird.
Figur 4 ist eine Darstellung zum Erläutern des Inhalts des Wörterbuchs in der herkömmlichen Technik. Die Wortetiketten (z.B. Aichi, Aornori, Akita, ---, Osaka, ---, Tokyo) sind in alphabetischer Reihenfolge angeordnet. Eine Wortnummer 1, 2, --- ist an jedes Wortetikett angefügt. Ferner sind die Merkmal-Zeitreihendaten (Wortschablone) zu dem entsprechenden Wortetikett vorgesehen. In diesem Fall entspricht die Zahl von Wörtern dem in dem Wörterbuch 6 gespeicherten Vokabular. Figur 5 ist ein Signalzeitdiagrarnm für jedes der Signale für einen Fall, wenn ein kleines Vokabular in dem Wörterbuch gespeichert ist. In Fig. 5 bezeichnet Al das Endpunktkandidatur-Detektionssignal, A2 bezeichnet das Endpunktkandidatur- Löschsignal, A3 bezeichnet das Ende-Entscheidungssignal, A4 bezeichnet das Verifikationssignal, A5 bezeichnet das Sortiersignal, A6 bezeichnet ein Anzeigesignal, und A7 bezeichnet ein Kandidatur-Auswahlschaltersignal. Wenn der Startpunkt P1 des Sprachabschnitts in der Sprachabsschnitt-Detektionseinheit 3 detektiert wird, wird das Ende-Entscheidungssignal A3 der unmittelbar vorhergehenden Sprache gelöscht (a).
Wenn der Endpunktkandidat P2 in der Einheit 3 detektiert wird, wird als nächstes das Endpunktkandidatur-Detektionssignal A1 von der Sprachabschnitt-Detektionseinheit 3 erzeugt und an die Verifikationseinheit 5 gesendet (b). Ferner wird die Verifikationsoperation in der Verif ikationseinheit 5 gestartet (c), und die Sortiereinheit 7 wird aktiviert (d). Weil die Zahl von in dem Wörterbuch gespeicherten Wörtern sehr gering ist (kleines Vokabular), ist in diesem Beispiel die Verifikationszeit für das entsprechende Wort ebenfalls sehr kurz (e).
Wenn in der Sprachabschnitt-Detektionseinheit 3 wieder ein Sprachton detektiert wird, wird als nächstes das Endpunktkandidatur-Löschsignal A2 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (f). Wenn das Endpunktkandidatur- Detektionssignal A2 wieder erzeugt ist (g), wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 7 wird wieder aktiviert (i). Die Verifikationsoperation wird nach einer kurzen Zeit gestoppt (j).
Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidaten (P4) an wird das Ende-Entscheidungssignal A3 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (k), und das Ergebnis der Verifikation wird automatisch auf der CRT angezeigt (1). Wenn dieses Ergebnis der Verifikation falsch ist, wird ein nächster Wortkandidat auf der CRT durch Verwenden des Kandidatenauswahlschalters angezeigt (m), der von dem Bediener betätigt wird.
Figur 6 ist ein Signalzeitdiagramm für jedes der Signale im Fall eines großen Vokabulars. Es gibt kein Problem wie im Fall des kleinen Vokabulars in Fig. 5, aber es gibt einige Probleme im Fall des großen Vokabulars, wie unten erklärt wird.
In Fig. 6 sind die Schritte von (a) bis (d) die gleichen wie diejenigen von Fig. 5. Wenn das Endpunktkandidatur-Löschsignal A2 von der Sprachabschnitt-Detektionseinheit 3 erzeugt wird (f), obwohl die Verifikationsoperation im Gange ist, weil die zu verifizierenden Wörter groß sind, wird die Venfikationsoperation vorübergehend gestoppt (n), und die Sortieroperation wird ebenfalls gestoppt (o), wonach die Verifikationsoperation wieder gestartet wird (h) und die Sortiereinheit 7 wieder aktiviert wird (i)
Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidatenpunktes (P4) an wird das Ende-Entscheidungssignal A3 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (k). Weil die Verifikationsoperation im Gange ist (h), wird jedoch das Ergebnis der Verifikation auf der CRT nicht angezeigt, bis die Verifikationsoperation abgeschlossen ist (p).
Das Ergebnis der Verifikation wird dann auf der CRT automatisch angezeigt (1), und, wenn dieses Ergebnis der Verifikation falsch ist, wird auf der CRT ein nächstes Kandidatenwort durch Verwenden des Kandidatenauswahlschalters angezeigt (m).
Wie oben erläutert wurde, ist bei dem großen Vokabular eine lange Zeit von der Erzeugung des Ende-Entscheidungssignals (k) bis zur Anzeige des Ergebnisses der Verifikation (i) notwendig, weil eine längere Zeit zum Suchen nach dem entsprechenden Wort in dem Wörterbuch benötigt wird. Demgemäß wird die Verifikationsgeschwindigkeit langsam, so daß der Durchsatz des Spracherkennungssystems ebenfalls langsam wird.
Figur 7 ist ein schematisches Blockdiagramm eines Spracherkennungssystems gemäß der vorliegenden Erfindung. Wie in Fig. 7 dargestellt ist, sind der Zwischenspeicher 8 und die Entscheidungseinheit 11, die in Fig. 1 gezeigt sind, entfernt, und der Pufferspeicher 9 in Fig. 1 ist durch einen Zwischenspeicher 15 ersetzt. Die Sortiereinheit 7 von Fig. 1 ist durch eine neue Sortiereinheit 14 ersetzt. Ferner ist ein zweites Wörterbuch 16 zum Speichern von Wörtern gemäß ihrer Verwendungsfrequenz (im folgenden ein Wortfrequenz-Wörterbuch) vorgesehen. Ferner ist auch noch eine Wörterbuch- Sortiereinheit 17 zwischen dem Wörterbuch 6 und dem Wortfrequenz-Wörterbuch 16 vorgesehen.
In Fig. 7 hat jede Komponente die folgende Funktion. Das Mikrophon 1 wandelt eine Sprache in ein elektrisches Sprachsignal um, das durch den Sprachton-Teil und den Nicht- Sprachton-Teil gebildet wird.
Die akustische Verarbeitungseinheit 2 detektiert die Leistung und das Spektrum des elektrischen Sprachsiguals gemäß dem Abtastzeitintervall von mehreren Millisekunden bis mehrere zehn Millisekunden. Ferner wandelt die akustische Verarbeitungseinheit 2 das elektrische Sprachsignal in die Merkmal-Zeitreihendaten um. Die beiden Ausgaben der akustischen Verarbeitungseinheit 2 bezeichnen die Leistung-Zeitreihendaten und die Spektrum-Zeitreihendaten.
Die Sprachabschnitt-Detektionseinheit 3 empfängt die Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit 2. Sie empfängt auch den Leistung-Schwellenpegel Pth und den Zeit-Schwellenpegel Lth. Die Sprachabschnitt-Detektionseinheit 3 detektiert den Startpunkt und den Endpunkt des Sprachtons und den Ende-Entscheidungspunkt im Endschritt. Der Parameterpuffer 4 speichert vorübergehend die Spektrum-Zeitreihendaten von der akustischen Verarbeitungseinheit
Die Verifikationseinheit 5 empfängt den Startpunkt und den Endpunktkandidaten des Sprachtons von der Sprachabschnitt-Detektionseinheit 3. Sie empfängt auch den Sprachton- Teil der Spektrum-Zeitreihendaten von dem Pararneterpuffer 4 und führt eine Berechnung des Grads einer Ähnlichkeit (oder einer Distanz oder Wahrscheinlichkeit) zwischen den Spektrum- Zeitreihendaten und dem in dem Wörterbuch 6 gespeicherten Wort aus. Im allgemeinen wird der Grad einer Ahnlichkeit (oder eine Distanz oder Wahrscheinlichkeit) für jede Wortschablone sequentiell berechnet, indem vorwiegend das DP-Vergleichsverfahren verwendet wird, und die resultierenden Daten werden an die Sortiereinheit 14 ausgegeben. Demgemäß wird die Verifikationsoperation durch die Detektion des Endpunktkandidaten gestartet und durch die Löschung des Endpunktkandidaten gestoppt.
Das Wörterbuch 6 speichert Wortnurnmern, Wortetiketten und Wortschablonen (Merkmal-Zeitreihendaten), wie in Fig. 11 gezeigt ist. In diesem Fall sind die Wörter gemäß der Verwendungsfrequenz des Wortes wie im folgenden erläutert geordnet. Die Sortiereinheit 14 empfängt die Wortnummer und den Grad einer Ähnlichkeit von der Verifikationseinheit 5, und das Wort wird gemäß dem Minlichkeitsgrad sortiert. Das heißt, Wörter mit einem größeren Ähnlichkeitsgrad werden bei dem oberen Teil der Ähnlichkeitsgrad-Tabelle eingeordnet. Der Zwischenspeicher 15 speichert die resultierenden Daten der Sortierung nach der Verifikation.
Die Auswahleinheit 10 empfängt das Wortleseetikett entsprechend der Wortnummer des oberen Wortkandidaten von dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13, wenn das Ende-Entscheidungssignal von der Sprachabschnitt-Detektionseinheit 3 detektiert wird. Die Auswahleinheit 10 liest ferner das Wortetikett entsprechend der Wortnummer des nächsten Wortkandidaten von dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13, wenn der Kandidatenauswahlschalter gedrückt wird.
Der Kandidatenauswahlschalter 12 wird von dem Bediener verwendet. Der Bediener drückt diesen Schalter 12, wenn das entsprechende Wort auf der Anzeige 13 nach einer Verifikation nicht enthalten ist.
Das Wortfrequenz-Wörterbuch 16 speichert Wörter gemäß ihrer Verwendungsfrequenz wie in Fig. 9 gezeigt ist.
Die Wörterbuch-Sortiereinheit 17 ist zwischen dem Wörterbuch 6 und dem Wortfrequenz-Wörterbuch 16 vorgesehen, und Wörter werden in der Reihenfolge der Verwendungsfrequenz der Wörter sortiert, wie in Fig. 10 dargestellt ist.
Figur 8 ist ein Signalzeitdiagramm für jedes der Signale gemäß der vorliegenden Erfindung. Wie in Fig. 5 gezeigt ist, bezeichnet A1 das Endpunktkandidatur-Detektionssignal, A2 bezeichnet das Endpunktkandidatur-Löschsignal, A3 bezeichnet das Ende-Entscheidungssignal, A4 bezeichnet das Verifikationssignal, AS bezeichnet das Sortiersignal, A6 bezeichnet das Anzeigesignal, und A7 bezeichnet das Kandidatenauswahischalter-Signal.
Wenn der Startpunkt des Wortabschnitts in der Wortabschnitt-Detektionseinheit 3 detektiert wird, wird das Ende- Entscheidungssignal A3 der vorhergehenden Sprache sofort gelöscht (a).
Wenn der Endpunktkandidat P2 in der Sprachabschnitt- Detektionseinheit 3 detektiert wird, wird als nächstes das Endpunktkandidatur-Detektionssignal Al von der Sprachabschnitt-Detektionseinheit 3 erzeugt und an die Verifikationseinheit 5 gesendet (b). Die Verifikationsoperation wird ferner in der Verifikationseinheit 5 gestartet (c), und die Sortiereinheit 7 wird aktiviert (d). Weil die Zahl von in dem Wörterbuch 6 gespeicherten Wörtern sehr groß ist (großes Vokabular), ist in diesem Beispiel die Verifikationszeit für das Wort sehr lang, so daß die Verifikationsoperation zwischenzeitlich gestoppt wird, wenn der Punkt P3 in der vorliegenden Erfindung detektiert wird (n).
Wenn das Endpunktkandidatur-Detektionssignal Al wieder erzeugt wird (g), wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 14 wird wieder aktiviert (i).
Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidaten (P4) an wird das Ende-Entscheidungssignal A3 von der Einheit 3 erzeugt (k), und das Ergebnis der Verifikation wird auf der CRT automatisch angezeigt (q), obwohl die Verifikationsoperation im Gange und noch nicht abgeschlossen ist, wie unten erläutert wird. Wenn das Ergebnis der Verifikation falsch ist, wird ein nächster Wortkandidat durch den Bediener auf der CRT angezeigt, indem der Kandidatenauswahlschalter verwendet wird (m). Wie oben erläutert wurde, wird die Verifikationsoperation gelöscht (n), weil die Zahl von zu verifizierenden Wörtern groß ist, und die Sortieroperation wird ebenfalls gelöscht (o), und danach wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 14 wird wieder aktiviert (i).
Obwohl die Verifikationsoperation im Gange ist (h), wird in der vorliegenden Erfindung das Zwischenergebnis der Verifikation auf der CRT angezeigt (q). Wenn das Ergebnis der Verifikation falsch ist, wird auf der CRT durch Verwenden des Kandidatenauswahlschalters ein nächster Wortkandidat angezeigt (m).
Wie oben erläutert wurde, ist trotz des großen Vokabulars keine lange Zeit von der Erzeugung des Ende-Entscheidungssignais (k) bis zur Anzeige des Ergebnisses der Verifikation (q) notwendig, weil das Zwischenergebnis auf der CRT angezeigt wird. Demgemäß ist keine längere Zeit notwendig, um die resultierenden Daten der Erkennung anzuzeigen. Demgemäß wird die Antwortgeschwindigkeit der Erkennung erheblich schneller, so daß der Durchsatz des Spracherkennungssystems trotz des großen Vokabulars erheblich zunehmen kann.
In der vorliegenden Erfindung sind die Wörter gemäß der Verwendungsfrequenz des Wortes in dem Wörterbuch 6 gestützt auf die Daten von dem Wortfrequenz-Wörterbuch 16 und der Sortiereinheit 17 geordnet. Es ist demgemäß möglich, einfach nach dem entsprechenden zu verifizierenden Wort zu suchen, weil die Wörter mit höherer Frequenz in dem ersten Schritt gesucht werden (q), und nur wenn das entsprechende Wort in dem ersten Schritt (q) nicht gefunden wird, wird das Wort in dem nächsten Schritt gesucht (m).
Figur 9 ist eine Darstellung zum Erläutern des Inhalts des Wortfrequenz-Wörterbuchs gemäß der vorliegenden Erfindung. Wie in der Zeichnung dargestellt ist, ist die Frequenz an jedes Wortetikett angefügt. Zum Beispiel ist das Wort mit dem höchsten Frequenzgrad 100 "Tokyo", und das nächste ist "Osaka".
Figur 10 ist eine Darstellung zum Erläutern der Ausgabe der Wörterbuch-Sortiereinheit gemäß der vorliegenden Erfindung. Die Sortiereinheit 17 in Fig. 7 empfängt die Frequenzdaten des Wortes von dem Wortfrequenz-Wörterbuch 16, sortiert das Wort gemäß der Frequenzordnung und gibt die Frequenzdaten an das Wörterbuch 6 aus.
Figur 11 ist eine Darstellung zum Erläutern des Inhalts des Wörterbuchs gemäß der vorliegenden Erfindung. Wie in der Zeichnung dargestellt ist, sind die Wörter gemäß der Verwendungsfrequenz des Wortes gespeichert. Demgemäß ist es möglich, einfach nach dem entsprechenden zu verifizierenden Wort zu suchen, weil die Wörter mit höherer Frequenz in dem ersten Schritt (g) gesucht werden.
Figur 12 ist ein Flußdiagramm zum Erklären einer Spracheingabeoperatian gemäß der vorliegenden Erfindung.
Die eingegebene Sprache wird in Rahmenfolgen (engl. frame trains) mit einem Intervall von mehreren Millisekunden bis mehrere zehn Millisekunden geteilt, und ein Rahmen wird zum Analysieren der Sprache verwendet (Schritt 1). Als nächstes wird das Spektrum der Sprache durch Verwenden der FFT (Fast Fourier-Transformation) analysiert, und die Leistung (Energie) der Sprache wird für einen Rahmen berechnet (Schritt 2). Diese Schritte werden in der akustischen Verarbeitungseinheit 2 ausgeführt. Das Spektrum und die Leistung werden in dem Pararneterpuffer 4 gespeichert (Schritt 3).
Als nächstes wird der Sprachabschnitt in der Sprachabschnitt-Detektionseinheit 3 detektiert (Schritt 4). Jedes Detektionssignal, d.h. der Startpunkt, die Endpunktkandidatur, die Ende-Entscheidung und die Endpunktkandidatur-Löschung werden von der Sprachabschnitt-Detektionseinheit 3 in diesem Schritt ausgegeben. Als nächstes wird in diesem Schritt (5) überprüft, ob der Startpunkt detektiert ist oder nicht. Wenn in Schritt 5 "Ja" bestimmt wird, wird überprüft, ob die Anzeigeoperation im Gange ist oder nicht (Schritt 6). Wenn in Schritt 6 "Ja" bestimmt wird, wird die Anzeigeoperation gestoppt (Schritt 7). Wenn in Schritt 5 "Nein" bestimmt wird, wird überprüft, ob die Endpunktkandidatur detektiert ist oder nicht (Schritt 8). Wenn in Schritt 8 "Ja" bestimmt wird, werden der Startpunkt und die Endpunktkandidatur zu der Verifikationseinheit 5 übertragen (Schritt 9), und die Verifikationsoperation wird gestartet (Schritt 10).
Wenn in Schritt 8 "Nein" bestimmt wird, wird überprüft, ob das Ende entschieden ist oder nicht (Schritt 11). Wenn in Schritt 11 "Ja" bestimmt wird, wird die Anzeigeoperation gestartet (Schritt 12). Wenn in Schritt 11 "Nein" bestimmt wird, wird geprüft, ob die Endpunktkandidatur gelöscht ist oder nicht (Schritt 13). Wenn in Schritt 13 "Ja" bestimmt wird, wird die Verifikationsoperation gestoppt (Schritt 14). Wenn in Schritt 13 "Nein" bestimmt wird, wird die Verarbeitungsoperation zu dem Schritt 1 zurückgeführt.
Figur 13 ist ein Flußdiagramm zum Erläutern der Verifikationsoperation gemäß der vorliegenden Erfindung. In der Verifikationseinheit 5 werden der Startpunkt und der Endpunktkandidat, die durch den Schritt 9 von Fig. 12 erhalten wurden, in die Verifikationseinheit eingegeben (Schritt 15). Als nächstes wird ein Eingabernuster von dem Parameterpuffer 4 gelesen. Das Eingabemuster entspricht dem Sprachton zwischen der Startpunkt und der Endpunktkandidatur (Schritt 16). Als nächstes wird der Zwischenspeicher 15 zum Sortieren von Wörtern gemäß dem Grad einer Ähnlichkeit zwischen dem Eingabemuster und der in dem Wörterbuch gespeicherten Wortschablone initialisiert (Schritt 17).
Als nächstes wird die Wortschablone in der Reihenfolge von dem Wörterbuch 6 gelesen (Schritt 18). In der vorliegenden Erfindung sind, wie oben erläutert wurde, die Wortschablonen gemäß der höheren Frequenz in dem Wörterbuch 6 geordnet. Als nächstes wird das Eingabemuster mit der Wortschablone durch Verwenden des CP-Vergleichens verifiziert, um den Grad einer Ähnlichkeit zwischen dem Eingabemuster und der Wortschablone zu erhalten (Schritt 19). Das Wort wird durch die Sortiereinheit 14 gemäß dem Ahnlichkeitsgrad sortiert und in dem Zwischenspeicher gespeichert (Schritt 20). Schließlich wird überprüft, ob alle Wortschablonen verifiziert sind oder nicht (Schritt 21).
Figur 14 ist ein Flußdiagramm zum Erläutern der Anzeigeoperation gemäß der vorliegenden Erfindung. Der erste Wortkandidat (das der eingegebenen Sprache nach einer Verifikation ähnlichste Wort) wird von dem Zwischenspeicher 15 gelesen (Schritt 22), und dieses Wort wird auf der CRT automatisch angezeigt (Schritt 23). Als nächstes wird überprüft, ob der Kandidatenauswahlschalter 15 eingeschaltet wird oder nicht (Schritt 24). Wenn in Schritt 24 "Nein" bestimmt wird, ist der Schalter eingeschaltet. Wenn in Schritt 24 "Ja" bestimmt wird, wird von dem Zwischenspeicher 15 ein nächstes Kandidatenwort (d.h. ein nächst-ähnliches Wort) gelesen (Schritt 25). Als nächstes wird überprüft, ob das Wort in dem Schritt 25 schon angezeigt ist oder nicht (Schritt 26). Wenn in Schritt 26 "Ja" bestimmt wird, wird von dem Zwischenspeicher ein nächstes Kandidatenwort gelesen (Schritt 27). Wenn in Schritt 26 "Nein" bestimmt wird, wird dieses Kandidatenwort auf der CRT angezeigt (Schritt 28).

Claims

1. Ein Spracherkennungssystem mit:

einem Mikrophon (1) zum Umwandeln einer Sprache in ein elektrisches Sprachsignal mit einem Sprachton-Teil und einem Nicht-Sprach-Teil;

einem akustischen Verarbeitungsmittel (2) zum Detektieren einer Leistung und eines Spektrums des elektrischen Sprachsignals gemäß einem vorbestimmten Abtastzeitintervall und Ausgeben von Leistung-Zeitreihendaten und Spektrurn-Zeitreihendaten bei dem vorbestimmten Abtastzeitintervall, um Merkmal- Zeitreihendaten zu erzeugen;

einem Sprachabschnitt-Detektionsmittel (3) zum Empfangen der Leistung-Zeitreihendaten von dem akustischen Verarbeitungsmittel, Detektieren eines Startpunktes und eines Endpunktes des Sprachton-Teils und Ausgeben eines Ende-Entscheidungssignals, wenn das Ende des Sprachton-Teils entschieden ist;

einem Wörterbuch (6) zum Speichern von Wortetiketten, den Wortetiketten entsprechenden Wortnummern und Wortschablonen, die durch die den Wortetiketten entsprechenden Merkmal-Zeitreihendaten gebildet werden, welche Wortetiketten gemäß einer Verwendungsfrequenz der Wörter geordnet sind;

einem Verifikationsmittel (5) zum Empfangen der Merkmal- Zeitreihendaten der zu verifizierenden Sprache, Verifizieren der Merkmal-Zeitreihendaten mit der in dem Wörterbuch gespeicherten Wortschablone und Berechnen eines Grads einer Älinlichkeit zwischen der Sprache und der Wortschablone;

einer Sortiereinrichtung (14) zum Sortieren von in dem Verifikationsrnittel berechneten Daten gemäß dem Ähnlichkeitsgrad, welche Daten in der Reihenfolge des höheren Ähnlichkeitsgrades sortiert sind;

einem Auswahlmittel (10) zum Auswählen eines oder mehrerer Wörter mit einem höheren Grad einer Ähnlichkeit aus den in dem Sortiermittel sortierten Wörtern und Ausgeben dieser Wörter an ein Anzeigemittel (13), worin das Auswahlmittel die Wörter mit einem höheren Ähnlichkeitsgrad an das Anzeigemittel ausgibt, wenn das Entscheidungssignal (A3) von dem Sprachabschnitt-Detektionsmittel erzeugt wird, selbst wenn die Verifikationsoperation in dem Verifikationsrnittel im Gange ist;

einem Wortfrequenz-Wörterbuch (16) zum Speichern von Wortetiketten, jedem Wortetikett entsprechenden Wortnummern, durch die jedem Wortetikett entsprechenden Merkmal-Zeitreihendaten gebildeten Wortschablonen und an jedes Wortetikett angefügten Frequenzdaten; und

einem Wörterbuch-Sortiermittel (17), das zwischen dem Wörterbuch und dem Wortfrequenz-Wörterbuch vorgesehen ist, zum Sortieren der Wortetiketten des Wortfrequenz-Wörterbuchs in der Reihenfolge einer höheren Frequenz und Ausgeben sortierter Wörter an das Wörterbuch.

2. Ein Spracherkennungssystem nach Anspruch 1 ferner mit einem durch einen Bediener betätigten Kandidatenauswahlschalter, wodurch ein Wort mit einem nächsthöheren Ähnlichkeitsgrad auf dem Anzeigernittel angezeigt wird, indem der Kandidatenauswahlschalter eingeschaltet wird, wenn ein Wort entsprechend der eingegebenen Sprache in der ersten Anzeige nicht gefunden wird.

3. Ein Spracherkennungssystem nach Anspruch 1 oder 2, worin der Grad einer Ähnlichkeit gleich einer Distanz zwischen der Sprache und der Wortschablone ist, wobei eine kleinere Distanz dem höheren Ähnlichkeitsgrad entspricht.

4. Ein Spracherkennungssystem nach einem der vorhergehenden Ansprüche, worin der Grad einer Ähnlichkeit die Wahrscheinlichkeit eines Treffers in der Verifikationsoperation bestimmt, wobei eine höhere Wahrscheinlichkeit einem höheren Ähnlichkeitsgrad entspricht.