DE69026474T2

DE69026474T2 - System zur Spracherkennung

Info

Publication number: DE69026474T2
Application number: DE69026474T
Authority: DE
Inventors: Hiroshi Kanazawa; Yoichi Takebayashi; Hiroyuki Tsuboi
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-11-28
Filing date: 1990-11-26
Publication date: 1996-09-19
Anticipated expiration: 2010-11-27
Also published as: EP0430615A3; JPH03167600A; JP3004023B2; EP0430615A2; DE69026474D1; EP0430615B1

Description

Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, um mit hoher Genauigkeit eine eingegebene Sprache bzw. Eingabesprache, die zahlreiche Geräusche enthält, oder eine Eingabesprache, die gesprochene Wörter enthält, denen eine semantisch unbedeutende Äußerung vorangeht oder folgt, zu erkennen.
Bisher werden eine Sprache oder genauer Sprachsegmente, d.h. Wörter oder Sätze, die eine Sprache bilden, aufgrund der Grenzen unter den Sprachsegmenten erkannt, die aus eher einfachen Parametern, wie Änderungen in der Tonenergie, der Tonneigung, zeitserieller Daten der Tonfrequenz und Nulldurchgangsrate, erfaßt wurden.
Das heißt, zunächst wird ein Sprachmuster (d.h. ein Sprachmerkmalsvektor) von jedem Sprachsegment ausgesiebt, indem die Grenzen des Segmentes erfaßt werden, und dann wird das so ausgesiebte Sprachmuster mit den verschiedenen Bezugsmustern korreliert, die in einem Spracherkennungswörterbuch gespeichert sind. Das Eingabesprachsegment wird als identisch mit dem ähnlichsten Bezugsmuster gefunden. Als Ergebnis hiervon wird die Eingabesprache erkannt.
Durch Erfassen der Grenzen eines Sprachsegmentes wird das Sprachmuster (d.h. ein Sprachmerkmalsvektor) ausgesiebt. Dieses Verfahren wird verwendet, da es zu einer Verringerung der Menge an Daten beiträgt, die verarbeitet werden sollten, um die Korrelation des Musters des Sprachsegmentes mit den verschiedenen Bezugsmustern zu erzielen. Wenn das Sprachsegment so nicht ausgesiebt wird, enthält es redundante Daten, die nichts zur Spracherkennung beitragen, was auch verarbeitet werden muß, um die Sprachmusterkorrelation zu erzielen.
Verschiedene Spracherkennungsverfahren sind bekannt, bei denen die Segmente der Eingabesprache erfaßt werden, und die Muster der so erfaßten Sprachsegmente werden mit den in einem Spracherkennungswörterbuch gespeicherten Bezugsmustern korreliert. Von diesen bekannten Verfahren werden das DP-Anpaßverfahren, das HMM (Hidden Markov Methode)-Verfahren und das Mehrfachähnlichkeitsverfahren gewöhnlich beim Stand der Technik verwendet.
Ein Beispiel ist in "A hierarchical Decision approach to large vocabulary discrete utterance recognition", T. Kanebo und N. Rex Dixon, IEEE Trans. on ASSP, Band ASSP-31, Nr. 5, Oktober 1983, offenbart, wobei ein Satz von Schwellenwerten verwendet wird, um Start- und Endpunkte von Wörtern zu schätzen, und die Segmente werden dann mit Bezugsmustern verglichen.
Wie oben beschrieben ist, werden die Grenzen unter den Sprachsegmenten, die eine Eingabesprache bilden, aus einfachen Parametern, wie Änderungen in der Tonenergie und dergleichen, erfaßt. Die Parameter sind so einfach, daß die Grenzen der Sprachsegmente nicht genau erfaßt werden können, wenn die Eingabesprache in einer lauten Umgebung erfolgte oder semantisch unbedeutende Äußerungen, wie "ah" und "eh" enthält. Damit ist eine Steigerung in der Genauigkeit des Erfassens von Segmentgrenzen ein Schlüssel zu der praktischen Verwendung des Spracherkennungssystems.
Das sogenannte "Wortfleck"-Verfahren kann verwendet werden, um eine Sprache, die in einer lauten Umgebung erfolgte, robust und genau zu erkennen. Das Wortfleckverfahren zeichnet sich dadurch aus, daß jede Segmentgrenze als flexibel und nicht fest wie in der herkömmlichen Segmentaussiebung genommen wird. Ein Beispiel hiervon ist gegeben in "An improved endpoint detector for isolated word recognition", L. Lamel u.a., IEEE Trans. on ASSP, Band ASSP-29, Nr. 4, August 1981. Zunächst wird die Eingabesprache gegen ein Wörterbuch auf der Grundlage eines kleinen Satzes von gewählten Merkmalen angepaßt, um "Bestanpassungs"-Wörter zu identifizieren. Die zweite und längere Stufe umfaßt ein Anpassen einer begrenzten Anzahl von Wörtern mittels eines stärker detaillierten Satzes von Merkmalen. Die erste Stufe liefert die begrenzte Anzahl von Wortkandidaten für die zweite Stufe.
Das Wortfleckverfahren ist jedoch unter den folgenden Gesichtspunkten nachteilhaft.
Beim Wortfleckverfahren wird die Eingabesprache bei willkürlichen Punkten in eine Vielzahl von Segmenten geschnitten. Das so erhaltene Sprachmuster jedes Segmentes wird mit den Bezugsmustern korreliert, die in einem Spracherkennungswörterbuch gespeichert sind. Damit muß die Sprachmusterkorrelation zum Erkennen der Eingabesprache öfter als bei der herkömmlichen Methode wiederholt werden, bei der der Merkmalsvektor jedes Sprachsegmentes ausgesiebt und mit den Bezugsmustern korreliert wird, die in dem Spracherkennungswörterbuch gespeichert sind. Folglich erfordert das Wortfleckverfahren mehr Zeit als die herkömmliche Methode.
Wenn ein System zu entwickeln ist, das das Wortfleckverfahren in Echtzeit ausführt, so ist dessen Hardware äußerst umfangreich, und seine Herstellungskosten wären unvermeidbar extrem hoch. Wenn daher das Wortfleckverfahren angewandt wird, so werden Sprachmerkmalsparameter niedrigerer Ordnung verwendet, oder die Eingabesprache wird bei einer niedrigeren Frequenz abgetastet, um so die Ordnung jedes Sprachmerkmalsvektors abzusenken, der in der Musterkorrelation verwendet wird.
Wenn die Ordnung des Sprachmerkmalsvektors abgesenkt wird, können die subtilen Merkmale der Eingabesprache nicht erkannt werden, obwohl das allgemeine Merkmal der Sprache (beispielsweise der Wortmerkmalsvektor) korrekt erkannt werden kann. Als eine Konsequenz kann keine ausreichend genaue Korrelation der Sprachsegmente erzielt werden, was unvermeidbar die Möglichkeit einer irrtümlichen Spracherkennung steigert.
Dagegen genügt es bei dem Verfahren, bei dem die Grenzen der Segmente, die eine Eingabesprache bilden, zuerst erfaßt werden, um so ein Wort von einem anderen zu unterscheiden, und bei dem das Sprachmuster jedes Segmentes dann mit den Bezugsmustern korreliert wird, eine relativ kleine Menge an Daten zu verarbeiten, um die Musterkorrelation zu erzielen.
Daher kann die Ordnung des Sprachmerkmalsvektors ausreichend gesteigert werden, um eine hochgenaue Musterkorrelation zu erreichen. Diese Methode hat jedoch einen fatalen Nachteil. Wenn ein Fehler beim Erfassen von Wortgrenzen gemacht wird, hat der Sprachmerkmalsvektor jedes Segmentes einen falschen Wert. Damit kann dieses Verfahren kaum in einer sehr lauten Umgebung verwendet werden.
Wie aufgezeigt wurde, ist es mit dem herkömmlichen Spracherkennungssystem schwierig, aus einer Eingabesprache Sprachmerkmalsvektoren von den Sprachsegmenten auszusieben, die ausreichend genau sind, um die Segmentmuster richtig mit Bezugsmustern zu korrelieren, falls die Eingabesprache eine Sprache ist, die in einer lauten Umgebung erzeugt ist. Das Wortfleckverfahren, bei dem die Grenzen der Segmente der Eingabesprache flexibel sind, kann in dem herkömmlichen System in einem Versuch zum Erkennen der Eingabesprache verwendet werden. In diesem Fall muß eine Musterkorrelationsmethode angewandt werden, die für kontinuierliche Sprachmuster geeignet ist, wie beispielsweise die Mehrfachähnlichkeitsmethode. Um eine derartige Musterkorrelationsmethode erfolgreich durchzuführen, muß eine große Menge an Daten verarbeitet werden. Unvermeidbar muß die Ordnung der Merkmalsvektoren der Eingabesprachsegmente abgesenkt werden, da die Hardware des Systems aus Wirtschaftlichkeitsgründen begrenzt ist. Folglich bleibt es sehr schwierig, die Erkennungsrate des herkömmlichen Spracherkennungssystems zu steigern.
Demgemäß ist es die Aufgabe der vorliegenden Erfindung, ein Spracherkennungssystem vorzusehen, das genau eine Eingabesprache erkennen kann, selbst wenn die Eingabesprache in einer lauten Umgebung erfolgte oder semantisch unbedeutende Äußerungen enthält, wie beispielsweise "ah" und "eh", indem insbesondere die semantisch unbedeutenden Äußerungen zurückgewiesen werden.
Erfindungsgemäß sind ein Spracherkennungssystem, wie dieses im Patentanspruch 1 angegeben ist, und ein Verfahren, wie dieses im Patentanspruch 8 angegeben ist, zum Erkennen einer Eingabesprache vorgesehen.
Das bevorzugte System zeichnet sich in den folgenden Gesichtspunkten aus. Zunächst ist die Eingabesprache einer kontinuierlichen Musteranpassung durch Wortfleckbildung gemäß den zeitseriellen Daten von Merkmalsvektoren niedriger Ordnung unterworfen, um dadurch erste Spracherkennungsergebnisse zu erhalten, die das allgemeine Merkmal der Eingabesprache zeigen. An zweiter Stelle werden zweite Merkmalsvektoren hoher Ordnung, die das feine oder subtile Merkmal der Eingabesprache darstellen, gemäß Segmentgrenzen verarbeitet, die aus den Ergebnissen der kontinuierlichen Musteranpassung erfaßt sind, um so zweite Spracherkennungsergebnisse zu erhalten, die das feine oder subtile Merkmal der Eingabesprache zeigen. An dritter Stelle werden die ersten Erkennungsergebnisse und die zweiten Erkennungsergebnisse verarbeitet, um dadurch die Eingabesprache mit hoher Genauigkeit zu erkennen.
Wie beschrieben wurde, werden die ersten Merkmalsvektoren niedriger Ordnung, die das allgemeine Merkmal der Eingabesprache zeigen, bei der Wortfleckbildung verwendet, ohne die Segmente der Eingabesprache zu erfassen. Damit ist die Menge an Daten, die verarbeitet werden muß, um die Wortfleckbildung zu erzielen, erfolgreich vermindert. Weiterhin werden die zweiten Merkmalsvektoren hoher Ordnung, die das feine oder subtile Merkmal der Eingabesprache darstellen, nach der Erfassung der Segmente (d.h. der Segmentgrenzen) der Sprache ausgesiebt, und dann wird die Segmentmusteranpassung durchgeführt.
Da die ersten Erkennungsergebnisse und die zweiten Erkennungsergebnisse zusammen verarbeitet werden, um so die Enderkennungsergebnisse zu erhalten, ist die Menge an Daten relativ klein, die verarbeitet sind, um die Enderkennungsergebnisse zu liefern. Weiterhin kann unbeeinflußt durch die Genauigkeit der erfaßten Segmentgrenzen das System die Eingabesprache bei hoher Geschwindigkeit und mit hoher Genauigkeit erkennen, selbst wenn die Eingabesprache eine Sprache ist, die in einer lauten Umgebung erfolgt. Mit anderen Worten, das System kann eine Eingabesprache mit hoher Genauigkeit erkennen, selbst wenn die Sprache durch Geräusch und/oder semantisch unwichtige Äußerungen verzerrt ist. Das erfindungsgemäße Spracherkennungssystem ist daher zuverlässig und praktisch.
Zusammenfassend kann das erfindungsgemäße System eine Eingabesprache mit beträchtlich hoher Genauigkeit erkennen, da die Erkennung durch Verarbeiten der Ergebnisse des kontinuierlichen Musteranpassens, ausgeführt auf der Grundlage von Daten, die das allgemeine Merkmal der Eingabesprache zeigen, und auch durch Verarbeiten der Ergebnisse des Segmentmusteranpassens, bewirkt auf der Grundlage von Merkmalparametern hoher Ordnung, die das feine oder subtile Merkmal der Eingabesprache zeigen, durchgeführt ist. Darüber hinaus werden die Merkmalsvektoren niedriger Ordnung in dem kontinuierlichen Musteranpassen verwendet, das ein Verarbeiten von viel Daten einschließt, wohingegen Merkmalsvektoren hoher Ordnung in dem Segmentmusteranpassen verwendet werden, das ein Verarbeiten von weniger Daten einschließt, so daß das System lediglich eine relativ kleine Menge an Daten zu verarbeiten braucht, um eine wirksame und zuverlässige Spracherkennung zu erreichen.
Diese Erfindung kann vollständiger aus der folgenden Detailbeschreibung von bevorzugten Ausführungsbeispielen anhand der begleitenden Zeichnungen verstanden werden, in welchen:
Fig. 1 ein Blockdiagramm ist, das ein Spracherkennungssystem gemäß der vorliegenden Erfindung veranschaulicht,
Fig. 2 ein Blockdiagramm ist, das die Spracheingabeeinheit und eine Sprachanalyseeinheit zeigt, die in dem in Fig. 1 dargestellten System enthalten sind,
Fig. 3 ein Diagramm ist, um zu erläutern, wie die ersten und zweiten Merkmalsparameter der Eingabesprache in der Sprachanalyseeinheit ausgesiebt werden,
Fig. 4 und 5 Diagramme sind, die erläutern, wie ein kontinuierliches Musteranpassen durchgeführt wird, um ein Wortfleckverfahren zu erzielen,
Fig. 6 ein Flußdiagramm ist, das erläutert, wie das in Fig. 1 gezeigte System eine Spracherkennung ausführt,
Fig. 7A und 7B Diagramme sind, die die Eingabesprachmuster veranschaulichen und erläutern, wie das in Fig. 1 gezeigte System die Eingabesprache erkennt,
Fig. 8 ein Diagramm ist, das schematisch einen anderen Spracherkennungsprozeß zeigt, den das in Fig. 1 dargestellte System ausführen kann,
Fig. 9 ein Diagramm ist, das erläutert, wie die in einem Wörterbuch gespeicherten Bezugsmuster fortgeschrieben werden, um so einen Sprachmusterlernprozeß zu erzielen,
Fig. 10 ein Flußdiagramm ist, das den Wortlernprozeß erläutert, den das System von Fig. 1 ausführt, und
Fig. 11 eine schematische Darstellung des Sprachmerkmalsvektors ist, der von dem Eingabesprachmuster ausgesiebt und für einen Wortlernzweck verwendet ist.
Ein Ausführungsbeispiel der vorliegenden Erfindung wird nunmehr anhand der begleitenden Zeichnungen beschrieben.
Fig. 1 veranschaulicht schematisch ein Spracherkennungssystem gemäß der vorliegenden Erfindung. Das System umfaßt eine Spracheingabeeinheit 1, eine Sprachanalyseeinheit 2, eine Spracherkennungseinheit 3, ein Spracherkennungswörterbuch 6, eine Erkennungsergebnisverarbeitungseinheit 11 und eine Erkennungsergebnisausgabeeinheit 15.
Die Spracheingabeeinheit 1 empfängt ein Sprachsignal, das von einem (nicht gezeigten) Mikrophon eingespeist ist, und setzt dieses Signal in ein Digitalsignal um. Das Digitalsignal wird zu der Sprachanalyseeinheit 2 gespeist.
Wie in Fig. 2 gezeigt ist, umfaßt die Spracheingabeeinheit 1 ein Tiefpaßfilter (LPF) 1a, einen A/D-Umsetzer 1b und eine Vorbetonungsschaltung 1c. Das Tiefpaßfilter 1a entfernt Hochfrequenzrauschkomponenten mit einer Frequenz von 3,6 kHz oder mehr aus dem Eingabesprachsignal. Der A/D-Umsetzer 1b tastet das analoge Sprachsignal bei einer Abtastfrequenz von 8 kHz und einer Quantisierungsbitzahl von 12 ab, um dadurch das durch das Tiefpaßfilter 1a ausgegebene Sprachsignal in ein digitales Sprachsignal umzuwandeln. Die Vorbetonungsschaltung 1c legt ein Summerfenster von beispielsweise 24 ms an das digitale Sprachsignal, um so das digitale Sprachsignal zu betonen.
Der A/D-Umsetzer 1b kann ausgelegt werden, um das analoge Sprachsignal bei einer Abtastfrequenz von 12 kHz und einer Quantisierungsbitzahl von 16 abzutasten. Mit anderen Worten, die Spezifikation des A/D-Umsetzers 1b ist gemäß der Erkennungsgenauigkeit und dergleichen bestimmt, die erforderlich ist, um die Eingabesprache zu erkennen.
Die Sprachanalyseeinheit 2 ist ausgelegt, um das betonte digitale Sprachsignal zu analysieren, das durch die Spracheingabeeinheit 1 ausgegeben ist. Mit anderen Worten, sie führt verschiedene Analysen, wie beispielsweise eine FTT-Analyse, eine LCP-Analyse, eine Spektralanalyse und eine Filteranalyse durch, um dadurch einen Merkmalsparameter alle 8 ms für das digitale Sprachsignal zu erhalten. Die so gewonnenen Merkmalsparameter bilden zeitserielle Daten, die von der Sprachanalyseeinheit 2 zu der Spracherkennungseinheit 3 gespeist sind. Die Einheit 3 verarbeitet die zeitseriellen Daten, wie dies weiter unten erläutert werden wird.
Wie in Fig. 1 gezeigt ist, umfaßt die Sprachanalyseeinheit 2 einen ersten Analyseabschnitt 4 und einen zweiten Analyseabschnitt 5. Der Abschnitt 4 siebt einen ersten Sprachmerkmalsparameter einer niedrigen Ordnung (d.h. einen Merkmalsparameter mit einer niedrigen Frequenzauflösung) aus dem digitalen Sprachsignal aus, das durch die Spracheingabeeinheit 1 ausgegeben ist. Der Abschnitt 5 siebt einen zweiten Sprachmerkmalsparameter einer hohen Ordnung (d.h. einen Merkmalsparameter mit einer hohen Frequenzauflösung) aus dem digitalen Sprachsignal aus. Der erste Merkmalsparameter wird in die Spracherkennungseinheit 3 eingegeben und darin verwendet, um ein kontinuierliches Sprachmuster mit flexiblen Segmentgrenzen zu vergleichen bzw. zu kollationieren. Der zweite Merkmalsparameter wird zu der Einheit 3 gespeist und darin verwendet, um darin kurze Segmentmuster, die jeweils feste Grenzen haben, zu vergleichen bzw. zu kollationieren.
Das heißt, der erste Analyseabschnitt 4 umfaßt, wie in Fig. 2 gezeigt ist, ein 8-Kanal-Bandpaßfilter (BPF) 4a, eine Quadratverarbeitungsvorrichtung 4b, eine Glättungsvorrichtung 4c und eine logarithmische Kompressionsvorrichtung 4d. Das Ausgangssignal des 8-Kanal-Bandpaßfilters 4a wird durch die Vorrichtung 4b quadratverarbeitet, durch die Vorrichtung 4c geglättet und durch die Vorrichtung 4d logarithmisch gepreßt, und es wird in einen ersten Merkmalsparameter umgesetzt. In ähnlicher Weise umfaßt der Analyseabschnitt 5 ein 16- Kanal-Bandpaßfilter (BPF) 5a, eine Quadratverarbeitungsvorrichtung 5b, eine Glättungsvorrichtung 5c und eine logarithmische Kompressionsvorrichtung 5d. Das Ausgangssignal des 16-Kanal-Bandpaßfilters 5a wird durch die Vorrichtung 5b quadrat-verarbeitet, durch die Vorrichtung 5c geglättet und durch die Vorrichtung 5d logarithmisch gepreßt, und es wird in einen zweiten Merkmalsparameter umgesetzt.
Der erste Merkmalsparameter und der zweite Merkmalsparameter können beide durch Frequenzanalyse erhalten werden, die als "FFT (Schnelle Fourier-Transformation)- Analyse" bekannt ist, wie dies anhand der Fig. 3 erläutert werden wird. Jeder Analyseabschnitt der Sprachanalyseeinheit 2 führt beispielsweise eine DFT-Analyse an dem eingespeisten digitalen Sprachsignal durch. Das heißt, eine diskrete 265-Punkt-Fourier-Transformation wird, wie in Fig. 3 gezeigt ist, durch Abtasten des eingespeisten Sprachsignales bei einer Frequenz von 12 kHz durchgeführt, um so ein Frequenzspektrum Xk (DFT-Spektrum) mit einer 128-Punkt-Auflösung zu erhalten. Die Potenz Xk² dieses Spektrums Xk wird längs der Frequenzachse geglättet, um dadurch Ausgänge Zi äquivalent zu denjenigen einer 8-Kanal- oder einer 16-Kanal- Filterbank zu bestimmen (i = 1, 2, ..., 8; oder i = 1, 2, ..., 16).
In dem ersten Analyseabschnitt 4 wird, um die Ausgänge Zi gleichwertig zu denjenigen einer 8-Kanal-Filterbank (i = 1, 2, ..., 8) zu bestimmen, die Potenz des Spektrums Xk längs der Frequenzachse wie folgt geglättet:
Dann preßt die logarithmische Kompressionsvorrichtung 4d die Potenzen Zi (i = 1, 2, .. ., 8), die so bestimmt sind, um dadurch einen ersten Merkmalsparameter der achten Ordnung zu erhalten, der dargestellt ist durch:
Gi = 10 log Zi (i = 1, 2, ..., 8)
Auch wird in dem zweiten Analyseabschnitt 5 die Potenz des Spektrums Xk geglättet, um dadurch die Ausgänge Zi gleichwertig zu denjenigen einer 16-Kanal-Filterbank (i = 1, 2, ..., 16) zu bestimmen, und diese Ausgänge Zi werden logarithmisch gepreßt, um so einen zweiten Merkmalsparameter der 16-ten Ordnung zu erhalten, der dargestellt ist zu:
Gi = 10 log Zi (i = 1, 2, ..., 16).
Wie aus dem Obigen zu verstehen ist, werden die beiden Sprachmerkmalsparameter aus dem gleichen Frequenzspektrum (d.h. dem DFT-Spektrum) erhalten. Diese Methode des Lieferns von Merkmalsparametern ist sehr wünschenswert, da eine relativ kleine Menge an Daten eingeschlossen ist. Es braucht nicht betont zu werden, daß zwei verschiedene FFT-Analysen an dem digitalen Sprachsignal durchgeführt werden können, um so die ersten und zweiten Merkmalsparameter zu erhalten. Weiterhin kann eine LPC-Analyse oder eine Cepstrum-Analyse verwendet werden, um die ersten und zweiten Merkmalsparameter in der Sprachanalyseeinheit 2 zu gewinnen.
Wie oben beschrieben ist, siebt die Sprachanalyseeinheit 2 aus dem eingegebenen digitalen Sprachsignal einen ersten Sprachmerkmalsparameter einer niedrigen Ordnung (d.h. einer niedrigen Frequenzauflösung) und einen zweiten Sprachmerkmalsparameter einer hohen Ordnung (d.h. einer Hochfrequenzauflösung) aus dem digitalen Sprachsignal aus. Der erste Merkmalsparameter wird in der Spracherkennungseinheit 3 verwendet, um ein kontinuierliches Sprachmuster mit flexiblen Segmentgrenzen zu korrelieren, wohingegen der zweite Merkmalsparameter darin benutzt wird, um kurze Segmentmuster mit jeweils festen Grenzen zu korrelieren.
Die Daten, die in der Sprachanalyseeinheit 2 verarbeitet werden müssen, um die ersten und zweiten Merkmalsparameter zu erhalten, sind weit weniger als die Daten, die in der Spracherkennungseinheit 3 verarbeitet werden müssen, um die Sprachmusterkorrelation zu erzielen. Daher beeinflussen die in der Analyseeinheit 2 verarbeiteten Daten nicht stark die Gesamtmenge der Daten, die in dem gesamten Spracherkennungssystem verarbeitet werden.
Die Spracherkennungseinheit 3 umfaßt einen ersten Erkennungsabschnitt und einen zweiten Erkennungsabschnitt. Der erste Erkennungsabschnitt verwendet die ersten Merkmalsparameter, um dadurch ein kontinuierliches Sprachmuster (ein Muster mit flexiblen Segmentgrenzen) mit den Bezugssprachmustern zu korrelieren, die in dem Spracherkennungswörterbuch 6 gespeichert sind. Der zweite Erkennungsabschnitt verwendet die zweiten Merkmalsmuster, um dadurch die Startpunkte der Segmente, die die Eingabesprache bilden, zu erfassen, um so die Sprachsegmente zu unterscheiden, damit der Merkmalsvektor jedes Segmentes erhalten wird, und um die Muster des Segmentes mit den Bezugsmustern zu korrelieren, die in dem Wörterbuch 6 gespeichert sind.
Der erste Erkennungsabschnitt umfaßt einen kontinuierlichen Musteranpaßabschnitt 7. Der Abschnitt 7 korreliert ein kontinuierliches Sprachmuster mit den Bezugsmustern, die in dem Wörterbuch 6 gespeichert sind, mittels Wortfleckbildung. Das heißt, eine Reihe von ersten Merkmalsparametern wird in den Abschnitt 7 von dem ersten Analyseabschnitt eingegeben. Von dieser Reihe von ersten Merkmalsparametern siebt der Abschnitt 7 zeitserielle Daten der ersten Merkmalsvektoren aus, die jeweils von der achten Ordnung auf der Frequenzachse und der 12-ten Ordnung auf der Zeitachse sind. Dann korreliert der Abschnitt 7 kontinuierlich die zeitseriellen Daten mit den Bezugsmustern, die in dem ersten Wörterbuchabschnitt des Wörterbuches 6 gespeichert sind.
Anhand der Fig. 4 wird erläutert, wie der Abschnitt 7 die zeitseriellen Daten mit den Bezugsmustern korreliert, die in dem ersten Wörterbuchabschnitt gespeichert sind. Zunächst werden die Abtastpunkte, an denen die Eingabesprache abgetastet wurde, um die ersten Merkmalsparameter zu erhalten, als die Endpunkte der Sprachsegmente angenommen. Sodann werden die Startpunkte der Sprachsegmente auf der Grundlage der so angenommenen Endpunkte bestimmt. Dann werden die Serien der Sprachsegmente, die durch die Startpunkte und die Endpunkte definiert sind, längs der Zeitachse abgetastet, um so die Merkmalsvektoren jeweils verschiedener Ordnungen für die Sprachsegmente zu erhalten. Jeder dieser Vektoren erstreckt sich von dem Endpunkt zu dem entsprechenden Sprachsegment. Diese Mermalsvektoren der Sprachsegmente werden kontinuierlich ausgesiebt, während die Endpunkte der Sprachsegmente längs der Zeitachse verschoben werden. Als ein Ergebnis hiervon wird der erste Merkmalsvektor jedes Sprachsegmentes mit den Bezugsmustern korreliert, die in dem ersten Abschnitt des Spracherkennungswörterbuches 6 gespeichert sind.
Somit wird die Ähnlichkeit zwischen dem Muster jedes Sprachsegmentes und jedem Bezugsmuster durch beispielsweise die Mehrfachähnlichkeitsmethode bestimmt.
Danach werden die Ähnlichkeiten zwischen dem Muster jedes Sprachsegmentes einerseits und den Bezugsmustern, die in dem ersten Abschnitt des Wörterbuches 6 gespeichert sind, miteinander verglichen, wie dies in Fig. 5 dargestellt ist. Das Bezugsmuster, das ähnlicher zu demjenigen des Sprachsegmentes als jegliches andere Bezugsmuster ist, wird als ein Ergebnis der Erkennung zu der Erkennungsergebnis-Verarbeitungseinheit 11 ausgegeben.
Die durch den kontinuierlichen Musteranpaßabschnitt 7 durchgeführte Wortfleckbildung ist frei von dem oben erwähnten Problem, das aus Fehlern beim Erfassen von Sprachsegmenten beruhen kann, und unterstützt daher eine Steigerung der Spracherkennungsgenauigkeit des Systems. Bei dem Wortfleckverfahren ist es jedoch notwendig, die Merkmalsvektoren von Sprachsegmenten, die kontinuierlich aus der Eingabesprache ausgesiebt sind, auszusieben und die Ähnlichkeit zwischen dem ersten Merkmalsvektor jedes Segmentes einerseits und den Bezugsmustern, die in dem ersten Abschnitt des Wörterbuches 6 gespeichert sind, zu bestimmen. Zur Erzielung der Aussiebung der Merkmalsvektoren und der Bestimmung der Ähnlichkeit muß eine große Menge an Daten verarbeitet werden. Um die Menge an zu verarbeitenden Daten zu verringern, damit so die Spracherkennung praktisch gemacht wird, sollte die Ordnung der Merkmalsvektoren abgesenkt werden. Wenn jedoch die Ordnung der Merkmalsvektoren abgesenkt wird, können die subtilen bzw. feinen Merkmale der Eingabesprache nicht länger erkannt werden, obwohl das allgemeine Merkmal der Sprache korrekt erkannt wird. Somit ist keine ausreichend genaue Korrelation der Sprachsegmente möglich.
Um die subtilen bzw. feinen Merkmale der Eingabesprache zu erkennen, siebt der zweite Erkennungsabschnitt, der in der Spracherkennungseinheit 3 enthalten ist, Merkmalsvektoren hoher Ordnung, die die subtilen Merkmale der Eingabesprache darstellen, aus den zweiten Merkmalsparametern aus und korreliert die Muster der Sprachsegmente mit den Bezugsmustern, die in dem zweiten Abschnitt des Wörterbuches 6 gespeichert sind, auf der Grundlage der Merkmalsvektoren hoher Ordnung.
Wie in Fig. 1 gezeigt ist, umfaßt der in der Spracherkennungseinheit 3 enthaltene zweite Erkennungsabschnitt einen Start/Endpunkt-Erfassungsabschnitt 8, einen Merkmalsvektor-Aussiebabschnitt 9 und einen Segmentmuster- Anpaßabschnitt 10.
Der Start/Endpunkt-Bestimmungsabschnitt 8 erfaßt den Startpunkt und den Endpunkt jedes Segmentes der Eingabesprache gemäß den Daten, die durch den kontinuierlichen Musteranpaßabschnitt 7 erhalten sind und die Startpunkte und Endpunkte der Sprachsegmente darstellen. Der Startpunkt und der Endpunkt jedes ersten Merkmalsvektors, den der Abschnitt 7 aus der Eingabesprache ausgesiebt hat, definiert ein Erkennungskandidatensegment, dessen allgemeines Merkmal dank der Wortfleckmethode bekannt ist. Der Abschnitt 8 führt eine Start/- Endpunkterfassung entweder durch Bestimmen der Änderungen in der Energie der Eingabesprache oder durch Durchführen einer kontinuierlichen DP-Anpaßmethode durch. Somit kann die Start/Endpunkterfassung als ein getrennter Prozeß erzielt werden.
Der Merkmalsvektor-Aussiebabschnitt 9 tastet die zweiten Merkmalsparameter, die durch den zweiten Analyseabschnitt 5 ausgegeben sind, gemäß den Daten ab, die durch den Abschnitt 8 ausgegeben sind und die Start- und Endpunkte der Sprachsegmente darstellen. Dieses Abtasten wird längs der Frequenzachse durchgeführt, um so Merkmalsvektoren der Sprachsegmente zu erhälten, wobei jeder Vektor der 16-ten Ordnung auf der Frequenzachse und der 16-ten Ordnung auf der Zeitachse vorliegen, wie dies in Fig. 3 gezeigt ist. Die so erhaltenen zweiten Merkmalsvektoren der Sprachsegmente werden in den Segmentmuster-Anpaßabschnitt 10 eingespeist. Der Abschnitt 10 korreliert das Muster jedes Sprachsegmentes, das durch den zweiten Merkmalsvektor definiert ist, mit den Bezugsmustern, die in dem zweiten Abschnitt des Spracherkennungswörterbuches 6 gespeichert sind.
Der Segmentmuster-Anpaßabschnitt 10 führt die Mehrfachähnlichkeitsmethode durch, wie dies gerade der kontinuierliche Musteranpaßabschnitt 7 vornimmt, um so die Sprachmusterkorrelation zu erzielen. Dennoch kann der Abschnitt 10 die HMM-Anpaßmethode oder die DP-Anpaßmethode vornehmen. Das heißt, der Abschnitt 10 empfängt die Sprachsegmente, die aus den zeitseriellen Daten ausgesiebt sind, die aus den zweiten Merkmalsparametern bestehen, gemäß den durch den Abschnitt 8 erfaßten Start- und Endpunkten und korreliert dann die Muster jedes Sprachsegmentes mit den Bezugsmustern, die in dem zweiten Abschnitt des Wörterbuches 6 gespeichert sind, gemäß den zweiten Merkmalsvektoren, die eine hohe Ordnung haben und die subtilen oder feinen Merkmale der Eingabesprachsegmente darstellen. Das Bezugsmuster, das ähnlicher zu demjenigen des Sprachsegmentes ist, wird als ein Erkennungskandidat verwendet.
Zusammenfassend werden die folgenden Operationen in der Spracherkennungseinheit 3 durchgeführt. Der erste Spracherkennungsabschnitt erfaßt den Startpunkt tsα und den Endpunkt teα jedes Eingabewortes α und bestimmt die Ähnlichkeit Sα1 des Wortes α gemäß den zeitseriellen Daten der ersten Merkmalsvektoren niedriger Ordnung. Der zweite Spracherkennungsabschnitt siebt Merkmalsvektoren hoher Ordnung gemäß dem Startpunkt tsα und dem Endpunkt teα aus, die beide durch den ersten Spracherkennungsabschnitt erfaßt sind. Der zweite Sprachabschnitt bestimmt dann die Ähnlichkeit Sα2 des Eingabewortes α aufgrund der zweiten Merkmalsvektoren. Mit anderen Worten, die Spracherkennungseinheit 3 korreliert nicht nur ein kontinuierliches Sprachmuster (ein Muster mit flexiblen Segmentgrenzen) mit den Bezugsmustern, die in dem ersten Abschnitt des Wörterbuches 6 gespeichert sind. Vielmehr erfaßt die Einheit 3 auch die Start- und Endpunkte jedes Sprachsegmentes und korreliert dann das Muster jedes Sprachsegmentes mit den Bezugsmustern, die in dem zweiten Abschnitt des Wörterbuches 6 gespeichert sind. Die Ergebnisse der in der Einheit 3 vorgenommenen Spracherkennung werden zu der Erkennungsergebnis-Verarbeitungseinheit 11 gespeist. Wie in Fig. 1 gezeigt ist, umfaßt die Erkennungsergebnis- Verarbeitungseinheit 11 einen ersten Verarbeitungsabschnitt 12, einen zweiten Verarbeitungsabschnitt 13 und einen dritten Verarbeitungsabschnitt 14. Der Abschnitt 12 verarbeitet die Erkennungskandidaten, die durch den kontinuierlichen Musteranpaßabschnitt 7 erhalten sind. Der zweite Abschnitt 13 verarbeitet die durch den Segmentmuster-Anpaßabschnitt 10 erhaltenen Erkennungskandidaten. Der Abschnitt 14 bewertet die durch die Abschnitte 12 und 13 verarbeiteten Erkennungskandidaten, um so die Enderkennungsergebnisse zu liefern.
Die durch den dritten Verarbeitungsabschnitt 14 vorgenommenen Enderkennungsergebnisse werden über die Erkennungsergebnis-Ausgabeeinheit 15 zu einem (nicht gezeigten) Datenverarbeitungsgerät oder einer (auch nicht gezeigten) Anzeige gespeist, die die erkannte Sprache in geschriebener Form anzeigt.
Es wird nun erläutert, wie der dritte Verarbeitungsabschnitt 14 die Erkennungskandidaten verarbeitet, die durch die Verarbeitungsabschnitte 12 und 13 ausgegeben sind.
Es sei angenommen, daß der kontinuierliche Musteranpaßabschnitt 7 der Spracherkennungseinheit 3 drei Erkennungskategorien C1, C2 und C3 mit ersten drei höchsten Ähnlichkeiten erhält. Die Namen dieser Erkennungskatägorien C1, C2 und C3 werden zu dem ersten Verarbeitungsabschnitt 12 zusammen mit den Ähnlichkeiten SC1, SC2 und SC3 (nachfolgend als "erste Ähnlichkeiten" bezeichnet) von diesen Kandidaten gespeist. Gleichzeitig werden die Datengrößen, die die Start/Endpunkte der ersten Merkmalsvektoren darstellen, die die ersten Ähnlichkeiten SC1, SC2 und SC3 definieren, zu dem zweiten Spracherkennungsabschnitt gespeist und darin verwendet, um die zweiten Merkmalsvektoren auszusieben.
Der zweite Spracherkennungsabschnitt verarbeitet die Erkennungskategorien C1, C2 und C3 gemäß den zweiten Merkmalsvektoren, um dadurch Ähnlichkeiten SC1', SC2' und SC3' (im folgenden als "zweite Ähnlichkeiten" bezeichnet) für jeweils die Erkennungskategorien C1, C2 und C3 zu erhalten.
In der Erkennungsergebnis-Verarbeitungseinheit 11 addiert der dritte Verarbeitungsabschnitt 14 die ersten Ähnlichkeiten SC1, SC2 und SC3 jeweils zu den zweiten Ähnlichkeiten SC1', SC2' und SC3'. Das heißt:
TSCi = SCi + SCi' (i = 1, 2, 3)
Mit anderen Worten, der Abschnitt 14 kombiniert die ersten und zweiten Ähnlichkeiten SCi und SCi' von jeder Erkennungskategorie Ci. Dann vergleicht der Abschnitt 14 die kombinierten Ähnlichkeiten TSC1, TSC2 und TSC3 miteinander und bestimmt die höchste kombinierte Ähnlichkeit von diesen drei. Die höchste kombinierte Ähnlichkeit wird als das Enderkennungsergebnis über die Erkennungsergebnis-Ausgabeeinheit 15 zu dem Datenverarbeitungsgerät oder der Anzeige gespeist.
Anstelle des einfachen Addierens der durch den ersten Spracherkennungsabschnitt erhaltenen ersten Ähnlichkeiten zu den durch den zweiten Spracherkennungsabschnitt erhaltenen zweiten Ähnlichkeiten kann ein Gewichtungskoeffizient w (0 < w < 1) auf die erste Ähnlichkeit SCi und die zweite Ähnlichkeit SCi' angewandt werden, um so ein gewichtetes Mittel hiervon zu erhalten, das als eine kombinierte Ähnlichkeit STCi, wie folgt, benutzt wird:
STCi = wSCi + (1 - w)SCi' (i = 1, 2, 3)
Vorzugsweise gilt w = angenähert 0,2, so daß die ersten und zweiten Ähnlichkeiten geeignet gewichtet sind, welche die Ergebnisse der Musterkorrelation sind, die den zweiten Merkmalsvektor verwendet, der die subtilen oder feinen Merkmale von jedem Eingabesprachsegment darstellt.
Weiterhin können die zweiten Ähnlichkeiten SC1', SC2' und SC3', die aus den Erkennungskategorien C1, C2 und C3 erhalten sind, verglichen werden, um zu bestimmen, ob die höchste Ähnlichkeit und die zweithöchste Ähnlichkeit sehr viel verschieden sind oder nicht. Wenn die Differenz zwischen diesen Ähnlichkeiten zu groß ist, kann die Spracherkennung lediglich aufgrund der zweiten Ähnlichkeiten SC1', SC2' und SC3' bewirkt werden, wobei die ersten Ähnlichkeiten SC1, SC2 und SC3 vernachlässigt werden. Wenn die Differenz relativ klein ist, wird die Spracherkennung aufgrund von beiden Sätzen von Ähnlichkeiten durchgeführt, d.h. aufgrund der ersten Ähnlichkeiten SC1, SC2, SC3 und der zweiten Ähnlichkeiten SC1', SC2' und SC3'.
Alternativ können die Ähnlichkeiten von jedem Satz in Wahrscheinlichkeitswerte, wie Plausibilitätswerte umgewandelt werden, und der größte Wahrscheinlichkeitswert kann als das Endergebnis der Spracherkennung verwendet werden. Eine andere Alternative ist das statistische Analysieren der Verteilung der ersten Ähnlichkeiten SC1, SC2 und SC3 und diejenige der zweiten Ähnlichkeiten SC1', SC2' und SC3', um so die höchste Wahrscheinlichkeit zu bestimmen, die als das Endergebnis der Spracherkennung verwendet wird.
Wie beschrieben wurde, verarbeitet die Erkennungsergebnis-Verarbeitungseinheit 11 die durch die Spracherkennungseinheit 3 ausgegebenen Ähnlichkeiten, um so Enderkennungsergebnisse zu erhalten.
Der Betrieb des in Fig. 1 gezeigten Spracherkennungssystems wird nunmehr anhand des Flußdiagrammes von Fig. 6 erläutert.
Zunächst werden in einem Schritt A Merkmalsvektoren niedriger Ordnung aus den zeitseriellen Daten erhalten, die die ersten Merkmalsparameter niedriger Ordnung darstellen, welche in der Sprachanalyseeinheit 2 gewonnen sind, und dann wird die Musterkorrelation an dem kontinuierlichen Sprachmuster, das flexible Segmentgrenzen hat, gemäß den Merkmalsvektoren niedriger Ordnung durchgeführt. In einem Schritt B werden Kandidatensegmente (d.h. Erkennungskandidaten) aus den zeitseriellen Daten bestimmt, die die ersten Ähnlichkeiten darstellen, die durch Korrelation des kontinuierlichen Sprachmusters erhalten sind, und es werden auch die Start- und Endpunkte jedes Kandidatensegmentes bestimmt. Danach werden in einem Schritt C die Segmente der Eingabesprache gemäß den Start- und Endpunkten der Kandidatensegmente erfaßt, die in dem Schritt B bestimmt wurden, und es werden auch die zweiten Merkmalsvektoren hoher Ordnung der so erfaßten Sprachsegmente bestimmt. Sodann werden in einem Schritt D die Muster der Sprachsegmente gemäß den zweiten Merkmalsvektoren korreliert, um so zweite Ähnlichkeiten zu bestimmen. Schließlich wird in einem Schritt E jedes Segment der Eingabesprache gemäß den ersten und zweiten Ähnlichkeiten erkannt.
Wie beschrieben wurde, erkennt das System jedes Segment der Eingabesprache in drei Schritten. In dem ersten Schritt wird die kontinuierliche Musterkorrelation an jedem Sprachsegment gemäß dem ersten Merkmalsvektor niedriger Ordnung, der aus dem ersten Merkmalsparameter niedriger Ordnung erhalten ist, ausgeführt, um so das allgemeine Merkmal des Sprachsegmentes zu bestimmen. In dem zweiten Schritt wird das Muster jedes Segmentes, das durch die Start- und Endpunkte definiert ist, die durch den ersten Merkmalsvektor dargestellt sind, gemäß dem zweiten Merkmalsvektor hoher Ordnung, der aus dem zweiten Merkmalsparameter hoher Ordnung erhalten ist, verglichen oder kollationiert, um so das subtile oder feine Merkmal des Sprachsegmentes zu bestimmen. In dem dritten Schritt wird das Enderkennungsergebnis aus den allgemeinen und subtilen Merkmalen jedes Sprachsegments gewonnen, das jeweils gemäß den ersten und zweiten Schritten bestimmt wurde.
Das in dem ersten Schritt erhaltene Erkennungsergebnis wird nicht durch Rauschen - falls in der Eingabesprache enthalten - beeinflußt. Das in dem zweiten Schritt erhaltene Erkennungsergebnis stellt das feine oder subtile Merkmal jedes Segmentes dar. Jedes Sprachsegment wird aufgrund der zwei Erkennungsergebnisse erkannt, die in dem ersten und zweiten Schritt erhalten sind.
Damit wird das Enderkennungsergebnis sehr genau. Das heißt, selbst wenn das Eingabesprachmuster, das in Fig. 7A gezeigt ist, um so zu sprechen, in Rauschen vergraben ist, wie dies in Fig. 7B veranschaulicht ist, kann es mit hoher Genauigkeit erkannt werden.
Gemäß der Erfindung können die ersten und zweiten Erkennungsschritte in einer spezifischen Weise durchgeführt werden, wie dies anhand der Fig. 8 erläutert wird. In dem ersten Schritt werden von dem Erkennungskandidaten, der durch den ersten Spracherkennungsabschnitt erhalten ist, diejenigen, deren Ähnlichkeiten größer als der Schwellenwert θ1 und um Δθ1 oder weniger verschieden von der höchsten Ähnlichkeit Smax sind, akzeptiert, wohingegen die anderen Erkennungskandidaten zurückgewiesen werden. Die Muster dieser akzeptablen Erkennungskandidaten werden in dem zweiten Schritt korreliert. In dem zweiten Schritt werden von den Erkennungskandidaten, die durch den zweiten Spracherkennungsabschnitt erhalten sind und den akzeptablen Erkennungskandidaten entsprechen, diejenigen, deren Ähnlichkeiten größer als der Schwellenwert θ2 und um Δθ2 oder weniger verschieden von der maximalen Ähnlichkeit Smax sind, akzeptiert, wohingegen die anderen Erkennungskandidaten zurückgewiesen werden. Diese Methode weist semantisch unbedeutende Sprachsegmente zurück und kann daher viel dazu beitragen, dem Spracherkennungssystem einen praktischen Wert zu vermitteln.
Wie erläutert wurde, wird der zweite Merkmalsvektor für jedes Sprachsegment aus dem zweiten Merkmalsparameter gemäß den Start/Endpunktdaten ausgesiebt, die durch den ersten Spracherkennungsabschnitt erhalten sind. Jedoch stellen die Start/Endpunktdaten nicht immer korrekt die Start- und Endpunkte des Eingabesprachsegmentes dar. Um das Sprachsegment genau zu erkennen, genügt es, verschiedene Punkte nahe zu dem Startpunkt und auch verschiedene Punkte nahe zu dem Endpunkt zu erfassen und dann die Merkmalsvektoren der Sprachsegmente, die durch diese Punkte definiert sind, zu bestimmen, und die Muster dieser Segmente mittels des Segmentmuster-Anpaßabschnittes 10 zu korrelieren. Alternativ genügt es für den gleichen Zweck, verschiedene Kandidatenpunkte für den Start- und Endpunkt jedes Sprachsegmentes zu bestimmen, was dazu dient, die Ähnlichkeit des Erkennungskandidaten zu erhöhen, um dem zweiten Merkmalsvektor der Segmente, die durch diese Kandidatenpunkte definiert sind, zu erhalten, die zweiten Merkmalsvektoren dieser Segmente zu bestimmen und die Muster dieser Segmente aufgrund der zweiten Merkmalsvektoren mittels des Segmentmuster-Anpaßabschnittes 10 zu korrelieren.
Merkmalsvektoren von lediglich einem Typ werden in jedem der ersten und zweiten Spracherkennungsschritte verwendet. Dennoch können Merkmalsvektoren verschiedener Typen, d.h. Vektoren, die jeweils von einer verschiedenen Ordnung auf der Frequenzachse und einer verschiedenen Ordnung auf der Zeitachse sind, in jedem Spracherkennungsschritt angewandt werden. Wenn dies der Fall ist, kann die Eingabesprache mit höherer Genauigkeit erkannt werden, obwohl mehr Daten zu verarbeiten sind.
Darüber hinaus kann die vorliegende Erfindung in verschiedener Weise modifiziert werden, ohne von dem Bereich der Erfindung, wie dieser in den beigefügten Patentansprüchen definiert ist, abzuweichen. Beispielsweise können die Muster der Sprachsegmente in jeglicher Methode anders als die oben beschriebene Methode korreliert werden.
Obwohl dies in Fig. 1 nicht gezeigt ist, umfaßt das Spracherkennungssystem weiterhin eine Sprachmusterlerneinheit zum Modifizieren der in dem Spracherkennungswörterbuch 6 gespeicherten Bezugsmuster. Wie schematisch in Fig. 9 gezeigt ist, umfaßt die Sprachmusterlerneinheit eine Sprachdatendatei 21, eine Rauschdatendatei 22, einen Sprachdatenzusammensetz- oder Synthesierabschnitt 23, einen Merkmalsvektor-Aussiebabschnitt 24 und einen Wörterbuch-Vorbereitungsabschnitt 25.
Die Sprachdatendatei 21 speichert Sprachdaten, die die Muster von verschiedenen Erkennungskategorien darstellen, die in einer geräuschfreien Umgebung aufgezeichnet wurden. Die Rauschdatendatei 22 speichert Geräuschdaten, die die Geräusche darstellen, die in verschiedenen Umgebungen, wie beispielsweise Straßen, Stationen, Ämtern und dergleichen erfolgt und aufgezeichnet sind.
Der Sprachzusammensetzabschnitt 23 liest die Sprachdaten aus der Sprachdatendatei 21 und die Rauschdaten aus der Rauschdatendatei 22. Dann überlagert er die Rauschdaten auf die Sprachdaten, um so die Sprachmuster zu modifizieren. Der Grad der Modifizierung wird gemäß dem Pegel der Rauschdaten eingestellt, die den Sprachdaten überlagert sind. Die modifizierten Sprachmuster werden von dem Sprachzusammensetzabschnitt 23 zu der Sprachanalyseeinheit 2 gespeist. In der Einheit 2 werden die ersten Merkmalsdaten und die zweiten Merkmalsdaten auf der Grundlage dieser modifizierten Sprachmuster erhalten.
In der Spracherkennungseinheit 3 verarbeitet der kontinuierliche Musteranpaßabschnitt 7 die ersten Merkmalsparameter, um so zeitserielle Daten der ersten Merkmalsvektoren zu erhalten, und führt eine kontinuierliche Musteranpassung durch, um so zeitserielle Daten der ersten Ähnlichkeiten zu gewinnen.
Da die Erkennungskategorien, deren Muster zu lernen sind, bekannt sind, kann es ausreichend sein, die Muster dieser Kategorien mit den Bezugsmustern zu korrelieren, die in dem Wörterbuch 6 gespeichert sind. Um bei Bedarf ähnliche Erkennungskategorien voneinander zu unterscheiden, ist es wünschenswert, daß die Muster von diesen ähnlichen Kategorien mit den Bezugsmustern korreliert werden, die in dem Wörterbuch 6 gespeichert sind. Wenn weiterhin die ähnlichen Kategorien eher unklar sind und identifiziert werden müssen, genügt es, deren Muster mit den Bezugsmustern, die in dem Wörterbuch 6 gespeichert sind, in der gleichen Weise wie im Fall des Erkennens der Eingabesprache zu korrelieren.
Der Merkmalsvektor-Aussiebabschnitt 24 empfängt die zeitseriellen Daten der ersten Ähnlichkeiten von dem kontinuierlichen Musteranpaßabschnitt 7 der Spracherkennungseinheit 3. Dann verarbeitet der Abschnitt 24 die zeitseriellen Daten, um so irgendeine erste Ähnlichkeit Sij zu erfassen, die von der größten Ähnlichkeit maxSij um einen vorbestimmten Wert θ oder weniger abweicht und auch um den Startpunkt tS und den Endpunkt te des ersten Merkmalsvektors Xij entsprechend der ersten Ähnlichkeit Sij zu erfassen. Die Punkte ts und te des ersten Merkmalsvektors Xij und die Ähnlichkeit Sij werden verwendet, um für den Zweck des Lernens von Sprachmustern einen Merkmalsvektor auszusieben.
Danach prüft der Merkmalsvektor-Aussiebabschnitt 24 die Punkte ts und te des ersten Merkmalsvektors Xij. Wenn diese Punkte als echt oder authentisch ermittelt werden, erhält der Abschnitt 24 einen ersten Merkmalsparameter und einen zweiten Merkmalsparameter jedes Sprachsegmentes aufgrund der Punkte ts und te. Weiterhin bestimmt der Abschnitt 24 einen ersten Merkmalsvektor und einen zweiten Merkmalsvektor für das Sprachsegment aus den ersten und zweiten Merkmalsparametern, wie dies in Fig. 11 veranschaulicht ist.
Der Wörterbuch-Vorbereitungsabschnitt 25 bereitet neue Muster für die Sprachsegmente aufgrund der ersten und zweiten Merkmalsvektoren vor, die sie für jedes Eingabesprachsegment bestimmt sind. Die diese neuen Segmentmuster darstellenden Daten werden zu dem Spracherkennungswörterbuch 6 gespeist, um die darin gespeicherten Bezugsmuster fortzuschreiben.
Däs heißt, der Lernprozeß an dem Wörterbuch 6 wird in der folgenden Weise erreicht, wenn der Segmentmuster- Anpaßabschnitt 10 die Mehrfachähnlichkeitsmethode durchführt. Zunächst wird die Kovarianzmatrix der Bezugsmuster gemäß den Merkmalsvektoren Xij fortgeschrieben, die durch den Abschnitt 24 ausgesiebt sind. Sodann wird die Kovarianzmatrix einer KL-Transformation unterworfen, um so einen Eigenwert λ und einen Eigenvektor φ zu bestimmen, die beide die Kovarianzmatrix festlegen. Dann werden der Eigenwert λ und der Eigenvektor φ in dem Wörterbuch 6 gespeichert, um dessen Inhalte dadurch fort zuschreiben.
Der Lernprozeß wird in größeren Einzelheiten anhand des Flußdiagrammes erläutert, das in Fig. 10 veranschaulicht ist.
Zunächst wird in einem Schritt a ein Signal/Rauschen(S/N-)Verhältnis bzw. ein Rauschabstand eingegeben, der das Verhältnis der Sprachdaten zu den Rauschdaten ist. In einem Schritt b werden die Rauschdaten auf die Sprachdaten, die eine erste Erkennungskategorie darstellen, zu einem Grad überlagert, das durch den Rauschabstand bestimmt ist, um so ein neues Muster der ersten Erkennungskategorie zu bilden. Die Sprachanalyseeinheit 2 analysiert das neue Muster, um so erste und zweite Merkmalsparameter der ersten Erkennungskategorie zu erhalten. In einem Schritt c führt der erste Spracherkennungsabschnitt der Einheit 3 die Wortfleckbildung durch, um so das Muster der ersten Kategorie mit den Bezugsmustern, die in dem ersten Abschnitt des Wörterbuches 6 gespeichert sind, gemäß den zeitseriellen Daten des Merkmalsvektors niedriger Ordnung zu korrelieren, der aus dem Merkmalsparameter niedriger Ordnung erhalten wurde. Damit liefert der erste Spracherkennungsabschnitt zeitserielle Daten der Ähnlichkeit.
Danach verarbeitet der Merkmalsvektor-Aussiebabschnitt 24 die zeitseriellen Daten der Ähnlichkeit, um jegliche erste Ähnlichkeit Sij zu erfassen, die von der höchsten Ähnlichkeit maxSij um einen vorbestimmten Wert θ oder weniger abweicht, und auch um den Startpunkt ts und den Endpunkt te jedes ersten Merkmalsvektors Xij entsprechend der ersten Ähnlichkeit Sij zu erfassen. In den meisten Fällen können nicht nur ein Satz von Start- und Endpunkten, sondern auch mehrere Sätze von Start- und Endpunkten für einen Merkmalsvektor abhängig von dem Wert von θ erfaßt werden.
Bei dem Verfahren des Aussiebens von Merkmalsvektoren, das auch durch die vorliegenden Erfinder erfunden wurde und in der Japanischen Patentanmeldung Nr. 2-57978 offenbart ist, wird der Merkmalsvektor von jeder Erkennungskategorie aus der maximalen Ähnlichkeit Smax ausgesiebt, die für die Erkennungskategorie mittels der kontinuierlichen Musteranpassung (d.h. Wortfleckbildung) erhalten ist.
Dagegen werden bei der vorliegenden Erfindung mehrere Sätze von Start- und Endpunkten aus den zeitseriellen Daten der Ähnlichkeiten erfaßt, und die Start- und Endpunkte von einem Satz werden gewählt, die am ähnlichsten zu den Bezugsstart- und Endpunkten sind, die bereits für jede Erkennungskategorie bestimmt wurden. Damit können die Start- und Endpunkte der Erkennungskategorie genau erfaßt werden.
Die Sätze der Start- und Endpunkte, die aus den zeitseriellen Daten der Ähnlichkeiten erfaßt wurden, die durch die kontinuierliche Musteranpassung erhalten sind, definieren die Segmente der Eingabesprache. Diese Sprachsegmente werden geprüft, um zu bestimmen, ob sie Längen haben, die in einen vorbestimmten Bereich fallen. Von den Sprachsegmenten, werden diejenigen, die Längen haben, die in diesen Bereich fallen, als Kandidatensegmente verwendet. Weiterhin wird aus diesen Kandidatensegmenten dasjenige, das die Länge hat, die am ähnlichsten zu derjenigen des Bezugssegmentes ist, das bereits für die Erkennungskategorie bestimmt ist, gewählt.
Während des kontinuierlichen Musteranpassens (d.h. der Wortfleckbildung) können die Sprachsegmente geprüft werden, um zu sehen, ob sie Längen haben oder nicht, die in den vorbestimmten Bereich fallen. Mit anderen Worten, Ähnlichkeiten können für lediglich diejenigen der Sprachsegmente erhalten werden, deren Länge in diesen Bereich fällt. Wenn dies der Fall ist, ist es nicht länger erforderlich, zu der Zeit des Aussiebens der Merkmalsvektoren die Sprachsegmente zu prüfen, die durch die Start- und Endpunkte dieser Sätze definiert sind, um zu bestimmen, ob sie Längen haben, die in einen vorbestimmten Bereich fallen.
Nach der Prüfung der Sprachsegmente werden die Kandidatenstart- und -endpunkte für jedes Segment geprüft, um zu sehen, ob sie innerhalb eines vorbestimmten Abstandes von den Bezugsstart- und -endpunkten für das Segment gelegen sind oder nicht. Von den Kandidatenpunkten werden diejenigen, die außerhalb des vorbestimmten Abstandes gelegen sind, zurückgewiesen, und diejenigen, die auf oder innerhalb des vorbestimmten Abstandes liegen, werden akzeptiert. Dann werden die Kandidatensegmente, die durch die akzeptierten Start- und Endpunkte definiert sind, geprüft, um zu bestimmen, ob sie Längen haben, die mit dem vorbestimmten Bereich zusammenfallen. Lediglich diejenigen Sprachsegmente, die Längen haben, die in diesen Bereich fallen, werden als Kandidatensprachsegmente akzeptiert. Von diesen Kandidatensegmenten wird das eine, das die Länge hat, die am ähnlichsten zu derjenigen des Bezugssegmentes ist, das bereits für die Erkennungskategorie bestimmt wurde, gewählt.
Sodann werden in Schritt d die ersten und zweiten Merkmalsvektoren aus den ersten und zweiten Merkmalsparametern für das Sprachsegment mit der höchsten Ähnlichkeit ausgesiebt, wie dies in Fig. 11 gezeigt ist. Die so ausgesiebten ersten und zweiten Merkmale sind genau und zuverlässig, da keines durch Rauschen beeinflußt ist.
Weiterhin wird in Schritt e das Bezugsmuster für jede Erkennungskategorie, das in dem Wörterbuch 6 gespeichert ist, gemäß den ersten und zweiten Merkmalsvektoren, die im Schritt d ausgesiebt sind, fortgeschrieben. Damit wird das Spracherkennungswörterbuch 6 für ein besseres Verhalten des Spracherkennungssystems modifiziert.
In Schritt f wird bestimmt, ob die Inhalte des Wörterbuches 6 für alle Erkennungskategorien fortgeschrieben wurden oder nicht. Wenn NEIN vorliegt, so wird die Sequenz des Wörterbuch-Lernprozesses, wie oben beschrieben, mehrfach wiederholt, bis in einem Schritt f bestimmt wird, ob die Inhalte des Wörterbuches 6 für alle Erkennungskategorien fortgeschrieben sind oder nicht.
Der an dem Wörterbuch 6 vorgenommene Lernprozeß macht die Bezugsmuster immun für Rauschen und kann als "Rauschimmunitätslernen" bezeichnet werden. Die Sprachmuster-Lerneinheit (Fig. 9) überlagert Rauschdaten auf Sprachdaten, um so Daten zu bilden, die ein neues Bezugsmuster für jedes Sprachsegment darstellen. Diese Daten modifizieren die in dem Wörterbuch 6 gespeicherten Bezugsmuster. Die so modifizierten Bezugsmuster werden in dem ersten Spracherkennungsabschnitt verwendet, um eine kontinuierliche Musteranpassung zu bewirken, und auch in dem zweiten Spracherkennungsabschnitt, um eine Segmentmusteranpassung durchzuführen. Mit anderen Worten, die durch die Sprachmuster-Lerneinheit gebildeten Daten machen das Wörterbuch 6 wirksamer und zuverlässiger. Weiterhin modifiziert der Merkmalsvektor jedes Sprachsegmentes, der genau gemäß den Start- und Endpunkten ausgesiebt ist, die durch die kontinuierliche Musteranpassung erfaßt sind, das entsprechende Bezugsmuster, das in dem Wörterbuch 6 gespeichert ist, um so das Wörterbuch 6 wirksamer zu machen.
Das so fortgeschriebene Spracherkennungswörterbuch 6 dient sehr stark zur Steigerung der Erkennungsrate des Spracherkennungssystems.
Die vorliegende Erfindung ist nicht auf das oben beschriebene Ausführungsbeispiel begrenzt. Beispielsweise können Sprachsegmente anstelle von Wörtern wie in dem obigen Ausführungsbeispiel Phonen oder Silben sein. Weiterhin können die Erkennungskategorien anstelle von Wörtern wie in dem obigen Ausführungsbeispiel Ausdrükke, zusammengesetzte Wörter oder Sätze sein. Darüber hinaus braucht die Ordnung der Merkmalsvektoren, die in dem Spracherkennungsprozeß und dem Verfahren der Musteranpassung verwendet sind, nicht auf diejenigen begrenzt zu sein, die in dem oben beschriebenen Ausführungsbei spiel angewandt sind. Das erfindungsgemäße Spracherkennungssystem ist ein Hybridsystem, das eine kontinuierliche Musteranpassung und eine Segmentmusteranpassung beide ausführt, und es kann auf zahlreiche Weise innerhalb des Bereiches der vorliegenden Erfindung, wie diese durch die beigefügten Patentansprüche definiert ist, modifiziert werden.

Claims

1. Spracherkennungssystem mit:

einer Sprachanalyseeinrichtung (2) zum Analysieren einer Eingabesprache, um zeitserielle Daten für Merkmalsparameter der Eingabesprache zu erhalten,

einer Einrichtung (6) zum Speichern eines Bezugsmuster enthaltenden ersten Erkennungswörterbuches,

einer ersten Spracherkennungseinrichtung (7), die ausgelegt ist zum Gewinnen erster Wortmerkmalsvektoren aus den durch die Sprachanalyseeinrichtung erhaltenen zeitseriellen Daten gemäß einer Wortfleckmethode, ohne Wortgrenzen zu fixieren, und zum Korrelieren der ersten Wortmerkmalsvektoren mit den Bezugsmustern in dem ersten Erkennungswörterbuch, und

einer Erkennungsergebnis-Verarbeitungseinrichtung (11) zum Gewinnen von Spracherkennungsergebnissen aus den ersten Wortmerkmalsvektoren,

gekennzeichnet durch:

eine Segmentiereinrichtung (8) zum Erfassen von Start- und Endpunkten von jedem der ersten Wortmerkmalsvektoren,

eine Merkmalsvektor-Aussiebeinrichtung (9) zum Aussieben von zweiten Wortmerkmalsvektoren aus dem zeitseriellen Signal gemäß den erfaßten Start- und Endpunkten, und

eine zweite Spracherkennungseinrichtung (10), die ausgelegt ist, um die zweiten Wortmerkmalsvektoren bezüglich Mustern eines in der Speichereinrichtung (6) gespeicherten zweiten Erkennungswörterbuches zu korrelieren,

wodurch die Erkennungsergebnis-Verarbeitungseinrichtung (11) Endspracherkennungsergebnisse von den ersten und zweiten Wortmerkmalsvektoren erhält.

2. System nach Anspruch 1, bei dem die ersten Merkmalsvektoren von einer Ordnung niedriger als diejenige der zweiten Merkmalsvektoren sind.

3. System nach Anspruch 1 oder 2, bei dem die erste Spracherkennungseinrichtung (7) eine Einrichtung zum Korrelieren der ersten Merkmalsvektoren mit den in dem ersten Erkennungswörterbuch gespeicherten Bezugsmustern mittels einer Wortfleckmethode umfaßt, um die zeitseriellen Daten von ersten Ähnlichkeiten zu erhalten.

4. System nach Anspruch 1, 2 oder 3, bei dem die ersten und zweiten Spracherkennungseinrichtungen (7, 10) in der gleichen Weise die Ähnlichkeiten zwischen jedem der Merkmalsvektoren und den Bezugsmustern berechnen, um die Merkmalsvektoren mit den Bezugsmustern zu korrelieren.

5. Spracherkennungssystem nach einem vorangehenden Anspruch, mit einer Sprachmuster-Lerneinrichtung (21, 25) zum Fortschreiben der Inhalte der ersten und zweiten Erkennungswörterbücher.

6. System nach Anspruch 5, bei dem die Sprachmusterlerneinrichtung (21, 25) eine Einrichtung (23) zum Verarbeiten von Sprachdaten, die die Eingabesprache darstellen, und zum Bilden modifizierter Sprachdaten, eine Einrichtung (24) zum Erfassen von Startund Endpunkten für die Segmente der Eingabesprache gemäß den zeitseriellen Daten der Ähnlichkeiten, die durch die Wortfleckmethode erhalten sind, die durch die erste Spracherkennungseinrichtung durchgeführt ist, eine Einrichtung (2) zum Analysieren der modifizierten Sprachdaten, um zeitserielle Daten der Merkmalsparameter zu gewinnen, und eine Einrichtung zum Aussieben der ersten und zweiten Merkmalsparameter aus den zeitseriellen Daten der Merkmalsparameter gemäß den Start- und Endpunkten aufweist.

7. System nach Anspruch 6, bei dem die Sprachmuster- Lerneinrichtung (21, 25) eine Einrichtung (23) zum Addieren eines Rauschens zu den Sprachdaten umfaßt, um die Sprachdaten zu modifizieren.

8. Verfahren zum Erkennen einer Eingabesprache, mit:

Analysieren der Eingabesprache, um zeitserielle Daten der Merkmalsparameter in der Eingabesprache zu erhalten,

Gewinnen erster Wortmerkmalsvektoren aus den durch die Sprachanalyseeinrichtung erhaltenen zeitseriellen Daten gemäß einer Wortfleckmethode, ohne Wortgrenzen zu fixieren, und Korrelieren der ersten Wortmerkmalsvektoren mit in einem ersten Erkennungswörterbuch gespeicherten Bezugsmustern, um erste Erkennungsergebnisse zu erhalten, und

Gewinnen von Spracherkennungsergebnissen aus den ersten Wortmerkmalsvektoren,

gekennzeichnet durch die folgenden Schritte:

Erfassen von Start- und Endpunkten von jedem der ersten Wortmerkmalsvektoren,

Aussieben von zweiten Wortmerkmalsvektoren aus dem zeitseriellen Signal gemäß den erfaßten Start- und Endpunkten, und

Korrelieren der ausgesiebten zweiten Merkmalskandidaten mit Bezugsmustern, die in einem zweiten Erkennungswörterbuch gespeichert sind, um zweite Erkennungsergebnisse zu erhalten,

um so Enderkennungsergebnisse von den ersten und zweiten Erkennungsergebnissen zu gewinnen.

9. Verfahren nach Anspruch 8, bei dem die ersten Merkmalsvektoren von einer Ordnung niedriger als diejenige der zweiten Merkmalsvektoren sind.

10. Verfahren nach Anspruch 8 oder 9, bei dem der zweite Schritt einen Schritt des Korrelierens der ersten Merkmalsvektoren mit den in dem ersten Erkennungswörterbuch gespeicherten Bezugsmustern mittels einer Wortfleckmethode umfaßt, um die zeitseriellen Daten der ersten Ähnlichkeiten zu erhalten.

11. Verfahren nach Anspruch 8, 9 oder 10, bei dem die Ähnlichkeiten von jedem der Merkmalsvektoren und der Bezugsmuster in der gleichen Weise berechnet werden, um die Merkmalsvektoren mit den Bezugsmustern zu korrelieren.

12. Verfahren nach Anspruch 8, 9, 10 oder 11, weiterhin umfassend ein Fortschreiben der Inhalte der ersten und zweiten Erkennungswörterbücher.

13. Verfahren nach Anspruch 12, bei dem das Fortschreiben umfaßt: Verarbeiten von Sprachdaten, die die Eingabesprache darstellen, um modifizierte Sprachdaten zu bilden, Erfassen von Start- und Endpunkten für die Segmente der Eingabesprache gemäß den zeitseriellen Daten der Ähnlichkeiten, die durch die Wortfleckmethode erhalten wurden, die durch die erste Spracherkennungseinrichtung durchgeführt ist, Analysieren der modifizierten Sprachdaten, um zeitserielle Daten von Merkmalsparametern zu erhalten, und Aussieben der ersten und zweiten Merkmalsparameter aus den zeitseriellen Daten der Merkmalsparameter gemäß den Start- und Endpunkten.

14. Verfahren nach Anspruch 13, bei dem das Fortschreiben ein Addieren von Rauschen zu den Sprachdaten umfaßt, um die Sprachdaten zu modifizieren.