DE69028021T2

DE69028021T2 - Einrichtung zur Erkennung von kontinuierlicher Sprache

Info

Publication number: DE69028021T2
Application number: DE69028021T
Authority: DE
Inventors: Kazunaga Yoshida
Original assignee: NEC Corp; Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1989-01-12
Filing date: 1990-01-11
Publication date: 1997-01-02
Anticipated expiration: 2010-01-12
Also published as: US5086472A; EP0378212A3; EP0378212A2; JP2841404B2; EP0378212B1; DE69028021D1; JPH02186398A

Description

Die vorliegende Erfindung betrifft eine Verbesserung einer Einrichtung zur Erkennung von kontinuierlicher Sprache,um kontinuierlich ausgesprochene Sprache zu erkennen.
Als herkömmliches Verfahren zum Erkennen kontinuierlich ausgesprochener Sprache gemäß einer vorgegebenen Grammatik ist ein Verfahren bekannt, das in einem Dokument mit dem Titel "Structural Methods in Automatic Speech Recognition" (von Stephen E. Levinson, Proceeding of the IEEE, Bd. 73, Nr. 11, November 1985, S. 1625 - 1650) beschrieben ist (worauf hier nachfolgend noch als Dokument 1 Bezug genommen werden soll). Bei diesem Verfahren wird kontinuierliche Sprache durch Angleichung mittels dynamischer Programmierung (DP-Angleichung) auf der Basis von Standardmustern in Worteinheiten, die gemäß einem endlichen Zustands-Automaten (ZA) (finite-state automaton) verbunden werden, die die übliche Grammatik repräsentiert, erkannt. Gemäß diesem Verfahren kann kontinuierliche Sprache durch einen entsprechenden Rechenaufwand erkannt werden. Als weiteres Verfahren zum Erkennen von kontinuierlicher Sprache gemäß des endlichen ZA ist ein Verfahren zum Verwenden eines "Hidden Markov Model" (das hier nachfolgend als HMM bezeichnet werden soll), das in "D. PARSING, D1. Overview of Parsing Techniques" (The Handbook of Artificial Intelligence, Bd. 1 beschrieben ist und von A. Barr et al., Heuris Tech Press, S. 256 - 262) herausgegeben wurde, ebenfalls bekannt (worauf hier nachfolgend noch als Dokument 2 Bezug genommen werden soll). Kontinuierliche Spracherkennung kann durch Verwenden eines Viterbi-Algorithmus erzielt werden, wie auf Seite 46 des Dokuments 2 beschrieben ist.
Nachfolgend wird ein Fall beschrieben, in dem kontinuierliche Sprache durch Rahmensynchronisationsangleichung an eine durchschnittliche Tonlage unter Verwendung der durch den in dem Dokument 1 beschriebenen endlichen ZA genannten Grammatik erkannt wird. Die grundsätzliche Bearbeitungsreihenfolge des Verfahrens, das das in dem Dokument 2 beschriebene HMM-Modell verwendet, ist die gleiche wie die in dem Dokument 1 und kann auf die gleiche Weise wie in dem Dokument 1 ausgeführt werden. Nachfolgend wird ein Fall beschrieben, in dem ein Wort als Erkennungseinheit verwendet wird. Jedoch kann selbstverständlich auch eine von einem Wort abweichende Einheit, z. B. ein Phonem, verwendet werden.
Ein Spracheingabemuster (Eingabemuster) kann durch eine Zeitreihe von Eigenschaften ausgedrückt werden:
A = a1, a2,...ai,...aI (1)
Wenn ein Wort, das erkannt werden soll, durch n dargestellt wird, kann ein Standardmuster ausgedrückt werden durch:
Bn = bn1,bn2,...bnj,...bJn (2)
Ein Abstand zwischen einer Eigenschaft ai des Eingabemusters und einer Eigenschaft b des Standardmusters wird durch d(n;i,j) bestimmt. Als Wortpegelbearbeitung wird eine DP- Rekursionsformel für den folgenden Sammelwert g aufgelöst, um einen Zwischenwortabstand zu berechnen. Zur gleichen Zeit wird ein Pfadwert L berechnet, um ein Erkennungsergebnis, das bei einer durchgeführten kontinuierlichen Spracherkennung erzielt wurde, zurückzuverfolgen.
Anfangswerte: g(m;i,0) = 0
L(n;i,0) = 1 (3)
g(n;i,j) = d(n;i,j)+min[g(n;i-1,j), g(n;i-1,j-1),g(n;i-1,j-2)] (4)
[1] L(n;i,j) = L(n;i-1,j)
[2] L(n;i-1,j-1)
[3] L(n;i-1,j-2) (5)
[x] in den Formeln (5) bedeutet, daß die entsprechende Formel gewählt wird, wenn ein x-ter Sammelwert in der Bearbeitung von min[] in der Formel (4) das Minimum ist. Ein Zwischenwortabstand in einem Rahmen i des Eingabemusters wird als g(n;i,Jn) erhalten. Beim Anfangspunkt des Eingabemusters wird in bezug auf das Standardmuster in dieser Zeit ein Rahmen als Pfadlänge L(n;i,Jn) erhalten. In den Formeln (3) gilt 0 als Anfangswert des Sammelwertes. Wenn sich jedoch während einer Satzpegelbearbeitung ein Sammelwert eines unmittelbar verarbeiteten Wortes entsprechend des endlichen ZA ergibt und ein Wortpegel-Erkennungsergebnis erhalten wird, kann eine kontinuierliche Spracherkennung durchgeführt werden.
Die übliche Grammatik genügt nicht, um die Komplexität einer natürlichen Sprache zu verarbeiten, und es ist vorzuziehen, eine kontextfreie Grammatik zu verwenden, die eine größere Ausdruckskraft besitzt. Bei der kontextfreien Grammatik besteht die linke Seite einer Entwicklungsregel aus einem Nicht-Ergebnissymbol, wie in "C. GRAMMARS, Cl. Formal Grammars" (The Handbook of Artificial Intelligence, Bd. I, herausgegeben von A. Barr et al., Heuris Tech Press, S. 239 - 244) beschrieben ist (worauf hier nachfolgend noch als Verweis 3 Bezug genommen werden soll). Zum Beispiel soll die kontextfreie Grammatik zum Erzeugen eines bestimmten Satzes nachfolgend als Beispiel dienen.
S T N VP
VP T V N
N T "Buben"
N T "Äpfel"
V T "essen"
Auf diese Weise kann ein Satz "Buben essen Äpfel" generiert werden. Die kontextfreie Grammatik hat im Vergleich zu der üblichen Grammatik die charakteristische Eigenschaft, eine wiederkehrende Entwicklungsregel verwenden zu können.
Ein Verfahren zum Erkennen kontinuierlicher Sprache unter Verwendung der kontextfreien Grammatik ist schon verfügbar. Zum Beispiel werden ein CYK-Verfahren, ein Earley-Verfahren und dergleichen auf den Seiten S. 128 ff in dem Dokument 2 beschrieben.
Wenn kontinuierliche Sprache erkannt werden soll, ist bei dem Verfahren, das dem in dem Dokument 1 beschriebenen endlichen ZA verwendet, eine zum Ausdruck kommende Grammatik auf die übliche Grammatik begrenzt. Wenn die kontextfreie Grammatik für den endlichen Zustands-Automaten entwickelt wird, falls eine Entwicklungsregel die folgenden wiederkehrenden Ausdrücke beinhaltet, wird ein Netz unbegrenzt generiert, und solche Ausdrükke können nicht verarbeitet werden:
S T aSb
S T ab
Auf diese Weise kann bei dem herkömmlichen Verfahren, das den endlichen ZA verwendet, die kontextfreie Grammatik, die eine stärkere Ausdruckskraft besitzt, nicht verwendet werden, um eine natürliche Sprache auszudrücken.
Gemäß dem CYK-Verfahren oder dem Earley-Verfahren, die in dem Dokument 2 beschrieben sind, kann die kontextfreie Grammatik verarbeitet werden. Jedoch ist der Rechenaufwand sehr groß.

Zusammenfassung der Erfindung

Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Einrichtung mit großer Leistung zur Erkennung kontinuierlicher Sprache zu schaffen, die die kontextfreie Grammatik bei einem Bearbeitungsaufwand verarbeiten kann, der dem eines Verfahrens gleicht, das einen endlichen Zustands-Automaten (ZA) verwendet.
Gemäß einem ersten Aspekt der vorliegenden Erfindung wurde eine Einrichtung zur Erkennung von kontinuierlicher Sprache geschaffen, um kontinuierliche Sprache durch Koppeln von Standardmustern in Einheiten von vorgegebenen Erkennungseinheiten entsprechend einem vorgegebenen Netz zu erkennen, das Teilnetze enthält, die zwischen vorgegebene Aufruf- und Rücksprungpunkte in dem Netz eingefügt sind und die einen Standardmusterspeicher zum Speichern der Standardmuster, einen Abstandsberechnungsteil zum Berechnen von Abständen zwischen Rahmen eines Spracheingabemusters und den Standardmustern, einen Sammelwert-Berechnungsteil zum Berechnen der Sammelwerte der Abstände auf den Anpassungspfaden, die Rahmen des Sprachmusters sowie die Standardmuster dazu bringen, einander zu entsprechen, einen Sammelwertspeicher zum Speichern der Sammelwerte, einen Rücksprungpunktspeicher zum Speichern der Adresse des Rücksprungpunkts des Teilnetzes entsprechend der gleichen Adresse wie der des Sammelwertspeichers, einen Aufrufbearbeitungsteil zum Schreiben eines Mindestwertes der Sammelwerte in eine Vielzahl von Aufrufpunkten für das Teilnetz als Anfangswert des Sammelwerts für das Teilnetz in dem Sammelwertspeicher und zum Schreiben einer Adresse eines Rücksprungpunkts entsprechend dem Aufrufpunkt, der den Mindestwert in dem Rücksprungpunktspeicher als einen Anfangswert liefert, und einen Rücksprungbearbeitungsteil zum Schreiben eines Sammelwerts an einen Anschlußpunkt des Teilnetzes in den Sammelwertspeicher, der durch die Rücksprungpunktadresse adressiert ist, die in dem Rücksprungpunktspeicher bei dem Anschlußpunkt des Teilnetzes gespeichert ist, aufweisen.
In einer Einrichtung zur Erkennung von kontinuierlicher Sprache gemäß einem zweiten Aspekt der vorliegenden Erfindung schreibt zusätzlich zu dem ersten Aspekt der vorliegenden Erfindung der Rücksprungbearbeitungsteil Sammelwerte und Adressen von Rücksprungpunkten als Anfangswerte von N (N ist eine beliebige Zahl gleich oder größer 1) Bereichen des Teilnetzes, die in dem Sammelwertspeicher und dem Rücksprungpunktpeicher für N kleinere, aus den Sammelwerten ausgewählten Kandidaten vorbereitet wurden, an eine Vielzahl von Auf rufpunkten für das Teilnetz.
Außer dem zweiten Aspekt der vorliegenden Erfindung enthält eine Einrichtung zur Erkennung vön kontinuierlicher Sprache gemäß einem dritten Aspekt der vorliegenden Erfindung ferner eine Kandidatenzahl-Tabelle zum Kennzeichnen der Zahl N der Kandidaten der Sammelwerte in Einheiten der Teilnetze.
Zusätzlich zu dem ersten Aspekt der vorliegenden Erfindung schreibt der Aufrufbearbeitungsteil in einer Einrichtung zur Erkennung von kontinuierlicher Sprache gemäß einem vierten Aspekt der vorliegenden Erfindung einen Mindestwert der Sammelwerte an eine Vielzahl von Aufrufpunkten für das Teilnetz sowie Sammelwerte und Rücksprungpunktadressen von Kandidaten, von denen jeder vom Mindestwert um nicht mehr als einen vorgegebenen Wert abweicht, als Anfangswerte der Bereiche für das Teilnetz, die in dem Sammelwertspeicher und dem Rücksprungpunktspeicher vorbereitet werden.
Zusätzlich zu den Aspekten eins bis vier der vorliegenden Erfindung enthält eine Einrichtung zur Erkennung von kontinuierlicher Sprache gemäß einem fünften Aspekt der vorliegenden Erfindung außerdem einen Bearbeitungssteuerteil zum Anhalten aller Bearbeitungsoperationen des Netzes, wenn es zum Verarbeiten in einem Bereich des Sammelwertspeichers entsprechend einem partiellen Netz, das durch das Teilnetz und die Aufruf- und Rücksprungpunkte definiert wird, keinen Sammelwert gibt.
Zusätzlich zu den Aspekten eins bis fünf der vorliegenden Erfindung enthält eine Einrichtung zur Erkennung von kontinuierlicher Sprache gemäß einem sechsten Aspekt der vorliegenden Erfindung außerdem einen Pfadwertspeicher zum Speichern eines Rahmens eines Sprachmusters entsprechend einem Startpunkt des Teilnetzes auf einem Anpassungspfad bei der gleichen Adresse wie der des Sammelwertspeichers und eine Rücksprungpunkttabelle zum Speichern der Adresse des Rücksprungpunkts, bei welchem der Aufrufbearbeitungsteil die Adresse des Rücksprungpunkts an den Startpunkt des Teilnetzes in dem Rahmen schreibt und der Rücksprungbearbeitungsteil die Adresse des Rücksprungpunkts aus dem Rahmen ausliest, der durch den in dem Pfadwertspeicher gespeicherten Rahmen adressiert ist.
Nachfolgend wird die Operation der Einrichtung zur Erkennung von kontinuierlicher Sprache gemäß der vorliegenden Erfindung beschrieben. Gemäß der vorliegenden Erfindung werden Aufruf- und Rücksprung-Bearbeitungsoperationen für ein Teilnetz dem Verfahren zur Erkennung von kontinuierlicher Sprache hinzugefügt, indem der in dem Dokument 1 beschriebene endliche ZA verwendet wird und so eine Verwendung der kontextfreien Grammatik ermöglicht wird.
Die Aufruf- und Rücksprung-Bearbeitung für ein Teilnetz wird in den endlichen ZA eingefügt, um die Maschine zu einem Kellerautomaten weiterzuentwickeln. Fig. 5 ist ein Bild zum Erklären der Funktion des Kellerautomaten. Bei einer Aufrufverzweigung wird ein Teilnetz aufgerufen, und eine Bearbeitung wird auf einem Rücksprungpfad von dem Teilnetz zu der vorherigen Stelle des Netzes zurückgeleitet. Der oben beschriebene Kellerautomat ist zu der kontextfreien Grammatik genau äquivalent. Wenn jedoch dieser Kellerautomat auf ein Verfahren zur Erkennung von kontinuierlicher Sprache angewandt wird und dabei der endliche ZA ohne Änderungen verwendet wird, so wird ein Netz unbegrenzt angeregt, wenn ein immer wieder auftretender Aufruf des Teilnetzes vorliegt. Daher kann der Kellerautomat nicht direkt auf das Verfahren zur Erkennung von kontinuierlicher Sprache angewendet werden.
Gemäß dem ersten Aspekt der vorliegenden Erfindung wird ein Mindestwert von den Sammelwerten der Abstände an den Quellen aller Aufrufverzweigungen (Aufrufpunkte) zum Aufrufen eines bestimmten Teilnetzes als Anfangswert g(n;i,0) eines Sammelwerts g des Teilnetzes in der Formel (3) definiert. Außerdem ersetzt eine Adresse von einem Ende der Aufrufverzweigung (Rücksprungpunkt), die den Mindestwert liefert, eine Adresse m des Rücksprungpunkts in einem Anfangswert m(n;i,0). Die Adresse m des Rücksprungpunkts wird gemäß dem Rechenergebnis der Rekursionsformel (4) auf die gleiche Art, wie sich die Pfadwerte L in den Formeln (5) der Pfade zusammen mit einem Startrahmen der Eingabemuster fortpflanzen, folgendermaßen berechnet:
[1] m(n;i,j) = m(n;i-1,j)
[2] m(n;i-1,j-1)
[3] m(n;i-1,j-2) (6)
Beim Anschlußpunkt des Teilnetzes wird eine Adresse m(n;i,Jn) des Rücksprungpunkts, die einen Mindestwert an den Startpunkt liefert, ausgelesen, und ein Sammelwert g(n;i,Jn) wird als Anfangswert g(k;i,0) des Sammelwerts g eines Netzes k entsprechend der Adresse ersatzweise eingesetzt.
Bei diesem Verfahren kann eine Bearbeitung durch den Kellerautomaten, ohne daß ein Netz unbegrenzt angeregt wird, mit dem im wesentlichen gleichen Rechenaufwand wie in dem Fall, bei dem der endliche ZA verwendet wird, realisiert werden. Da jedoch die Festlegung des Mindestwerts zum Berechnen eines Anfangswerts eines Teilnetzes die Wahl eines Pfades an dem Anschlußpunkt beeinflußt, kann das DP-Prinzip nicht strikt festgelegt werden, und man erhält eine fast optimale Lösung. Sogar wenn bei dem Startpunkt eines Teilnetzes irrtümlich ein anderer Pfad als der zum Optimieren des ganzen Netzes gewählt wird, führt dies nicht immer direkt zu einer Fehlererkennung. Der von diesem Fehler verursachte Einfluß muß jedoch auf ein Minimum beschränkt werden.
Mit Rücksicht auf diese Beziehung gemäß dem zweiten Aspekt der vorliegenden Erfindung werden N (N ist ein beliebiger Wert gleich oder größer als 1) kleinere Kandidaten als der Mindestwert aus den Sammelwerten der Abstände bei allen Aufrufpunkten zum Aufrufen der Teilnetze erzielt, und es werden die Rekursionsformeln (4), (5) und (6) in dem Teilnetz in Kandidateneinheiten berechnet.
Die Anzahl der Aufrufzeiten variiert in Abhängigkeit von den Teilnetzen. Wenn die Anzahl der Aufrufzeiten erhöht wird, verursacht das entsprechende Teilnetz in diesem Fall an seinem Startpunkt mehr Pfadwahlfehler. Zusätzlich zu der Anzahl an Aufrufzeiten wird die Fehlerrate durch verschiedene andere Ursachen bestimmt, z. B. ob bis zum Aufrufen ein einfaches Wort vorliegt oder nicht. Gemäß dem dritten Aspekt der vorliegenden Erfindung wird daher eine Tabelle zum vorherigen Festlegen der Anzahl N der Kandidaten für jedes Teilnetz vorbereitet. Somit kann die Anzahl N für ein Teilnetz, das zum Erzeugen eines Fehlers geeignet ist, erhöht werden, während die Anzahl N für ein Teilnetz, das selten einen Fehler verursacht, verringert werden kann. Folglich kann bei einem minimalen Anstieg des Rechenaufwands ein Auswahlfehler verkraftet werden.
Gemäß dem vierten Aspekt der vorliegenden Erfindung wird die Anzahl an Kandidaten nicht von N abweichend vorher festgelegt, wenn ein Teilnetz aufgerufen wird, und ein Sammelwert von einem Aufrufpunkt, der einen Mindestsammelwert liefert, sowie Sammelwerte von Aufrufpunkten, von denen bei jedem der Unterschied zwischen seinem Sammelwert und dem erhaltenen Mindestwert gleich oder kleiner als ein vorgegebener Wert T ist, werden als Kandidaten gewählt. Somit kann eine entsprechende Anzahl von Kandidaten entsprechend einem konkreten Sprachmuster weggelassen werden. Zusätzlich zu einem auf einem Abstand basierenden Hinweis kann die maximale Anzahl an Kandidaten vorherbestimmt werden.
Wenn die Anzahl an Kandidaten der Teilnetze gemäß den Sammelwerten auf diese Weise geändert werden kann, kann ein Anfangswert des Sammelwerts g nicht so oft einem Bereich für eine Vielzahl von Kandidaten der Teilnetze geliefert werden. Falls ein bestimmter Aufrufpunkt nicht ausgewählt ist, wenn ein Teilnetz aufgerufen wird, wird niemals ein Anf angswert an einen Rücksprungpunkt entsprechend dem nicht gewählten Aufrufpunkt geliefert. Wenn kein Anfangswert geliefert wird, brauchen die Rekursionsformeln (4), (5) und (6), die einem partiellen Netz nach dem Teilnetz entsprechen, und der Rücksprungpunkt nicht berechnet werden.
Wenn eine Rekursionsformel in einer Standardmusterrichtung eine Neigungsbegrenzung verhängt, wenn die folgende Rekursionsformel verwendet wird, muß sie nicht berechnet werden, wenn ein Anfangswert nicht ununterbrochen für eine bestimmte Anzahl von Rahmen vorgesehen wird, nachdem der erste Anfangswert bereitgestellt wurde:
g(n;i,j) = d(n;i,j)+min[g(n;i-2,j-1), g(n;i-1,j-1),g(n;i-1,j-2)] (7)
Zum Beispiel ist die bestimmte Anzahl an Rahmen in der Rekursionsformel (7) 2 × Jn (Rahmen).
Somit werden gemäß dem fünften Aspekt der vorliegenden Erfindung, wenn eine Rekursionsformel nicht berechnet werden muß, eine Berechnung der Rekursionsformel und eine Aufrufbearbeitung des niederwertigen Teilnetzes in dem partiellen Netz (einschließlich der Teilnetze) weggelassen. Insbesondere können alle Bearbeitungsoperationen für das partielle Netz einschließlich einer Berechnung der Rekursionsformel angehalten werden, bevor ein Anfangswert für ein bestimmtes partielles Netz definiert wird, oder wenn die bestimmte Anzahl an Rahmen abgelaufen ist, nachdem der letzte Anfangswert definiert worden ist, wodurch unwirtschaftliche Berechnungen vermieden werden.
In der obigen Beschreibung wird die Adresse m des Rücksprungpunkts zusammen mit der Rekursionsformel wie in den Formeln (6) berechnet. Jedoch ist der Rechenaufwand der Formeln (6) nicht geringfügig, da die Rekursionsformel eine große Anzahl an Rechenzeiten erfordert. Daher wird gemäß dem sechsten Aspekt der vorliegenden Erfindung eine Rücksprungpunkttabelle M(i) zum Speichern einer Adresse eines Rücksprungpunkts in Übereinstimmung mit einem Rahmen i (1 ≤ i ≤ I) eines Eingabemusters vorbereitet. Beim Startpunkt eines Teilnetzes wird die Adresse eines Rücksprungpunkts in der Rücksprungpunkttabelle M(i) ersetzt. Wenn die Rekursionsformel berechnet wird, wird nur der in den Formeln (5) gezeigte Pfadwert L berechnet. Bei dem Anschlußpunkt eines Teilnetzes wird ein Rahmen "is" = L (n;i,Jn) entsprechend dem Startpunkt ausgelesen, die Adresse des Rücksprungpunkts aus der Rücksprungpunkttabelle M(is), die "is" verwendet, ausgelesen und ein Sammelwert g(n;i,Jn) wird als Anfangswert g(k;i,0) eines Netzesk in bezug auf die Ausleseadresse ersetzt. Somit gleicht die Bearbeitung der Berechnungen der Rekursionsformel der bei dem herkömmlichen Verfahren zur Erkennung von kontinuierlicher Sprache, das den endlichen ZA verwendet. Der gesamte Bearbeitungsaufwand der Satzpegelbearbeitung ist kleiner als der der Wortpegelbearbeitung, und der Bearbeitungsaufwand dieses Verfahrens ist im wesentlichen der gleiche wie bei einem herkömmlichen Verfahren. Somit kann ein Anwachsen des Rechenaufwands verhindert werden.

Kurze Beschreibung der Zeichnungen

Fig. 1 ist ein Blockdiagramm, das ein Ausführungsbeispiel gemäß den Aspekten eins bis fünf der vorliegenden Erfindung zeigt;
Fig. 2 ist ein Bild zum Erklären einer Satzpegelbearbeitung gemäß dem ersten Aspekt der vorliegenden Erfindung;
Fig. 3 ist ein Bild zum Erklären einer Satzpegelbearbeitung gemäß den Aspekten zwei bis fünf der vorliegenden Erfindung;
Fig. 4 ist ein Blockdiagramm, das ein weiteres Ausführungsbeispiel gemäß dem sechsten Aspekt der vorliegenden Erfindung zeigt; und
Fig. 5 ist ein Bild zum Erklären einer Operation eines Kellerautomaten.

Beschreibung der bevorzugten Ausführungsbeispiele

Nachfolgend wird ein Ausführungsbeispiel einer Einrichtung zur Erkennung von kontinuierlicher Sprache gemäß der vorliegenden Erfindung in bezug auf die begleitenden Zeichnungen beschrieben.
Fig. 1 zeigt ein Ausführungsbeispiel gemäß den Aspekten eins bis fünf der vorliegenden Erfindung.
Ein Standardmusterspeicher 1 speichert die Standardmuster B vor. Ein Abstands-Berechnungsteil 2 liest eine Eigenschaft ai aus einem i-ten Rahmen eines Eingabemusters A und eine Eigenschaftsmenge bnj eines j-ten Rahmens eines Standardmusters Bn eines Worts n aus, berechnet einen Abstand d(n;i,j) zwischen den Eigenschaftsmengen und gibt ihn aus. Ein Sammelwert, der den Teil 3 berechnet, berechnet die Rekursionsformel (4) unter Verwendung des Eingangsabstands d. Ein Sammelwert g, der zum Berechnen der Rekursionsformel nötig ist, wird in einem Sammelwertspeicher 4 gespeichert und wird von dem Sammelwert-Berechnungsteil 3 je nach Bedarf ausgelesen bzw. geschrieben. Analog speichert ein Rücksprungpunktspeicher 5 die Adressen m der Rücksprungpunkte, und der Sammelwert-Berechnungsteil 3 berechnet die Formeln (6) zusammen mit der Rekursionsformel unter Verwendung der Adressen m. Die obigen Operationen sind Wortpegelbearbeitungen und gleichen denen der herkömmlichen Verfahren zur Erkennung von kontinuierlicher Sprache durch an DP angepaßte Rahmensynchronisation, wie in dem Dokument 1 beschrieben.
Nachfolgend wird die Satzpegelbearbeitung beschrieben. Wenn die Wortpegelbearbeitung für den i-ten Rahmen des Eingabemusters A abgeschlossen ist, liest ein Aufrufbearbeitungsteil 6 die Sammelwerte g an Aufrufpunkten aus dem Sammelwertspeicher 4 aus. Diese Werte werden verglichen, und der erhaltene Sammelwert g wird als Anfangswert eines Teilnetzes in den Sammelwertspeicher 4 geschrieben. Eine Adresse m des Rücksprungpunkts entsprechend dem erhaltenen Sammelwert wird in den Rücksprungpunktspeicher 5 geschrieben.
Ein Rücksprungbearbeitungsteil 7 liest den Sammelwert g beim Anschlußpunkt eines Teilnetzes aus dem Sammelwertspeicher 4 und die Adresse m des Rücksprungpunkts aus dem Rücksprungpunktspeicher 5 aus. Dann schreibt der Teil 7 den ausgelesenen Sammelwert g in den Sammelwertspeicher 4, der durch die Adresse m adressiert ist.
Nachfolgend wird die Satzpegelbearbeitung ausführlicher beschrieben. Als Beispiel einer Grammatik wird die folgende Entwicklungsregel verwendet:
U T m P n P k (8)
P T s (9)
wobei m, n, k und s Ergebnissymbole darstellen, d. h. Standardmuster von Worten, und P ein Nicht-Ergebnissymbol. In diesem Beispiel gibt es keinen wiederkehrenden Aufruf. Jedoch kann die gleiche Bearbeitung durchgeführt werden, wenn ein wiederkehrender Aufruf vorliegt.
Nachfolgend wird die Satzpegelbearbeitung des Ausführungsbeispiels gemäß dem ersten Aspekt der vorliegenden Erfindung beschrieben. Fig. 2 ist ein Bild zum Erklären der Satzpegelbearbeitung gemäß dem ersten Aspekt der vorliegenden Erfindung. Ein Sammelwertspeicher 4 speichert den Sammelwert g in der Formel (4), und ein Rücksprungpunktspeicher 5 speichert die Adresse m des Rücksprungpunkts in den Formeln (6). Wie in Fig. 1 gezeigt wird, sind diese Speicher die gleichen wie der Sammelwertspeicher 4 und der Rücksprungpunktspeicher 5. Wie in Fig. 2 gezeigt wird, sind die Bereiche der Sammelwerte g entsprechend den Worten m, n, k und s vorbereitet. Die Adressen von dem Sammelwertspeicher 4 und dem Rücksprungpunktspeicher 5 entsprechend den Start- und Endpunkten von Worten werden durch m:m1,mJm, n:n1,jJn, k:k1,kJk bzw. s:s1,sJs dargestellt. Somit sind die Adressen von Aufrufpunkten für ein Teilnetz P gleich mJm und nJn. Die Adressen von Rücksprungpunkten sind die, deren Anfangswerte in dem Sammelwertspeicher 4 ersetzt sind, und zwar n0 und k0, entsprechend den Adressen direkt vor dem Startpunkt.
Der Aufrufbearbeitungsteil 6 liest einen Sammelwert g(m;i,mJm) bei dem Aufrufpunkt mJm und einen Sammelwert g(n;j,nJn) bei dem Aufrufpunkt nJn aus dem Sammelwertspeicher 4 aus und vergleicht diese Werte. Ein Mindestwert dieser Werte, d. h. ein kleinerer Sammelwert ming wird an die Adresse s0 des Sammelwertspeichers 4 als Anfangswert g(s;i,s0) des Sammelwerts für das Teilnetz P geschrieben. Eine Rücksprungpunktadresse min0 (n0 oder k0) entsprechend dem Rücksprungpunkt, der ming bereitstellt, wird an die Adresse s0 des Rücksprungpunktspeichers 5 als Anfangswert m(s;i,s0) der Rücksprungpunktadresse geschrieben.
Der Rücksprungbearbeitungsteil 7 schreibt am Anfang einen großen Wert in die Bereiche des Sammelwertspeichers 4 entsprechend allen Rücksprungpunkten n0 und k0, damit sie den Speicher 4 initialisieren. Daraufhin liest der Teil 7 eine Rücksprungpunktadresse m(s;i,sJs) = min0' bei dem Anschlußpunkt sJs des Teilnetzes P aus dem Rücksprungpunktspeicher 5 aus. Der Teil 7 liest auch einen Sammelwert g(s:sJs) an dem Anschlußpunkt aus dem Sammelwertspeicher 4 aus und schreibt ihn an die Stelle der schon ausgelesenen Rücksprungpunktadresse min0' in den Sammelwertspeicher 4. Auf diese Weise wird die Satzpegelbearbeitung abgeschlossen.
Nachfolgend wird die Satzpegelbearbeitung eines Ausführungsbeispiels gemäß dem zweiten Aspekt der vorliegenden Erfindung beschrieben. Fig. 3 ist ein Bild zum Erklären der Satzpegelbearbeitung gemäß den Aspekten zwei bis fünf der vorliegenden Erfindung. Gemäß dem zweiten Aspekt der vorliegenden Erfindung wird eine Vielzahl von Bereichen in dem Sammelwertspeicher 4 und dem Rücksprungpunktspeicher 5 für ein Teilnetz vorbereitet. Wenn zum Beispiel die Pfade bis zu den zweitgrößten Werten beibehalten werden sollen, werden zwei Bereiche P1 und P2 für das Teilnetz P vorbereitet. Die Adressen der Bereiche P1 und P2 in dem Sammelwertspeicher 4 und dem Rücksprungpunktspeicher 5 entsprechend den Start- und Endpunkten des Wortes 5 werden durch s10 und s1Js bzw. s20 und s2Js dargestellt.
Der Aufrufbearbeitungsteil 6 liest einen Sammelwert g(m;i,mJm) beim Aufrufpunkt mJm und einen Sammelwert g(n;j,nJn) beim Aufrufpunkt nJn aus dem Sarnmelwertspeicher 4 aus, um durch Vergleichen dieser Werte einen Kandidaten zu wählen. Wenn ein N-tkleinster Sammelwert durch ming(N) dargestellt wird, so werden in diesem Fall die Sammelwerte ming(1) und ming(2) bis zu den zweitkleinsten Werten als Kandidaten gewählt. Diese Werte werden an die Adressen s10 und s20 des Sammelwertspeichers 4 als Anfangswerte g(s;i,s10) und g(s;i,s20) der Sammelwerte der Bereiche P1 und P2 geschrieben. In diesem Fall werden die Rücksprungpunktadressen min10 und min20 (n0 oder k0) entsprechend den Rücksprungpunkten, die ming(1) und ming(2) bereitstellen&sub1; in den Rücksprungpunktspeicher 5 als Anfangswerte m(s;i,s10) und m(s;i,s20) der Rücksprungpunktadressen der Bereiche P1 und P2 geschrieben. Die Bearbeitung des Rücksprungbearbeitungsteils 7 ist die gleiche wie die entsprechend dem ersten Aspekt der vorliegenden Erfindung.
Nachfolgend wird die Satzpegelbearbeitung eines Ausführungsbeispiels gemäß dem dritten Aspekt der vorliegenden Erfindung beschrieben. Gemäß dem dritten Aspekt der vorliegenden Erfindung wird zusätzlich zu der Anordnung gemäß dem zweiten Aspekt der vorliegenden Erfindung eine Kandidatenzahl-Tabelle 8 angelegt. Wenn der N-tkleinste Sammelwert ming(N) von den Sammelwerten g der Aufrufpunkte, die durch den Aufrufbearbeitungsteil 6 aus dem Sarnmelwertspeicher 4 ausgelesen wurden, gewählt wird, dann wird ein in der Kandidatenzahl-Tabelle 8 in Einheiten der Teilnetze vorrätig gehaltener Wert ausgelesen und als der Wert N verwendet. Andere Bearbeitungsoperationen sind die gleichen wie die gemäß dem zweiten Aspekt der vorliegenden Erfindung.
Nachfolgend wird die Satzpegelbearbeitung eines Ausführungsbeispiels gemäß dem vierten Aspekt der vorliegenden Erfindung beschrieben. Gemäß dem vierten Aspekt der vorliegenden Erfindung wird eine Vielzahl von Kandidaten von den Sammelwerten g der Aufrufpunkte, die durch den Aufrufbearbeitungsteil 6 aus dem Sammelwertspeicher 4 ausgelesen wurden, folgendermaßen ausgewählt: Zuerst wird ein Mindestwert ming aus den Sammelwerten g bei den Aufrufpunkten gewählt. Dann werden die Werte g, von denen jeder unterschiedlich ist, mit dem Mindestwert ming, der gleich oder kleiner als ein vorgegebener Schwellwert T ist, d. h. die folgende Beziehung erfüllt, gewählt:
g - ming < T (10)
Die gewählten Sammelwerte g und die Adreßwerte der Rücksprungpunkte werden als Anfangswerte einer Vielzahl von Bereichen für Teilnetze in den Sammelwertspeicher 4 und den Rücksprungpunktspeicher 5 geschrieben. Andere Bearbeitungsoperationen sind die gleichen wie die gemäß dem zweiten Aspekt der vorliegenden Erfindung.
Nachfolgend wird die Satzpegelbearbeitung eines Ausführungsbeispiels gemäß dem fünften Aspekt der vorliegenden Erfindung beschrieben. Gemäß dem fünften Aspekt der vorliegenden Erfindung wird die Schreibinformation w an einen Bearbeitungssteuerteil 9 ausgegeben, wenn die Anfangswerte an die Startpunkte s10, s20, n0 und k0 eines partiellen Netzes in dem Sammelwertspeicher 4 und dem Rücksprungpunktspeicher 5 geschrieben werden. Nach dem Empfang der Schreibinformation w gibt der Bearbeitungssteuerteil 9 ein Steuersignal c, das anzeigt, daß das partielle Netz der Schreibinformation w entspricht, an den Sammelwert-Berechnungsteil 3, den Aufrufbearbeitungsteil 6 und den Rücksprungbearbeitungsteil 7 aus, wobei der Start der Bearbeitung angewiesen wird. Wenn das Steuersignal c eingegeben wird, werden die Wortpegelbearbeitung und die Satzpegelbearbeitung für das entsprechende partielle Netz ausgeführt. Wenn keine Bearbeitungs-Startanweisung durch das Steuersignal c eingegeben wird, werden diese Bearbeitungsoperationen für das entsprechende Teilnetz nicht ausgeführt.
Wenn die Anfangswerte eingestellt sind, beginnt der Bearbeitungssteuerteil 9, die Anzahl an Eingaberahmen in Einheiten der partiellen Netze zu zählen. Wenn kein Anfangswert als vorgegebener Zählwert eingestellt ist, dann wird die Bearbeitung beim partiellen Netz durch das Steuersignal c angehalten. Andere Bearbeitungsoperationen sind die gleichen wie die entsprechend den Aspekten eins bis vier der vorliegenden Erfindung.
Nun wird ein Ausführungsbeispiel gemäß dem sechsten Aspekt der vorliegenden Erfindung beschrieben. Fig. 4 zeigt ein Ausführungsbeispiel gemäß dem sechsten Aspekt der vorliegenden Erfindung. Es wird eine Rücksprungpunkttabelle 10 zum Speichern einer Rücksprungpunktadresse M(i) in Übereinstimmung mit einem Rahmen i eines Eingabemusters vorbereitet. In den Rahmen i wird eine Rücksprungpunktadresse für ein Teilnetz P in einen Bereich der Rücksprungpunkttabelle 10 entsprechend dem Rahmen i geschrieben. Bei der Wortpegelbearbeitung berechnet der Sammelwert-Berechnungsteil 3 die Rekursionsformel (4) und die Pfadwerte L, die sich durch die Formeln (5) ergeben, welche einen Pfadwertspeicher 11 verwenden. Diese Berechnungen sind notwendig, um bei den Aspekten eins bis fünf der vorliegenden Erfindung wie bei der herkömmlichen Methode, die in dem Dokument 1 beschrieben wurde, ein Wiedererkennungsergebnis zu erhalten. Der Rücksprungbearbeitungsteil 7 liest einen Rahmen i' entsprechend dem Startpunkt eines Teilnetzes aus dem Pfadwertspeicher 11 als Pfadwert L(s;i,sJs) an dem Anschlußpunkt des Teilnetzes aus. Aus der Rücksprungpunkttabelle 10 wird eine Rücksprungpunktadresse M(i') unter Verwendung des Wertes des Rahmens i' als eine Adresse ausgelesen. Ein Sammeiwert g(s;i,SJs) von dem Anschlußpunkt des Teilnetzes wird an die Rücksprungpunktadresse M(i') in dem Sammelwertspeicher 4 geschrieben. Andere Bearbeitungsoperati6nen sind die gleichen wie die entsprechend den Aspekten eins bis fünf der vorliegenden Erfindung.
Gemäß der vorliegenden Erfindung kann eine Hochleistungs- Einrichtung zur Erkennung von kontinuierlicher Sprache realisiert werden, die eine kontextfreie Grammatik mit geringem Rechenaufwand verarbeiten kann.

Claims

1. Einrichtung zur Erkennung von kontinuierlicher Sprache zum Erkennen von kontinuierlicher Sprache durch Koppeln von Standardmustern in Einheiten von vorgegebenen Erkennungseinheiten gemäß einem vorgegebenen Netz, das Teilnetze beinhaltet, die zwischen vorgegebene Aufruf- und Rücksprungpunkte in dem Netz eingefügt sind, mit:

einem Standardmusterspeicher (1) zum Speichern der Standardmuster;

einem Abstands-Berechnungsteil (2) zum Berechnen von Abständen zwischen Rahmen eines Spracheingabemusters und den Standardmustern;

einem Sammelwert-Berechnungsteil (3) zum Berechnen von Sammelwerten der Abstände bei Anpassungspfaden, die bewirken, daß die Rahmen des Sprachmusters mit denen der Standardmuster übereinstimmen;

einem Sammelwertspeicher (4) zum Speichern der Sammelwerte;

einem Rücksprungpunktspeicher (5) zum Speichern einer Adresse des Rücksprungpunkts des Teilnetzes in Übereinstimmung mit der gleichen Adresse wie der des Sammelwertspeichers;

einem Aufrufbearbeitungsteil (6) zum Schreiben eines Mindestwerts der Sammelwerte bei einer Vielzahl von Aufrufpunkten für das Teilnetz als Anfangswert des Sammelwerts für das Teilnetz in dem Sammelwertspeicher und zum Schreiben einer Adresse eines Rücksprungpunkts entsprechend dem Aufrufpunkt, der den Mindestwert als Anfangswert in den Rücksprungpunktspeicher liefert; und

einem Rücksprungbearbeitungsteil zum Schreiben eines Sammelwerts an einen Anschlußpunkt des Teilnetzes in den Sammelwertspeicher, der durch die in dem Rücksprungpunktspeicher am Anschlußpunkt des Teilnetzes gespeicherten Rücksprungpunktadresse adressiert ist.

2. Vorrichtung nach Anspruch 1, wobei der Rücksprungbearbeitungsteil Sammelwerte und Adressen von Rücksprungpunkten als Anfangswerte von N (N ist eine beliebige Zahl gleich oder größer als 1) Bereichen des Teilnetzes, die in dem Sammelwertspeicher und dem Rücksprungpunktspeicher für N kleinere Kandidaten vorbereitet sind, die aus den Sammelwerten gewählt sind, an eine Vielzahl von Auf rufpunkten für das Teilnetz schreibt.

3. Vorrichtung nach Anspruch 2, die außerdem eine Kandidatenzahl-Tabelle zum Kennzeichnen der Zahl N der Kandidaten der Sammelwerte in Einheiten der Teilnetze enthalten.

4. Vorrichtung nach einem der Ansprüche 1 bis 3, wobei der Aufrufbearbeitungsteil einen Mindestwert von Sammelwerten an eine Vielzahl von Aufrufpunkten für das Teilnetz sowie Sammelwerte und Rücksprungpunktadressen von Kandidaten, von denen sich jeder von dem Mindestwert um nicht mehr als einen vorgegebenen Wert unterscheidet, als Anfangswerte von Bereichen für das Teilnetz schreibt, die in dem Sammelwertspeicher und dem Rücksprungpunktspeicher erzeugt wurden.

5. Vorrichtung nach einem der Ansprüche 1 bis 4, ferner mit einem Bearbeitungssteuerteil zum Beenden aller Bearbeitungsoperationen für das Netz, wenn es keinen Sammelwert gibt, der in einem Bereich des Sammelwertspeichers entsprechend einem durch das Teilnetz und die Aufruf- und Rücksprungpunkte definierten partiellen Netz verarbeitet werden soll.

6. Vorrichtung nach einem der Ansprüche 1 bis 5, ferner mit einem Pfadwertspeicher zum Speichern eines Rahmens eines Sprachmusters entsprechend einem Startpunkt des Teilnetzes auf einem Anpassungspfad an die gleiche Adresse wie die von dem Sammelwertspeicher, und einer Rücksprungpunkttabelle zum Speichern der Adresse des Rücksprungpunkts, an welche der Aufrufbearbeitungsteil die Adresse des Rücksprungpunkts bei dem Startpunkt des Teilnetzes in dem Rahmen schreibt und der Rücksprungbearbeitungsteil die Adresse des Rücksprungpunkts von dem Rahmen, der durch den in dem Pfadwertspeicher gespeicherten Rahmen adressiert ist, ausliest.