DE69010722T2

DE69010722T2 - Spracherkennungssystem.

Info

Publication number: DE69010722T2
Application number: DE69010722T
Authority: DE
Inventors: Masafumi Yokohama-Shi Kanagawa-Ken Nishimura
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1989-03-13
Filing date: 1990-03-07
Publication date: 1995-03-16
Anticipated expiration: 2010-03-08
Also published as: JPH0636156B2; EP0388067A2; DE69010722D1; US5046099A; EP0388067B1; EP0388067A3; JPH02238496A

Description

Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem unter Verwendung von Phänonischen Markov- Modellen und spezifisch auf ein System, das seinen Vektorquantisierungscode problemlos und mit hoher Präzision anpaßt.
Ein Spracherkennungssystem, das mit Markov-Modellen arbeitet, erkennt Spracheingabe unter dem Aspekt der Wahrscheinlichkeit. In einem derartigen System wird z.B. das Sprachmerkmal in zeitliche Perioden (die "Rahmen") unterteilt und für jede Periode eine Frequenzanalyse und anschließend eine Vektorquantisierung durchgeführt, danach erfolgt die Umwandlung in eine Label- (Symbol-)-Folge. Für jedes Label wird ein Markov- Modell definiert. Anhand der Label-Folge für die zu erkennende Spracheingabe wird für jedes Wort eine Markov-Modellfolge (Wort- Grundform) erstellt. Es werden mehrere Zustände der und Übergänge zwischen den jeweiligen Markov-Modellen festgelegt. Jedem Übergang wird die Wahrscheinlichkeit des Auftretens dieses Übergangs zugeordnet, und jedem Zustand oder Übergang wird die Wahrscheinlichkeit des Auftretens einer Label-Ausgabe in dem betreffenden Zustand oder Übergang zugeordnet. Eine unbekannte Sprachausgabe wird in die Label-Folge umgewandelt. Die Wahrscheinlichkeit, daß diese Label-Folge durch die entsprechenden Wort-Markov-Modelle, die durch die Wort-Grundform vorgegeben sind, erzeugt wird, wird anhand der vorgenannten Wahrscheinlichkeit des Auftretens eines Übergangs und der Wahrscheinlichkeit der Label-Ausgabe (im folgenden als "Parameter" bezeichnet) ermittelt und das Wort-Markov-Modell bestimmt, bei dem die höchste Wahrscheinlichkeit für das Auftreten eines Labels besteht. Auf Grundlage dieses Ergebnisses erfolgt dann die Erkennung.
Die Zuordnung eines Markov-Modells zu jedem Label wird als "Phänonisches Markov-Modell" bezeichnet. Das Modell, für das durch dieses Label eine Entsprechung hergestellt wurde, wird in der Lern- und Erkennungsphase des Modells als das allgemeine Modell interpretiert. Ausführliche Informationen zu Phänonischen Markov-Modellen enthält die folgende Literatur:
1) "Acoustic Markov Models Used in the Tangora Speech Recognition System" (Tagungsunterlagen der ICASSP '88, April 1988, S11-3, L.R. Bahl, P.F. Brown, P.V. de Souza, R.L. Mercer und M.A. Picheny).
In einem Spracherkennungssystem, das mit dem vorgenannten Markov-Modell arbeitet, wird für die Erstellung des Codebuchs für die Vektorquantisierung, die Schätzung des Markov-Modells und die Erfassung der Wort-Grundform eine große Menge an Spracheingabedaten benötigt, außerdem erfordert die Durchführung dieser Operationen einen hohen Zeitaufwand. Zahlreiche Systeme, die anhand der Sprachdaten bestimmter Sprecher erstellt wurden, ergeben keine hinreichende Erkennungsgenauigkeit für die Spracherkennung bei anderen Sprechern. Die Erkennungsgenauigkeit nimmt ab, wenn sich - aufgrund eines relativ großen zeitlichen Abstands - die Umgebung verändert, und zwar auch bei ein und demselben Sprecher. Auch durch Umgebungsgeräusche kann sich die Erkennungsgenauigkeit verschlechtern, was ein weiteres Problem darstellt.
In Dokument (1) oben, wird zwar die Lernzeit wesentlich verkürzt, indem anhand der Aussprache eines bestimmten Sprechers die Wort-Grundformen vorgegeben werden, doch sind immer noch große Mengen von Sprachdaten und ein hoher Verarbeitungszeitaufwand erforderlich, da das Quantisierungscodebuch und die Parameter des Markov-Modells für jeden Sprecher neu bewertet werden.
Unlängst wurde zur Lösung der Probleme vorgeschlagen, daß das Vektorquantisierungscodebuch und das Markov-Modell für den vorgegebenen Sprecher an verschiedene Sprecher und Gegebenheiten angepaßt werden sollten. Die Methoden zur Anpassung des Vektorquantisierungscodebuchs können in die zwei folgenden Kategorien eingeteilt werden.
Bei der ersten Kategorie wird die Korrespondenz zwischen der zu erlernenden Aussprache und der Aussprache des vorgegebenen Sprechers durch Abgleich per Datenverarbeitung ermittelt und das Codebuch anhand der- Ergebnisdaten angepaßt. Dies wird erläutert in
2) "Speaker adaptation by vecotr quantization", Electronics and Communication Institute Technical Research Report, SP-86-65, Dezember 1986, S. 33 - 40, von Kiyohiro Shikano.
Mit dieser Methode kann die Korrespondenz allerdings nicht exakt bestimmt werden, wenn sich die Verteilung der Merkmalmenge erheblich ändert. Außerdem stimmt die Bewertung nicht unbedingt mit derjenigen beim Markov-Modell überein, da die Korrespondenz auf dem Abstand basiert. Hinzu kommt, daß sich dadurch die Effizienz bei der Nutzung der Speicherkapazität verringert, da - zusätzlich zum Markov-Modell - Datenverarbeitungskapazität benötigt wird.
Bei der zweiten Kategorie von Methoden wird nicht die Korrespondenz zur Zeitachse herangezogen, sondern das adaptierte Codebuch erstellt, indem die zu erlernende Sprache in Bezug zu einem Original-Codebuch in Cluster aufgeteilt wird. Diese Methode wird beschrieben in
3) "Speaker adaptation method without a teacher based upon clustering of spectrum space". (Japanisches Institut für Akustik, Tagungsunterlagen der nationalen Frühjahrskonferenz Showa 63, März 1988, 2-2-16, von Sadaoki Furui)
4) "Speaker Adaptation Method for HMM-Based Speech Recognition", (Tagungsunterlagen der ICASSP '88, April 1988, S5-7, von M. Nishimura und K. Sugawara)
Diese beiden Methoden erfordern umfangreiche Berechnungen und beanspruchen erhebliche Mengen an Speicherkapazität, wobei die Anpassung u.U. nicht sehr genau ist, da sämtliche Korrespondenzen auf der Zeitachse außer Acht gelassen werden.
Zusätzlich wird in Referenz (4) die Anpassungsmethode für die Parameter des Markov-Modells beschrieben.
Gegenstand der vorliegenden Erfindung ist ein Spracherkennungssystem, das in der Lage ist, die Anpassung selbst bei drastischen Änderungen der Merkmalmenge problemlos durchzuführen und die Korrespondenz zwischen den Labels aufrecht zu erhalten.
Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, das folgendes umfaßt: Mittel zur Durchführung einer Frequenzanalyse bei einer Spracheingabe in einer Abfolge von zeitlichen Perioden zur Erfassung von Merkmalvektoren, Mittel zur Erzeugung einer entsprechenden Label-Folge unter Verwendung eines Vektorquantisierungscodebuchs, Mittel zum Abgleich mehrerer Wort-Grundformen, ausgedrückt als eine Folge von Markov-Modellen, die jeweils Labels entsprechen, mit der Label-Folge, Mittel zur Erkennung der Spracheingabe anhand des Ergebnisses des Abgleichvorgangs und Mittel zur Durchführung einer Anpassungsoperation bei dem System, mit der dessen Fähigkeit zur Spracherkennung verbessert wird.
Gemäß der Erfindung ist das Spracherkennungssystem dadurch gekennzeichnet, daß das Mittel zur Durchführung der Anpassungsoperation folgendes umfaßt:
Mittel zur Aufteilung jedes einzelnen einer Mehrzahl von Spracheingabewörtern in N Segmente (wobei N eine Ganzzahl größer oder gleich 1 ist) und zur Erzeugung eines Repräsentativwertes für den Merkmalvektor der einzelnen Segmente jedes Spracheingabewortes,
Mittel zur Aufteilung von Wort-Grundformen in Segmente, wobei jedes einem der Spracheingabewörter entspricht, und zur Erzeugung eines Repräsentativwertes für die einzelnen Segment- Merkmalvektoren jeder Wort-Grundform anhand eines Prototypvektors des Vektorquantisierungscodebuchs,
Mittel zur Erzeugung eines Bewegungsvektors, der den Abstand zwischen einem Repräsentativwert für jedes Segment der einzelnen Spracheingabewörter und einem Repräsentativwert des entsprechenden Segments der entsprechenden Wort-Grundform angibt,
Mittel zur Entwicklung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von
P(Lk i,j)=SP(Lk Ml)×P(Ml i,j)
wobei P(Lk i,j) den Relationsgrad zwischen dem Segment j des Spracheingabewortes für das Wort i und dem Label Lk in der Label-Gruppe des Vektorquantisierungscodebuchs bezeichnet; P(LkMl) die Ausgabewahrscheinlichkeit für das Label Lk im Markov-Modell Ml ist und P(Ml i,j) die Wahrscheinlichkeit des Auftretens des Markov-Modells Ml im Segment j des Wortes i,
Mittel zur Speicherung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels einer Label-Gruppe im Vektorquantisierungscodebuch,
Prototyp-Anpassungsmittel zur Korrektur eines Prototypvektors für die einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs durch die einzelnen Bewegungsvektoren entsprechend dem Relationsgrad zwischen dem Label und dem Bewegungsvektor und
Mittel in diesem Protoyp-Anpassungsmittel zur Entwicklung der einzelnen Label-Prototypvektoren in einer Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von
wobei Fk ein Prototypvektor vor der Korrektur des Labels Lk ist, Fk' ein Prototyp-Vektor nach der Korrektur des Labels Lk, Sij ein Repräsentativwert für den Merkmalvektor im Segment j der Wort-Spracheingabe für das Wort i und Bij ein Repräsentativvektor im Segment j der Wort-Grundform für das Wort i.
Zur Veranschaulichung der Erfindung wird nachfolgend anhand der beigefügten Zeichnungen ein Ausführungsbeispiel beschrieben.
Fig. 1 ist eine Zeichnung, in der die Funktionsweise eines Spracherkennungssystems erläutert wird.
Fig. 2 ist ein Blockdiagramm des Spracherkennungssystems von Fig. 1.
Fig. 3 ist ein Flußdiagramm, in dem die Funktionsweise der Label-Vorrichtung 8 des in Fig. 2 dargestellten Systems erläutert wird.
Fig. 4 ist ein Flußdiagramm, in dem die Funktionsweise der Anpassungsvorrichtung für das Vektorquantisierungscodebuch des in Fig. 2 dargestellten Systems erläutert wird.
Fig. 5 ist eine Zeichnung, die die Experimentaldaten der Anwendungsergebnisse des in Fig. 1 dargestellten Spracherkennungssystems illustriert.
Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, bei dem die Sprachwörter, die zur Anpassung des Spracherkennungssystems verwendet werden, zunächst für jede einzelne einer Reihe von vorgegebenen Perioden einer Frequenzanalyse unterzogen werden, um eine Folge von Merkmalvektoren zu erzeugen. Anschließend wird die Merkmalvektorenfolge auf einer Zeitachse in N (1úN) Segmente aufgeteilt. Eine Wort-Grundform, die zuvor für die Sprache eines bestimmten Sprechers erfaßt wurde, wird - vorzugsweise gleichmäßig - ebenfalls in N Segmente aufgeteilt und anschließend die Korrespondenz zwischen den einzelnen Segmenten der Merkmalvektorenfolge und der Wort-Grundform ermittelt. Die Grundform kann unter Bezugnahme auf ein Vektorquantisierungscodebuch als Merkmalvektorenfolge interpretiert werden, so daß das Differential zwischen einem Repräsentativmerkmalvektor (vorzugsweise Mittelwert) der einzelnen Wort-Sprachsegemente und einem entsprechenden Grundform-Segment anhand der Korrespondenz zwischen beiden ermittelt werden kann. Das Differential wird im folgenden als "Bewegungsvektor" bezeichnet.
Die Intensität der Korrespondenz zwischen den einzelnen Labels und den einzelnen Segmenten wird andererseits ermittelt als die Wahrscheinlichkeit der Erzeugung des betreffenden Segments unter einer Bedingung für dieses Label. Anschließend wird für jedes Label ein Codevektor angepaßt, indem Bewegungsvektoren, die für die jeweiligen Segmente ermittelt wurden, und die zur Gewichtung verwendeten bedingten Wahrscheinlichkeiten addiert werden, vgl. Gleichung (1).
Fig. 1 zeigt in der Übersicht eine Reihe von Operationen eines Spracherkennungssystems für ein Beispiel, bei dem die Anzahl der Wörter, die für die Anpassung des Systems verwendet werden, 1 beträgt, die Anzahl der Segemente, die durch Aufteilung erzeugt werden, 2 und die Anzahl der Labels ebenfalls 2. Hierbei ist i(1úiúW) eine Wortnummer, j(1újúN) die Segmentnummer, Sij ist ein Mittelwertvektor für die Merkmale der Spracheingabe, der für die Anpassung des Wortes i und des Segments j verwendet wird, Bij ist ein mittlerer Merkmalvektor, der anhand der Wort-Grundform und des Quantisierungscodebuchs geschätzt wird, Fk ist ein Codevektor für das Label mit der Nummer k, Fk' ist ein Codevektor nach der Anpassung, und P(i,j Lk) ist die Wahrscheinlichkeit der Erzeugung von Lk unter der Bedingung für das Wort i und das Segment j. Gleichung (1)
Hier wird die Wahrscheinlichkeit P(i,j Lk) für die Erzeugung eines bestimmten Labels durch jedes Segment ermittelt, indem zunächst die Wahrscheinlichkeit für die Erzeugung dieses Labels in jedem Segment einer Wort-Grundform bestimmt wird und anschließend eine Umwandlung nach dem Bayesschen Satz durchgeführt wird. Außerdem kann die Häufigkeit der Erzeugung eines bestimmten Labels in jedem Segment nach Gleichung (2) geglättet werden, d.h. eine gemessene Häufigkeit der Erzeugung eines bestimmten Labels in jedem Segment wird mit Hilfe von Label-Ausgabewahrscheinlichkeitswerten von Phänonischen Markov- Modellen geglättet. Hierbei ist Mk ein Zustand (Phänon) eines Phänonischen Markov-Modells, der einem Label Lk entspricht; P(Lk Mi) bezeichnet die Wahrscheinlichkeit der Erzeugung einer Label-Ausgabe durch das Modell.
P(Lk i,j)=SlP(Lk Ml)×P(Ml i,j) ... Gleichung (2)
Ein Spracherkennungssystem, bei dem die Sprachworterkennung auf dem Phänonischen Markov-Modell basiert, wird nachfolgend anhand der Zeichnungen beschrieben. Fig. 2 zeigt das gesamte System. In Fig. 2 werden die Spracheingabedaten über ein Mikrofon 1 und einen Verstärker 2 an einen Analog-Digital-Umsetzer (ADU) angelegt und dort in digitale Daten umgewandelt. Die digitalisierten Sprachdaten werden an eine Merkmalextraktionsvorrichtung 4 weitergeleitet. In dieser Merkmalextraktionsvorrichtung 4 werden - nach diskreter Fourier-Umwandlung - die Sprachdaten als Ausgabe des kritischen Bandpaßfilters mit 20 Kanälen extrahiert, die die Gehörsinncharakteristik wiedergibt.
Diese Ausgabe wird in der nächsten Stufe für eine Dauer von 8 ms an eine Austauschvorrichtung 5 angelegt und an eine Eingangslernvorrichtung für ein Vektorquantisierungscodebuch 6 oder eine Anpassungsvorrichtung für ein Vektorquantisierungscodebuch 7 oder eine Label-Vorrichtung 8 angelegt. Während einer Periode, während der der Eingangslernprozeß für das Vektorquantisierungscodebuch erfolgt, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Ausgangsanschluß für die Eingangslernvorrichtung für das Vektorquantisierungscodebuch 6 und legt so die Ausgabe des kritischen Bandpaßfilters von Vorrichtung 4 an die Eingangslernvorrichtung 6 an. Die Eingangslernvorrichtung 6 erstellt durch Cluster-Aufteilung das Vektorquantisierungscodebuch 9, das 128 Codevektoren umfaßt.
Während einer Periode, in der die Anpassung an das Codebuch erfolgt, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Ausgabeanschluß für die Anpassungsvorrichtung 7, wo das Vektorquantisierungscodebuch 9 nach der Periode für den Eingangslernvorgang als Ausgangswert verwendet wird, und es wirdanhand einer Wort-Grundformtabelle 15, die weiter unten erläutert wird, die Anpassung des Codebuchs duchgeführt. Die Anpassungsvorrichtung 7 wird im Zusammenhang mit Fig. 4 ausführlich beschrieben.
Während einer weiteren Periode, während der die Erkennung und Erfassung der Wort-Grundform sowie der Eingangslernvorgang und die Anpassung des Markov-Modells erfolgen, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Anschluß für die Label-Vorrichtung 8, in der anhand des Vektorquantisierungscodebuchs 9 die Label-Zuordnung erfolgt. Hier wird für den Eingangslernvorgang des Markov-Modells das Vektorquantisierungscodebuch nach der Periode für den Eingangslernvorgang verwendet.
Die Label-Zuordnung wird z.B. wie in Fig. 3 durchgeführt. In Fig. 3 bezeichnet X eine Eingangs-Merkmalmenge, Yj die j-te Label-Merkmalmenge (Codevektor), M die Anzahl der Codevektoren (=128), dist(X,Y) einen euklidischen Abstand zwischen X und Yj und m den Mindestwert von dist(X,Y) bis zu jedem Zeitpunkt. Der Ausgangswert für m wird auf einen hohen Wert V gesetzt. Wie aus Fig. 3 ersichtlich, wird die Eingangs-Merkmalmenge X nacheinander mit jedem der Codevektoren verglichen und der ähnlichste Vektor, d.h. derjenige, bei dem der euklidische Abstand am geringsten ist, wird im Ausgangssignal als das ermittelte Label (Label-Nummer) L dargestellt.
Zurück zu Fig. 2: Die Label-Folge in der Label-Vorrichtung 8 wird über die Austauschvorrichtung 10 an eine Wort-Grundform- Erfassungsvorrichtung 11, eine Markov-Modell-Eingangs- Lernvorrichtung 12, eine Markov-Modell-Anpassungsvorrichtung 13 oder eine Erkennungsvorrichtung 14 angelegt.
Während einer Periode, in der die Erfassung der Wort-Grundform erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Wort-Grundform-Erfassungsvorrichtung 11 verbunden und die Label-Folge an die Erfassungsvorrichtung 11 übertragen. Die Erfassungsvorrichtung 11 erstellt anhand der Label-Folge eine Wort-Grundformtabelle 15.
Während einer weiteren Periode, in der der Eingangs-Lernvorgang für das Markov-Modell erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Eingangs- Lernvorrichtung 12 verbunden und die Label-Folge an die Eingangs-Lernvorrichtung 12 übertragen. Die Eingangs-Lernvorrichtung 12 führt anhand der Label-Folge und der Grundformtabelle 15 die Modell-Lernoperation durch und bestimmt die Parameterwerte einer Parametertabelle 16.
Während einer weiteren Periode, in der die Anpassung erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Anpassungsvorrichtung 13 verbunden, in der der Parameterwert aus der Parametertabelle 16 anhand der Korrespondenzbeziehung zwischen der Eingangs-Label-Folge und jedem einzelnen Phänonischen Markov-Modell der Wort-Grundform angepaßt wird.
Während einer abschließenden Periode, in der die Erkennung erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Erkennungsvorrichtung 14 verbunden, in der die Spracheingabe anhand der Eingangs-Label-Folge, der Wort- Grundform und der Parametertabelle erkannt wird.
Die Ausgabe der Erkennungsvorrichtung 14 wird an die Datenstation 17 eines Datenverarbeitungssystems übermittelt und z.B. an einem Bildschirmgerät angezeigt. In Fig. 2 sind sämtliche Vorrichtungen, mit Ausnahme des Mikrofons 1, des Verstärkers 2 und des Bildschirmgeräts 17, in Form von Software (Programmen) in der Datenstation implementiert. Als Datenstation, Betriebssystem und Sprache wurden die Verarbeitungseinheit IBM 5570 der International Business Machines Corporation mit DOS in japanischer Sprache und die Programmiersprache C sowie ein C- Makro-Assembler eingesetzt. Diese Komponenten können selbstverständlich alternativ auch in Form von Hardware implementiert werden.
Die Funktionsweise der Anpassungsvorrichtung für das Vektorquantisierungscodebuch 7 wird anhand von Fig. 4 erläutert, die den Ablauf der Codebuchanpassung zeigt. Der Codevektor Fk für die einzelnen Labels Lk wird aus dem Vektorquantisierungscodebuch ausgelesen (Schritt 18). Anschließend werden die Sprachdaten des Anpassungslernwortes i eingegeben (Schritt 20). Diese Sprachdaten werden in N gleiche Segmente auf der Zeitachse aufgeteilt und der mittlere Merkmalvektor Sij in jedem Segment j bewertet (Schritt 21). Die Grundform für das Wort Nummer i wird für die Wort-Grundform ausgelesen (Schritt 22). Diese Wort- Grundform wird ebenfalls in eine Menge von N gleichen Segmenten auf der Zeitachse aufgeteilt und der mittlere Merkmalvektor Bij in jedem Segment j unter Bezugnahme auf den in Schritt 18 ausgelesenen Codevektor geschätzt (Schritt 23). Die Auftretensrate P(Lki,j) für das Label Lk in jedem Segment j wird anhand der Menge der N gleichen Segmente der Wort-Grundformen geschätzt (Schritt 24).
Nach Ausführung der Operationen der Schritt 20 - 24 für das gesamte Anpassungslernvokabular wird P(Lk i,j) umgewandelt und die Wahrscheinlichkeit P(i,j Lk) für das Auftreten des Wortes mit der Label-Bedingung und dem Segment berechnet (Schritt 27). Anschließend werden entsprechend Gleichung (1) alle Codevektoren Fk angepaßt und das bestehende Vektorquantisierungscodebuch durch diesen angepaßten Codevektor ersetzt (Schritt 28).
Für das vorstehend beschriebene Spracherkennungssystem wurde ein Bewertungsversuch durchgeführt, wobei das zu erkennende Vokabular aus 150 sehr ähnlichen japanischen Wörtern bestand (z.B. "Keihoh, Heihoh, Chokusen, Chokuzen"). Bei dem Versuch wurden als Eingangs-Sprachdaten für den Lernvorgang für das Vektorquantisierungscodebuch und das Markov-Modell 150 Wörter verwendet, die von einem männlichen Sprecher zehnmal ausgesprochen wurden; für weitere elf Sprecher (sieben Männer und vier Frauen) wurde der Anpassungseffekt ermittelt. Die Anpassungsoperation wurde für einen Teil (10, 25, 50, 100 und 150 Wörter mit je einmaliger Aussprache je Wort) des objektiven Vokabulars durchgeführt; der Erkennungsversuch wurde mit 150 Wörtern durchgeführt, die von jedem Sprecher dreimal ausgesprochen wurden. Fig. 5 zeigt ein Ergebnis des Erkennungsversuchs, wobei die horizontale Achse die Anzahl der Anpassungslernwörter bezeichnet und die vertikale Achse die mittlere Fehlererkennungsrate. Weiße Kreise bezeichnen die Ergebnisse, bei denen lediglich das Markov-Modell angepaßt wurde, während schwarze Kreise die Ergebnisse bezeichnen, bei denen die Funktion des vorstehend beschriebenen Erkennungssystems unter Anwendung der Erfindung zusammen mit der Anpassung der Markov-Modelle ausgeführt wurde. Die durchgezogene Linie bei 4% der vertikalen Achse ist das Ergebnis aus dem Erkennungsversuch für den ersten Sprecher, für den der Ausgangs- Lernvorgang durchgeführt wurde. Aus diesem Ergebnis ist ersichtlich, daß - mit Hilfe der Funktion des vorstehend beschriebenen Erkennungssystems - durch einfaches Lernen der 25 Wörter für die männlichen Sprecher die gleiche Erkennungsgenauigkeit erreicht werden kann wie für den ersten Sprecher. Außerdem wird ersichtlich, daß das beschriebene Erkennungssystem selbst wenn lediglich das Markov-Modell zwischen männlichen und weiblichen Sprechern angepaßt wird, fast die gleiche Genauigkeit ergibt wie beim ersten Sprecher, wobei eine Fehlerrate von ca. 10% entsteht, die auf die drastischen Veränderungen der Merkmalhäufigkeit zurückzuführen ist; dies gilt selbst bei 150 zu lernenden Wörtern.
Das vorstehend beschriebene Spracherkennungssystem kann auf kleinen Datenverarbeitungseinrichtungen mit der kleinen, für die Anpassung erforderlichen Rechenfunktion und geringer Speicherkapazität implementiert werden.

Claims

1. Ein Spracherkennungssystem, das folgendes umfaßt: Mittel (4) zur Durchführung einer Frequenzanalyse bei einer Spracheingabe in einer Abfolge von zeitlichen Perioden zur Erfassung von Merkmalvektoren, Mittel (8) zur Erzeugung einer entsprechenden Label-Folge unter Verwendung eines Vektor-quantisierungscodebuchs (9), Mittel (11) zum Abgleich mehrerer Wort-Grundformen, ausgedrückt als eine Folge von Markov-Modellen, die jeweils Labels entsprechen, mit der Label-Folge, Mittel (14) zur Erkennung der Spracheingabe anhand des Ergebnisses des Abgleichvorgangs und Mittel zur Durchführung einer Anpassungsoperation bei dem System, mit der dessen Fähigkeit zur Spracherkennung verbessert wird,

dadurch gekennzeichnet, daß das Mittel zur Durchführung der Anpassungsoperation folgendes umfaßt:

Mittel (4) zur Aufteilung jedes einzelnen einer Mehrzahl von Spracheingabewörtern in N Segmente (wobei N eine Ganzzahl größer oder gleich 1 ist) und zur Erzeugung eines Repräsentativwertes für den Merkmalvektor der einzelnen Segmente jedes Spracheingabewortes,

Mittel zur Aufteilung von Wort-Grundformen in Segmente, wobei jedes einem der Spracheingabewörter entspricht, und zur Erzeugung eines Repräsentativwertes für die einzelnen Segment-Merkmalvektoren jeder Wort-Grundform anhand eines Prototypvektors des Vektorquantisierungscodebuchs,

Mittel zur Erzeugung eines Bewegungsvektors, der den Abstand zwischeii einem Repräsentativwert für jedes Segment der einzelnen Spracheingabewörter und einem Repräsentativwert des entsprechenden Segments der entsprechenden Wort- Grundform angibt,

Mittel zur Entwicklung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von

P(Lk i,j)=SP(Lk Ml)×P(Ml i,j)

wobei P(Lk i,j) den Relationsgrad zwischen dem Segment j des Spracheingabewortes für das Wort i und dem Label Lk in der Label-Gruppe des Vektorquantisierungscodebuchs bezeichnet; P(LkMl) die Ausgabewahrscheinlichkeit für das Label Lk im Markov-Modell Ml ist und P(Ml i,j) die Wahrscheinlichkeit des Auftretens des Markov-Modells Ml im Segment j des Wortes i.

Mittel zur Speicherung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels einer Label-Gruppe im Vektorquantisierungscodebuch,

Prototyp-Anpassungsmittel zur Korrektur eines Prototypvektors für die einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs durch die einzelnen Bewegungsvektoren entsprechend dem Relationsgrad zwischen dem Label und dem Bewegungsvektor und

Mittel in diesem Protoyp-Anpassungsmittel zur Entwicklung der einzelnen Label-Prototypvektoren in einer Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von

wobei Fk ein Prototypvektor vor der Korrektur des Label Lk ist, Fk' ein Prototyp-Vektor nach der Korrektur des Label Lk, Sij ein Repräsentativwert für den Merkmalvektor im Segment j der Wort-Spracheingabe für das Wort i und Bij ein Repräsentativvektor im Segment j der Wort-Grundform für das Wort i.

2. Ein Spracherkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß der Repräsentativwert für jeden Segmentmerkmalvektor jedes einzelnen Spracheingabewortes einen Mittelwert des Merkmalvektors in dem Segment bildet.

3. Ein Spracherkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß der Repräsentativwert für jeden Segmentmerkmalvektor jeder einzelnen Wort-Grundform einen Mittelwert der Prototypvektoren der Labels in dem Segment bildet.