DE69118118T2

DE69118118T2 - Methode und System zur Spracherkennung ohne Rauschbeeinflussung

Info

Publication number: DE69118118T2
Application number: DE69118118T
Authority: DE
Inventors: Keiko Shimada
Original assignee: NEC Corp; Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1990-11-19
Filing date: 1991-11-19
Publication date: 1996-09-19
Anticipated expiration: 2011-11-20
Also published as: AU642311B2; US5416887A; CA2055749C; EP0487307A3; DE69118118D1; EP0487307A2; AU8800291A; CA2055749A1; EP0487307B1; JPH04182700A

Description

Hintergrund der Erfindung

Die vorliegende Erfindung betrifft Spracherkennung zum Erkennen einer Sprache, die als eines der gespeicherten Vergleichsmuster gesprochen wird, und insbesondere eine Spracherkennungsmethode und ein System, bei dem die Beeinflussung durch Rauschen, das mit der gesprochenen Sprache verbunden ist, verringert wird.
Bei einem bekannten Spracherkennungssystem wird eine gesprochene Sprache durch einen elektromechanischen Wandler, wie etwa ein Mikrophon, in ein Eingangssprachsignal umgewandelt. Das Eingangssprachsignal wird von einem Musteranalysator analysiert und in ein digitales Eingangsmustersignal umgewandelt. Das Eingangsmustersignal wird als ein gespeichertes Muster in einem Eingangsspeicher gespeichert. Das gespeicherte Muster wird mit jedem der in einem Vergleichsspeicher gespeicherten Vergleichsmuster verglichen und zwischen ihnen wird ein Unter schied erzeugt. Wenn ein spezielles Vergleichsmuster den minimalen Unterschied liefert, wird die gesprochene Sprache als das spezielle Vergleichsmuster erkannt. Andererseits wird, wenn ein bestimmtes Vergleichsmuster einen bestimmten Unterschied liefert, der kleiner als ein bestimmter Schwellenwert ist, die gesprochene Sprache als das bestimmte Vergleichsmuster erkannt.
Bei einem tatsächlichen Erkennungsvorgang ist das Eingangssprachsignal aufgrund des Vorhandenseins eines Hintergrundgeräusches mit Rauschen verbunden. Das Eingangssprachsignal und das Rauschen werden zusammen als ein akustisches Eingangssignal bezeichnet. Demgemäß umfaßt das Eingangsmustersignal eine Rauschkomponente. Dies führt zu einem Fehler bei der Spracherkennung.
Das Dokument US-A-4 239 936 beschreibt ein Spracherkennungssystem, bei dem Umgebungsrauschen durch ein getrenntes Mikrophon gemessen wird, und eine auf die Intensität des gemessenen Rauschens ansprechende Rückweisungseinheit.

Zusammenfassung der Erfindung:

Es ist eine Aufgabe der vorliegenden Erfindung, eine Methode und ein System zum Erkennen einer Sprache bereitzustellen, ohne daß sie durch Rauschen, das in dem Eingangssprachsignal enthalten ist, beeinflußt wird.
Die vorliegende Erfindung wird auf eine Methode zum Erkennen einer Sprache gerichtet, die als eines mehrerer Vergleichsmuster B1 bis BN gesprochen wird, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, ..., bjn, ..., bJn besteht. Die Methode weist auf: (a) Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht, (b) Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen, (c) Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nach gewiesen wird, (d) Berechnen eines von dem Rauschpegel z abhängigen Rückweisungswertes r(z); (e) Ableiten eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvek toren A = a1, ..., ai, ..., aI besteht; (f) Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I und j = 1 bis J; (g) Berechnen der folgenden asymptotischen Gleichung (1):
gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
aus diesen dn(i,j), wobei p = 0, 1, 2, ..., und min{gn(i-1,j- p)} ein Minirnum von gn(i-1,j-p) für verschiedene Werte von p ist; (h) Wiederholen der Schritte (f) und (g) für n 1 bis N, um Unterschiede von gn{I,Jn) für die Vergleichsmuster B1 bis BN zu erzeugen; (i) Auswählen des minimalen Unterschieds dieser Unterschiede gn(I,jn) als gN(I,Jn); (j) Normieren des minimalen Unterschieds gN(I,Jn) mit I, um einen normierten Wert GN(I,Jn) zu erzeugen; und (k) Vergleichen des normierten Wertes GN(I,Jn) mit dem Rückweisungswert r(z), um die Eingangssprache als ein spezielles Vergleichsmuster BN der Vergleichsmuster zu erkennen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rück weisungswert r(z).
Gemäß der vorliegenden Erfindung wird ein System zum Erkennen einer gesprochenen Sprache erhalten, das aufweist: eine Vergleichsspeichereinrichtung zum Speichern mehrerer Vergleichsmuster B1 bis BN, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, bjn, ..., bJn besteht; eine Einrichtung zum Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht; eine mit der Erzeugungseinrichtung verbundene Einrichtung zum Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen; eine mit der Erzeugungseinrichtung verbundene Überwachungseinrichtung zum Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nachgewiesen ist; eine mit der Überwachungseinrichtung verbundene und auf den Rauschpegel z ansprechende Einrichtung zum Berechnen eines Rückweisungswertes r(z), der von dem Rauschpegel z abhängt; eine mit der Analysiereinrichtung verbundene Eingangsspeichereinrichtung zum Speichern eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvektoren A a1, ..., ai, ... aI besteht; eine mit der Vergleichsspeichereinrichtung und der Eingangsspeichereinrichtung verbundene Abstandsberechnungseinrichtung zum Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I, j 1 bis J und n = 1 bis N; eine mit der Abstandsberechnungseinrichtung verbundene Berechnungseinrichtung einer asymptotischen Gleichung, um aus diesen dn(i,j) die folgende asymptotische Gleichung (1) zu berechnen:
gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
wobei p = 0, 1, 2, ..., und min{gn(i-1,j-p)} ein Minimum von gn(i-1,j-p) für verschiedene Werte von p ist, wobei die Be rechnungseinrichtung einer asymptotischen Gleichung N Unterschiede gn(I,Jn) für n = 1 bis N erzeugt; eine mit der Berechnungseinrichtung einer asymptotischen Gleichung und der Rück weisungswertberechnungseinrichtung verbundene Entscheidungseinrichtung zum Auswählen des minimalen Unterschieds der N Unterschiede gn(I,Jn) als gN(I,Jn) und zum Normieren des minimalen Unterschieds gN(I,Jn), um einen normierten Wert GN(I,Jn) zu erzeugen, wobei die Entscheidungseinrichtung den normierten Wert GN(I,Jn) mit dem Rückweisungswert r(z) vergleicht, um ein spezielles Vergleichsmuster als ein Erkennungsergebnis zu bestimmen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z).

Kurze Beschreibung der Zeichnungen:

Fig. 1 ist eine Blockdiagrammansicht eines Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Erfindung; und
Fig. 2 ist eine graphische Darstellung, die eine Beziehung zwischen einem Rückweisungswert und einem Rauschpegel veranschaulicht.

Beschreibung der bevorzugten Ausführungsformen

Gemäß Fig. 1 weist das gezeigte System gemäß einer Ausführungsform ein Mikrophon 20 zum Umwandeln eines Tons in ein elektrisches Signal als ein akustisches Eingangssignal und einen Musteranalysator 21 zum Zuordnen des akustischen Eingangssignals zu einem Eingangsmuster auf. Das akustische Eingangssignal besteht aus einem für eine Eingangssprache repräsentativen Eingangssprachsignal und einem Rauschen. Der Musteranalysator 21 ist zum Beispiel ein aus dem Stand der Technik gut bekannter Frequenzanalysator, der eine Mehrkanalbandpaßfiltergruppe zum Trennen des akustischen Eingangssignals in verschiedene Frequenzkomponentensignale aufweist. Die Frequenzkomponentensignale werden im Multiplexbetrieb übertragen, um ein für einen charakteristischen Vektor repräsentatives Signal zu bilden. Demgemäß erzeugt der Musteranalysator 21 eine Zeitfolge charakteristischer Vektorsignale.
Die charakteristischen Vektoren werden einem Rauschpegeldetektor 22, einem Sprachdetektor 23 und einem Eingangsspeicher 24 zugeführt.
Der Rauschpegeldetektor 22 empfängt die charakteristischen Vektoren und speichert sie in einem Pufferspeicher. Der Rauschpegeldetektor 22 überwacht den Eingangspegel der Zeitfolge charakteristischer Vektoren und vergleicht den Eingangspegel mit einem Schwellenpegel. Wenn der Rauschpegeldetektor 22 nachweist, daß der Eingangspegel den Schwellenpegel übersteigt, berechnet er ein Mittel der Daten des Eingangspegels, die in dem Pufferspeicher gespeichert werden, bevor der Eingangspegel den Schwellenpegel übersteigt. Das Mittel wird dem Sprachdetektor 23 und einer Rückweisungswertberechnungseinrichtung 25 als ein Rauschpegel z übergeben.
Der Sprachdetektor 23 empfängt den Rauschpegel z und vergleicht den Eingangspegel der Zeitfolge charakteristischer Vektoren mit dem Rauschpegel z, um ein Sprachstartsignal als ein Signal SP zu erzeugen&sub1; wenn der Eingangspegel gleich dem Rauschpegel wird oder ihn übersteigt. Danach erzeugt der Sprachdetektor 23 ebenfalls ein Sprachendsignal als das Signal SP, wenn der Eingangspegel kleiner als der Rauschpegel z wird.
Das Signal SP wird einer Steuereinrichtung 26 übergeben. Wenn die Steuereinrichtung 26 das Sprachstartsignal als das Signal SP empfängt, übergibt die Steuereinrichtung 26 dem Eingangsspeicher 24 ein Annahmesignal il. Der Eingangsspeicher 24 speichert als Antwort auf eine Zeitfolge von Annahmesignalen il die Zeitfolge charakteristischer Eingangsvektoren a1, a2, ..., ai, ... und aI in dieser Reihenfolge.
Als Antwort auf das Sprachstartsignal als das Signal SP erzeugt die Steuereinrichtung 26 außerdem ein Steuersignal c11 für die Rückweisungswertberechnungseinrichtung 25.
Dann berechnet die Rückweisungswertberechnungseinrichtung 25 unter Verwendung des Rauschpegels z einen Rückweisungswert r(z), kurz bevor das Steuersignal c11 empfangen wird, das heißt, bevor der Sprachanf ang nachgewiesen wird. Der Rückweisungswert r(z) ist durch die folgenden Formeln gegeben:
wobei rmin und rmax der minimale Wert bzw. der maximale Wert des Rückweisungswertes r ist, zunten und zoben eine untere Grenze und eine obere Grenze des Rauschpegels z sind, α = (rmax - rmin)/(zoben - zunten) und β = (rminzoben - rmaxzunten)/(zoben - zunten). Fig. 2 veranschaulicht eine Beziehung zwischen dem Rauschpegel z und dem Rückweisungswert r(z).
Das System besitzt einen Vergleichsspeicher 27, der mehrere (N) Vergleichsmuster B1, B2, ..., Bn, ..., BN speichert. Jedes der Vergleichsmuster besteht aus einer Folge charakteristischer Vektoren, das heißt aus Bn = b1n, b2n, ..., bjn, ..., bJN.
Die Steuereinrichtung 26 erzeugt ein Vergleichsmusterauswahlsignal n1 für den Vergleichsmusterspeicher 27, um eines der Vergleichsmuster auszuwählen. Somit wird ein spezielles Bn der Vergleichsmuster ausgewählt.
Die Steuereinrichtung 26 erzeugt außerdem ein Lesesignal j1 für den Vergleichsspeicher 27. Somit wird bjn der Vergleichsvektoren des speziellen Vergleichsmusters Bn aus dem Vergleichsspeicher 27 gelesen und an eine Vektorabstandsberechnungseinrichtung 28 übergeben. Ferner wird ai der charakteristischen Eingangsvektoren ausgelesen und als Antwort auf das Signal i1 an die Vektorabstandsberechnungseinrichtung 28 übergeben. Der Eingangsspeicher 24 und der Vergleichsspeicher 27 führen gemäß einem Signal ml von der Steuereinrichtung 26 jeweils M charakteristische Vektoren der Vektorabstandsberechnungseinrichtung 28 zu.
Die Vektorabstandsberechnungseinrichtung 28 berechnet unter der Steuerung eines Steuersignals c12 einen Abstand dn(i,j) zwischen dem Eingangsvektor ai und dem Vergleichsvektor bjn. Der Abstand dn(i,j) wird an eine Berechnungseinrichtung einer asymptotischen Gleichung 29 übergeben.
Die Berechnungseinrichtung einer asymptotischen Gleichung 29 berechnet die folgende asymptotische Gleichung (2):
gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (2)
wobei p = 0, 1, 2, ... und der zweite Term min{gn(i-1,j-p)} ein minimaler Wert von gn(i-1,j-p) bei verschiedenen Werten von p ist.
Der Anfangswert von gn(i,j) ist durch gn(0,0) = 0 gegeben. Somit berechnet die Berechnungseinrichtung einer asymptotischen Gleichung 29 Unterschiede gn(i,j) für i = 1, 2, ..., I, j 1, 2, ..., Jn und n= 1, 2, ..., N, um N Unterschiede gn(I,Jn) zwischen dem Eingangssprachsignal und N Vergleichsmustern Bn zu erzeugen. Die Ziffern (n, i, j) werden durch ein Signal c13 von der Steuereinrichtung 26 angezeigt.
Die Berechnungseinrichtung einer asymptotischen Gleichung 29 ist mit einer Entscheidungsschaltung zum Bestimmen von min{gn(i-1,j-p)}, einem Pufferspeicher zum Speichern von min{gn(i-1,j-p)} und gn(i,j) und einem Speicher zum Speichern von N Unterschieden gn(I,Jn) zwischen dem Eingangssprachsignal und den N Vergleichsmustern Bn versehen.
Wenn die Steuereinrichtung 26 von dem Sprachdetektor 23 das Sprachendsignal als das Signal SP empfängt, erzeugt die Steuereinrichtung 26 ein Steuersignal i2 für eine Entscheidungsschaltung 30.
Als Antwort auf das Steuersignal i1 nimmt die Entscheidungsschaltung 30 die N Unterschiede gn(I,Jn) aus der Berechnungseinrichtung einer asymptotischen Gleichung 29 und bestimmt den minimalen Unterschied (gN(I,Jn)) der gn(I,Jn). Dann normiert die Entscheidungsschaltung 30 gN(I,Jn) mit I als GN(I,Jn).
Auf das Steuersignal i2 ansprechend nimmt die Entscheidungsschaltung 30 ebenfalls den Rückweisungswert r(z) aus der Rückweisungswertberechnungseinrichtung 25 und vergleicht den normierten minimalen Unterschied GN(I,Jn) mit dem Rückweisungswert r(z). Wenn das GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z), erkennt die Entscheidungsschaltung 30, daß die Eingangssprache mit einem speziellen BN der Vergleichsmuster übereinstimmt, das den minimalen Unterschied gN(I,Jn) der Unterschiede gn(I,Jn) ergibt, um das spezielle Vergleichsmuster BN als ein Entscheidungsergebnis zu erzeugen.
Wenn das GN(I,Jn) größer als der Rückweisungswert r(z) ist, erkennt die Entscheidungsschaltung 30, daß kein Vergleichsmuster mit dem Eingangssprachmuster übereinstimmt.
Die Mustervergleichsmethode ist aus dem Stand der Technik als DP-vergleichsmethode (dynamische Prograirmierung-) bekannt, bei der unter Verwendung der asymptotischen Gleichung (2) berechnete Unterschiede mit dem Rückweisungswert verglichen werden. Gemäß der vorliegenden Erfindung wird der Rückweisungswert r abhängig von dem Rauschpegel bestimmt und deshalb wird der Mustervergleich ohne Rauschbeeinflussung durchgeführt.

Claims

1. Methode zum Erkennen einer Sprache, die als eines mehrerer Vergleichsmuster B1 bis BN gesprochen wird, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, .., bjn, ..., bJn besteht, die aufweist:

(a) Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht;

(b) Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen;

(c) Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nachgewiesen wird;

(d) Berechnen eines von dem Rauschpegel z abhängigen Rückweisungswertes r(z);

(e) Ableiten eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvektoren A = a1, ..., ai, ..., aI besteht;

(f) Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I und j = 1 bis J;

(g) Berechnen der folgenden asymptotischen Gleichung (1):

gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)

aus diesen dn(i,j), wobei p = 0, 1, 2, ..., und min{gn(i-1,j- p)} ein Minimum von gn(i-1l,j-p) für verschiedene Werte von p ist;

(h) Wiederholen der Schritte (f) und (g) für n = 1 bis N, um Unterschiede von gn(I,Jn) für die Vergleichsmuster B1 bis BN zu erzeugen;

(i) Auswählen des minimalen Unterschieds dieser Unterschiede gn(I,jn) als gN(I,Jn);

(j) Normieren des minimalen Unterschieds gN(I,jn) mit I, um einen normierten Wert GN(I,Jn) zu erzeugen; und

(k) Vergleichen des normierten Wertes GN(I,Jn) mit dem Rückweisungswert r(z), um die Eingangssprache als ein spezielles Vergleichsmuster BN der Vergleichsmuster zu erkennen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z).

2. System zum Erkennen einer gesprochenen Sprache, das aufweist:

eine Vergleichsspeichereinrichtung zum Speichern mehrerer Vergleichsmuster B1 bis BN, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, ..., bjn, ..., bJn besteht;

eine Einrichtung zum Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht;

eine mit der Erzeugungseinrichtung verbundene Einrichtung zum Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen;

eine mit der Erzeugungseinrichtung verbundene Überwachungseinrichtung zum Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nachgewiesen ist;

eine mit der Überwachungseinrichtung verbundene und auf den Rauschpegel z ansprechende Einrichtung zum Berechnen eines Rückweisungswertes r(z), der von dem Rauschpegel z abhängt;

eine mit der Analysiereinrichtung verbundene Eingangsspeichereinrichtung zum Speichern eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvektoren A = a1, ..., ai, ... aI besteht;

eine mit der Vergleichsspeichereinrichtung und der Eingangsspeichereinrichtung verbundene Abstandsberechnungseinrichtung zum Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I, j = 1 bis J und n = 1 bis N;

eine mit der Abstandsberechnungseinrichtung verbundene Berechnungseinrichtung einer asymptotischen Gleichung, um aus diesen dn(i,j) die folgende asymptotische Gleichung (1) zu berechnen:

gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)

wobei p = 0, 1, 2, ..., und min{gn(i-1,j-p)} ein Minimum von gn(i-1,j-p) für verschiedene Werte von p ist, wobei die Berechnungseinrichtung einer asymptotischen Gleichung N Unterschiede gn(I,Jn) für n = 1 bis N erzeugt;

eine mit der Berechnungseinrichtung einer asymptotischen Gleichung und der Rückweisungswertberechnungseinrichtung verbundene Entscheidungseinrichtung zum Auswählen des minimalen Unterschieds der N Unterschiede gn(I,Jn) als gN(I,Jn) und zum Normieren des minimalen Unterschieds gN(I,Jn), um einen nor mierten Wert GN(I,Jn) zu erzeugen, wobei die Entscheidungseinrichtung den normierten Wert GN(I,Jn) mit dem Rückweisungswert r(z) vergleicht, um als ein Erkennungsergebnis ein spezielles Vergleichsmuster zu bestimmen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z).