DE10005609C1

DE10005609C1 - Verfahren zur Spracherkennung

Info

Publication number: DE10005609C1
Application number: DE2000105609
Authority: DE
Inventors: Ralf Kern; Karl-Heinz Pflaum
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-02-09
Filing date: 2000-02-09
Publication date: 2001-08-09
Anticipated expiration: 2020-02-10
Also published as: WO2001059761A1; AU3913801A

Abstract

Die während eines Trainings eines Spracherkennungssystems auf einen neuen Sprecher generierten Merkmale (Trainingsprobe), die mit einer auf Basis eines zu einem späteren Zeitpunkt aufgenommenen Sprachsignals erzeugten Erkennungsprobe für eine Spracherkennung verglichen werden, gegebenenfalls mit zu einer Störung, die während der Aufnahme des Sprachsignals auftritt und das Sprachsignal verfälschen kann, analogen Signalen zu verknüpfen, wobei sie auf die Erkennungsprobe, die ebenfalls durch Verknüpfung des Sprachsignals mit zu der Störung analogen Signalen generiert wird, abgestimmt ist.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Kompen sation von Störungen in Spracherkennungssystemen.

Die rasante technische Entwicklung im Bereich der Telekommu nikation, insbesondere der Mobilkommunikation, hat in den letzten Jahren zu einer ständig erhöhten Anforderung an die Sprachverarbeitung geführt.

Insbesondere in Spracherkennungssystemen wird daher die Sprechweise der einzelnen Sprecher trainiert und eine Sprach probe (Trainingssprachprobe) erzeugt und gespeichert, mit der eine zu einem späteren Zeitpunkt erfolgende aktuelle Sprach eingabe (Erkennungssprachprobe) verglichen wird, so daß das Spracherkennungssystem feststellen kann, ob das akustische Signal vom Sprecher stammt oder ein Nebengeräusch ist bzw. den Inhalt der Spracheingabe erkennt.

Da die Spracheingabe in Spracherkennungssystemen nicht immer über dasselbe System aus Raum-Mikrofon-Vorverstärker (RMV- System) erfolgt und sich die Umgebung bzw. die Störgeräusch kulisse, insbesondere bei der Mobilkommunikation, häufig än dert, so daß die Sprache bei der Spracheingabe durch ver schiedenartige Übertragungsfunktionen und Störgeräusche (in der englischen Literatur, Saeed V. Vaseghi, "Advanced Signal Processing and Digital Noise Reduction", Stuttgart, 1996, Teubner B. G., mit "convolutional noise" und "additive noise" bezeichnet), beeinflußt wird, ergibt sich eine Variation der signifikanten Merkmale der Sprache, die wiederum zu einer De gradation der Erkennungsrate des Spracherkennungssystems bzw. einer Obstruktion der Spracherkennung führen.

Zur Vermeidung der beschriebenen Probleme sind verschiedene Ansätze bekannt, die sich im wesentlichen dadurch auszeichnen, daß das Störsignal, mit dem das beispielsweise durch ein Mikrofon aufgenommene Sprachsignal behaftet ist, geschätzt und eine Erkennungssprachprobe, beispielsweise durch Subtrak tion (z. B. spektrale Subtraktion) des geschätzten "additive noise" und Faltung (z. B. mit Wiener Filter, Inversfilter) mit dem inversen geschätzten "convolutional noise" gemäß folgen der Formel

s_E(t) = (n_c(t)*s(t))*n_{c_est}(t)^-1 + n_a(t) - n_{a_est}(t)

mit
s(t): Sprachsignal
s_T(t): Trainingssprachprobe
s_E(t): Erkennungssprachprobe
n_c(t): "convolutional noise"
n_a(t): "additive noise"
n_{c_est}(t): geschätztes (estimated) "convolutional noise"
n_{a_est}(t): geschätztes (estimated) "additional noise"
*: Faltungsoperator
erzeugt wird, wobei die Erkennungssprachprobe mit der Trai ningssprachprobe verglichen wird.

Diese Ansätze haben den Nachteil, daß die beiden Arten der Störung lediglich geschätzt, jedoch nicht exakt vorhergesagt werden können.

Zur Optimierung dieser Ansätze sind zwar Verfahren bekannt, bei dem eine bzw. die für den späteren Einsatz eines Sprach erkennungssystems zu erwartende Störgeräuschkulisse bzw. Störgeräusche während des Trainings simuliert wird, so daß die Trainingssprachprobe möglichst viel Informationen über die zu erwartenden akustischen Bedingungen während der Anwen dung des Spracherkennungssystems enthält.

Dennoch weisen alle genannten Verfahren das grundlegende Problem auf, daß sich die akustischen Bedingungen während des Trainings und während der späteren Anwendung (Spracheingabe) unterscheiden, da die tatsächlichen akustischen Bedingungen während einer Spracheingabe nicht exakt vorausgesagt werden können.

Aus der DE 195 21 258 A1 ist ein Spracherkennungssystem be kannt, bei dem neben dem Sprachsignal ein zusätzliches, die Störung beschreibendes Eingabesignal so ausgewertet wird, dass die darin enthaltene Information bei der Erkennung mög lichst unterdrückt wird. Dazu werden Vergleichsvektoren ge bildet, die fortlaufend an die momentane Störung angepasst werden.

Die der Erfindung zugrunde liegende Aufgabe besteht darin, Störungen von in einem Spracherkennungssystem zu verarbeiten der Signale zu kompensieren.

Diese Aufgabe wird durch die Merkmale des Verfahrensanspruchs 1 gelöst.

Grundgedanke des Verfahrens gemäß Anspruch 1 ist es, während eines Trainings eines Spracherkennungssystems auf einen neuen Sprecher generierte Merkmale (Trainingsprobe), die mit einer auf Basis eines zu einem späteren Zeitpunkt aufgenommenen Sprachsignals erzeugten Erkennungssprachprobe für eine Spracherkennung verglichen wird, gegebenenfalls mit zu einer Störung, die während der Aufnahme des Sprachsignals auftritt und das Sprachsignal verfälschen kann, analogen Signalen zu verknüpfen, wobei die Erkennungsprobe ebenfalls durch Ver knüpfung des Sprachsignals mit zu der Störung analogen Signa len generiert wird, so daß Trainingsprobe und Erkennungs sprachprobe auf die aktuelle Störung abgestimmt sind.

Durch das erfindungsgemäße Verfahren wird daher gewährleis tet, daß die bei der aktuellen Aufnahme eines Sprachsignals auftretenden Störungen mit den während eines Trainings gene rierten Merkmalen (Trainingsprobe) derart verknüpft werden, daß die optimierte Trainingsprobe gewissermaßen ein Auftreten der Störung zum Zeitpunkt des Trainings simuliert. Eine durch die Störung verursachte erste Differenz, die sich bei einem Vergleich von optimierter Trainingsprobe und Erkennungsprobe ergibt, ist daher kleiner als eine zweite Differenz, die sich bei einem Vergleich von Trainingsprobe und Erkennungsprobe ergibt, so daß die Qualität und die Quantität der Erkennungs rate deutlich steigt.

Eine Schätzung einer den Unterschied zwischen einer Trai ningsumgebung und aktuellen Umgebung des Spracherkennungssy stems wiedergebenden Funktion "convolutional noise" erfolgt insbesondere durch eine mathematische Beschreibung eines Stö rungsmodells anhand signifikanter Merkmale, die eine aktuelle Sprachprobe aufweist, und hat den Vorteil, daß sie sich als Algorithmus einfach implementieren läßt sowie eine Korrektur (Filterung bzw. Faltung mit inverser Funktion) einer sich durch den Unterschied zwischen einer Trainingsumgebung und aktuellen Umgebung des Spracherkennungssystems ergebenden veränderten Übertragungsfunktion ermöglicht.

Eine Schätzung der aktuellen, Neben- bzw. Störgeräusche wie dergebenden, Funktion "additive noise" erfolgt insbesondere durch eine mathematische Beschreibung eines Störungsmodells anhand signifikanter Merkmale, die eine aktuelle Sprachprobe aufweist, und hat ebenfalls den Vorteil, daß sie sich als Al gorithmus einfach implementieren läßt sowie eine Korrektur des durch die Neben- bzw. Störgeräusche verfälschten Sprach signals ermöglicht.

Die Schätzung und Verknüpfung sowohl von "convolutional noi se" als auch "additive noise" verbessert die Kompensation von Störungen.

Eine Gewichtung der zur Störung analogen Signale durch Multi plikation mit mindestens einem Faktor, der insbesondere als einstellbarer Parameter, dessen Wert beispielsweise mit Hilfe von Messungen oder durch Simulation ermittelt wird, gedacht ist, ermöglicht eine Optimierung der Kompensation, da opti mierte Trainingsprobe und Erkennungssprachprobe aufeinander abgestimmt werden können.

Die Weiterbildung gemäß Anspruch 6 ist einfach zu implemen tieren und erzielt sehr gute Werte bei der Kompensation der Störung, da sowohl "additive noise" als auch "convolutional noise" - durch bekannte Algorithmen - geschätzt sowohl mit dem Sprachsignal als auch mit den generierten Merkmalen (Trainingsprobe) verknüpft wird, so daß die auftretende Stö rung im Idealfall sogar vollständig kompensiert wird.

Ein Ausführungsbeispiel der Erfindung wird anhand der einzi gen Figur erläutert. Diese zeigt:

Ein Ablaufdiagramm des in einem Spracherkennungssystem ein gesetzten erfindungsgemäßen Verfahrens.

Das in der Figur dargestellte Ablaufdiagramm gibt die wesent lichen Schritte des erfindungsgemäßen Verfahrens, welches in einem gängigen Spracherkennungssystem ohne weiteres einge setzt werden kann.

Bei dem dargestellten Ausführungsbeispiel beginnt das Verfah ren mit der Überprüfung (Abfrage), ob eine Spracheingabe, welche über ein bekanntes Raum-Mikrofon-Vorverstärkersystem (RMV-System) stattfindet, erfolgt ist, d. h. ob ein Sprachsi gnal s(t) aufgenommen wurde.

Diese Überprüfung wird solange durchgeführt, bis ein Sprach signal s(t) aufgenommen wurde und somit eine Spracheingabe durch einen Sprecher erfolgt ist.

Ist die Spracheingabe erfolgt, wird das Sprachsignal s(t) analysiert, so daß eine Schätzung von sich auf die Übertra gungsfunktion auswirkender Anteile einer Störung "convolutio nal noise" n_c(t), die während der Aufnahme des Sprachsignals s(t) auftritt, sowie sich dem Sprachsignal überlagernder An teile der Störung (Neben- bzw. Störgeräusch) "additive noise" n_a(t) durchgeführt wird. (Die Verfahrensschritte der Analyse und Schätzung sind der Fachwelt bekannt und werden daher an dieser Stelle nicht näher erläutert.)

Mit dem geschätzten "convolutional noise" n_{c_est}(t) und dem geschätzten "additive noise" n_{a_est}(t) wird in einem nächsten Schritt eine Erkennungsprobe s_E(t) gemäß der Formel

s_E(t) = (n_c(t)*s(t))*βn_{c_est}(t)^-1 + n_a(t) - βn_{a_est}(t)

sowie aus einer gespeicherten Trainingsprobe s_T(t) in Verbin dung mit dem geschätzten "convolutional noise" n_{c_est}(t) und dem geschätzten "additive noise" n_{a_est}(t) eine optimierte Trainingsprobe s_{T_opt}(t) gemäß der Formel

s_{T_opt}(t) = (s_T(t)*(1 - β)n_{c_est}(t)) + (1 -β)n_{a_est}(t)

gebildet, wobei folgende Definitionen gelten:
s(t): Sprachsignal
s_T(t): Trainingssprachprobe
s_{T_opt}(t): optimierte Trainingssprachprobe
s_E(t): Erkennungssprachprobe
n_c(t): "convolutional noise"
n_a(t): "additive noise"
n_{c_est}(t): geschätztes (estimated) "convolutional noise"
n_{a_est}(t): geschätztes (estimated) "additional noise"
β: Gewichtungsfaktor
*: Faltungsoperator

In einem letzen Schritt wird ein Vergleich von optimierter Trainingsprobe s_{T_opt}(t) und Erkennungsprobe s_E(t) gemäß einem der Fachwelt bekannten Algorithmus zur Spracherkennung aus Vergleich von einer Trainingsprobe und einer Erkennungsprobe zur Spracherkennung durchgeführt.

Das genannte Ausführungsbeispiel stellt nur einen Teil der durch die Erfindung möglichen Ausführungsformen dar. So ist ein auf diesem Gebiet tätiger Fachmann in der Lage, durch vorteilhafte Modifikationen eine Vielzahl von weiteren Aus führungsformen zu schaffen, ohne daß dabei der Charakter (We sen) der Erfindung (Verwendung einer aufgrund aktueller Gege benheiten bei der Sprachaufnahme modifizierten Trainingsprobe für den durch bekannte Spracherkennungsverfahren durchgeführ ten Vergleich mit einer aktuellen Erkennungsprobe) verändert wird. Diese Ausführungsformen sollen ebenfalls durch die Er findung mit erfaßt sein.

Claims

1. Verfahren zur Spracherkennung, mit folgenden Merkmalen:

a) Durch Verknüpfung eines aktuellen Sprachsignals (s(t)) mit mindestens einer eine Störung (n_a(t), n_c(t)) des Sprachsignals darstellenden Größe wird eine Erkennungs sprachprobe (s_E(t)) erzeugt,
b) durch Verknüpfung einer dem Spracherkennungssystem be kannten Trainingssprachprobe (s_T(t)) mit mindestens einer die Störung (n_a(t), n_c(t)) darstellenden Größe wird eine optimierte Trainingssprachprobe (s_{T_opt}(t)) erzeugt,
c) die die Störung (n_a(t), n_c(t)) darstellende Größe wird durch Schätzung einer den Unterschied zwischen einer Trainingsumgebung und aktuellen Umgebung des Spracherken nungssystems wiedergebenden Funktion "convolutional noi se" (n_{c_est}(t)) ermittelt,
d) die optimierte Trainingssprachprobe (s_{T_opt}(t)) und die Erkennungssprachprobe (s_E(t)) werden einem Spracherken nungsverfahren zugeführt.

2. Verfahren nach Anspruch 1, dadurch gekennzeich net, daß

a) eine erste die Störung (n_a(t), n_c(t)) darstellende Größe durch Schätzung einer den Unterschied zwischen einer Trainingsumgebung und einer Aufnahme des Sprachsignals (s(t)) aktuellen Umgebung des Spracherkennungssystems wiedergebenden Funktion "convolutional noise" (n_{c_est}(t)) ermittelt wird,
b) eine zweite die Störung (n_a(t), n_c(t)) darstellende Größe durch Schätzung einer die aktuellen Neben- bzw. Störge räusche wiedergebenden Funktion "additive noise" (n_{a_est}(t)) ermittelt wird.

3. Verfahren nach einem der vorhergehenden Ansprüche, da durch gekennzeichnet, daß die die Störung (n_a(t), n_c(t)) darstellende Größe durch Multiplikation mit mindestens einem Faktor gewichtet wird.

4. Verfahren nach Anspruch 5, dadurch gekennzeich net, daß die Erkennungssprachprobe (s_E(t)) gemäß der Formel
s_E(t) = (n_c(t)*s(t))*βn_{c_est}(t)^-1 + n_a(t) - βn_{a_est}(t)
und die optimierte Trainingssprachprobe (s_{T_opt}(t)) gemäß der Formel
s_{T_opt}(t) = (s_T(t)*(1 - β)n_{c_est}(t)) + (1 -β)n_{a_est}(t)
mit
s(t): Sprachsignal
s_T(t): Trainingssprachprobe
S_{T_opt}(t): optimierte Trainingssprachprobe
s_E(t): Erkennungssprachprobe
n_c(t): "convolutional noise"
n_a(t): "additive noise"
n_{c_est}(t): geschätztes "convolutional noise"
n_{a_est}(t): geschätztes "additional noise"
β: Gewichtungsfaktor
*: Faltungsoperator
gebildet werden.