DE3808038A1

DE3808038A1 - Verfahren zur automatischen anpassung eines spracherkennungssystems

Info

Publication number: DE3808038A1
Application number: DE19883808038
Authority: DE
Inventors: Gerd-Stefan Dipl Ing Kunz
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1988-03-10
Filing date: 1988-03-10
Publication date: 1989-09-28
Also published as: DE3808038C2

Description

Die Erfindung bezieht sich auf ein Verfahren zur automatischen Anpassung eines Spracherkennungssystems mit Filterbankanalyse an eine während der Worteingabe konstante Störumgebung.

Einrichtungen zur Spracherkennung sind beispielsweise durch den Aufsatz "Ohren für den Computer" erschienen in der Funkschau 25/1984, Seiten 69 bis 71, sowie eine NEC-Druckschrift "Speech Processing Devices : A New Era in Man-Machine Interfacing" be kannt. Dabei wird das Sprachsignal nach einer Vorverarbeitung und Sprachanalyse nach speziellen Sprachmerkmalen in einer Lern- und Erkennungsphase mit einem Referenzmuster verglichen und aus diesem Vergleich eine Entscheidung abgeleitet.

Bei der Anwendung von Spracherkennung im Autotelefon steht die Entlastung des Fahrers bei der Bedienung des Gerätes und eine damit verbundene Erhöhung der Fahrsicherheit im Vordergrund. Durch den Einsatz von Spracheingabe würde sich z. B. der Wähl vorgang auf das Abnehmen des Handapparates und das anschließende Einsprechen des gewünschten Teilnehmernamens bzw. der Teilnehmer ziffern reduzieren. Nach der Erkennung stellt das System auto matisch die betreffende Telefonverbindung her, so daß der Fahrer während des ganzen Vorgangs seine uneingeschränkte Aufmerksam keit dem Straßenverkehr widmen kann. Eine Realisierung dieser Funktion mit derzeitig verfügbaren Low-cost Spracherkennungs systemen ist jedoch trotz der Verwendung eines Nahbesprechungs mikrofons nicht möglich, da sich das Fahrgeräusch negativ auf die Wortgrenzendetektion und die Sprachanalyse und somit auch auf die Erkennungssicherheit des Systems auswirkt.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzuge ben, mit dem solche Störungen bei der Spracherkennung eliminiert werden können.

Diese Aufgabe wird gemäß der Erfindung in der Weise gelöst, daß in einer der Filterbank einschließlich A/D-Wandler nachgeschal teten Baueinheit zur Störunterdrückung aus dem aus Nutzsignal- und Störsignalanteilen bestehenden Filterbankausgangssignal durch Differenzieren und anschließendes Integrieren ein durch die Störumgebung auftretender pegelmäßig konstanter Störsignal anteil unterdrückt wird. Durch dieses Störunterdrückungsverfah ren wird erreicht, daß die Klassifikation, d. h. die Feststel lung der Ähnlichkeit der im System gespeicherten Referenzwörter mit den Testwörtern stets unter annähernd identischen Beding ungen erfolgt.

Durch ein der Störunterdrückung vorgeschaltetes Mittelungsver fahren wird in vorteilhafter Weise eine Eliminierung von Kurz zeitschwankungen des Störsignals erreicht.

Nachstehend wird die Erfindung anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert.

Es zeigen

Fig. 1 das Blockschaltbild einer Schaltung zur Sprach erkennung mit Störunterdrückung und

Fig. 2 bis 4 Diagramme eines Nutzsignals, eines Nutzsignals mit überlagertem Sinuston und das Gesamtsignal nach einer Störunterdrückung.

Die Schaltung nach Fig. 1 zur Durchführung der Spracherkennung besteht aus einem Mikrofon 1, einem Mikrofonvorverstärker 2, einer Filterbank 3 einschließlich A/D-Wandler 5, einem Micro- oder Signalprozessor 6 zur Störunterdrückung und einer Klassi fikationsstufe 7 mit einem Referenzwortspeicher 8. Die Filter bank 3 besteht aus m Kanälen, von denen jeder einen Bandpaß BP und einen Gleichrichter G enthält und die über einen Multi plexer 4 ausgangsseitig zusammengefügt sind.

Die Grundlage des Störunterdrückungsverfahrens bildet die Tat sache, daß sich die Lautstärke der vorwiegend im Auto auftreten den Störungen (Wind-, Reifen-, Motorgeräusche) nur langsam än dert und somit deren Filterspektrum über relativ große Zeit räume als konstant betrachtet werden kann, während sich im Ver gleich dazu die Spektrumsintensitäten des Sprachkanals deutlich schneller ändern. Diesen Sachverhalt zeigen die Fig. 2 und 3, in denen das Ausgangssignal der Filterbank - das 16-Kanal-Spek trum des Wortes "EINS" und im Vergleich dazu ein farbiges Rausch signal wiedergegeben sind, dessen mittlere Lautstärke über den gesamten Zeitraum von ls annähernd konstant ist.

Zur Erläuterung des Störunterdrückungsverfahrens soll repräsen tativ eines der m Ausgangssignale der m-Kanal-Filterbank Y(j) mit j=1 . . . m betrachtet werden. In Störumgebung setzt sich das Signal Y(j) aus einem Nutzsignalanteil X(j) und einem Störan teil A(j) zusammen:

Y(j) = X(j) + A(j)

Y(j) stellt ein zeit- und wertdiskretes Signal dar, dessen Wer te in zeitlichen Abständen von ca. 16 ms ausgegeben werden. Differenziert man dieses Signal, d. h. bildet man jeweils die Differenz zweier zeitlich aufeinanderfolgender Werte, so ergibt sich, lineare Unabhängigkeit beider Signale vorausgesetzt:

A(j)′ = X(j)′ + A(j)′

Für den Fall, daß sich die Amplitude von A(j) nicht ändert (vgl. Fig. 4, in der als Störsignal im Kanal 7 ein Sinuston konstanter Amplitude eingezeichnet ist) ergibt sich für Y(j)′:

Y(j)′ = X(j)′

Anschließendes Integrieren, d. h. Aufsummieren der Differenzwer te ergibt:

Y(j) = X(j)

D. h., durch ein Differenzieren und anschließendes Integrieren des Filterbandausgangssignales wird ein pegelmäßig konstanter Signalanteil, in diesem Fall der Sinuston komplett unterdrückt. Dies ist in Fig. 5 gezeigt, deren Diagramm das Nutzsignal plus Sinuston nach der Störunterdrückung zeigt. Das Differenzieren und anschließende Integrieren des Filterbankausgangssignales erfolgt dabei über entsprechende Bausteine, die in der Bauein heit 6 zur Störunterdrückung enthalten sind.

Wird dieses Verfahren auf ein Signal angewendet, das aus einem Nutzsignal und einem farbigen Rauschsignal gemäß Fig. 3 besteht, so erhält man als Resultat ein Spektrum, dessen Störsignalanteil bei unverändertem Nutzsignal um seinen konstanten Mittelwert re duziert ist. Um auch noch Kurzzeitschwankungen des Störsignals, die als Peaks im Spektrum auftreten, zu unterdrücken, kann man der Störunterdrückung ein Mittelungsverfahren vorschalten, was jedoch eine geringfügige Verfälschung des Nutzsignales ergibt.

Claims

1. Verfahren zur automatischen Anpassung eines Spracherkennungs systems mit Filterbankanalyse an eine während der Worteingabe konstante Störumgebung, dadurch gekennzeichnet, daß in einer der Filterbank einschließlich A/D-Wandler nachgeschalteten Bauein heit zur Störunterdrückung aus dem aus Nutzsignal- und Störsig nalanteilen bestehenden Filterbankausgangssignal durch Differen zieren und anschließendes Integrieren ein durch die Störumge bung auftretender pegelmäßig konstanter Störsignalanteil unter drückt wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Eliminie rung von Kurzzeitschwankungen des Störsignals ein der Störunter drückung vorgeschaltetes Mittelungsverfahren vorgesehen ist.