DE2506771C2

DE2506771C2 - Verfahren zur Verbesserung der Sprechererkennung

Info

Publication number: DE2506771C2
Application number: DE19752506771
Authority: DE
Inventors: Ernst Dipl.-Ing. 2000 Hamburg Bunge; Ulf Dipl.-Phys. Dr. 2000 Norderstedt Rothgordt
Original assignee: Philips Patentverwaltung GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1975-02-18
Filing date: 1975-02-18
Publication date: 1983-12-01
Also published as: DE2506771A1

Description

40

Die Erfindung betrifft ein Verfahren zur Verbesserung der Sprechererkennung nach dem Oberbegriff des Patentanspruchs 1.

Um mit einem automatischen rechnergesteuerten Sprechererkennungssystem eine hohe Erkennungsrate zu erzielen, ist es notwendig, die zu erkennenden Sprachproben bzw. Sprachsignale dem Rechner immer in gleichbleibender Qualität zur Verfügung zu stellen. Bei Sprachübertragung beispielsweise per Telefon ist jedoch bei jeder Telefonverbindung die unterschiedliche Übertragungsfunktion der Strecke Mikrofonkapsel — Telefonleitung — Telefonadapter zwischen dem eigentlichen Sprachsignal und dem Signal, das dem Rechner zugeführt wird, unvermeidlich zwischengeschaltet. Der Einfluß dieser jeweils wechselnden Übertragungsfunktion kann so groß sein, daß eine zuverlässige Sprechererkennung sehr erschwert bzw. unmöglich gemacht wird.

Ein Verfahren der eingangs genannten Art ist bekannt aus der US-PS 28 66 001. Dabei wird das Spektrum des ankommenden Sprachsignals gemessen und mit einem Standard-Spektrum verglichen, das aus statistischen Untersuchungen gewonnen wird. Wenn die f>5 beiden Spektren nicht genügend ähnlich sind, wird die Leistungsverteilung des ankommenden Sprachsignals über die Frequenz korrigiert, bis das Spektrum des Eingangssignals dem vorbestimmten Standardspektrum entspricht Bei einer derartigen Angleichung des ankommenden Sprachsignals an einen Standard gehen aber sehr viele der Unterschiede .Twischen den Sprachsignalen verschiedener Sprecher verloren, die entscheidend notwendig sind, um diese Sprachsignale unterscheiden und die entsprechenden Speicher identifizieren bzw. verifizieren zu können. Diese bekannte Korrektur des empfangenen Sprachsignals ist also für eine Sprechererkennung nur bedingt geeignet

Aufgabe der Erfindung ist es, ein Verfahren der eingangs genannten Art anzugeben, bei dem die Auswirkungen durch die linearen Verzerrungen des Sprachsignals auf der Übertragungsstrecke weitgehend vermieden werden, bei dem jedoch die sprecherindividuellen Unterschiede im Spracbsignal weitestgehend erhalten bleiben.

Diese Aufgabe wird erfindungsgemäß durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen Merkmale gelöst Durch den Vergleich eines vorbestimmten Signals bzw. dessen charakteristischen Merkmale mit gespeicherten Merkmalen können die Eigenschaften der Übertragungsstrecke allein genau ermittelt und ausgeglichen werden, so daß die charakteristischen Eigenschaften des folgenden übertragenen, zu erkennenden Sprachsignals auch nach Korrektur alle sprecherindividuellen Charakteristika weiterhin enthält.

Für das vorbestimmte Signal bestehen verschiedene Möglichkeiten. Vorteilhaft ist es, daö das vorbestimmte Signal ein festgelegter Text ist. Dies erfordert auf der Sendeseite am wenigstens Aufwand. Eine andere Möglichkeit besteht darin, daß das vorbestimmte Signal ein Sinussignal mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der Übertragungsstrecke ändernden Frequenz ist Ein solches Signal kann leicht durch eine einfache elektronische Schaltung und einen kleinen Lautsprecher erzeugt werden. Dafür ist zwar ein gewisser, wenn auch geringer apparativer Aufwand notwendig, jedoch werden mit dieser Methode die Eigenschaften der Übertragungsstrecke objektiver erfaßt.

Die Korrektur des übertragenen Sprachsignals kann dadurch erfolgen, daß mit den Werten der im Erkennungsgerät bestimmten Übertragungsfunktion ein elektronisch einstellbares Filter entsprechend eingestellt wird, oder daß bei einem Erkennungsgerät, das mittels einer Filterbank das Sprachsignal in die einzelnen Spektralanteile zerlegt, die Ausgänge der Filterbank entsprechend gewichtet werden. Die Korrektur durch die Übertragungsfunktion kann jedoch auch implizit erfolgen, indem das Fourier-Spektrum des übertragenen Sprachsignals mit dem Quotienten aus dem Fourier-Spektrum des gespeicherten vorbestimmten Signals und des übertragenen vorbestimmten Signals multipliziert wird.

Für die Kalibrierung eines akustischen Empfängers ist es nach »IEEE Transactions on Acoustics, Speech, and Signal Processing, 1974«, Seiten 56 bis 62 bekannt, diesem ein Breitband-Rauschen mit einer Gauß-Verteilung zuzuführen und das Ausgangssignal mit dem Ausgangssignal eines bekannten akustischen Empfängers mit bekannter Übertragungsfunktion zu vergleichen, indem die aus einer Fourier-Transformation gewonnenen spektralen Leistungsdichten durcheinander dividiert werden. Dieses bekannte Verfahren dient jedoch nicht zum Ausgleich von linearen Verzerrungen einer Übertragungsstrecke.

Zur Erläuterung der Wirkung bei Multiplikation mit den Quotienten aus den Fourier-Spektren wird im vorliegenden Fall angenommen, daß das Sprachsignal des zu erkennenden Sprechers durch seine Amplituden-Zeit-Funktion charakterisiert ist. Wird dieses Sprachsignal über eine Telefonleitung übertragen, so erhält man als Ausgangssignal beim Erkennungsgerät eine Funktion, die durch die Übertragungseigenschaften des Telefonübertragungsweges verändert worden ist Um zu zeigen, wie aus dem Ausgangssignal das originale Sprachsignal näherungsweise wiedergewonnen werden kann, werden beide Signale fouriertransformiert, so daß sich folgende Beziehung zwischen beiden Signalen ergibt:

F21 (w) die Fouriertransformierte des gespeicherten Testsatzes ist

Mit der somit zumindest näherungsweise bestimmten Übertragungsfunktion kann nun in bekannter Weise die InversFilterung des zu erkennenden Sprachsignals im Rechner vorgenommen werden, um den Einfluß der Telefonstrecke auf die Sicherheit der Sprechererkennung zu reduzieren. Wenn insbesondere das Spektrum des Sprachsignals untersucht wird, kann die Übertragungsfunktion At(w) gleichsam implizit berücksichtigt werden, um aus dem Spektrum F\t(w) das originale Sprachsignal Fi (w) zu rekonstruieren:

Die unbekannte Übertragungsfunktion A_T(w) ist dann

α ω - *i τ Μ ^T F, M

Darin ist die fouriertransformierte Fi (w) des originalen Sprachsignals ebenfalls noch unbekannt.

In dem Erkennungssystem ist nun ein gesprochener Testsatz bzw. dessen Eigenschaften gespeichert Wenn der gleiche Testsatz vom gleichen Sprecher noch einmal gesprochen wird, so ist er, innerhalb der normalen Reproduzierbarkeitsgrenzen, am Ort des Sprechers dem originalen Testsatz sehr ähnlich. Wenn also der noch einmal gesprochene Testsatz im Erkennungssystem mit dem originalen Testsatz verglichen wird, kann daraus also die unbekannte Übertragungsfunktion A τ (w) näherungsweise bestimmt werden:

30

A_T M

F₂ 1 M

Darin ist F₂it(w)die Fouriertransformierte des noch einmal gesprochenen und übertragenen Testsatzes und

40 F₁(W)

F₁ τ Μ AtM

Fi2tM

Eine andere Möglichkeit besteht darin, daß nicht ein Testsatz, sondern ein Sinussignal konstanter Amplitude mit variabler Frequenz über die Telefonleitung geschickt wird. Die dafür notwendige Anordnung kann beispielsweise aus einem Sägezahngenerator, einem Sinusgenerator, einem Verstärkerbaustein und einem kleinen Lautsprecher bestehen. Der Sägezahngenerator steuert die Frequenz des Sinusgenerators vorzugsweise linear über den 'Übertragungsbereich von etwa iOO Hz bis 5 kHz. Diese Sinusspannung wird über den Verstärker einem Miniaturlautsprecher zugeführt, der direkt vor die Mikrofonkapsel des Telefons gehalten wird. Bei Verwendung von integrierten Schaltkreisen und einem Miniaturlautsprecher läßt sich diese Anordnung in der Größe einer Telefonkapsel aufbauen, die vor jeder Übertragung eines zu erkennenden Sprachsignals vor die Telefonmikrofonkapsel gehalten wird. Auf der Empfängerseite braucht dann nur noch von dem empfangenen Signal eine Spektralanalyse gemacht zu werden, um die Übertragungsfunktion zu ermitteln und damit die Sprechererkennung nahezu unabhängig von dem Frequenzgang der Telefonleitung durchzuführen.

Claims

Patentansprüche:

1. Verfahren zur Verbesserung der Sprechererkennung bei Übertragung eines zu erkennenden Sprachsignals über eine Übertragungsstrecke mit linearen Verzerrungen zu einem Erkennungsgerät durch Vergleich charakteristischer Merkmale eines durch seine Übertragung verzerrten Sprachsignals mit im Erkennungsgerät gespeicherten, aus einem unverzerrten Sprachsignal gewonnenen charakteristischen Sprachsignalmerkmalen und dadurch gesteuerte Korrektur des zu erkennenden Sprachsignals, dadurch gekennzeichnet, daß vor der Übertragung des zu erkennenden Sprachsignals über die Übertragungsstrecke ein vorbestimmtes Signal übertragen wird, daß im Erkennungsgerät das vorbestimmte Signal bzw. dessen charakteristischen Merkmale gespeichert sind und mit dem bzw. denen des übertragenen vorbestimmten Signals verglichen werden, und daß aus dem Vergleich eine Übertragungsfunktion bestimmt wird, mit der das folgende übertragene, zu erkennende Sprachsignal vor der Erkennung korrigiert wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet daß das vorbestimmte Signal ein festgelegter Text ist.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein Sinussignal mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der Übertragungsstrecke ändernde Frequenz ist

4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß das Fourier-Spektrum des übertragenen Sprachsignals mit dem Quotienten aus den Fourier-Spektren des gespeicherten vorbestimmten Signals und des übertragenen vorbestimmten Signals multipliziert wird.