DE2506771A1

DE2506771A1 - Verfahren zur verbesserung der sprechererkennung

Info

Publication number: DE2506771A1
Application number: DE19752506771
Authority: DE
Inventors: Ernst Dipl Ing Bunge; Ulf Dipl Phys Dr Rothgordt
Original assignee: Philips Patentverwaltung GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1975-02-18
Filing date: 1975-02-18
Publication date: 1976-08-19
Also published as: DE2506771C2

Description

Verfahren zur Verbesserung der Sprechererkennung Die Erfindung betrifft ein Verfahren zur Verbesserung der Sprechererkennung bei Übertragung des zu erkennenden Sprachsignals über eine Ubertragungsstrecke mit linearen Verzerrungen zu dem Erkennungsgerät.
Um mit einem automatischen rechnergesteuerten Sprechererkennungs system eine hohe Erkennungsrate zu erzielen, ist es notwendig, die zu erkennenden Sprachproben bzw. Sprachsignale dem Rechner immer in gleichbleibender Qualität zur Verfügung zu stellen. Bei Sprachübertragung beispielsweise per Telefon ist jedoch bei jeder Telefonverbindung die unterschiedliche übertragungsfurilftion der Strecke Mikrofonkapsel - Telefonleitung - Telefonadapter zwischen dem eigentlichen Sprachsignal und dem Signal, das dem Rechner zugeführt wird, unvermeidlich zwischengeschaltet. Der Einfluß dieser jeweils wechselnden Übertragungsfunktion kann so groß sein, daß eine zuverlässige Sprechererkennung sehr erschwert bzw. unmöglich gemacht wird.
Aufgabe der Erfindung ist es, ein Verfahren zur Verbesserung der Sprechererkennung anzugeben, bei dem Auswirkungen durch die linea ren Verzerrungen des Sprachsignals auf der Ubertragungsstrecke weitgehend vermieden werden. Diese Aufgabe löst die Erfindung durch die im Kennzeichen des Hauptanspruchs angegebenen Merkmale. Das vorbestimmte Signal kann ein festgelegter Text, also ein Testsatz sein, der vor Beginn der eigentlichen Übertragung von dem zu erkennenden Sprecher besprochen wird. Eine andere Möglichkeit besteht darin, dem Mikrofon auf der Sprecherseite ein Sinussignal in Form eines von einem Lautsprecher erzeugten Tones mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der Ubertragungsstrecke ändernden Frequenz zuzuführen . Dafür ist zwar ein gewisser, wenn auch geringer apparativer Aufwand notwendig, jedoch werden mit dieser Methode die Eigenschaften der Ubertragungsstrecke objektiver erfaßt.
Die Korrektur des übertragenen Sprachsignals kann dadurch erfolgen, daß mit den Werten der im Erkennungsgerät bestimmten Übertragungsfunktion ein elektronisch einstellbares Filter entsprechend eingestellt wird, oder daß bei einem Erkennungsgerät, das mittels einer Filterbank das Sprachsignal in die einzelnen Spektralanteile zerlegt, die Ausgänge der Filterbank entsprechend gewichtet werden. Die Korrektur durch die Übertragungsfunktion kann jedoch auch impliziterfolgen, indem das Fourier-Spektrumdes übertragenen Sprachsignals mit dem Quotienten aus dem Fourer-Spektrum des gespeicherten vorbestimmten Signals und des übertragenen vorbestimmten Signals multipliziert wird.
Das Sprachsignal des zu erkennenden Sprechers sei durch seine Amplituden-Zeit-Funktion charakterisiert. Wird dieses Sprachsignal über eine Telefonleitung übertragen, so erhält man als Ausgangssignal beim Erkennungsgerät eine Funktion, die durch die Übertragungseigenschaften des Telefonübertragungsweges verändert worden ist. Um zu zeigen, wie aus dem Ausgangssignal das originale Sprachsignal näherungsweise wiedergewonnen werden kann, werden beide Signale fouriertransformiert, so daß sich folgende Beziehung zwischen beiden Signalen ergibt: F1T (w) = F1 (w) AT (w) Die unbekannte Übertragungsfunktion k (w) ist dann Darin ist die Fouriertransformierte F1 (w) des originalen Sprachsignals ebenfalls noch unbekannt.
In dem Erkennungssystem ist nun ein gesprochener Testsatz bzw. dessen Eigenschaften gespeichert. Wenn der gleiche Testsatz vom gleichen Sprecher noch einmal gesprochen wird, so ist er, innerhalb der normalen Reproduzierbarkeitsgrenzen, am Ort des Sprechers dem originalen Testsatz sehr ähnlich. Wenn also der noch einmal gesprochene Testsatz im Erkennungssystem mit dem originalen Testsatz verglichen wird, kann daraus also die unbekannte Ubertragungsfunktion AT (w) näherungsweise bestimmt werden: Darin ist F2 2T (w) die Fouriertransformierte des noch einmal gesprochenen und übertragenen Testsatzes und F2 1 (w) die Fouriertransformierte des gespeicherten Testsatzes ist.
Mit der somit zumindest näherungsweise bestimmten Ubertragungsfunktion kann nun in bekannter Weise die Inversfilterung des zu erkennenden Sprachsignals im Rechner vorgenommen werden, um den Einfluß der Telefonstrecke auf die Sicherheit der Sprechererkennung zu reduzieren. Wenn insbesondere das Spektrum des Sprachsi gnals untersucht wird, kann die Übertragungsfunktion AT (w) gleichsam implizit berücksichtigt werden, um aus dem Spektrum F1T (w) das originale Sprachsignal F1 (w) zu rekonstruieren: Eine andere Möglichkeit besteht darin, daß nicht ein Testsatz, sondern ein Sinussignal konstanter Amplitude mit variabler Frequenz über die Telefonleitung geschickt wird. Die dafür notwendige Anordnung kann beispie'swegse eus einer Sägezahngenerator, einem Sinusgenerator, einem Verstärkerbaustein und einem kleinen Lautsprecher bestehen. Der Sägezahngenerator steuert die Frequenz des Sinusgenerators vorzugsweise linear über den Ubertragungsbereich von etwa 100 Hz bis 5 Khz. Diese Sinusspannung wird über den Verstärker einem Miniaturlautsprecher zugeführt, der direkt vor die Mikrofonkapsel des Telefons gehalten wird. Bei Verwendung von integrierten Schaltkreisen und einem Miniaturlautsprecher läßt sich dieæ Anordnung in der Größe einer Telefonkapsel aufbauen, die vor jeder Übertragung eines zu erkennenden Sprachsignals vor die Telefonmikrofonkapsel gehalten wird. Auf der Empfängerseite braucht dann nur noch von dem empfangenen Signal eine Spektralanalyse gemacht zu werden, um die Übertragungsfunktion zu ermitteln und damit die Sprechererkennung nahezu unabhängig von dem Frequenzgang der Telefonleitung durchzuführen.

Claims

Patentansprüche:

9 erfahren zur Verbesserung der Sprechererkennung bei Übertragung des zu erkennenden Sprachsignals über eine Übertragungsstrecke mit linearen Verzerrungen zu dem Erkennungsgerät, dadurch gekennzeichnet, daß vor der Übertragung des Sprachsignals über die Ubertragungsstrecke ein vorbestimmtes Signal übertragen wird, daß in dem Erkennungsgerät das vorbestimmte Signal bzw. dessen charakteristischen Merkmale gespeichert sind und mit dem bzw.

denen des übertragenen vorbestimmten Signals verglichen werden, und daß aus dem Vergleich eine Übertragungsfunktion bestimmt wird, mit der das folgende übertragene, zu erkennende Sprachsignal vor der Erkennung korrigiert wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein festgelegter Text ist.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein Sinus signal mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der übertragungsstrecke ändernde Frequenz ist.
4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß das Fourier-Spektrum des übertragenen Sprachsignals mit dem Quotienten aus den Fourier-Spektren des gespeicherten vorbestimmten Signals und des übertragnem n vorbestimmten Signals multipliziert wird.