DE2506771C2 - Verfahren zur Verbesserung der Sprechererkennung - Google Patents

Verfahren zur Verbesserung der Sprechererkennung

Info

Publication number
DE2506771C2
DE2506771C2 DE19752506771 DE2506771A DE2506771C2 DE 2506771 C2 DE2506771 C2 DE 2506771C2 DE 19752506771 DE19752506771 DE 19752506771 DE 2506771 A DE2506771 A DE 2506771A DE 2506771 C2 DE2506771 C2 DE 2506771C2
Authority
DE
Germany
Prior art keywords
signal
speech signal
transmitted
predetermined signal
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19752506771
Other languages
English (en)
Other versions
DE2506771A1 (de
Inventor
Ernst Dipl.-Ing. 2000 Hamburg Bunge
Ulf Dipl.-Phys. Dr. 2000 Norderstedt Rothgordt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE19752506771 priority Critical patent/DE2506771C2/de
Publication of DE2506771A1 publication Critical patent/DE2506771A1/de
Application granted granted Critical
Publication of DE2506771C2 publication Critical patent/DE2506771C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

40
Die Erfindung betrifft ein Verfahren zur Verbesserung der Sprechererkennung nach dem Oberbegriff des Patentanspruchs 1.
Um mit einem automatischen rechnergesteuerten Sprechererkennungssystem eine hohe Erkennungsrate zu erzielen, ist es notwendig, die zu erkennenden Sprachproben bzw. Sprachsignale dem Rechner immer in gleichbleibender Qualität zur Verfügung zu stellen. Bei Sprachübertragung beispielsweise per Telefon ist jedoch bei jeder Telefonverbindung die unterschiedliche Übertragungsfunktion der Strecke Mikrofonkapsel — Telefonleitung — Telefonadapter zwischen dem eigentlichen Sprachsignal und dem Signal, das dem Rechner zugeführt wird, unvermeidlich zwischengeschaltet. Der Einfluß dieser jeweils wechselnden Übertragungsfunktion kann so groß sein, daß eine zuverlässige Sprechererkennung sehr erschwert bzw. unmöglich gemacht wird.
Ein Verfahren der eingangs genannten Art ist bekannt aus der US-PS 28 66 001. Dabei wird das Spektrum des ankommenden Sprachsignals gemessen und mit einem Standard-Spektrum verglichen, das aus statistischen Untersuchungen gewonnen wird. Wenn die f>5 beiden Spektren nicht genügend ähnlich sind, wird die Leistungsverteilung des ankommenden Sprachsignals über die Frequenz korrigiert, bis das Spektrum des Eingangssignals dem vorbestimmten Standardspektrum entspricht Bei einer derartigen Angleichung des ankommenden Sprachsignals an einen Standard gehen aber sehr viele der Unterschiede .Twischen den Sprachsignalen verschiedener Sprecher verloren, die entscheidend notwendig sind, um diese Sprachsignale unterscheiden und die entsprechenden Speicher identifizieren bzw. verifizieren zu können. Diese bekannte Korrektur des empfangenen Sprachsignals ist also für eine Sprechererkennung nur bedingt geeignet
Aufgabe der Erfindung ist es, ein Verfahren der eingangs genannten Art anzugeben, bei dem die Auswirkungen durch die linearen Verzerrungen des Sprachsignals auf der Übertragungsstrecke weitgehend vermieden werden, bei dem jedoch die sprecherindividuellen Unterschiede im Spracbsignal weitestgehend erhalten bleiben.
Diese Aufgabe wird erfindungsgemäß durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen Merkmale gelöst Durch den Vergleich eines vorbestimmten Signals bzw. dessen charakteristischen Merkmale mit gespeicherten Merkmalen können die Eigenschaften der Übertragungsstrecke allein genau ermittelt und ausgeglichen werden, so daß die charakteristischen Eigenschaften des folgenden übertragenen, zu erkennenden Sprachsignals auch nach Korrektur alle sprecherindividuellen Charakteristika weiterhin enthält.
Für das vorbestimmte Signal bestehen verschiedene Möglichkeiten. Vorteilhaft ist es, daö das vorbestimmte Signal ein festgelegter Text ist. Dies erfordert auf der Sendeseite am wenigstens Aufwand. Eine andere Möglichkeit besteht darin, daß das vorbestimmte Signal ein Sinussignal mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der Übertragungsstrecke ändernden Frequenz ist Ein solches Signal kann leicht durch eine einfache elektronische Schaltung und einen kleinen Lautsprecher erzeugt werden. Dafür ist zwar ein gewisser, wenn auch geringer apparativer Aufwand notwendig, jedoch werden mit dieser Methode die Eigenschaften der Übertragungsstrecke objektiver erfaßt.
Die Korrektur des übertragenen Sprachsignals kann dadurch erfolgen, daß mit den Werten der im Erkennungsgerät bestimmten Übertragungsfunktion ein elektronisch einstellbares Filter entsprechend eingestellt wird, oder daß bei einem Erkennungsgerät, das mittels einer Filterbank das Sprachsignal in die einzelnen Spektralanteile zerlegt, die Ausgänge der Filterbank entsprechend gewichtet werden. Die Korrektur durch die Übertragungsfunktion kann jedoch auch implizit erfolgen, indem das Fourier-Spektrum des übertragenen Sprachsignals mit dem Quotienten aus dem Fourier-Spektrum des gespeicherten vorbestimmten Signals und des übertragenen vorbestimmten Signals multipliziert wird.
Für die Kalibrierung eines akustischen Empfängers ist es nach »IEEE Transactions on Acoustics, Speech, and Signal Processing, 1974«, Seiten 56 bis 62 bekannt, diesem ein Breitband-Rauschen mit einer Gauß-Verteilung zuzuführen und das Ausgangssignal mit dem Ausgangssignal eines bekannten akustischen Empfängers mit bekannter Übertragungsfunktion zu vergleichen, indem die aus einer Fourier-Transformation gewonnenen spektralen Leistungsdichten durcheinander dividiert werden. Dieses bekannte Verfahren dient jedoch nicht zum Ausgleich von linearen Verzerrungen einer Übertragungsstrecke.
Zur Erläuterung der Wirkung bei Multiplikation mit den Quotienten aus den Fourier-Spektren wird im vorliegenden Fall angenommen, daß das Sprachsignal des zu erkennenden Sprechers durch seine Amplituden-Zeit-Funktion charakterisiert ist. Wird dieses Sprachsignal über eine Telefonleitung übertragen, so erhält man als Ausgangssignal beim Erkennungsgerät eine Funktion, die durch die Übertragungseigenschaften des Telefonübertragungsweges verändert worden ist Um zu zeigen, wie aus dem Ausgangssignal das originale Sprachsignal näherungsweise wiedergewonnen werden kann, werden beide Signale fouriertransformiert, so daß sich folgende Beziehung zwischen beiden Signalen ergibt:
F21 (w) die Fouriertransformierte des gespeicherten Testsatzes ist
Mit der somit zumindest näherungsweise bestimmten Übertragungsfunktion kann nun in bekannter Weise die InversFilterung des zu erkennenden Sprachsignals im Rechner vorgenommen werden, um den Einfluß der Telefonstrecke auf die Sicherheit der Sprechererkennung zu reduzieren. Wenn insbesondere das Spektrum des Sprachsignals untersucht wird, kann die Übertragungsfunktion At(w) gleichsam implizit berücksichtigt werden, um aus dem Spektrum F\t(w) das originale Sprachsignal Fi (w) zu rekonstruieren:
Die unbekannte Übertragungsfunktion AT(w) ist dann
α ω - *i τ Μ T F, M
Darin ist die fouriertransformierte Fi (w) des originalen Sprachsignals ebenfalls noch unbekannt.
In dem Erkennungssystem ist nun ein gesprochener Testsatz bzw. dessen Eigenschaften gespeichert Wenn der gleiche Testsatz vom gleichen Sprecher noch einmal gesprochen wird, so ist er, innerhalb der normalen Reproduzierbarkeitsgrenzen, am Ort des Sprechers dem originalen Testsatz sehr ähnlich. Wenn also der noch einmal gesprochene Testsatz im Erkennungssystem mit dem originalen Testsatz verglichen wird, kann daraus also die unbekannte Übertragungsfunktion A τ (w) näherungsweise bestimmt werden:
30
AT M
F2 1 M
Darin ist F2it(w)die Fouriertransformierte des noch einmal gesprochenen und übertragenen Testsatzes und
40 F1(W)
F1 τ Μ AtM
Fi2tM
Eine andere Möglichkeit besteht darin, daß nicht ein Testsatz, sondern ein Sinussignal konstanter Amplitude mit variabler Frequenz über die Telefonleitung geschickt wird. Die dafür notwendige Anordnung kann beispielsweise aus einem Sägezahngenerator, einem Sinusgenerator, einem Verstärkerbaustein und einem kleinen Lautsprecher bestehen. Der Sägezahngenerator steuert die Frequenz des Sinusgenerators vorzugsweise linear über den 'Übertragungsbereich von etwa iOO Hz bis 5 kHz. Diese Sinusspannung wird über den Verstärker einem Miniaturlautsprecher zugeführt, der direkt vor die Mikrofonkapsel des Telefons gehalten wird. Bei Verwendung von integrierten Schaltkreisen und einem Miniaturlautsprecher läßt sich diese Anordnung in der Größe einer Telefonkapsel aufbauen, die vor jeder Übertragung eines zu erkennenden Sprachsignals vor die Telefonmikrofonkapsel gehalten wird. Auf der Empfängerseite braucht dann nur noch von dem empfangenen Signal eine Spektralanalyse gemacht zu werden, um die Übertragungsfunktion zu ermitteln und damit die Sprechererkennung nahezu unabhängig von dem Frequenzgang der Telefonleitung durchzuführen.

Claims (4)

Patentansprüche:
1. Verfahren zur Verbesserung der Sprechererkennung bei Übertragung eines zu erkennenden Sprachsignals über eine Übertragungsstrecke mit linearen Verzerrungen zu einem Erkennungsgerät durch Vergleich charakteristischer Merkmale eines durch seine Übertragung verzerrten Sprachsignals mit im Erkennungsgerät gespeicherten, aus einem unverzerrten Sprachsignal gewonnenen charakteristischen Sprachsignalmerkmalen und dadurch gesteuerte Korrektur des zu erkennenden Sprachsignals, dadurch gekennzeichnet, daß vor der Übertragung des zu erkennenden Sprachsignals über die Übertragungsstrecke ein vorbestimmtes Signal übertragen wird, daß im Erkennungsgerät das vorbestimmte Signal bzw. dessen charakteristischen Merkmale gespeichert sind und mit dem bzw. denen des übertragenen vorbestimmten Signals verglichen werden, und daß aus dem Vergleich eine Übertragungsfunktion bestimmt wird, mit der das folgende übertragene, zu erkennende Sprachsignal vor der Erkennung korrigiert wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet daß das vorbestimmte Signal ein festgelegter Text ist.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein Sinussignal mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der Übertragungsstrecke ändernde Frequenz ist
4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß das Fourier-Spektrum des übertragenen Sprachsignals mit dem Quotienten aus den Fourier-Spektren des gespeicherten vorbestimmten Signals und des übertragenen vorbestimmten Signals multipliziert wird.
DE19752506771 1975-02-18 1975-02-18 Verfahren zur Verbesserung der Sprechererkennung Expired DE2506771C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19752506771 DE2506771C2 (de) 1975-02-18 1975-02-18 Verfahren zur Verbesserung der Sprechererkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19752506771 DE2506771C2 (de) 1975-02-18 1975-02-18 Verfahren zur Verbesserung der Sprechererkennung

Publications (2)

Publication Number Publication Date
DE2506771A1 DE2506771A1 (de) 1976-08-19
DE2506771C2 true DE2506771C2 (de) 1983-12-01

Family

ID=5939116

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19752506771 Expired DE2506771C2 (de) 1975-02-18 1975-02-18 Verfahren zur Verbesserung der Sprechererkennung

Country Status (1)

Country Link
DE (1) DE2506771C2 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1229516A1 (de) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten
AUPR376201A0 (en) 2001-03-16 2001-04-12 Telstra New Wave Pty Ltd Voip communication

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2866001A (en) * 1957-03-05 1958-12-23 Caldwell P Smith Automatic voice equalizer

Also Published As

Publication number Publication date
DE2506771A1 (de) 1976-08-19

Similar Documents

Publication Publication Date Title
EP0296588B1 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE3306730C2 (de)
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
CH629350A5 (de) Signalverarbeitungsanlage zur ableitung eines stoerverringerten ausgangssignals aus zwei zugefuehrten signalen, insbesondere zur verringerung des raumnachhalles.
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE3802903A1 (de) Einrichtung zur uebertragung von sprache
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
EP0772764B1 (de) Verfahren und vorrichtung zum bestimmen der tonalität eines audiosignals
EP1048025B1 (de) Verfahren zur instrumentellen sprachqualitätsbestimmung
DE2021126B2 (de) Spracherkennungsanordnung
DE2506771C2 (de) Verfahren zur Verbesserung der Sprechererkennung
DE60033039T2 (de) Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen
EP0916206B1 (de) Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals
DE2826818C2 (de) Verfahren und Vorrichtung zum Erzeugen eines künstlichen Durchschnitts-Sprechsignals
DE4437287C2 (de) Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale
DE3009204C2 (de)
DE2524467C3 (de) Einrichtung zum Messen der Lautpegeldifferenz zwischen zwei Raumpunkten
DE3114008C2 (de) Anordnung zur Messung der Intermodulationsverzerrung eines Prüflings wahlweise nach der SMPTE- oder CCIF-Mehrton-Methode
DE1512758C1 (de) Vocoder fuer hohe Stoerlautstaerken
DE4134473C2 (de)
DE2116971A1 (de) Verfahren zum Bilden von Rauschsignalen und Vorrichtungen zum Ausüben des Verfahrens
DE2926281B1 (de) Verfahren und Schaltungsanordnung zur selektiven Daempfungsmessung in Niederfrequenz-UEbertragungssystemen

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8339 Ceased/non-payment of the annual fee