DE2506771A1 - Verfahren zur verbesserung der sprechererkennung - Google Patents

Verfahren zur verbesserung der sprechererkennung

Info

Publication number
DE2506771A1
DE2506771A1 DE19752506771 DE2506771A DE2506771A1 DE 2506771 A1 DE2506771 A1 DE 2506771A1 DE 19752506771 DE19752506771 DE 19752506771 DE 2506771 A DE2506771 A DE 2506771A DE 2506771 A1 DE2506771 A1 DE 2506771A1
Authority
DE
Germany
Prior art keywords
transmitted
signal
reference signal
predetermined signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19752506771
Other languages
English (en)
Other versions
DE2506771C2 (de
Inventor
Ernst Dipl Ing Bunge
Ulf Dipl Phys Dr Rothgordt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE19752506771 priority Critical patent/DE2506771C2/de
Publication of DE2506771A1 publication Critical patent/DE2506771A1/de
Application granted granted Critical
Publication of DE2506771C2 publication Critical patent/DE2506771C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

  • Verfahren zur Verbesserung der Sprechererkennung Die Erfindung betrifft ein Verfahren zur Verbesserung der Sprechererkennung bei Übertragung des zu erkennenden Sprachsignals über eine Ubertragungsstrecke mit linearen Verzerrungen zu dem Erkennungsgerät.
  • Um mit einem automatischen rechnergesteuerten Sprechererkennungs system eine hohe Erkennungsrate zu erzielen, ist es notwendig, die zu erkennenden Sprachproben bzw. Sprachsignale dem Rechner immer in gleichbleibender Qualität zur Verfügung zu stellen. Bei Sprachübertragung beispielsweise per Telefon ist jedoch bei jeder Telefonverbindung die unterschiedliche übertragungsfurilftion der Strecke Mikrofonkapsel - Telefonleitung - Telefonadapter zwischen dem eigentlichen Sprachsignal und dem Signal, das dem Rechner zugeführt wird, unvermeidlich zwischengeschaltet. Der Einfluß dieser jeweils wechselnden Übertragungsfunktion kann so groß sein, daß eine zuverlässige Sprechererkennung sehr erschwert bzw. unmöglich gemacht wird.
  • Aufgabe der Erfindung ist es, ein Verfahren zur Verbesserung der Sprechererkennung anzugeben, bei dem Auswirkungen durch die linea ren Verzerrungen des Sprachsignals auf der Ubertragungsstrecke weitgehend vermieden werden. Diese Aufgabe löst die Erfindung durch die im Kennzeichen des Hauptanspruchs angegebenen Merkmale. Das vorbestimmte Signal kann ein festgelegter Text, also ein Testsatz sein, der vor Beginn der eigentlichen Übertragung von dem zu erkennenden Sprecher besprochen wird. Eine andere Möglichkeit besteht darin, dem Mikrofon auf der Sprecherseite ein Sinussignal in Form eines von einem Lautsprecher erzeugten Tones mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der Ubertragungsstrecke ändernden Frequenz zuzuführen . Dafür ist zwar ein gewisser, wenn auch geringer apparativer Aufwand notwendig, jedoch werden mit dieser Methode die Eigenschaften der Ubertragungsstrecke objektiver erfaßt.
  • Die Korrektur des übertragenen Sprachsignals kann dadurch erfolgen, daß mit den Werten der im Erkennungsgerät bestimmten Übertragungsfunktion ein elektronisch einstellbares Filter entsprechend eingestellt wird, oder daß bei einem Erkennungsgerät, das mittels einer Filterbank das Sprachsignal in die einzelnen Spektralanteile zerlegt, die Ausgänge der Filterbank entsprechend gewichtet werden. Die Korrektur durch die Übertragungsfunktion kann jedoch auch impliziterfolgen, indem das Fourier-Spektrumdes übertragenen Sprachsignals mit dem Quotienten aus dem Fourer-Spektrum des gespeicherten vorbestimmten Signals und des übertragenen vorbestimmten Signals multipliziert wird.
  • Das Sprachsignal des zu erkennenden Sprechers sei durch seine Amplituden-Zeit-Funktion charakterisiert. Wird dieses Sprachsignal über eine Telefonleitung übertragen, so erhält man als Ausgangssignal beim Erkennungsgerät eine Funktion, die durch die Übertragungseigenschaften des Telefonübertragungsweges verändert worden ist. Um zu zeigen, wie aus dem Ausgangssignal das originale Sprachsignal näherungsweise wiedergewonnen werden kann, werden beide Signale fouriertransformiert, so daß sich folgende Beziehung zwischen beiden Signalen ergibt: F1T (w) = F1 (w) AT (w) Die unbekannte Übertragungsfunktion k (w) ist dann Darin ist die Fouriertransformierte F1 (w) des originalen Sprachsignals ebenfalls noch unbekannt.
  • In dem Erkennungssystem ist nun ein gesprochener Testsatz bzw. dessen Eigenschaften gespeichert. Wenn der gleiche Testsatz vom gleichen Sprecher noch einmal gesprochen wird, so ist er, innerhalb der normalen Reproduzierbarkeitsgrenzen, am Ort des Sprechers dem originalen Testsatz sehr ähnlich. Wenn also der noch einmal gesprochene Testsatz im Erkennungssystem mit dem originalen Testsatz verglichen wird, kann daraus also die unbekannte Ubertragungsfunktion AT (w) näherungsweise bestimmt werden: Darin ist F2 2T (w) die Fouriertransformierte des noch einmal gesprochenen und übertragenen Testsatzes und F2 1 (w) die Fouriertransformierte des gespeicherten Testsatzes ist.
  • Mit der somit zumindest näherungsweise bestimmten Ubertragungsfunktion kann nun in bekannter Weise die Inversfilterung des zu erkennenden Sprachsignals im Rechner vorgenommen werden, um den Einfluß der Telefonstrecke auf die Sicherheit der Sprechererkennung zu reduzieren. Wenn insbesondere das Spektrum des Sprachsi gnals untersucht wird, kann die Übertragungsfunktion AT (w) gleichsam implizit berücksichtigt werden, um aus dem Spektrum F1T (w) das originale Sprachsignal F1 (w) zu rekonstruieren: Eine andere Möglichkeit besteht darin, daß nicht ein Testsatz, sondern ein Sinussignal konstanter Amplitude mit variabler Frequenz über die Telefonleitung geschickt wird. Die dafür notwendige Anordnung kann beispie'swegse eus einer Sägezahngenerator, einem Sinusgenerator, einem Verstärkerbaustein und einem kleinen Lautsprecher bestehen. Der Sägezahngenerator steuert die Frequenz des Sinusgenerators vorzugsweise linear über den Ubertragungsbereich von etwa 100 Hz bis 5 Khz. Diese Sinusspannung wird über den Verstärker einem Miniaturlautsprecher zugeführt, der direkt vor die Mikrofonkapsel des Telefons gehalten wird. Bei Verwendung von integrierten Schaltkreisen und einem Miniaturlautsprecher läßt sich dieæ Anordnung in der Größe einer Telefonkapsel aufbauen, die vor jeder Übertragung eines zu erkennenden Sprachsignals vor die Telefonmikrofonkapsel gehalten wird. Auf der Empfängerseite braucht dann nur noch von dem empfangenen Signal eine Spektralanalyse gemacht zu werden, um die Übertragungsfunktion zu ermitteln und damit die Sprechererkennung nahezu unabhängig von dem Frequenzgang der Telefonleitung durchzuführen.

Claims (4)

  1. Patentansprüche:
    9 erfahren zur Verbesserung der Sprechererkennung bei Übertragung des zu erkennenden Sprachsignals über eine Übertragungsstrecke mit linearen Verzerrungen zu dem Erkennungsgerät, dadurch gekennzeichnet, daß vor der Übertragung des Sprachsignals über die Ubertragungsstrecke ein vorbestimmtes Signal übertragen wird, daß in dem Erkennungsgerät das vorbestimmte Signal bzw. dessen charakteristischen Merkmale gespeichert sind und mit dem bzw.
    denen des übertragenen vorbestimmten Signals verglichen werden, und daß aus dem Vergleich eine Übertragungsfunktion bestimmt wird, mit der das folgende übertragene, zu erkennende Sprachsignal vor der Erkennung korrigiert wird.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein festgelegter Text ist.
  3. 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein Sinus signal mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der übertragungsstrecke ändernde Frequenz ist.
  4. 4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß das Fourier-Spektrum des übertragenen Sprachsignals mit dem Quotienten aus den Fourier-Spektren des gespeicherten vorbestimmten Signals und des übertragnem n vorbestimmten Signals multipliziert wird.
DE19752506771 1975-02-18 1975-02-18 Verfahren zur Verbesserung der Sprechererkennung Expired DE2506771C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19752506771 DE2506771C2 (de) 1975-02-18 1975-02-18 Verfahren zur Verbesserung der Sprechererkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19752506771 DE2506771C2 (de) 1975-02-18 1975-02-18 Verfahren zur Verbesserung der Sprechererkennung

Publications (2)

Publication Number Publication Date
DE2506771A1 true DE2506771A1 (de) 1976-08-19
DE2506771C2 DE2506771C2 (de) 1983-12-01

Family

ID=5939116

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19752506771 Expired DE2506771C2 (de) 1975-02-18 1975-02-18 Verfahren zur Verbesserung der Sprechererkennung

Country Status (1)

Country Link
DE (1) DE2506771C2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059872A1 (en) * 2001-01-26 2002-08-01 Telefonaktiebolaget Lm Ericsson (Publ) Method, device, terminal and system for the automatic recognition of distorted speech data
US7436818B2 (en) 2001-03-16 2008-10-14 Telstra Corporation Limited Packet switched network voice communication

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2866001A (en) * 1957-03-05 1958-12-23 Caldwell P Smith Automatic voice equalizer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2866001A (en) * 1957-03-05 1958-12-23 Caldwell P Smith Automatic voice equalizer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
US-Z.: IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol.ASSP-22, 1974, S.56-62 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059872A1 (en) * 2001-01-26 2002-08-01 Telefonaktiebolaget Lm Ericsson (Publ) Method, device, terminal and system for the automatic recognition of distorted speech data
EP1229516A1 (de) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten
US7436818B2 (en) 2001-03-16 2008-10-14 Telstra Corporation Limited Packet switched network voice communication

Also Published As

Publication number Publication date
DE2506771C2 (de) 1983-12-01

Similar Documents

Publication Publication Date Title
DE60212696T2 (de) Bandbreitenvergrösserung für audiosignale
EP0296588A2 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE1261169B (de) Hoerhilfe
EP1244094A1 (de) Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP1048025B1 (de) Verfahren zur instrumentellen sprachqualitätsbestimmung
DE19505435C1 (de) Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
DE2021126C3 (de) Spracherkennungs anordnung
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen
DE2506771A1 (de) Verfahren zur verbesserung der sprechererkennung
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE4011577A1 (de) Verfahren und vorrichtung zur spektralanalyse
DE4437287C2 (de) Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale
DE2826818A1 (de) Verfahren und vorrichtung zum erzeugen eines kuenstlichen sprechsignals
DE2737812C3 (de) Verfahren zur Frequenzanalyse von transienten (einmaligen) Schallimpulsen
DE3009204C2 (de)
DE3114008C2 (de) Anordnung zur Messung der Intermodulationsverzerrung eines Prüflings wahlweise nach der SMPTE- oder CCIF-Mehrton-Methode
EP1366617B1 (de) Verfahren und vorrichtung zur verbesserung der sprachqualität auf transparenten telekommunikations-übertragungswegen
DE1151284B (de) Frequenzanalysator zum Ermitteln des Verlaufes einer in einem Sprechfrequenz-teilband liegenden kennzeichnenden Sprechfrequenz
DE544100C (de) Verfahren zur Stoerpegelmessung fuer Traegerfrequenzuebertragungssysteme
DE1054571B (de) Verfahren zur objektiven Messung nichtlinearer Verzerrungen von elektrischen Vierpolen
DE1572452A1 (de) Anordnung zur Bestimmung der stimmhaften Anteile von Sprachlauten
DE1271203B (de) Verfahren und Anordnung zur Gewinnung der Anregungsfunktion bei Kanalvocodern

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8339 Ceased/non-payment of the annual fee