DE2506771A1 - Verfahren zur verbesserung der sprechererkennung - Google Patents
Verfahren zur verbesserung der sprechererkennungInfo
- Publication number
- DE2506771A1 DE2506771A1 DE19752506771 DE2506771A DE2506771A1 DE 2506771 A1 DE2506771 A1 DE 2506771A1 DE 19752506771 DE19752506771 DE 19752506771 DE 2506771 A DE2506771 A DE 2506771A DE 2506771 A1 DE2506771 A1 DE 2506771A1
- Authority
- DE
- Germany
- Prior art keywords
- transmitted
- signal
- reference signal
- predetermined signal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 2
- 239000002775 capsule Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
- Verfahren zur Verbesserung der Sprechererkennung Die Erfindung betrifft ein Verfahren zur Verbesserung der Sprechererkennung bei Übertragung des zu erkennenden Sprachsignals über eine Ubertragungsstrecke mit linearen Verzerrungen zu dem Erkennungsgerät.
- Um mit einem automatischen rechnergesteuerten Sprechererkennungs system eine hohe Erkennungsrate zu erzielen, ist es notwendig, die zu erkennenden Sprachproben bzw. Sprachsignale dem Rechner immer in gleichbleibender Qualität zur Verfügung zu stellen. Bei Sprachübertragung beispielsweise per Telefon ist jedoch bei jeder Telefonverbindung die unterschiedliche übertragungsfurilftion der Strecke Mikrofonkapsel - Telefonleitung - Telefonadapter zwischen dem eigentlichen Sprachsignal und dem Signal, das dem Rechner zugeführt wird, unvermeidlich zwischengeschaltet. Der Einfluß dieser jeweils wechselnden Übertragungsfunktion kann so groß sein, daß eine zuverlässige Sprechererkennung sehr erschwert bzw. unmöglich gemacht wird.
- Aufgabe der Erfindung ist es, ein Verfahren zur Verbesserung der Sprechererkennung anzugeben, bei dem Auswirkungen durch die linea ren Verzerrungen des Sprachsignals auf der Ubertragungsstrecke weitgehend vermieden werden. Diese Aufgabe löst die Erfindung durch die im Kennzeichen des Hauptanspruchs angegebenen Merkmale. Das vorbestimmte Signal kann ein festgelegter Text, also ein Testsatz sein, der vor Beginn der eigentlichen Übertragung von dem zu erkennenden Sprecher besprochen wird. Eine andere Möglichkeit besteht darin, dem Mikrofon auf der Sprecherseite ein Sinussignal in Form eines von einem Lautsprecher erzeugten Tones mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der Ubertragungsstrecke ändernden Frequenz zuzuführen . Dafür ist zwar ein gewisser, wenn auch geringer apparativer Aufwand notwendig, jedoch werden mit dieser Methode die Eigenschaften der Ubertragungsstrecke objektiver erfaßt.
- Die Korrektur des übertragenen Sprachsignals kann dadurch erfolgen, daß mit den Werten der im Erkennungsgerät bestimmten Übertragungsfunktion ein elektronisch einstellbares Filter entsprechend eingestellt wird, oder daß bei einem Erkennungsgerät, das mittels einer Filterbank das Sprachsignal in die einzelnen Spektralanteile zerlegt, die Ausgänge der Filterbank entsprechend gewichtet werden. Die Korrektur durch die Übertragungsfunktion kann jedoch auch impliziterfolgen, indem das Fourier-Spektrumdes übertragenen Sprachsignals mit dem Quotienten aus dem Fourer-Spektrum des gespeicherten vorbestimmten Signals und des übertragenen vorbestimmten Signals multipliziert wird.
- Das Sprachsignal des zu erkennenden Sprechers sei durch seine Amplituden-Zeit-Funktion charakterisiert. Wird dieses Sprachsignal über eine Telefonleitung übertragen, so erhält man als Ausgangssignal beim Erkennungsgerät eine Funktion, die durch die Übertragungseigenschaften des Telefonübertragungsweges verändert worden ist. Um zu zeigen, wie aus dem Ausgangssignal das originale Sprachsignal näherungsweise wiedergewonnen werden kann, werden beide Signale fouriertransformiert, so daß sich folgende Beziehung zwischen beiden Signalen ergibt: F1T (w) = F1 (w) AT (w) Die unbekannte Übertragungsfunktion k (w) ist dann Darin ist die Fouriertransformierte F1 (w) des originalen Sprachsignals ebenfalls noch unbekannt.
- In dem Erkennungssystem ist nun ein gesprochener Testsatz bzw. dessen Eigenschaften gespeichert. Wenn der gleiche Testsatz vom gleichen Sprecher noch einmal gesprochen wird, so ist er, innerhalb der normalen Reproduzierbarkeitsgrenzen, am Ort des Sprechers dem originalen Testsatz sehr ähnlich. Wenn also der noch einmal gesprochene Testsatz im Erkennungssystem mit dem originalen Testsatz verglichen wird, kann daraus also die unbekannte Ubertragungsfunktion AT (w) näherungsweise bestimmt werden: Darin ist F2 2T (w) die Fouriertransformierte des noch einmal gesprochenen und übertragenen Testsatzes und F2 1 (w) die Fouriertransformierte des gespeicherten Testsatzes ist.
- Mit der somit zumindest näherungsweise bestimmten Ubertragungsfunktion kann nun in bekannter Weise die Inversfilterung des zu erkennenden Sprachsignals im Rechner vorgenommen werden, um den Einfluß der Telefonstrecke auf die Sicherheit der Sprechererkennung zu reduzieren. Wenn insbesondere das Spektrum des Sprachsi gnals untersucht wird, kann die Übertragungsfunktion AT (w) gleichsam implizit berücksichtigt werden, um aus dem Spektrum F1T (w) das originale Sprachsignal F1 (w) zu rekonstruieren: Eine andere Möglichkeit besteht darin, daß nicht ein Testsatz, sondern ein Sinussignal konstanter Amplitude mit variabler Frequenz über die Telefonleitung geschickt wird. Die dafür notwendige Anordnung kann beispie'swegse eus einer Sägezahngenerator, einem Sinusgenerator, einem Verstärkerbaustein und einem kleinen Lautsprecher bestehen. Der Sägezahngenerator steuert die Frequenz des Sinusgenerators vorzugsweise linear über den Ubertragungsbereich von etwa 100 Hz bis 5 Khz. Diese Sinusspannung wird über den Verstärker einem Miniaturlautsprecher zugeführt, der direkt vor die Mikrofonkapsel des Telefons gehalten wird. Bei Verwendung von integrierten Schaltkreisen und einem Miniaturlautsprecher läßt sich dieæ Anordnung in der Größe einer Telefonkapsel aufbauen, die vor jeder Übertragung eines zu erkennenden Sprachsignals vor die Telefonmikrofonkapsel gehalten wird. Auf der Empfängerseite braucht dann nur noch von dem empfangenen Signal eine Spektralanalyse gemacht zu werden, um die Übertragungsfunktion zu ermitteln und damit die Sprechererkennung nahezu unabhängig von dem Frequenzgang der Telefonleitung durchzuführen.
Claims (4)
- Patentansprüche:9 erfahren zur Verbesserung der Sprechererkennung bei Übertragung des zu erkennenden Sprachsignals über eine Übertragungsstrecke mit linearen Verzerrungen zu dem Erkennungsgerät, dadurch gekennzeichnet, daß vor der Übertragung des Sprachsignals über die Ubertragungsstrecke ein vorbestimmtes Signal übertragen wird, daß in dem Erkennungsgerät das vorbestimmte Signal bzw. dessen charakteristischen Merkmale gespeichert sind und mit dem bzw.denen des übertragenen vorbestimmten Signals verglichen werden, und daß aus dem Vergleich eine Übertragungsfunktion bestimmt wird, mit der das folgende übertragene, zu erkennende Sprachsignal vor der Erkennung korrigiert wird.
- 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein festgelegter Text ist.
- 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein Sinus signal mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der übertragungsstrecke ändernde Frequenz ist.
- 4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß das Fourier-Spektrum des übertragenen Sprachsignals mit dem Quotienten aus den Fourier-Spektren des gespeicherten vorbestimmten Signals und des übertragnem n vorbestimmten Signals multipliziert wird.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19752506771 DE2506771C2 (de) | 1975-02-18 | 1975-02-18 | Verfahren zur Verbesserung der Sprechererkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19752506771 DE2506771C2 (de) | 1975-02-18 | 1975-02-18 | Verfahren zur Verbesserung der Sprechererkennung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2506771A1 true DE2506771A1 (de) | 1976-08-19 |
DE2506771C2 DE2506771C2 (de) | 1983-12-01 |
Family
ID=5939116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19752506771 Expired DE2506771C2 (de) | 1975-02-18 | 1975-02-18 | Verfahren zur Verbesserung der Sprechererkennung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE2506771C2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002059872A1 (en) * | 2001-01-26 | 2002-08-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Method, device, terminal and system for the automatic recognition of distorted speech data |
US7436818B2 (en) | 2001-03-16 | 2008-10-14 | Telstra Corporation Limited | Packet switched network voice communication |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2866001A (en) * | 1957-03-05 | 1958-12-23 | Caldwell P Smith | Automatic voice equalizer |
-
1975
- 1975-02-18 DE DE19752506771 patent/DE2506771C2/de not_active Expired
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2866001A (en) * | 1957-03-05 | 1958-12-23 | Caldwell P Smith | Automatic voice equalizer |
Non-Patent Citations (1)
Title |
---|
US-Z.: IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol.ASSP-22, 1974, S.56-62 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002059872A1 (en) * | 2001-01-26 | 2002-08-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Method, device, terminal and system for the automatic recognition of distorted speech data |
EP1229516A1 (de) * | 2001-01-26 | 2002-08-07 | Telefonaktiebolaget L M Ericsson (Publ) | Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten |
US7436818B2 (en) | 2001-03-16 | 2008-10-14 | Telstra Corporation Limited | Packet switched network voice communication |
Also Published As
Publication number | Publication date |
---|---|
DE2506771C2 (de) | 1983-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60212696T2 (de) | Bandbreitenvergrösserung für audiosignale | |
EP0296588A2 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
DE1261169B (de) | Hoerhilfe | |
EP1244094A1 (de) | Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP1048025B1 (de) | Verfahren zur instrumentellen sprachqualitätsbestimmung | |
DE19505435C1 (de) | Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals | |
DE2021126C3 (de) | Spracherkennungs anordnung | |
DE3228757A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen | |
DE2506771A1 (de) | Verfahren zur verbesserung der sprechererkennung | |
DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
DE4011577A1 (de) | Verfahren und vorrichtung zur spektralanalyse | |
DE4437287C2 (de) | Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale | |
DE2826818A1 (de) | Verfahren und vorrichtung zum erzeugen eines kuenstlichen sprechsignals | |
DE2737812C3 (de) | Verfahren zur Frequenzanalyse von transienten (einmaligen) Schallimpulsen | |
DE3009204C2 (de) | ||
DE3114008C2 (de) | Anordnung zur Messung der Intermodulationsverzerrung eines Prüflings wahlweise nach der SMPTE- oder CCIF-Mehrton-Methode | |
EP1366617B1 (de) | Verfahren und vorrichtung zur verbesserung der sprachqualität auf transparenten telekommunikations-übertragungswegen | |
DE1151284B (de) | Frequenzanalysator zum Ermitteln des Verlaufes einer in einem Sprechfrequenz-teilband liegenden kennzeichnenden Sprechfrequenz | |
DE544100C (de) | Verfahren zur Stoerpegelmessung fuer Traegerfrequenzuebertragungssysteme | |
DE1054571B (de) | Verfahren zur objektiven Messung nichtlinearer Verzerrungen von elektrischen Vierpolen | |
DE1572452A1 (de) | Anordnung zur Bestimmung der stimmhaften Anteile von Sprachlauten | |
DE1271203B (de) | Verfahren und Anordnung zur Gewinnung der Anregungsfunktion bei Kanalvocodern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8339 | Ceased/non-payment of the annual fee |