DE2506771C2 - Verfahren zur Verbesserung der Sprechererkennung - Google Patents
Verfahren zur Verbesserung der SprechererkennungInfo
- Publication number
- DE2506771C2 DE2506771C2 DE19752506771 DE2506771A DE2506771C2 DE 2506771 C2 DE2506771 C2 DE 2506771C2 DE 19752506771 DE19752506771 DE 19752506771 DE 2506771 A DE2506771 A DE 2506771A DE 2506771 C2 DE2506771 C2 DE 2506771C2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- speech signal
- transmitted
- predetermined signal
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 8
- 239000002775 capsule Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
40
Die Erfindung betrifft ein Verfahren zur Verbesserung der Sprechererkennung nach dem Oberbegriff des
Patentanspruchs 1.
Um mit einem automatischen rechnergesteuerten Sprechererkennungssystem eine hohe Erkennungsrate
zu erzielen, ist es notwendig, die zu erkennenden Sprachproben bzw. Sprachsignale dem Rechner immer
in gleichbleibender Qualität zur Verfügung zu stellen. Bei Sprachübertragung beispielsweise per Telefon ist
jedoch bei jeder Telefonverbindung die unterschiedliche Übertragungsfunktion der Strecke Mikrofonkapsel
— Telefonleitung — Telefonadapter zwischen dem eigentlichen Sprachsignal und dem Signal, das dem
Rechner zugeführt wird, unvermeidlich zwischengeschaltet. Der Einfluß dieser jeweils wechselnden
Übertragungsfunktion kann so groß sein, daß eine zuverlässige Sprechererkennung sehr erschwert bzw.
unmöglich gemacht wird.
Ein Verfahren der eingangs genannten Art ist bekannt aus der US-PS 28 66 001. Dabei wird das
Spektrum des ankommenden Sprachsignals gemessen und mit einem Standard-Spektrum verglichen, das aus
statistischen Untersuchungen gewonnen wird. Wenn die f>5
beiden Spektren nicht genügend ähnlich sind, wird die Leistungsverteilung des ankommenden Sprachsignals
über die Frequenz korrigiert, bis das Spektrum des Eingangssignals dem vorbestimmten Standardspektrum
entspricht Bei einer derartigen Angleichung des ankommenden Sprachsignals an einen Standard gehen
aber sehr viele der Unterschiede .Twischen den
Sprachsignalen verschiedener Sprecher verloren, die entscheidend notwendig sind, um diese Sprachsignale
unterscheiden und die entsprechenden Speicher identifizieren bzw. verifizieren zu können. Diese bekannte
Korrektur des empfangenen Sprachsignals ist also für eine Sprechererkennung nur bedingt geeignet
Aufgabe der Erfindung ist es, ein Verfahren der eingangs genannten Art anzugeben, bei dem die
Auswirkungen durch die linearen Verzerrungen des Sprachsignals auf der Übertragungsstrecke weitgehend
vermieden werden, bei dem jedoch die sprecherindividuellen Unterschiede im Spracbsignal weitestgehend
erhalten bleiben.
Diese Aufgabe wird erfindungsgemäß durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen
Merkmale gelöst Durch den Vergleich eines vorbestimmten Signals bzw. dessen charakteristischen
Merkmale mit gespeicherten Merkmalen können die Eigenschaften der Übertragungsstrecke allein genau
ermittelt und ausgeglichen werden, so daß die charakteristischen Eigenschaften des folgenden übertragenen,
zu erkennenden Sprachsignals auch nach Korrektur alle sprecherindividuellen Charakteristika
weiterhin enthält.
Für das vorbestimmte Signal bestehen verschiedene Möglichkeiten. Vorteilhaft ist es, daö das vorbestimmte
Signal ein festgelegter Text ist. Dies erfordert auf der Sendeseite am wenigstens Aufwand. Eine andere
Möglichkeit besteht darin, daß das vorbestimmte Signal ein Sinussignal mit konstanter Amplitude und einer sich
stetig von der einen bis zur anderen Grenzfrequenz der Übertragungsstrecke ändernden Frequenz ist Ein
solches Signal kann leicht durch eine einfache elektronische Schaltung und einen kleinen Lautsprecher
erzeugt werden. Dafür ist zwar ein gewisser, wenn auch geringer apparativer Aufwand notwendig, jedoch
werden mit dieser Methode die Eigenschaften der Übertragungsstrecke objektiver erfaßt.
Die Korrektur des übertragenen Sprachsignals kann dadurch erfolgen, daß mit den Werten der im
Erkennungsgerät bestimmten Übertragungsfunktion ein elektronisch einstellbares Filter entsprechend
eingestellt wird, oder daß bei einem Erkennungsgerät, das mittels einer Filterbank das Sprachsignal in die
einzelnen Spektralanteile zerlegt, die Ausgänge der Filterbank entsprechend gewichtet werden. Die Korrektur
durch die Übertragungsfunktion kann jedoch auch implizit erfolgen, indem das Fourier-Spektrum des
übertragenen Sprachsignals mit dem Quotienten aus dem Fourier-Spektrum des gespeicherten vorbestimmten
Signals und des übertragenen vorbestimmten Signals multipliziert wird.
Für die Kalibrierung eines akustischen Empfängers ist es nach »IEEE Transactions on Acoustics, Speech, and
Signal Processing, 1974«, Seiten 56 bis 62 bekannt, diesem ein Breitband-Rauschen mit einer Gauß-Verteilung
zuzuführen und das Ausgangssignal mit dem Ausgangssignal eines bekannten akustischen Empfängers
mit bekannter Übertragungsfunktion zu vergleichen, indem die aus einer Fourier-Transformation
gewonnenen spektralen Leistungsdichten durcheinander dividiert werden. Dieses bekannte Verfahren dient
jedoch nicht zum Ausgleich von linearen Verzerrungen einer Übertragungsstrecke.
Zur Erläuterung der Wirkung bei Multiplikation mit den Quotienten aus den Fourier-Spektren wird im
vorliegenden Fall angenommen, daß das Sprachsignal des zu erkennenden Sprechers durch seine Amplituden-Zeit-Funktion
charakterisiert ist. Wird dieses Sprachsignal über eine Telefonleitung übertragen, so erhält man
als Ausgangssignal beim Erkennungsgerät eine Funktion, die durch die Übertragungseigenschaften des
Telefonübertragungsweges verändert worden ist Um zu zeigen, wie aus dem Ausgangssignal das originale
Sprachsignal näherungsweise wiedergewonnen werden kann, werden beide Signale fouriertransformiert, so daß
sich folgende Beziehung zwischen beiden Signalen ergibt:
F21 (w) die Fouriertransformierte des gespeicherten
Testsatzes ist
Mit der somit zumindest näherungsweise bestimmten Übertragungsfunktion kann nun in bekannter Weise die
InversFilterung des zu erkennenden Sprachsignals im Rechner vorgenommen werden, um den Einfluß der
Telefonstrecke auf die Sicherheit der Sprechererkennung zu reduzieren. Wenn insbesondere das Spektrum
des Sprachsignals untersucht wird, kann die Übertragungsfunktion At(w) gleichsam implizit berücksichtigt
werden, um aus dem Spektrum F\t(w) das originale
Sprachsignal Fi (w) zu rekonstruieren:
Die unbekannte Übertragungsfunktion AT(w) ist
dann
α ω - *i τ Μ
T
F, M
Darin ist die fouriertransformierte Fi (w) des
originalen Sprachsignals ebenfalls noch unbekannt.
In dem Erkennungssystem ist nun ein gesprochener Testsatz bzw. dessen Eigenschaften gespeichert Wenn
der gleiche Testsatz vom gleichen Sprecher noch einmal gesprochen wird, so ist er, innerhalb der normalen
Reproduzierbarkeitsgrenzen, am Ort des Sprechers dem originalen Testsatz sehr ähnlich. Wenn also der
noch einmal gesprochene Testsatz im Erkennungssystem mit dem originalen Testsatz verglichen wird, kann
daraus also die unbekannte Übertragungsfunktion A τ (w) näherungsweise bestimmt werden:
30
AT M
F2 1 M
Darin ist F2it(w)die Fouriertransformierte des noch
einmal gesprochenen und übertragenen Testsatzes und
40
F1(W)
F1 τ Μ
AtM
Fi2tM
Eine andere Möglichkeit besteht darin, daß nicht ein Testsatz, sondern ein Sinussignal konstanter Amplitude
mit variabler Frequenz über die Telefonleitung geschickt wird. Die dafür notwendige Anordnung kann
beispielsweise aus einem Sägezahngenerator, einem Sinusgenerator, einem Verstärkerbaustein und einem
kleinen Lautsprecher bestehen. Der Sägezahngenerator steuert die Frequenz des Sinusgenerators vorzugsweise
linear über den 'Übertragungsbereich von etwa iOO Hz
bis 5 kHz. Diese Sinusspannung wird über den Verstärker einem Miniaturlautsprecher zugeführt, der
direkt vor die Mikrofonkapsel des Telefons gehalten wird. Bei Verwendung von integrierten Schaltkreisen
und einem Miniaturlautsprecher läßt sich diese Anordnung in der Größe einer Telefonkapsel aufbauen, die
vor jeder Übertragung eines zu erkennenden Sprachsignals vor die Telefonmikrofonkapsel gehalten wird. Auf
der Empfängerseite braucht dann nur noch von dem empfangenen Signal eine Spektralanalyse gemacht zu
werden, um die Übertragungsfunktion zu ermitteln und damit die Sprechererkennung nahezu unabhängig von
dem Frequenzgang der Telefonleitung durchzuführen.
Claims (4)
1. Verfahren zur Verbesserung der Sprechererkennung bei Übertragung eines zu erkennenden
Sprachsignals über eine Übertragungsstrecke mit linearen Verzerrungen zu einem Erkennungsgerät
durch Vergleich charakteristischer Merkmale eines durch seine Übertragung verzerrten Sprachsignals
mit im Erkennungsgerät gespeicherten, aus einem unverzerrten Sprachsignal gewonnenen charakteristischen
Sprachsignalmerkmalen und dadurch gesteuerte Korrektur des zu erkennenden Sprachsignals,
dadurch gekennzeichnet, daß vor der Übertragung des zu erkennenden Sprachsignals
über die Übertragungsstrecke ein vorbestimmtes Signal übertragen wird, daß im Erkennungsgerät das
vorbestimmte Signal bzw. dessen charakteristischen Merkmale gespeichert sind und mit dem bzw. denen
des übertragenen vorbestimmten Signals verglichen werden, und daß aus dem Vergleich eine Übertragungsfunktion
bestimmt wird, mit der das folgende übertragene, zu erkennende Sprachsignal vor der
Erkennung korrigiert wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet daß das vorbestimmte Signal ein festgelegter
Text ist.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das vorbestimmte Signal ein Sinussignal
mit konstanter Amplitude und einer sich stetig von der einen bis zur anderen Grenzfrequenz der
Übertragungsstrecke ändernde Frequenz ist
4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß das Fourier-Spektrum des
übertragenen Sprachsignals mit dem Quotienten aus den Fourier-Spektren des gespeicherten vorbestimmten
Signals und des übertragenen vorbestimmten Signals multipliziert wird.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19752506771 DE2506771C2 (de) | 1975-02-18 | 1975-02-18 | Verfahren zur Verbesserung der Sprechererkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19752506771 DE2506771C2 (de) | 1975-02-18 | 1975-02-18 | Verfahren zur Verbesserung der Sprechererkennung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2506771A1 DE2506771A1 (de) | 1976-08-19 |
DE2506771C2 true DE2506771C2 (de) | 1983-12-01 |
Family
ID=5939116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19752506771 Expired DE2506771C2 (de) | 1975-02-18 | 1975-02-18 | Verfahren zur Verbesserung der Sprechererkennung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE2506771C2 (de) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1229516A1 (de) * | 2001-01-26 | 2002-08-07 | Telefonaktiebolaget L M Ericsson (Publ) | Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten |
AUPR376201A0 (en) | 2001-03-16 | 2001-04-12 | Telstra New Wave Pty Ltd | Voip communication |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2866001A (en) * | 1957-03-05 | 1958-12-23 | Caldwell P Smith | Automatic voice equalizer |
-
1975
- 1975-02-18 DE DE19752506771 patent/DE2506771C2/de not_active Expired
Also Published As
Publication number | Publication date |
---|---|
DE2506771A1 (de) | 1976-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69225744T2 (de) | Kompensation im Zeitbereich für Fehlanpassungen von Wandlern | |
EP0296588B1 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
DE69901606T2 (de) | Breitbandsprachsynthese von schmalbandigen sprachsignalen | |
DE3306730C2 (de) | ||
CH629350A5 (de) | Signalverarbeitungsanlage zur ableitung eines stoerverringerten ausgangssignals aus zwei zugefuehrten signalen, insbesondere zur verringerung des raumnachhalles. | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
DE3802903A1 (de) | Einrichtung zur uebertragung von sprache | |
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP0772764B1 (de) | Verfahren und vorrichtung zum bestimmen der tonalität eines audiosignals | |
DE2021126B2 (de) | Spracherkennungsanordnung | |
EP1048025B1 (de) | Verfahren zur instrumentellen sprachqualitätsbestimmung | |
DE2506771C2 (de) | Verfahren zur Verbesserung der Sprechererkennung | |
DE60033039T2 (de) | Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen | |
DE69904453T2 (de) | Signalverarbeitungsverfahren zur analyse von sprachsignal-transienten | |
EP0916206B1 (de) | Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals | |
DE2826818C2 (de) | Verfahren und Vorrichtung zum Erzeugen eines künstlichen Durchschnitts-Sprechsignals | |
DE4437287C2 (de) | Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale | |
DE3009204C2 (de) | ||
DE2524467C3 (de) | Einrichtung zum Messen der Lautpegeldifferenz zwischen zwei Raumpunkten | |
DE3114008C2 (de) | Anordnung zur Messung der Intermodulationsverzerrung eines Prüflings wahlweise nach der SMPTE- oder CCIF-Mehrton-Methode | |
DE4134473C2 (de) | ||
DE2116971A1 (de) | Verfahren zum Bilden von Rauschsignalen und Vorrichtungen zum Ausüben des Verfahrens | |
DE2926281B1 (de) | Verfahren und Schaltungsanordnung zur selektiven Daempfungsmessung in Niederfrequenz-UEbertragungssystemen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8339 | Ceased/non-payment of the annual fee |