DE3808038A1 - Verfahren zur automatischen anpassung eines spracherkennungssystems - Google Patents

Verfahren zur automatischen anpassung eines spracherkennungssystems

Info

Publication number
DE3808038A1
DE3808038A1 DE19883808038 DE3808038A DE3808038A1 DE 3808038 A1 DE3808038 A1 DE 3808038A1 DE 19883808038 DE19883808038 DE 19883808038 DE 3808038 A DE3808038 A DE 3808038A DE 3808038 A1 DE3808038 A1 DE 3808038A1
Authority
DE
Germany
Prior art keywords
filter bank
speech recognition
signal
noise
interference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19883808038
Other languages
English (en)
Other versions
DE3808038C2 (de
Inventor
Gerd-Stefan Dipl Ing Kunz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19883808038 priority Critical patent/DE3808038A1/de
Publication of DE3808038A1 publication Critical patent/DE3808038A1/de
Application granted granted Critical
Publication of DE3808038C2 publication Critical patent/DE3808038C2/de
Granted legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Description

Die Erfindung bezieht sich auf ein Verfahren zur automatischen Anpassung eines Spracherkennungssystems mit Filterbankanalyse an eine während der Worteingabe konstante Störumgebung.
Einrichtungen zur Spracherkennung sind beispielsweise durch den Aufsatz "Ohren für den Computer" erschienen in der Funkschau 25/1984, Seiten 69 bis 71, sowie eine NEC-Druckschrift "Speech Processing Devices : A New Era in Man-Machine Interfacing" be­ kannt. Dabei wird das Sprachsignal nach einer Vorverarbeitung und Sprachanalyse nach speziellen Sprachmerkmalen in einer Lern- und Erkennungsphase mit einem Referenzmuster verglichen und aus diesem Vergleich eine Entscheidung abgeleitet.
Bei der Anwendung von Spracherkennung im Autotelefon steht die Entlastung des Fahrers bei der Bedienung des Gerätes und eine damit verbundene Erhöhung der Fahrsicherheit im Vordergrund. Durch den Einsatz von Spracheingabe würde sich z. B. der Wähl­ vorgang auf das Abnehmen des Handapparates und das anschließende Einsprechen des gewünschten Teilnehmernamens bzw. der Teilnehmer­ ziffern reduzieren. Nach der Erkennung stellt das System auto­ matisch die betreffende Telefonverbindung her, so daß der Fahrer während des ganzen Vorgangs seine uneingeschränkte Aufmerksam­ keit dem Straßenverkehr widmen kann. Eine Realisierung dieser Funktion mit derzeitig verfügbaren Low-cost Spracherkennungs­ systemen ist jedoch trotz der Verwendung eines Nahbesprechungs­ mikrofons nicht möglich, da sich das Fahrgeräusch negativ auf die Wortgrenzendetektion und die Sprachanalyse und somit auch auf die Erkennungssicherheit des Systems auswirkt.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzuge­ ben, mit dem solche Störungen bei der Spracherkennung eliminiert werden können.
Diese Aufgabe wird gemäß der Erfindung in der Weise gelöst, daß in einer der Filterbank einschließlich A/D-Wandler nachgeschal­ teten Baueinheit zur Störunterdrückung aus dem aus Nutzsignal- und Störsignalanteilen bestehenden Filterbankausgangssignal durch Differenzieren und anschließendes Integrieren ein durch die Störumgebung auftretender pegelmäßig konstanter Störsignal­ anteil unterdrückt wird. Durch dieses Störunterdrückungsverfah­ ren wird erreicht, daß die Klassifikation, d. h. die Feststel­ lung der Ähnlichkeit der im System gespeicherten Referenzwörter mit den Testwörtern stets unter annähernd identischen Beding­ ungen erfolgt.
Durch ein der Störunterdrückung vorgeschaltetes Mittelungsver­ fahren wird in vorteilhafter Weise eine Eliminierung von Kurz­ zeitschwankungen des Störsignals erreicht.
Nachstehend wird die Erfindung anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert.
Es zeigen
Fig. 1 das Blockschaltbild einer Schaltung zur Sprach­ erkennung mit Störunterdrückung und
Fig. 2 bis 4 Diagramme eines Nutzsignals, eines Nutzsignals mit überlagertem Sinuston und das Gesamtsignal nach einer Störunterdrückung.
Die Schaltung nach Fig. 1 zur Durchführung der Spracherkennung besteht aus einem Mikrofon 1, einem Mikrofonvorverstärker 2, einer Filterbank 3 einschließlich A/D-Wandler 5, einem Micro- oder Signalprozessor 6 zur Störunterdrückung und einer Klassi­ fikationsstufe 7 mit einem Referenzwortspeicher 8. Die Filter­ bank 3 besteht aus m Kanälen, von denen jeder einen Bandpaß BP und einen Gleichrichter G enthält und die über einen Multi­ plexer 4 ausgangsseitig zusammengefügt sind.
Die Grundlage des Störunterdrückungsverfahrens bildet die Tat­ sache, daß sich die Lautstärke der vorwiegend im Auto auftreten­ den Störungen (Wind-, Reifen-, Motorgeräusche) nur langsam än­ dert und somit deren Filterspektrum über relativ große Zeit­ räume als konstant betrachtet werden kann, während sich im Ver­ gleich dazu die Spektrumsintensitäten des Sprachkanals deutlich schneller ändern. Diesen Sachverhalt zeigen die Fig. 2 und 3, in denen das Ausgangssignal der Filterbank - das 16-Kanal-Spek­ trum des Wortes "EINS" und im Vergleich dazu ein farbiges Rausch­ signal wiedergegeben sind, dessen mittlere Lautstärke über den gesamten Zeitraum von ls annähernd konstant ist.
Zur Erläuterung des Störunterdrückungsverfahrens soll repräsen­ tativ eines der m Ausgangssignale der m-Kanal-Filterbank Y(j) mit j=1 . . . m betrachtet werden. In Störumgebung setzt sich das Signal Y(j) aus einem Nutzsignalanteil X(j) und einem Störan­ teil A(j) zusammen:
Y(j) = X(j) + A(j)
Y(j) stellt ein zeit- und wertdiskretes Signal dar, dessen Wer­ te in zeitlichen Abständen von ca. 16 ms ausgegeben werden. Differenziert man dieses Signal, d. h. bildet man jeweils die Differenz zweier zeitlich aufeinanderfolgender Werte, so ergibt sich, lineare Unabhängigkeit beider Signale vorausgesetzt:
A(j)′ = X(j)′ + A(j)′
Für den Fall, daß sich die Amplitude von A(j) nicht ändert (vgl. Fig. 4, in der als Störsignal im Kanal 7 ein Sinuston konstanter Amplitude eingezeichnet ist) ergibt sich für Y(j)′:
Y(j)′ = X(j)′
Anschließendes Integrieren, d. h. Aufsummieren der Differenzwer­ te ergibt:
Y(j) = X(j)
D. h., durch ein Differenzieren und anschließendes Integrieren des Filterbandausgangssignales wird ein pegelmäßig konstanter Signalanteil, in diesem Fall der Sinuston komplett unterdrückt. Dies ist in Fig. 5 gezeigt, deren Diagramm das Nutzsignal plus Sinuston nach der Störunterdrückung zeigt. Das Differenzieren und anschließende Integrieren des Filterbankausgangssignales erfolgt dabei über entsprechende Bausteine, die in der Bauein­ heit 6 zur Störunterdrückung enthalten sind.
Wird dieses Verfahren auf ein Signal angewendet, das aus einem Nutzsignal und einem farbigen Rauschsignal gemäß Fig. 3 besteht, so erhält man als Resultat ein Spektrum, dessen Störsignalanteil bei unverändertem Nutzsignal um seinen konstanten Mittelwert re­ duziert ist. Um auch noch Kurzzeitschwankungen des Störsignals, die als Peaks im Spektrum auftreten, zu unterdrücken, kann man der Störunterdrückung ein Mittelungsverfahren vorschalten, was jedoch eine geringfügige Verfälschung des Nutzsignales ergibt.

Claims (2)

1. Verfahren zur automatischen Anpassung eines Spracherkennungs­ systems mit Filterbankanalyse an eine während der Worteingabe konstante Störumgebung, dadurch gekennzeichnet, daß in einer der Filterbank einschließlich A/D-Wandler nachgeschalteten Bauein­ heit zur Störunterdrückung aus dem aus Nutzsignal- und Störsig­ nalanteilen bestehenden Filterbankausgangssignal durch Differen­ zieren und anschließendes Integrieren ein durch die Störumge­ bung auftretender pegelmäßig konstanter Störsignalanteil unter­ drückt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Eliminie­ rung von Kurzzeitschwankungen des Störsignals ein der Störunter­ drückung vorgeschaltetes Mittelungsverfahren vorgesehen ist.
DE19883808038 1988-03-10 1988-03-10 Verfahren zur automatischen anpassung eines spracherkennungssystems Granted DE3808038A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19883808038 DE3808038A1 (de) 1988-03-10 1988-03-10 Verfahren zur automatischen anpassung eines spracherkennungssystems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19883808038 DE3808038A1 (de) 1988-03-10 1988-03-10 Verfahren zur automatischen anpassung eines spracherkennungssystems

Publications (2)

Publication Number Publication Date
DE3808038A1 true DE3808038A1 (de) 1989-09-28
DE3808038C2 DE3808038C2 (de) 1990-05-23

Family

ID=6349416

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19883808038 Granted DE3808038A1 (de) 1988-03-10 1988-03-10 Verfahren zur automatischen anpassung eines spracherkennungssystems

Country Status (1)

Country Link
DE (1) DE3808038A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0661858A2 (de) * 1993-12-29 1995-07-05 AT&T Corp. Hintergrundgeräuschkompensation in einem Telefongerät
US5699480A (en) * 1995-07-07 1997-12-16 Siemens Aktiengesellschaft Apparatus for improving disturbed speech signals
US9313597B2 (en) 2011-02-10 2016-04-12 Dolby Laboratories Licensing Corporation System and method for wind detection and suppression

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10007223B4 (de) * 2000-02-17 2019-04-25 Harman Becker Automotive Systems Gmbh System mit einem Sprachbediensystem als einer ersten Systemeinheit und einer zweiten Systemeinheit in einem Kraftfahrzeug

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3642591A1 (de) * 1985-12-20 1987-11-12 Bayerische Motoren Werke Ag Verfahren zur spracherkennung in geraeuschvoller umgebung

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3642591A1 (de) * 1985-12-20 1987-11-12 Bayerische Motoren Werke Ag Verfahren zur spracherkennung in geraeuschvoller umgebung

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Electronic design", August 6, 1987, S. 67-68 *
NEC-Druckschrift "Speech Processing Devices: A New Era in Man-Machine Interfacing *
ZOICAS, A., PLATE, J.: Ohren für den Computer, In: DE-Funkschau, 25(1984, S. 69-71 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0661858A2 (de) * 1993-12-29 1995-07-05 AT&T Corp. Hintergrundgeräuschkompensation in einem Telefongerät
EP0661858A3 (de) * 1993-12-29 1999-04-28 AT&T Corp. Hintergrundgeräuschkompensation in einem Telefongerät
US5699480A (en) * 1995-07-07 1997-12-16 Siemens Aktiengesellschaft Apparatus for improving disturbed speech signals
US9313597B2 (en) 2011-02-10 2016-04-12 Dolby Laboratories Licensing Corporation System and method for wind detection and suppression
US9761214B2 (en) 2011-02-10 2017-09-12 Dolby Laboratories Licensing Corporation System and method for wind detection and suppression

Also Published As

Publication number Publication date
DE3808038C2 (de) 1990-05-23

Similar Documents

Publication Publication Date Title
DE3802903C2 (de)
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
EP0296588B1 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
EP0586996B1 (de) Verfahren zur Spracherkennung mit dem eine Anpassung der Sprachcharakteristiken erreicht wird
EP0290952B1 (de) Schaltungsanordnung zur Sprachsteuerung für ein Endgerät der Nachrichtentechnik
EP0729678B1 (de) Verfahren und einrichtung zur sprachverschleierung und -entschleierung bei der sprachübertragung
EP0747880B1 (de) Spracherkennungssystem
DE10030105A1 (de) Spracherkennungseinrichtung
WO2002017303A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE4330243A1 (de) Sprachverarbeitungseinrichtung
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
EP0356568A1 (de) Verfahren und Anordnung zur Sprechererkennung in einer Fernsprechvermittlungsanlage
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
CN113870892A (zh) 基于语音识别的会议记录方法、装置、设备及存储介质
WO2017157684A1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE3808038C2 (de)
DE4106405A1 (de) Geraeuschunterdrueckungseinrichtung
DE4427124A1 (de) Anordnung zur Kommunikation mit einem Teilnehmer
EP0658874A1 (de) Verfahren und Schaltungsanordnung zur Vergrösserung der Bandbreite von schmalbandigen Sprachsignalen
DE10025655B4 (de) Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten
EP1062487A1 (de) Mikrophonanordnung für die spracherkennung unter variablen räumlichen bedingungen
DE3642591C2 (de)
DE4015381A1 (de) Spracherkennungsgeraet und verfahren zur spracherkennung
DE19625294A1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8363 Opposition against the patent
8366 Restricted maintained after opposition proceedings
8305 Restricted maintenance of patent after opposition
D4 Patent maintained restricted
8339 Ceased/non-payment of the annual fee