DE10005609C1 - Verfahren zur Spracherkennung - Google Patents

Verfahren zur Spracherkennung

Info

Publication number
DE10005609C1
DE10005609C1 DE2000105609 DE10005609A DE10005609C1 DE 10005609 C1 DE10005609 C1 DE 10005609C1 DE 2000105609 DE2000105609 DE 2000105609 DE 10005609 A DE10005609 A DE 10005609A DE 10005609 C1 DE10005609 C1 DE 10005609C1
Authority
DE
Germany
Prior art keywords
speech
sample
est
training
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE2000105609
Other languages
English (en)
Inventor
Ralf Kern
Karl-Heinz Pflaum
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE2000105609 priority Critical patent/DE10005609C1/de
Priority to PCT/DE2001/000261 priority patent/WO2001059761A1/de
Priority to AU39138/01A priority patent/AU3913801A/en
Application granted granted Critical
Publication of DE10005609C1 publication Critical patent/DE10005609C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Abstract

Die während eines Trainings eines Spracherkennungssystems auf einen neuen Sprecher generierten Merkmale (Trainingsprobe), die mit einer auf Basis eines zu einem späteren Zeitpunkt aufgenommenen Sprachsignals erzeugten Erkennungsprobe für eine Spracherkennung verglichen werden, gegebenenfalls mit zu einer Störung, die während der Aufnahme des Sprachsignals auftritt und das Sprachsignal verfälschen kann, analogen Signalen zu verknüpfen, wobei sie auf die Erkennungsprobe, die ebenfalls durch Verknüpfung des Sprachsignals mit zu der Störung analogen Signalen generiert wird, abgestimmt ist.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Kompen­ sation von Störungen in Spracherkennungssystemen.
Die rasante technische Entwicklung im Bereich der Telekommu­ nikation, insbesondere der Mobilkommunikation, hat in den letzten Jahren zu einer ständig erhöhten Anforderung an die Sprachverarbeitung geführt.
Insbesondere in Spracherkennungssystemen wird daher die Sprechweise der einzelnen Sprecher trainiert und eine Sprach­ probe (Trainingssprachprobe) erzeugt und gespeichert, mit der eine zu einem späteren Zeitpunkt erfolgende aktuelle Sprach­ eingabe (Erkennungssprachprobe) verglichen wird, so daß das Spracherkennungssystem feststellen kann, ob das akustische Signal vom Sprecher stammt oder ein Nebengeräusch ist bzw. den Inhalt der Spracheingabe erkennt.
Da die Spracheingabe in Spracherkennungssystemen nicht immer über dasselbe System aus Raum-Mikrofon-Vorverstärker (RMV- System) erfolgt und sich die Umgebung bzw. die Störgeräusch­ kulisse, insbesondere bei der Mobilkommunikation, häufig än­ dert, so daß die Sprache bei der Spracheingabe durch ver­ schiedenartige Übertragungsfunktionen und Störgeräusche (in der englischen Literatur, Saeed V. Vaseghi, "Advanced Signal Processing and Digital Noise Reduction", Stuttgart, 1996, Teubner B. G., mit "convolutional noise" und "additive noise" bezeichnet), beeinflußt wird, ergibt sich eine Variation der signifikanten Merkmale der Sprache, die wiederum zu einer De­ gradation der Erkennungsrate des Spracherkennungssystems bzw. einer Obstruktion der Spracherkennung führen.
Zur Vermeidung der beschriebenen Probleme sind verschiedene Ansätze bekannt, die sich im wesentlichen dadurch auszeichnen, daß das Störsignal, mit dem das beispielsweise durch ein Mikrofon aufgenommene Sprachsignal behaftet ist, geschätzt und eine Erkennungssprachprobe, beispielsweise durch Subtrak­ tion (z. B. spektrale Subtraktion) des geschätzten "additive noise" und Faltung (z. B. mit Wiener Filter, Inversfilter) mit dem inversen geschätzten "convolutional noise" gemäß folgen­ der Formel
sE(t) = (nc(t)*s(t))*nc_est(t)-1 + na(t) - na_est(t)
mit
s(t): Sprachsignal
sT(t): Trainingssprachprobe
sE(t): Erkennungssprachprobe
nc(t): "convolutional noise"
na(t): "additive noise"
nc_est(t): geschätztes (estimated) "convolutional noise"
na_est(t): geschätztes (estimated) "additional noise"
*: Faltungsoperator
erzeugt wird, wobei die Erkennungssprachprobe mit der Trai­ ningssprachprobe verglichen wird.
Diese Ansätze haben den Nachteil, daß die beiden Arten der Störung lediglich geschätzt, jedoch nicht exakt vorhergesagt werden können.
Zur Optimierung dieser Ansätze sind zwar Verfahren bekannt, bei dem eine bzw. die für den späteren Einsatz eines Sprach­ erkennungssystems zu erwartende Störgeräuschkulisse bzw. Störgeräusche während des Trainings simuliert wird, so daß die Trainingssprachprobe möglichst viel Informationen über die zu erwartenden akustischen Bedingungen während der Anwen­ dung des Spracherkennungssystems enthält.
Dennoch weisen alle genannten Verfahren das grundlegende Problem auf, daß sich die akustischen Bedingungen während des Trainings und während der späteren Anwendung (Spracheingabe) unterscheiden, da die tatsächlichen akustischen Bedingungen während einer Spracheingabe nicht exakt vorausgesagt werden können.
Aus der DE 195 21 258 A1 ist ein Spracherkennungssystem be­ kannt, bei dem neben dem Sprachsignal ein zusätzliches, die Störung beschreibendes Eingabesignal so ausgewertet wird, dass die darin enthaltene Information bei der Erkennung mög­ lichst unterdrückt wird. Dazu werden Vergleichsvektoren ge­ bildet, die fortlaufend an die momentane Störung angepasst werden.
Die der Erfindung zugrunde liegende Aufgabe besteht darin, Störungen von in einem Spracherkennungssystem zu verarbeiten­ der Signale zu kompensieren.
Diese Aufgabe wird durch die Merkmale des Verfahrensanspruchs 1 gelöst.
Grundgedanke des Verfahrens gemäß Anspruch 1 ist es, während eines Trainings eines Spracherkennungssystems auf einen neuen Sprecher generierte Merkmale (Trainingsprobe), die mit einer auf Basis eines zu einem späteren Zeitpunkt aufgenommenen Sprachsignals erzeugten Erkennungssprachprobe für eine Spracherkennung verglichen wird, gegebenenfalls mit zu einer Störung, die während der Aufnahme des Sprachsignals auftritt und das Sprachsignal verfälschen kann, analogen Signalen zu verknüpfen, wobei die Erkennungsprobe ebenfalls durch Ver­ knüpfung des Sprachsignals mit zu der Störung analogen Signa­ len generiert wird, so daß Trainingsprobe und Erkennungs­ sprachprobe auf die aktuelle Störung abgestimmt sind.
Durch das erfindungsgemäße Verfahren wird daher gewährleis­ tet, daß die bei der aktuellen Aufnahme eines Sprachsignals auftretenden Störungen mit den während eines Trainings gene­ rierten Merkmalen (Trainingsprobe) derart verknüpft werden, daß die optimierte Trainingsprobe gewissermaßen ein Auftreten der Störung zum Zeitpunkt des Trainings simuliert. Eine durch die Störung verursachte erste Differenz, die sich bei einem Vergleich von optimierter Trainingsprobe und Erkennungsprobe ergibt, ist daher kleiner als eine zweite Differenz, die sich bei einem Vergleich von Trainingsprobe und Erkennungsprobe ergibt, so daß die Qualität und die Quantität der Erkennungs­ rate deutlich steigt.
Eine Schätzung einer den Unterschied zwischen einer Trai­ ningsumgebung und aktuellen Umgebung des Spracherkennungssy­ stems wiedergebenden Funktion "convolutional noise" erfolgt insbesondere durch eine mathematische Beschreibung eines Stö­ rungsmodells anhand signifikanter Merkmale, die eine aktuelle Sprachprobe aufweist, und hat den Vorteil, daß sie sich als Algorithmus einfach implementieren läßt sowie eine Korrektur (Filterung bzw. Faltung mit inverser Funktion) einer sich durch den Unterschied zwischen einer Trainingsumgebung und aktuellen Umgebung des Spracherkennungssystems ergebenden veränderten Übertragungsfunktion ermöglicht.
Eine Schätzung der aktuellen, Neben- bzw. Störgeräusche wie­ dergebenden, Funktion "additive noise" erfolgt insbesondere durch eine mathematische Beschreibung eines Störungsmodells anhand signifikanter Merkmale, die eine aktuelle Sprachprobe aufweist, und hat ebenfalls den Vorteil, daß sie sich als Al­ gorithmus einfach implementieren läßt sowie eine Korrektur des durch die Neben- bzw. Störgeräusche verfälschten Sprach­ signals ermöglicht.
Die Schätzung und Verknüpfung sowohl von "convolutional noi­ se" als auch "additive noise" verbessert die Kompensation von Störungen.
Eine Gewichtung der zur Störung analogen Signale durch Multi­ plikation mit mindestens einem Faktor, der insbesondere als einstellbarer Parameter, dessen Wert beispielsweise mit Hilfe von Messungen oder durch Simulation ermittelt wird, gedacht ist, ermöglicht eine Optimierung der Kompensation, da opti­ mierte Trainingsprobe und Erkennungssprachprobe aufeinander abgestimmt werden können.
Die Weiterbildung gemäß Anspruch 6 ist einfach zu implemen­ tieren und erzielt sehr gute Werte bei der Kompensation der Störung, da sowohl "additive noise" als auch "convolutional noise" - durch bekannte Algorithmen - geschätzt sowohl mit dem Sprachsignal als auch mit den generierten Merkmalen (Trainingsprobe) verknüpft wird, so daß die auftretende Stö­ rung im Idealfall sogar vollständig kompensiert wird.
Ein Ausführungsbeispiel der Erfindung wird anhand der einzi­ gen Figur erläutert. Diese zeigt:
Ein Ablaufdiagramm des in einem Spracherkennungssystem ein­ gesetzten erfindungsgemäßen Verfahrens.
Das in der Figur dargestellte Ablaufdiagramm gibt die wesent­ lichen Schritte des erfindungsgemäßen Verfahrens, welches in einem gängigen Spracherkennungssystem ohne weiteres einge­ setzt werden kann.
Bei dem dargestellten Ausführungsbeispiel beginnt das Verfah­ ren mit der Überprüfung (Abfrage), ob eine Spracheingabe, welche über ein bekanntes Raum-Mikrofon-Vorverstärkersystem (RMV-System) stattfindet, erfolgt ist, d. h. ob ein Sprachsi­ gnal s(t) aufgenommen wurde.
Diese Überprüfung wird solange durchgeführt, bis ein Sprach­ signal s(t) aufgenommen wurde und somit eine Spracheingabe durch einen Sprecher erfolgt ist.
Ist die Spracheingabe erfolgt, wird das Sprachsignal s(t) analysiert, so daß eine Schätzung von sich auf die Übertra­ gungsfunktion auswirkender Anteile einer Störung "convolutio­ nal noise" nc(t), die während der Aufnahme des Sprachsignals s(t) auftritt, sowie sich dem Sprachsignal überlagernder An­ teile der Störung (Neben- bzw. Störgeräusch) "additive noise" na(t) durchgeführt wird. (Die Verfahrensschritte der Analyse und Schätzung sind der Fachwelt bekannt und werden daher an dieser Stelle nicht näher erläutert.)
Mit dem geschätzten "convolutional noise" nc_est(t) und dem geschätzten "additive noise" na_est(t) wird in einem nächsten Schritt eine Erkennungsprobe sE(t) gemäß der Formel
sE(t) = (nc(t)*s(t))*βnc_est(t)-1 + na(t) - βna_est(t)
sowie aus einer gespeicherten Trainingsprobe sT(t) in Verbin­ dung mit dem geschätzten "convolutional noise" nc_est(t) und dem geschätzten "additive noise" na_est(t) eine optimierte Trainingsprobe sT_opt(t) gemäß der Formel
sT_opt(t) = (sT(t)*(1 - β)nc_est(t)) + (1 -β)na_est(t)
gebildet, wobei folgende Definitionen gelten:
s(t): Sprachsignal
sT(t): Trainingssprachprobe
sT_opt(t): optimierte Trainingssprachprobe
sE(t): Erkennungssprachprobe
nc(t): "convolutional noise"
na(t): "additive noise"
nc_est(t): geschätztes (estimated) "convolutional noise"
na_est(t): geschätztes (estimated) "additional noise"
β: Gewichtungsfaktor
*: Faltungsoperator
In einem letzen Schritt wird ein Vergleich von optimierter Trainingsprobe sT_opt(t) und Erkennungsprobe sE(t) gemäß einem der Fachwelt bekannten Algorithmus zur Spracherkennung aus Vergleich von einer Trainingsprobe und einer Erkennungsprobe zur Spracherkennung durchgeführt.
Das genannte Ausführungsbeispiel stellt nur einen Teil der durch die Erfindung möglichen Ausführungsformen dar. So ist ein auf diesem Gebiet tätiger Fachmann in der Lage, durch vorteilhafte Modifikationen eine Vielzahl von weiteren Aus­ führungsformen zu schaffen, ohne daß dabei der Charakter (We­ sen) der Erfindung (Verwendung einer aufgrund aktueller Gege­ benheiten bei der Sprachaufnahme modifizierten Trainingsprobe für den durch bekannte Spracherkennungsverfahren durchgeführ­ ten Vergleich mit einer aktuellen Erkennungsprobe) verändert wird. Diese Ausführungsformen sollen ebenfalls durch die Er­ findung mit erfaßt sein.

Claims (4)

1. Verfahren zur Spracherkennung, mit folgenden Merkmalen:
  • a) Durch Verknüpfung eines aktuellen Sprachsignals (s(t)) mit mindestens einer eine Störung (na(t), nc(t)) des Sprachsignals darstellenden Größe wird eine Erkennungs­ sprachprobe (sE(t)) erzeugt,
  • b) durch Verknüpfung einer dem Spracherkennungssystem be­ kannten Trainingssprachprobe (sT(t)) mit mindestens einer die Störung (na(t), nc(t)) darstellenden Größe wird eine optimierte Trainingssprachprobe (sT_opt(t)) erzeugt,
  • c) die die Störung (na(t), nc(t)) darstellende Größe wird durch Schätzung einer den Unterschied zwischen einer Trainingsumgebung und aktuellen Umgebung des Spracherken­ nungssystems wiedergebenden Funktion "convolutional noi­ se" (nc_est(t)) ermittelt,
  • d) die optimierte Trainingssprachprobe (sT_opt(t)) und die Erkennungssprachprobe (sE(t)) werden einem Spracherken­ nungsverfahren zugeführt.
2. Verfahren nach Anspruch 1, dadurch gekennzeich­ net, daß
  • a) eine erste die Störung (na(t), nc(t)) darstellende Größe durch Schätzung einer den Unterschied zwischen einer Trainingsumgebung und einer Aufnahme des Sprachsignals (s(t)) aktuellen Umgebung des Spracherkennungssystems wiedergebenden Funktion "convolutional noise" (nc_est(t)) ermittelt wird,
  • b) eine zweite die Störung (na(t), nc(t)) darstellende Größe durch Schätzung einer die aktuellen Neben- bzw. Störge­ räusche wiedergebenden Funktion "additive noise" (na_est(t)) ermittelt wird.
3. Verfahren nach einem der vorhergehenden Ansprüche, da­ durch gekennzeichnet, daß die die Störung (na(t), nc(t)) darstellende Größe durch Multiplikation mit mindestens einem Faktor gewichtet wird.
4. Verfahren nach Anspruch 5, dadurch gekennzeich­ net, daß die Erkennungssprachprobe (sE(t)) gemäß der Formel
sE(t) = (nc(t)*s(t))*βnc_est(t)-1 + na(t) - βna_est(t)
und die optimierte Trainingssprachprobe (sT_opt(t)) gemäß der Formel
sT_opt(t) = (sT(t)*(1 - β)nc_est(t)) + (1 -β)na_est(t)
mit
s(t): Sprachsignal
sT(t): Trainingssprachprobe
ST_opt(t): optimierte Trainingssprachprobe
sE(t): Erkennungssprachprobe
nc(t): "convolutional noise"
na(t): "additive noise"
nc_est(t): geschätztes "convolutional noise"
na_est(t): geschätztes "additional noise"
β: Gewichtungsfaktor
*: Faltungsoperator
gebildet werden.
DE2000105609 2000-02-09 2000-02-09 Verfahren zur Spracherkennung Expired - Fee Related DE10005609C1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE2000105609 DE10005609C1 (de) 2000-02-09 2000-02-09 Verfahren zur Spracherkennung
PCT/DE2001/000261 WO2001059761A1 (de) 2000-02-09 2001-01-23 Verfahren zur spracherkennung
AU39138/01A AU3913801A (en) 2000-02-09 2001-01-23 Speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2000105609 DE10005609C1 (de) 2000-02-09 2000-02-09 Verfahren zur Spracherkennung

Publications (1)

Publication Number Publication Date
DE10005609C1 true DE10005609C1 (de) 2001-08-09

Family

ID=7630282

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000105609 Expired - Fee Related DE10005609C1 (de) 2000-02-09 2000-02-09 Verfahren zur Spracherkennung

Country Status (3)

Country Link
AU (1) AU3913801A (de)
DE (1) DE10005609C1 (de)
WO (1) WO2001059761A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4325404A1 (de) * 1993-07-29 1995-02-02 Telefonbau & Normalzeit Gmbh Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
DE19521258A1 (de) * 1995-06-10 1996-12-12 Philips Patentverwaltung Spracherkennungssystem
WO1998037542A1 (en) * 1997-02-21 1998-08-27 Lernout & Hauspie Speech Products N.V. Accelerated convolution noise elimination

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4325404A1 (de) * 1993-07-29 1995-02-02 Telefonbau & Normalzeit Gmbh Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
DE19521258A1 (de) * 1995-06-10 1996-12-12 Philips Patentverwaltung Spracherkennungssystem
WO1998037542A1 (en) * 1997-02-21 1998-08-27 Lernout & Hauspie Speech Products N.V. Accelerated convolution noise elimination

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAEED V.VASEGHI "Advanced Signal Processing and Digital Noise Reduction", Stuttgart, 1996, TeubnerB.G. *

Also Published As

Publication number Publication date
WO2001059761A1 (de) 2001-08-16
AU3913801A (en) 2001-08-20

Similar Documents

Publication Publication Date Title
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE2719973C2 (de)
DE4126902C2 (de) Sprachintervall - Feststelleinheit
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10041512A1 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
DE19948308A1 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
EP1386307A1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE4010028C2 (de) Spracherkennungsverfahren
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
DE2021126A1 (de) Spracherkennungsvorrichtung
EP3065417A1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE10005609C1 (de) Verfahren zur Spracherkennung
DE19811879C1 (de) Einrichtung und Verfahren zum Erkennen von Sprache
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
EP1212751B1 (de) Verfahren zur unterdrückung von störrauschen in einem signalfeld
DE10150519B4 (de) Verfahren und Anordnung zur Sprachverarbeitung
EP0470411A2 (de) Anpassung von Referenzsprachmustern an umgebungsbedingte Aussprachevarianten
EP0787416B1 (de) Verfahren zur messung der erhaltung stereophoner audiosignale und verfahren zur erkennung gemeinsam codierter stereophoner audiosignale

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee