DE60303278T2

DE60303278T2 - Vorrichtung zur Verbesserung der Spracherkennung

Info

Publication number: DE60303278T2
Application number: DE60303278T
Authority: DE
Inventors: Michael Walker
Original assignee: Alcatel CIT SA; Alcatel SA
Current assignee: Alcatel Lucent SAS
Priority date: 2003-11-27
Filing date: 2003-11-27
Publication date: 2006-07-20
Anticipated expiration: 2023-11-28
Also published as: EP1536412A1; US7734472B2; US20050119886A1; DE60303278D1; ATE316283T1; EP1536412B1

Description

Die vorliegende Erfindung betrifft ein Spracherkennungssystem, das eine Audio-Eingabeeinheit, die in einem Endgerät angeordnet ist, sowie eine Vorrichtung zur Spracherkennung und eine Vorrichtung zur Verbesserung der Spracherkennung für ein solches Spracherkennungssystem enthält.
Spracherkennungssysteme werden in einem weiten Anwendungsbereich eingesetzt und zeigen eine starke Verschlechterung der Zuverlässigkeit bei Hintergrundgeräuschen. Viele Anwendungen werden in schlechter akustischer Umgebung benötigt, wie zum Beispiel Telemetrie-Systeme in Autos oder Lastwagen, sprachgesteuerte Systeme auf Flughäfen und in anderen öffentlichen Bereichen, sowie Mobiltelefone in fast jeder Umgebung. Es wurden Schaltkreise zur Verbesserung der Spracherkennung vorgeschlagen, wie z.B. in IBM Technical Disclosure Bulletin, Band 13, Nr. 9, Februar 1971, "Threshold Control for Speech Analyser".
Um der Verschlechterung der Zuverlässigkeit bei Hintergrundgeräuschen entgegen zu wirken, werden in ETSI ES 202 050, V1.1.2 (2003-10) Verfahren zur selektiven Spektrum-Subtraktion vorgestellt, die zur Geräuschminderung verwendet werden.
Das Eingangssignal vom Eingangs-Audio-Teil eines DSR-Endgerätes (DSR = Distributed Speech Recognition) wird von der Eingangsstufe des Endgerätes verarbeitet. Die Eingangsstufe des Endgerätes entwickelt aus einem Sprachsignal, das mit unterschiedlichen Raten abgetastet wird, einen Merkmalsvektor, wobei die Merkmalsvektoren aus 13 statischen Cepstral-Koeffizienten und einem logarithmischen Energie-Koeffizienten bestehen. Im Endgeräte-Teil werden im Merkmals-Extraktions-Teil aus dem Eingangssignal Sprachmerkmale berechnet. Dann werden die Merkmale komprimiert und zur allgemeinen Übertragung durch die Server-Seite weiter verarbeitet. Im Merkmals-Extraktions-Teil wird zuerst eine Geräuschreduktion durchgeführt. Dann erfolgt eine Signalform-Verarbeitung des geräuschreduzierten Signals und die Cepstral-Eigenschaften werden berechnet. Auf der Server-Seite werden die Bitstrom-Decodierung, die Fehler-Abschwächung und die Merkmals-Dekomprimierung angewendet.
Die Geräuschreduktion beruht auf einem Wiener-Filter. Nach der Rahmenbildung des Eingangssignals wird das lineare Spektrum jedes Rahmen berechnet. In einem Leistungs-Spektraldichte-Mittelwert-Block wird das Signalspektrum entlang des Zeitindex geglättet. Dann werden im Wiener-Filter-Design-Block die Wiener-Filter-Koeffizienten im Frequenzbereich berechnet, wozu sowohl die aktuelle Rahmen-Spektrum-Berechnung als auch die Geräuschspektrum-Berechnung verwendet werden. Das Geräuschspektrum wird aus Geräusch-Rahmen berechnet, die durch einen Sprachaktivitäts-Detektor erkannt werden. Die linearen Wiener-Filter-Koeffizienten werden weiterhin entlang der Frequenz-Achse geglättet, wozu eine Mel-Filter-Bank verwendet wird. Die Impulsantwort dieses Mel-förmigen Wiener-Filters erhält man durch Anwendung einer Mel-förmigen inversen diskreten Kosinus-Transformation. Schließlich wird das Signal in einem Apply-Filter-Block gefiltert. Das Eingangssignal der zweiten Stufe ist das Ausgangssignal der ersten Stufe, wobei die zweite Stufe einen Spektrum-Berechnungs-Block, einen Leistungs-Spektraldichte-Mittelwert-Block, einen Wiener-Filter-Design-Block, einen Mel-Filter-Bank-Block, einen Verstärkungs-Faktorisierungs-Block, einen Block zur Mel-förmigen inversen diskreten Kosinus-Transformation und einen Apply-Filter-Block enthält.
Nachteile einer solchen Lösung zur Beseitigung der Verschlechterung durch Verfahren der selektiven spektralen Subtraktion sind der hohe Berechnungs- und Speicheraufwand, sowie die Unflexibilität des Systems.
Es ist die Aufgabe der vorliegenden Erfindung, der Verschlechterung der Zuverlässigkeit eines Spracherkennungssystems, das mit Hintergrundgeräuschen arbeiten muss, entgegen zu wirken. Gemäß der vorliegenden Erfindung wird eine Vorrichtung zur Verbesserung der Spracherkennung beansprucht, wie in Anspruch 1 bekannt gegeben.
Das Ziel der vorliegenden Erfindung wird durch ein Spracherkennungssystem erreicht, das eine Audio-Eingabeeinheit, die in einem Endgerät angeordnet ist, sowie eine Vorrichtung zur Spracherkennung und eine einstellbare Vorrichtung zur Verbesserung der Spracherkennung enthält, die zwischen der Audio-Eingabeeinheit und der Vorrichtung zur Spracherkennung angeordnet ist, wobei die Vorrichtung zur Verbesserung der Spracherkennung eine parametrisierbare Vorfilter-Einheit, eine parametrisierbare dynamische Sprachpegel-Steuereinheit, eine parametrisierbare Geräuschreduktions-Einheit und eine parametrisierbare Sprachpegel-Steuereinheit enthält, worin die Parameter der parametrisierbaren Vorfilter-Einheit, der parametrisierbaren dynamischen Sprachpegel-Steuereinheit, der parametrisierbaren Geräuschreduktions-Einheit und der parametrisierbaren Sprachpegel-Steuereinheit auf die Charakteristik der speziellen Audio-Eingabeeinheit und/oder die Charakteristik der speziellen Spracherkennungs-Einheit des Spracherkennungssystems eingestellt werden, um die Audio-Eingabeeinheit an die Vorrichtung zur Spracherkennung anzupassen. Das Ziel der vorliegenden Erfindung wird weiterhin durch eine Vorrichtung zur Verbesserung der Spracherkennung zur Anordnung zwischen einer Audio-Eingabeeinheit und einer Vorrichtung zur Spracherkennung erreicht, wobei die Vorrichtung zur Verbesserung der Spracherkennung eine parametrisierbare Vorfilter-Einheit, eine parametrisierbare dynamische Sprachpegel-Steuereinheit, eine parametrisierbare Geräuschreduktions-Einheit und eine parametrisierbare Sprachpegel-Steuereinheit enthält, worin die Parameter der parametrisierbaren Vorfilter-Einheit, der parametrisierbaren dynamischen Sprachpegel-Steuereinheit, der parametrisierbaren Geräuschreduktions-Einheit und der parametrisierbaren Sprachpegel-Steuereinheit auf die Charakteristik der speziellen Audio-Eingabeeinheit und/oder die Charakteristik der speziellen Spracherkennungs-Einheit eingestellt werden können, um die Audio-Eingabeeinheit an die Vorrichtung zur Spracherkennung anzupassen.
Die Erfindung beruht auf der Erkenntnis, dass eine verbesserte Erkennungs-Rate nur erreicht werden kann, wenn ein Verfahren zur Verbesserung der Spracherkennung mit konfigurierbarer Parametrisierung verwendet wird. Solche Verfahren zur Verbesserung der Spracherkennung erfordern verschiedene einstellbare Systemfunktionen, die abhängig von der Anwendung und der System-Kombination einstellbar sein müssen. Bei verschiedenen Vorrichtungen zur Spracherkennung werden verschiedene Verfahren für die HMM-Konfiguration verwendet (HMM = Hidden Markov Model). Verschiedene Eingangsstufen-Konzepte, zum Beispiel Sound-Karten, Mikrofone, Mobiltelefone und Telefone führen zu unterschiedlichen Übertragungscharakteristiken. Eine effektive Geräuschreduktion erfordert ein adaptives System, welches die HMM-Konfiguration und die Eingangsstufen-Konzepte anpasst.
Die Erfindung bietet verschiedene Vorteile: Die Erfindung eröffnet eine leistungsfähige Möglichkeit, die Erkennungsrate in Umgebungen mit Störgeräuschen zu verbessern, kombiniert mit einem sehr geringen Rechenaufwand. Die Erfindung vereinfacht die Einführung neuer Anpassungs- und Parametrisierungs- Prozeduren für stark unterschiedliche Hardware- und Software-Konfigurationen von Spracherkennungssystemen. Das Sprachsignal muss nicht im Frequenzbereich verarbeitet werden, was zu einer geringen Berechnungs-Komplexität (< 1 MIP) und zu geringen Speicheranforderungen (500 Bytes) führt. Weiterhin zeigen Experimente eine starke Verbesserung der Erkennungsrate. Außerdem ist es möglich, die Erfindung mit einer Vielzahl von vorhandenen Systemen zu implementieren. Sie kann für viele Anwendungen als Zusatzfunktion implementiert werden. Eine einfache Anpassung an die gewünschte Hardware-/Software-Konfiguration ist möglich. Weiterhin sind getrennte Parametrisierungen für Vorrichtungen zur Spracherkennung und zur Anpassung an das menschliche Ohr möglich.
Weitere Vorteile werden durch die Ausführungen erreicht, die in den abhängigen Ansprüchen angegeben werden.
Spezielle Vorteile werden erzielt, wenn die Erfindung auf ein verteiltes Spracherkennungssystem angewendet wird. In einem solchen System besteht die Vorrichtung zur Spracherkennung aus einem zentralen Spracherkennungs-Server und mindestens einer entfernten verteilten Spracherkennungs-Eingangsstufe, die den Prozess der Merkmals-Extraktion durchführt. Die verteilte Spracherkennungs-Eingangsstufe befindet sich in einem Endgerät, das über eine Vorrichtung zur Verbesserung der Spracherkennung und eine Audio-Eingabeeinheit verfügt. Die Vorrichtung zur Verbesserung der Spracherkennung ist zwischen der speziellen Audio-Eingabeeinheit und der speziellen verteilten Spracherkennungs-Eingangsstufe des Endgerätes angeordnet. Die Parameter der parametrisierbaren Vorfilter-Einheit, der parametrisierbaren dynamischen Sprachpegel-Steuereinheit, der parametrisierbaren Geräuschreduktions-Einheit und der parametrisierbaren Sprachpegel-Steuereinheit jeder der Vorrichtungen zur Verbesserung der Spracherkennung sind auf die Charakteristik der entsprechenden Audio- Eingabeeinheit und/oder die Charakteristiken der entsprechenden verteilten Spracherkennungs-Eingangsstufe des entsprechenden Endgerätes eingestellt. Dies ermöglicht es, die Spracherkennung in einem Spracherkennungssystem, das eine Vielzahl von Kombinationen von Audioeinheiten/verteilten Spracherkennungs-Eingangsstufen hat, drastisch zu verbessern.
Es ist aber auch möglich, die Erfindung auf ein selbständiges Spracherkennungssystem anzuwenden, wobei die Vorrichtung zur Spracherkennung im Endgerät eingebettet ist.
Weitere Vorteile werden erzielt, wenn die Vorrichtung zur Verbesserung der Spracherkennung die Sprach-Signalformen nur im Zeitbereich verarbeitet. Zum Beispiel enthält die Audio-Eingabeeinheit ein Mikrofon und einen Analog-/Digital-Wandler. Die Vorrichtung zur Verbesserung der Spracherkennung führt eine Vorverarbeitung des Ausgangssignals des Analog-/Digital-Wandlers im Zeitbereich durch. Die Vorrichtung zur Spracherkennung transformiert das Sprachsignal, das von der Vorrichtung zur Verbesserung der Spracherkennung geliefert wird, vom Zeitbereich in den Frequenzbereich und führt die weitere Verarbeitung des transformierten Sprachsignals im Frequenzbereich durch. Dabei ist es immer noch möglich, dass die Vorrichtung zur Spracherkennung einen weiteren Geräuschreduktions-Algorithmus anwendet, der auf Verfahren der selektiven spektralen Subtraktion beruht. Experimente auf der Grundlage der Aurora-Datenbank zeigen, dass solche Berechnungen im Zeitbereich einen guten Kompromiss zwischen einer geringen Berechnungs-Komplexität und einer starken Verbesserung der Spracherkennung darstellen.
Die Vorrichtung zur Geräuschreduktion hat vorzugsweise einen Sprachaktivitäts-Detektor und einen Verstärker, der durch den Sprachaktivitäts-Detektor gesteuert wird. Wenn er Sprachpausen erkennt, verringert der Sprachaktivitäts-Detektor den Verstärkungsfaktor des Verstärkers. Durch Verwendung einer solchen Art von parametrisierbarer Geräuschreduktions-Einheit kann eine ausgezeichnete Verbesserung der Spracherkennung erreicht werden.
Vorzugsweise wird die oben erwähnte Geräuschreduktions-Einheit mit einer dynamischen Sprachpegel-Steuereinheit kombiniert, die eine dynamische Sprachpegel-Komprimierung des Ausgangssignals der Vorfilter-Einheit durchführt. Zum Beispiel steuern Parameter, die einen Komprimierungsfaktor und einen Nenn-Sprachpegel spezifizieren, die dynamische Sprachpegel-Komprimierungs-Funktion. Dadurch wird das Ausgangssignal der Vorfilter-Einheit an die Charakteristiken des menschlichen Ohres angepasst, was eine ausgezeichnete Grundlage für den folgenden Geräuschreduktions-Prozess darstellt.
Die Vorrichtung zur Verbesserung der Spracherkennung wird vorzugsweise als Computerprogramm implementiert, das auf einem DSP des Endgerätes ausgeführt wird (DSP = Digital Signal Processor, digitaler Signalprozessor). Die Größe, die Berechnungs-Komplexität und die Speicheranforderungen dieses Computerprogramms machen es möglich, dieses Computerprogramm auf demselben DSP auszuführen, der auch das Computerprogramm ausführt, das die Vorrichtung zur Spracherkennung oder Funktionalitäten der verteilten Spracherkennungs-Eingangsstufen liefert. Dadurch müssen keine zusätzlichen Hardware-Ressourcen im Endgerät bereitgestellt werden, um diese Erfindung zu implementieren, die zu einer drastischen Verbesserung der Spracherkennung bei Hintergrundgeräuschen führt.
Diese und andere Eigenschaften und Vorteile der Erfindung werden besser verstanden, wenn man die folgende detaillierte Beschreibung von zurzeit bevorzugten beispielhaften Ausführungen zusammen mit den begleitenden Zeichnungen betrachtet, in denen:
1 ein Blockdiagramm ist, das ein verteiltes Spracherkennungssystem mit Vorrichtungen zur Verbesserung der Spracherkennung gemäß dieser Erfindung zeigt.
2 eine Funktions-Ansicht eines Spracherkennungssystems gemäß dieser Erfindung ist.
1 zeigt verschiedene Komponenten eines verteilten Spracherkennungssystems gemäß dieser Erfindung. 1 zeigt ein Kommunikationsnetz 1, eine Vielzahl von Endgeräten 21, 22, 23 und 24 und einen Spracherkennungs-Server 3. Die Endgeräte 21, 22, 23 und 24 enthalten die verteilten Spracherkennungs-Eingangsstufen 61 und 62, die Vorrichtung zur Verbesserung der Spracherkennung 51, 52, 53 und 54 und die Audioeinheiten 41, 42, bzw. 43. Der Spracherkennungs-Server 3 enthält eine Datenbank 31 und eine Steuereinheit 32.
Das Kommunikationsnetz 1 ist ein Fernsprechnetz, vorzugsweise ein Mobil-Telekommunikations-Netz. Das Kommunikationsnetz 1 ist zum Beispiel ein GSM, UMTS oder CDMA-2000-Netzwerk (GSM = Global System for Mobile Communications, UMTS = Universal Telecommunications System). Weiterhin ist es möglich, dass das Kommunikationsnetz 1 ein PSTN oder ISDN ist (PSTN = Public Switched Telecommunication Network, ISDN = Integrated Service Digital Network). Gemäß einer weiteren Ausführung ist das Kommunikationsnetz 1 ein Datennetz, zum Beispiel ein IP-Netzwerk, das aus verschiedenen unterschiedlichen physikalischen Netzen besteht, die über ein gemeinsames IP-Protokoll der Ebene 3 miteinander verbunden sind (IP = Internet Protocol).
Die Endgeräte 21, 22, 23 und 24 sind Endgeräte, die Kommunikationsfunktionen enthalten, um über das Kommunikationsnetz 1 mit dem Spracherkennungs-Server 3 zu kommunizieren. Zum Beispiel sind die Endgeräte 21, 22, 23 und 24 Zellularfunk-Mobiltelefone entsprechend einem der oben erwähnten Standards.
Neben den Grundfunktionen eines Zellular-Mobiltelefons sind die Endgeräte 21, 22, 23 und 24 um Fähigkeiten der verteilten Spracherkennung erweitert. Vom funktionellen Standpunkt sind drei Einheiten des Endgerätes an der Bereitstellung dieses Dienstes beteiligt: Die verteilte Spracherkennungs-Eingangsstufe, die Vorrichtung zur Verbesserung der Spracherkennung und die Audioeinheit.
Die Audioeinheit bezieht sich auf alles, was bei der Umwandlung vom Schalldruck in ein digitalisiertes Signal geschieht. Die Einheit enthält das Mikrofon, die Analog-/Digital-Wandlung und optional eine analoge Filterung und eine automatische Verstärkungsregelung. Weiterhin werden die Charakteristiken der Audio-Eingabeeinheit durch die akustischen Effekte beeinflusst, die vom Gehäuse des Endgerätes und durch die mechanische Kopplung des Mikrofons mit dem Gehäuse verursacht werden.
Vorzugsweise arbeitet die Audio-Eingabeeinheit innerhalb der Toleranzen, die für die verteilte Spracherkennungs-Eingangsstufe empfohlen werden.
Jedes der Endgeräte 21, 22, 23 und 24 hat eine verteilte Spracherkennungs-Eingangsstufe, die zentrale Funktionen der Spracherkennung durchführt. Im Grunde führt die verteilte Spracherkennungs-Eingangsstufe den Prozess der Merkmals-Extraktion durch. Sie führt zum Beispiel die Funktionen der Parametrisierung, Komprimierung, der Fehlersicherung und Formatierung aus: Ein auf Rahmen beruhender Sprachverarbeitungs-Algorithmus erzeugt eine Merkmalsvektor-Darstellung. Eine solche Merkmalsvektor-Darstellung wird zum Beispiel im Standard ETSI ES 202 050 V1.1.2 (2003-10) spezifiziert. Dann wird der Merkmalsvektor komprimiert, um die Datenrate zu reduzieren, und es werden Fehlersicherungs-Bits hinzugefügt. Dann werden die komprimierten Sprachrahmen zur Übertragung in einen Bitstrom formatiert, in dem es möglich ist, diese Daten als leitungsvermittelte Daten oder als Paket-Daten über das Kommunikationsnetz 1 zum Server 3 zu senden.
Die Steuereinheit 32 führt die DSR-Verarbeitung auf der Server-Seite aus (DSR = Distributed Speech Recognition, verteilte Spracherkennung): Sie wendet eine Fehlererkennungs- und Abschwächungs-Funktion an. Dann führt sie die Dekomprimierung, die Eingangsstufen-Nachverarbeitung auf der Server-Seite und eine Merkmals-Ableitungs-Funktion mit den empfangenen Daten aus.
Wie in 1 gezeigt, enthalten die Endgeräte 21, 22, 23 und 24 jeweils verschiedene Audio-Eingabeeinheiten und verschiedene verteilte Spracherkennungs-Eingangsstufen.
Zum Beispiel sind die verteilten Spracherkennungs-Eingangsstufen 61 und 62 durch verschiedene Hersteller codiert und verwenden verschiedene Verfahren für die HMM-Konfiguration. Zum Beispiel sind die Endgeräte 21, 22 und 24 verschiedene Endgeräte-Typen, die jeweils eigene elektroakustische Eigenschaften haben. Folglich implementiert jedes der Endgeräte 21 bis 24 eine eindeutige Kombination von Typ der verteilten Spracherkennung und Typ der Audio-Eingangseinheit.
Jeder der Vorrichtungen zur Verbesserung der Spracherkennung 51 bis 54 arbeitet mit einem anderen Parameter-Satz, der so eingestellt ist, dass die Audio-Eingangseinheit des Endgerätes an die verteilte Spracherkennungs-Eingangsstufe des Endgerätes angepasst wird. Die Vorrichtung zur Verbesserung der Spracherkennung 51 passt die Audioeinheit 41 an die verteilte Spracherkennungs-Eingangsstufe 61 an, die Vorrichtung zur Verbesserung der Spracherkennung 52 passt die Audioeinheit 42 an die verteilte Spracherkennungs-Eingangsstufe 61 an, die Vorrichtung zur Verbesserung der Spracherkennung 53 passt die Audioeinheit 42 an die verteilte Spracherkennungs-Eingangsstufe 62 an und die Vorrichtung zur Verbesserung der Spracherkennung 54 passt die Audioeinheit 43 an die verteilte Spracherkennungs-Eingangsstufe 62 an. Jede der Vorrichtungen zur Verbesserung der Spracherkennung 51 bis 54 hat eine parametrisierbare Vorfilter-Einheit, eine parametrisierbare dynamische Sprachpegel-Steuereinheit, eine parametrisierbare Geräuschreduktions-Einheit und eine parametrisierbare Sprachpegel-Steuereinheit. Die Parametrisierung dieser Einheiten wird auf die Charakteristiken der entsprechenden der Audio-Eingabeeinheiten 41 bis 43 und/oder die Charakteristik der speziellen Spracherkennungs-Einheit eingestellt, die durch die entsprechende der verteilten Spracherkennungs-Eingangsstufen 61 und 62 und den Server 3 gebildet wird.
Zum Beispiel wird die Spracherkennung mit einem ATIP-Spracherkenner realisiert. Somit werden die HMMs entsprechend der Regeln von ATIP gelernt. Dies ist die erste Variable, welche die Empfindlichkeit der Erkennung beeinflussen kann. Für diese Einstellung kann es erforderlich werden, den Eingangs-Dynamikbereich des Sprachsignals zu komprimieren, z.B. um den Faktor 3/1, um eine bessere Erkennungsrate zu erzielen.
Alternativ dazu kann die Spracherkennung zum Beispiel mit einer Vorrichtung zur Spracherkennung von Lernout & Hauspic, Speechworks, TEMIC oder Nuance, die entsprechend der Regeln von Lernout & Hauspic, Speechworks, TEMIC, bzw. Nuance eingeübt wird, realisiert werden.
Eine zweite Variable ist von der Darstellung der Sprach-Koeffizienten abhängig. Zum Beispiel wird eine verteilte Spracherkennungs-Eingangsstufe von Nokia benutzt, die eine logarithmische Frequenz-Gewichtung (Cepstrum) durchführt. Somit kann die Komprimierung auf 2/1 verringert werden. Weiterhin ist die Empfindlichkeit gegen Geräusche sehr hoch. Es ist eine Geräuschreduktion erforderlich, wobei ein Geräuschreduktions-Grad von 30% die dritte Variable festlegt. Da die HW-Übertragungsfunktion inklusive Mikrofon eine Tiefpass-Charakteristik hat, ist eine Vorfilterung erforderlich, um den Frequenzgang zu kompensieren (vierte Variable), und da die Soundblaster-Karte dauerhaft niedrige Störfrequenzen einführt, bestimmt eine fünfte Variable die Grenzfrequenz.
Die spezielle Auswahl für die fünf oben erwähnten Variablen wird durch die Parametrisierung der Vorrichtung zur Verbesserung der Spracherkennung getroffen, um die Vorrichtung zur Verbesserung der Spracherkennung auf die Charakteristiken der speziellen Audio-Eingabeeinheit und die Charakteristiken der speziellen Vorrichtung zur Spracherkennung einzustellen.
Weiterhin ist die Erfindung nicht auf ein verteiltes Spracherkennungssystem beschränkt, wie in 1 gezeigt, sondern kann auch auf ein selbständiges Spracherkennungssystem angewendet werden, in dem eine komplette Vorrichtung zur Spracherkennung, eine Vorrichtung zur Verbesserung der Spracherkennung und eine Audioeinheit in einem Endgerät implementiert sind, zum Beispiel im Endgerät 1.
2 zeigt Details eines Spracherkennungssystems, das aus der Audioeinheit 41, der Vorrichtung zur Verbesserung der Spracherkennung 51, der verteilten Spracherkennungs-Eingangsstufe 61 und dem Server 3 besteht.
Die Audioeinheit 41 verfügt über ein Mikrofon 411, einen Verstärker 412 und einen Analog-/Digital-Wandler 413, der zum Beispiel die Abtastfrequenz von 8, 11 und 16 kHz unterstützt.
Die Vorrichtung zur Verbesserung der Spracherkennung 51 enthält eine Vorfilter-Einheit 511, eine dynamische Sprachpegel-Steuereinheit 512, eine Geräuschreduktions-Einheit 513 und eine Sprachpegel-Steuereinheit 514, wobei jede dieser Einheiten durch eine Parameter-Einstelleinheit 515 parametrisierbar ist. Die Parameter dieser Einheiten werden durch die Parameter-Einstelleinheit 515 eingestellt, wobei die Parameter-Einstelleinheit durch Parameter-Einstellungen gebildet werden kann, die in einem EPROM, in einer Initialisierungsdatei oder in einer anderen lesbaren Datei gespeichert sind, auf die der digitale Signalprozessor zugreifen kann, der die Vorfilter-Einheit 511, die dynamische Sprachpegel-Steuereinheit 512, die Geräuschreduktions-Einheit 513 und die Sprachpegel-Steuereinheit 514 implementiert.
Die Vorfilter-Einheit 511 führt eine Hochpass-, eine Tiefpass- oder Bandpass-Filterung des digitalen Sprachsignals durch, das von der Audio-Eingabeeinheit 41 empfangen wird. Die der Vorfilter-Einheit 511 zugeordneten Parametereinstellungen spezifizieren die Filtercharakteristik einer solchen Filterung. Vorzugsweise werden die Parameter der Vorfilter-Einheit 511 auf die Charakteristik der Audio-Eingabeeinheit 41 eingestellt, zum Beispiel auf die Tiefpass-Charakteristik des Mikrofons 411. Zum Beispiel hat die Vorfilter-Einheit 511 eine Parametereinstellung zur Implementation einer Hochpass-Filterung des empfangenen digitalen Sprachsignals mit einer Übergangsfrequenz von 50 bis 500Hz, zweiter oder dritter Ordnung.
Die dynamische Sprachpegel-Steuereinheit 512 führt eine dynamische Sprachpegel-Komprimierung des Ausgangssignals der Vorfilter-Einheit 511 durch. Die dynamische Sprachpegel-Steuereinheit 512 führt keine Änderung eines Sprachsignals durch, dessen Sprachpegel den Nennwert hat oder dessen Sprachpegel kleiner als der Nenn-Sprachpegel ist.
Wenn die dynamische Sprachpegel-Steuereinheit ein Signal empfängt, dessen Sprachpegel größer als der Nennwert des Sprachpegels ist, komprimiert sie das Sprachsignal. Abhängig vom Sprachpegel senkt sie den Pegel des Ausgangssignals auf lineare Weise. Sie berechnet den eintreffenden Sprachpegel, senkt den auf das Eingangssignal angewendeten Verstärkungsfaktor entsprechend einem berechneten Eingangssignalpegel und stellt den Verstärkungsfaktor wieder auf den Nenn-Faktor ein, wenn sie eine Rückkehr auf den Nenn-Signalpegel berechnet. Vorzugsweise wird die Reaktionszeit für die Neueinstellung auf den Nennpegel viel länger gewählt als die für die Neueinstellung auf einen höheren Signalpegel. Zum Beispiel wird eine Reaktionszeit von 65 ms zur Wiedereinstellung des Nenn-Signalpegels gewählt.
Die Geräuschreduktions-Einheit 513 dient vorzugsweise zur Anwendung eines Geräuschreduktions-Algorithmus, der die Geräusche in den Sprachpausen reduziert. Es ist aber möglich, dass die Geräuschreduktions-Einheit 513 weitere Geräuschreduktions-Algorithmen anwendet, zum Beispiel ein spezielles Störsignal subtrahiert.
Die Geräuschreduktions-Einheit 513 enthält einen Sprachaktivitäts-Detektor und einen Verstärker, der durch den Sprachaktivitäts-Detektor gesteuert wird. Der Sprachaktivitäts-Detektor verringert den Verstärkungsfaktor des Verstärkers, wenn er eine Sprachpause erkennt.
Vorzugsweise arbeitet der Sprachaktivitäts-Detektor nach folgendem Prinzip:
Der Sprachaktivitäts-Detektor 513 berechnet ein kurzfristiges Ausgangssignal SAS(x), ein mittelfristiges Ausgangssignal MAS(x) und ein langfristiges Ausgangssignal LAS(x) auf der Grundlage eines Eingangssignals x und einer kurzfristigen Pegel-Berechnung, einer mittelfristigen Pegel-Berechnung und einer langfristigen Pegel-Berechnung. Jedem der Ausgangssignale wird ein Multiplikations-Koeffizient zugeordnet. Dann werden die Ausgangssignale mit den zugeordneten Multiplikations-Koeffizienten multipliziert. Die Ergebnisse dieser Operationen werden durch einen Komparator verglichen. Ein Sprachsignal wird erkannt, wenn SAS(x) und MAS(x) größer als LAS(x) sind. Eine Sprachpause wird erkannt, wenn SAS(x) und/oder MAS(x) kleiner als LAS(x) werden. Vorzugsweise sollte die Reaktionszeit der kurzfristigen, mittelfristigen und langfristigen Berechnung den psychoakustischen Regeln folgen, die z.B. in E. Zwicker, "Psychoacoustic", Springer Verlag, ISBN 3-54011401-7 erwähnt werden. Weiterhin ist es möglich, die kurzfristige, mittelfristige und langfristige Berechnung durch ein adaptives System, z.B. ein neuronales Netz zu bestimmen.
Vorzugsweise verringert die Geräuschreduktions-Einheit 513 den Verstärkungsfaktor entsprechend einer Exponentialfunktion, wenn sie den Beginn einer Sprachpause erkennt. Für die Reaktionszeit einer solchen Funktion wird ein Wert zwischen 50 ms und 150 ms gewählt, um die Reduktion an die Charakteristik des menschlichen Ohres anzupassen.
Die Parameter dieses Geräuschreduktions-Algorithmus werden durch die Parameter-Einstelleinheit 515 eingestellt. Einstellbare Parameter sind Parameter der Pegel-Berechnung, die den Ausgangssignalen zugeordneten Multiplikations- Koeffizienten, der Verstärkungsfaktor im Fall einer Sprachpause und die Reaktionszeit der Verringerung des Verstärkungsfaktors.
Die Sprachpegel-Steuereinheit 514 enthält einen Verstärker zur Anpassung des Sprachpegels des Ausgangssignals der Geräuschreduktions-Einheit 513 an einen Sprachpegel, der an die Charakteristiken der verteilten Spracherkennungs-Eingangsstufe 61 angepasst ist.
Es ist möglich, dass einige der Parameter, die in der Parameter-Einstelleinheit 515 spezifiziert sind, eine Deaktivierung einer oder mehrerer der Vorfilter-Einheit 511, der dynamischen Sprachpegel-Steuereinheit 512, der Geräuschreduktions-Einheit 513 und der Sprachpegel-Steuereinheit 514 auslösen, wenn eine solche Funktionalität in dem speziellen Fall nicht erforderlich ist, um die Audio-Eingangseinheit an die spezielle Vorrichtung zur Spracherkennung anzupassen.

Claims

Vorrichtung zur Verbesserung der Spracherkennung (51, 52, 53, 54) zur Anordnung zwischen einer Audio-Eingabeeinheit (41, 42, 43) und einer Vorrichtung zur Spracherkennung (3, 61, 62) eines Spracherkennungssystems, dadurch gekennzeichnet, dass die Vorrichtung zur Verbesserung der Spracherkennung (51, 52, 53, 54) eine parametrisierbare Vorfilter-Einheit (511), eine parametrisierbare dynamische Sprachpegel-Steuereinheit (512), eine parametrisierbare Geräuschreduktions-Einheit (513) und eine parametrisierbare Sprachpegel-Steuereinheit (514) enthält, worin die Parameter der parametrisierbaren Vorfilter-Einheit (511), der parametrisierbaren dynamischen Sprachpegel-Steuereinheit (512), der parametrisierbaren Geräuschreduktions-Einheit (513) und der parametrisierbaren Sprachpegel-Steuereinheit (514) auf die Charakteristiken der speziellen Audio-Eingabeeinheit (41, 42, 43) und/oder die Charakteristiken der Vorrichtung zur Spracherkennung (3, 61, 62) eingestellt werden können, um die Audio-Eingabeeinheit (41, 42, 43) an die Vorrichtung zur Spracherkennung (3, 61, 62) anzupassen.
Spracherkennungssystem, das eine Audio-Eingabeeinheit (41, 42, 43), die in einem Endgerät (21, 22, 23, 24) angeordnet ist, und eine Vorrichtung zur Spracherkennung (3, 61, 62) und eine einstellbare Vorrichtung zur Verbesserung der Spracherkennung (51, 52, 53, 54), wie in Anspruch 1 beansprucht, enthält.
Das Spracherkennungssystem aus Anspruch 2, dadurch gekennzeichnet, dass das Spracherkennungssystem ein verteiltes Spracherkennungssystem ist, worin die Vorrichtung zur Spracherkennung einen zentralen Spracherkennungs-Server (3) und mindestens eine entfernte verteilte Spracherkennungs-Eingangsstufe (61, 62) aufweist, die den Prozess der Merkmals-Extraktion durchführt, wobei die verteilte Spracherkennungs-Eingangsstufe (61, 62) sich in dem entsprechenden Endgerät (21, 22, 23, 24) befindet, das über eine entsprechende Vorrichtung zur Verbesserung der Spracherkennung (51, 52, 53, 54) und eine entsprechende Audio-Eingabeeinheit (41, 42, 43) verfügt, dass jede Vorrichtung zur Verbesserung der Spracherkennung (51, 52, 53, 54) zwischen der Audio-Eingabeeinheit (41, 42, 43) und der verteilten Spracherkennungs-Eingangsstufe (61, 62) des entsprechenden Endgerätes (21, 22, 23, 24) angeordnet ist, und dass die Parameter der parametrisierbaren Vorfilter-Einheit (511), der parametrisierbaren dynamischen Sprachpegel-Steuereinheit (512), der parametrisierbaren Geräuschreduktions-Einheit (513) und der parametrisierbaren Sprachpegel-Steuereinheit (514) jeder der Vorrichtungen zur Verbesserung der Spracherkennung (51, 52, 53, 54) auf die Charakteristiken der entsprechenden Audio-Eingabeeinheit (41, 42, 43) und/oder die Charakteristiken der entsprechenden verteilten Spracherkennungs-Eingangsstufe (61, 62) des entsprechenden Endgerätes (21, 22, 23, 24) eingestellt sind, um die Audio-Eingabeeinheit (41, 42, 43) dieses Endgerätes (21, 22, 23, 24) an die verteilte Spracherkennungs-Eingangsstufe (61, 62) dieses Endgerätes (21, 22, 23, 24) anzupassen.
Das Spracherkennungssystem aus Anspruch 2, dadurch gekennzeichnet, dass das Spracherkennungssystem ein selbständiges Spracherkennungssystem ist, bei dem die Vorrichtung zur Spracherkennung in das Endgerät eingebettet ist.
Das Spracherkennungssystem aus Anspruch 2, dadurch gekennzeichnet, dass die Audio-Eingabeeinheit (41) ein Mikrofon und einen Analog-/Digital-Wandler enthält, dass die Vorrichtung zur Verbesserung der Spracherkennung (51) so angepasst ist, dass sie eine Vorverarbeitung von Sprach-Signalformen im Zeitbereich durchführt und dass die Vorrichtung zur Spracherkennung (3, 61) so angepasst ist, dass sie eine Transformation eines Sprachsignals aus dem Zeitbereich in den Frequenzbereich durchführt und die weitere Verarbeitung des transformierten Sprachsignals im Frequenzbereich durchführt.
Das Spracherkennungssystem aus Anspruch 2, dadurch gekennzeichnet, dass die Vorfilter-Einheit (511) so angepasst ist, dass sie eine Hochpass-Filterung des Sprachsignals durchführt, das von der Audio-Eingabeeinheit (41) geliefert wird, wobei die Parameter der Vorfilter-Einheit auf die Charakteristiken der Audio-Eingabeeinheit (41) eingestellt sind, insbesondere auf die Charakteristiken eines Mikrofons (411), das im Endgerät (21) angeordnet ist.
Das Spracherkennungssystem aus Anspruch 2, dadurch gekennzeichnet, dass die dynamische Sprachpegel-Steuereinheit (513) so angepasst ist, dass sie eine dynamische Sprachpegel-Komprimierung des Ausgangssignals der Vorfilter-Einheit (511) bereitstellt, wobei die dynamische Sprachpegel-Komprimierung von Parametern abhängt, die den Komprimierungsfaktor und einen Nenn-Sprachpegel spezifizieren.
Das Spracherkennungssystem aus Anspruch 2, dadurch gekennzeichnet, dass die Geräuschreduktions-Einheit (513) einen Sprachaktivitäts-Detektor und einen Verstärker enthält, der durch den Sprachaktivitäts-Detektor gesteuert wird, wobei der Sprachaktivitäts-Detektor so angepasst ist, dass er den Verstärkungsfaktor des Verstärkers verringert, wenn er eine Sprachpause erkennt.
Das Spracherkennungssystem aus Anspruch 2, dadurch gekennzeichnet, dass die Sprachpegel-Steuereinheit (514) einen Verstärker enthält, um den Sprachpegel des Ausgangssignals der Geräuschreduktions-Einheit an einen voreingestellten Sprachpegel anzupassen, der an die Charakteristiken der Vorrichtung zur Spracherkennung angepasst ist.