-
Die
vorliegende Erfindung betrifft ein Spracherkennungssystem, das eine
Audio-Eingabeeinheit, die in einem Endgerät angeordnet ist, sowie eine Vorrichtung
zur Spracherkennung und eine Vorrichtung zur Verbesserung der Spracherkennung
für ein solches
Spracherkennungssystem enthält.
-
Spracherkennungssysteme
werden in einem weiten Anwendungsbereich eingesetzt und zeigen eine
starke Verschlechterung der Zuverlässigkeit bei Hintergrundgeräuschen.
Viele Anwendungen werden in schlechter akustischer Umgebung benötigt, wie zum
Beispiel Telemetrie-Systeme
in Autos oder Lastwagen, sprachgesteuerte Systeme auf Flughäfen und
in anderen öffentlichen
Bereichen, sowie Mobiltelefone in fast jeder Umgebung. Es wurden
Schaltkreise zur Verbesserung der Spracherkennung vorgeschlagen,
wie z.B. in IBM Technical Disclosure Bulletin, Band 13, Nr. 9, Februar
1971, "Threshold
Control for Speech Analyser".
-
Um
der Verschlechterung der Zuverlässigkeit
bei Hintergrundgeräuschen
entgegen zu wirken, werden in ETSI ES 202 050, V1.1.2 (2003-10)
Verfahren zur selektiven Spektrum-Subtraktion vorgestellt, die zur Geräuschminderung
verwendet werden.
-
Das
Eingangssignal vom Eingangs-Audio-Teil eines DSR-Endgerätes (DSR = Distributed Speech
Recognition) wird von der Eingangsstufe des Endgerätes verarbeitet.
Die Eingangsstufe des Endgerätes
entwickelt aus einem Sprachsignal, das mit unterschiedlichen Raten
abgetastet wird, einen Merkmalsvektor, wobei die Merkmalsvektoren
aus 13 statischen Cepstral-Koeffizienten
und einem logarithmischen Energie-Koeffizienten bestehen. Im Endgeräte-Teil
werden im Merkmals-Extraktions-Teil
aus dem Eingangssignal Sprachmerkmale berechnet. Dann werden die
Merkmale komprimiert und zur allgemeinen Übertragung durch die Server-Seite
weiter verarbeitet. Im Merkmals-Extraktions-Teil wird zuerst eine
Geräuschreduktion
durchgeführt.
Dann erfolgt eine Signalform-Verarbeitung des geräuschreduzierten
Signals und die Cepstral-Eigenschaften werden berechnet. Auf der
Server-Seite werden die Bitstrom-Decodierung,
die Fehler-Abschwächung
und die Merkmals-Dekomprimierung
angewendet.
-
Die
Geräuschreduktion
beruht auf einem Wiener-Filter. Nach der Rahmenbildung des Eingangssignals
wird das lineare Spektrum jedes Rahmen berechnet. In einem Leistungs-Spektraldichte-Mittelwert-Block
wird das Signalspektrum entlang des Zeitindex geglättet. Dann
werden im Wiener-Filter-Design-Block die Wiener-Filter-Koeffizienten
im Frequenzbereich berechnet, wozu sowohl die aktuelle Rahmen-Spektrum-Berechnung
als auch die Geräuschspektrum-Berechnung
verwendet werden. Das Geräuschspektrum
wird aus Geräusch-Rahmen berechnet,
die durch einen Sprachaktivitäts-Detektor erkannt
werden. Die linearen Wiener-Filter-Koeffizienten werden weiterhin
entlang der Frequenz-Achse geglättet,
wozu eine Mel-Filter-Bank verwendet wird. Die Impulsantwort dieses
Mel-förmigen
Wiener-Filters erhält
man durch Anwendung einer Mel-förmigen inversen
diskreten Kosinus-Transformation. Schließlich wird das Signal in einem
Apply-Filter-Block gefiltert. Das Eingangssignal der zweiten Stufe
ist das Ausgangssignal der ersten Stufe, wobei die zweite Stufe
einen Spektrum-Berechnungs-Block, einen Leistungs-Spektraldichte-Mittelwert-Block,
einen Wiener-Filter-Design-Block,
einen Mel-Filter-Bank-Block, einen Verstärkungs-Faktorisierungs-Block,
einen Block zur Mel-förmigen inversen diskreten
Kosinus-Transformation und einen Apply-Filter-Block enthält.
-
Nachteile
einer solchen Lösung
zur Beseitigung der Verschlechterung durch Verfahren der selektiven
spektralen Subtraktion sind der hohe Berechnungs- und Speicheraufwand,
sowie die Unflexibilität
des Systems.
-
Es
ist die Aufgabe der vorliegenden Erfindung, der Verschlechterung
der Zuverlässigkeit
eines Spracherkennungssystems, das mit Hintergrundgeräuschen arbeiten
muss, entgegen zu wirken. Gemäß der vorliegenden
Erfindung wird eine Vorrichtung zur Verbesserung der Spracherkennung
beansprucht, wie in Anspruch 1 bekannt gegeben.
-
Das
Ziel der vorliegenden Erfindung wird durch ein Spracherkennungssystem
erreicht, das eine Audio-Eingabeeinheit,
die in einem Endgerät angeordnet
ist, sowie eine Vorrichtung zur Spracherkennung und eine einstellbare
Vorrichtung zur Verbesserung der Spracherkennung enthält, die
zwischen der Audio-Eingabeeinheit und der Vorrichtung zur Spracherkennung
angeordnet ist, wobei die Vorrichtung zur Verbesserung der Spracherkennung eine
parametrisierbare Vorfilter-Einheit, eine parametrisierbare dynamische
Sprachpegel-Steuereinheit, eine parametrisierbare Geräuschreduktions-Einheit und
eine parametrisierbare Sprachpegel-Steuereinheit enthält, worin
die Parameter der parametrisierbaren Vorfilter-Einheit, der parametrisierbaren
dynamischen Sprachpegel-Steuereinheit, der parametrisierbaren Geräuschreduktions-Einheit
und der parametrisierbaren Sprachpegel-Steuereinheit auf die Charakteristik
der speziellen Audio-Eingabeeinheit und/oder die Charakteristik
der speziellen Spracherkennungs-Einheit des Spracherkennungssystems eingestellt
werden, um die Audio-Eingabeeinheit
an die Vorrichtung zur Spracherkennung anzupassen. Das Ziel der
vorliegenden Erfindung wird weiterhin durch eine Vorrichtung zur
Verbesserung der Spracherkennung zur Anordnung zwischen einer Audio-Eingabeeinheit
und einer Vorrichtung zur Spracherkennung erreicht, wobei die Vorrichtung
zur Verbesserung der Spracherkennung eine parametrisierbare Vorfilter-Einheit,
eine parametrisierbare dynamische Sprachpegel-Steuereinheit, eine
parametrisierbare Geräuschreduktions-Einheit
und eine parametrisierbare Sprachpegel-Steuereinheit enthält, worin die
Parameter der parametrisierbaren Vorfilter-Einheit, der parametrisierbaren
dynamischen Sprachpegel-Steuereinheit, der parametrisierbaren Geräuschreduktions-Einheit
und der parametrisierbaren Sprachpegel-Steuereinheit auf die Charakteristik
der speziellen Audio-Eingabeeinheit und/oder die Charakteristik
der speziellen Spracherkennungs-Einheit eingestellt werden können, um
die Audio-Eingabeeinheit an die Vorrichtung zur Spracherkennung
anzupassen.
-
Die
Erfindung beruht auf der Erkenntnis, dass eine verbesserte Erkennungs-Rate
nur erreicht werden kann, wenn ein Verfahren zur Verbesserung der
Spracherkennung mit konfigurierbarer Parametrisierung verwendet
wird. Solche Verfahren zur Verbesserung der Spracherkennung erfordern
verschiedene einstellbare Systemfunktionen, die abhängig von
der Anwendung und der System-Kombination einstellbar sein müssen. Bei
verschiedenen Vorrichtungen zur Spracherkennung werden verschiedene Verfahren
für die
HMM-Konfiguration verwendet (HMM = Hidden Markov Model). Verschiedene
Eingangsstufen-Konzepte,
zum Beispiel Sound-Karten, Mikrofone, Mobiltelefone und Telefone
führen
zu unterschiedlichen Übertragungscharakteristiken.
Eine effektive Geräuschreduktion
erfordert ein adaptives System, welches die HMM-Konfiguration und
die Eingangsstufen-Konzepte anpasst.
-
Die
Erfindung bietet verschiedene Vorteile: Die Erfindung eröffnet eine
leistungsfähige
Möglichkeit,
die Erkennungsrate in Umgebungen mit Störgeräuschen zu verbessern, kombiniert
mit einem sehr geringen Rechenaufwand. Die Erfindung vereinfacht die
Einführung
neuer Anpassungs- und Parametrisierungs- Prozeduren für stark unterschiedliche Hardware-
und Software-Konfigurationen
von Spracherkennungssystemen. Das Sprachsignal muss nicht im Frequenzbereich
verarbeitet werden, was zu einer geringen Berechnungs-Komplexität (< 1 MIP) und zu geringen
Speicheranforderungen (500 Bytes) führt. Weiterhin zeigen Experimente
eine starke Verbesserung der Erkennungsrate. Außerdem ist es möglich, die
Erfindung mit einer Vielzahl von vorhandenen Systemen zu implementieren.
Sie kann für
viele Anwendungen als Zusatzfunktion implementiert werden. Eine
einfache Anpassung an die gewünschte Hardware-/Software-Konfiguration ist
möglich.
Weiterhin sind getrennte Parametrisierungen für Vorrichtungen zur Spracherkennung
und zur Anpassung an das menschliche Ohr möglich.
-
Weitere
Vorteile werden durch die Ausführungen
erreicht, die in den abhängigen
Ansprüchen angegeben
werden.
-
Spezielle
Vorteile werden erzielt, wenn die Erfindung auf ein verteiltes Spracherkennungssystem
angewendet wird. In einem solchen System besteht die Vorrichtung
zur Spracherkennung aus einem zentralen Spracherkennungs-Server
und mindestens einer entfernten verteilten Spracherkennungs-Eingangsstufe,
die den Prozess der Merkmals-Extraktion durchführt. Die verteilte Spracherkennungs-Eingangsstufe
befindet sich in einem Endgerät,
das über
eine Vorrichtung zur Verbesserung der Spracherkennung und eine Audio-Eingabeeinheit verfügt. Die
Vorrichtung zur Verbesserung der Spracherkennung ist zwischen der
speziellen Audio-Eingabeeinheit und der speziellen verteilten Spracherkennungs-Eingangsstufe
des Endgerätes
angeordnet. Die Parameter der parametrisierbaren Vorfilter-Einheit, der parametrisierbaren
dynamischen Sprachpegel-Steuereinheit,
der parametrisierbaren Geräuschreduktions-Einheit und der parametrisierbaren
Sprachpegel-Steuereinheit jeder der Vorrichtungen zur Verbesserung
der Spracherkennung sind auf die Charakteristik der entsprechenden
Audio- Eingabeeinheit
und/oder die Charakteristiken der entsprechenden verteilten Spracherkennungs-Eingangsstufe
des entsprechenden Endgerätes
eingestellt. Dies ermöglicht
es, die Spracherkennung in einem Spracherkennungssystem, das eine
Vielzahl von Kombinationen von Audioeinheiten/verteilten Spracherkennungs-Eingangsstufen
hat, drastisch zu verbessern.
-
Es
ist aber auch möglich,
die Erfindung auf ein selbständiges
Spracherkennungssystem anzuwenden, wobei die Vorrichtung zur Spracherkennung im
Endgerät
eingebettet ist.
-
Weitere
Vorteile werden erzielt, wenn die Vorrichtung zur Verbesserung der
Spracherkennung die Sprach-Signalformen nur im Zeitbereich verarbeitet.
Zum Beispiel enthält
die Audio-Eingabeeinheit ein
Mikrofon und einen Analog-/Digital-Wandler. Die Vorrichtung zur
Verbesserung der Spracherkennung führt eine Vorverarbeitung des
Ausgangssignals des Analog-/Digital-Wandlers im Zeitbereich durch. Die Vorrichtung
zur Spracherkennung transformiert das Sprachsignal, das von der
Vorrichtung zur Verbesserung der Spracherkennung geliefert wird,
vom Zeitbereich in den Frequenzbereich und führt die weitere Verarbeitung
des transformierten Sprachsignals im Frequenzbereich durch. Dabei
ist es immer noch möglich,
dass die Vorrichtung zur Spracherkennung einen weiteren Geräuschreduktions-Algorithmus
anwendet, der auf Verfahren der selektiven spektralen Subtraktion
beruht. Experimente auf der Grundlage der Aurora-Datenbank zeigen,
dass solche Berechnungen im Zeitbereich einen guten Kompromiss zwischen
einer geringen Berechnungs-Komplexität und einer starken Verbesserung
der Spracherkennung darstellen.
-
Die
Vorrichtung zur Geräuschreduktion
hat vorzugsweise einen Sprachaktivitäts-Detektor und einen Verstärker, der
durch den Sprachaktivitäts-Detektor
gesteuert wird. Wenn er Sprachpausen erkennt, verringert der Sprachaktivitäts-Detektor
den Verstärkungsfaktor
des Verstärkers.
Durch Verwendung einer solchen Art von parametrisierbarer Geräuschreduktions-Einheit
kann eine ausgezeichnete Verbesserung der Spracherkennung erreicht
werden.
-
Vorzugsweise
wird die oben erwähnte
Geräuschreduktions-Einheit
mit einer dynamischen Sprachpegel-Steuereinheit kombiniert, die
eine dynamische Sprachpegel-Komprimierung des Ausgangssignals der
Vorfilter-Einheit durchführt.
Zum Beispiel steuern Parameter, die einen Komprimierungsfaktor und
einen Nenn-Sprachpegel spezifizieren, die dynamische Sprachpegel-Komprimierungs-Funktion.
Dadurch wird das Ausgangssignal der Vorfilter-Einheit an die Charakteristiken
des menschlichen Ohres angepasst, was eine ausgezeichnete Grundlage
für den
folgenden Geräuschreduktions-Prozess
darstellt.
-
Die
Vorrichtung zur Verbesserung der Spracherkennung wird vorzugsweise
als Computerprogramm implementiert, das auf einem DSP des Endgerätes ausgeführt wird
(DSP = Digital Signal Processor, digitaler Signalprozessor). Die
Größe, die
Berechnungs-Komplexität
und die Speicheranforderungen dieses Computerprogramms machen es
möglich,
dieses Computerprogramm auf demselben DSP auszuführen, der auch das Computerprogramm
ausführt,
das die Vorrichtung zur Spracherkennung oder Funktionalitäten der
verteilten Spracherkennungs-Eingangsstufen
liefert. Dadurch müssen
keine zusätzlichen
Hardware-Ressourcen im Endgerät
bereitgestellt werden, um diese Erfindung zu implementieren, die
zu einer drastischen Verbesserung der Spracherkennung bei Hintergrundgeräuschen führt.
-
Diese
und andere Eigenschaften und Vorteile der Erfindung werden besser
verstanden, wenn man die folgende detaillierte Beschreibung von
zurzeit bevorzugten beispielhaften Ausführungen zusammen mit den begleitenden
Zeichnungen betrachtet, in denen:
-
1 ein
Blockdiagramm ist, das ein verteiltes Spracherkennungssystem mit
Vorrichtungen zur Verbesserung der Spracherkennung gemäß dieser Erfindung
zeigt.
-
2 eine
Funktions-Ansicht eines Spracherkennungssystems gemäß dieser
Erfindung ist.
-
1 zeigt
verschiedene Komponenten eines verteilten Spracherkennungssystems
gemäß dieser
Erfindung. 1 zeigt ein Kommunikationsnetz 1,
eine Vielzahl von Endgeräten 21, 22, 23 und 24 und
einen Spracherkennungs-Server 3. Die Endgeräte 21, 22, 23 und 24 enthalten
die verteilten Spracherkennungs-Eingangsstufen 61 und 62,
die Vorrichtung zur Verbesserung der Spracherkennung 51, 52, 53 und 54 und
die Audioeinheiten 41, 42, bzw. 43. Der
Spracherkennungs-Server 3 enthält eine Datenbank 31 und
eine Steuereinheit 32.
-
Das
Kommunikationsnetz 1 ist ein Fernsprechnetz, vorzugsweise
ein Mobil-Telekommunikations-Netz. Das Kommunikationsnetz 1 ist
zum Beispiel ein GSM, UMTS oder CDMA-2000-Netzwerk (GSM = Global
System for Mobile Communications, UMTS = Universal Telecommunications
System). Weiterhin ist es möglich,
dass das Kommunikationsnetz 1 ein PSTN oder ISDN ist (PSTN
= Public Switched Telecommunication Network, ISDN = Integrated Service
Digital Network). Gemäß einer
weiteren Ausführung
ist das Kommunikationsnetz 1 ein Datennetz, zum Beispiel
ein IP-Netzwerk,
das aus verschiedenen unterschiedlichen physikalischen Netzen besteht,
die über
ein gemeinsames IP-Protokoll
der Ebene 3 miteinander verbunden sind (IP = Internet Protocol).
-
Die
Endgeräte 21, 22, 23 und 24 sind
Endgeräte,
die Kommunikationsfunktionen enthalten, um über das Kommunikationsnetz 1 mit
dem Spracherkennungs-Server 3 zu kommunizieren. Zum Beispiel sind
die Endgeräte 21, 22, 23 und 24 Zellularfunk-Mobiltelefone
entsprechend einem der oben erwähnten
Standards.
-
Neben
den Grundfunktionen eines Zellular-Mobiltelefons sind die Endgeräte 21, 22, 23 und 24 um
Fähigkeiten
der verteilten Spracherkennung erweitert. Vom funktionellen Standpunkt
sind drei Einheiten des Endgerätes
an der Bereitstellung dieses Dienstes beteiligt: Die verteilte Spracherkennungs-Eingangsstufe, die
Vorrichtung zur Verbesserung der Spracherkennung und die Audioeinheit.
-
Die
Audioeinheit bezieht sich auf alles, was bei der Umwandlung vom
Schalldruck in ein digitalisiertes Signal geschieht. Die Einheit
enthält
das Mikrofon, die Analog-/Digital-Wandlung
und optional eine analoge Filterung und eine automatische Verstärkungsregelung.
Weiterhin werden die Charakteristiken der Audio-Eingabeeinheit durch
die akustischen Effekte beeinflusst, die vom Gehäuse des Endgerätes und
durch die mechanische Kopplung des Mikrofons mit dem Gehäuse verursacht
werden.
-
Vorzugsweise
arbeitet die Audio-Eingabeeinheit innerhalb der Toleranzen, die
für die
verteilte Spracherkennungs-Eingangsstufe
empfohlen werden.
-
Jedes
der Endgeräte 21, 22, 23 und 24 hat eine
verteilte Spracherkennungs-Eingangsstufe, die zentrale Funktionen
der Spracherkennung durchführt.
Im Grunde führt
die verteilte Spracherkennungs-Eingangsstufe den Prozess der Merkmals-Extraktion durch.
Sie führt
zum Beispiel die Funktionen der Parametrisierung, Komprimierung,
der Fehlersicherung und Formatierung aus: Ein auf Rahmen beruhender
Sprachverarbeitungs-Algorithmus erzeugt eine Merkmalsvektor-Darstellung. Eine
solche Merkmalsvektor-Darstellung wird zum Beispiel im Standard
ETSI ES 202 050 V1.1.2 (2003-10) spezifiziert. Dann wird der Merkmalsvektor
komprimiert, um die Datenrate zu reduzieren, und es werden Fehlersicherungs-Bits
hinzugefügt.
Dann werden die komprimierten Sprachrahmen zur Übertragung in einen Bitstrom
formatiert, in dem es möglich
ist, diese Daten als leitungsvermittelte Daten oder als Paket-Daten über das
Kommunikationsnetz 1 zum Server 3 zu senden.
-
Die
Steuereinheit 32 führt
die DSR-Verarbeitung auf der Server-Seite aus (DSR = Distributed Speech
Recognition, verteilte Spracherkennung): Sie wendet eine Fehlererkennungs- und Abschwächungs-Funktion
an. Dann führt
sie die Dekomprimierung, die Eingangsstufen-Nachverarbeitung auf der
Server-Seite und eine Merkmals-Ableitungs-Funktion mit den empfangenen
Daten aus.
-
Wie
in 1 gezeigt, enthalten die Endgeräte 21, 22, 23 und 24 jeweils
verschiedene Audio-Eingabeeinheiten und verschiedene verteilte Spracherkennungs-Eingangsstufen.
-
Zum
Beispiel sind die verteilten Spracherkennungs-Eingangsstufen 61 und 62 durch
verschiedene Hersteller codiert und verwenden verschiedene Verfahren
für die
HMM-Konfiguration.
Zum Beispiel sind die Endgeräte 21, 22 und 24 verschiedene
Endgeräte-Typen,
die jeweils eigene elektroakustische Eigenschaften haben. Folglich
implementiert jedes der Endgeräte 21 bis 24 eine
eindeutige Kombination von Typ der verteilten Spracherkennung und
Typ der Audio-Eingangseinheit.
-
Jeder
der Vorrichtungen zur Verbesserung der Spracherkennung 51 bis 54 arbeitet
mit einem anderen Parameter-Satz, der so eingestellt ist, dass die
Audio-Eingangseinheit des Endgerätes
an die verteilte Spracherkennungs-Eingangsstufe des Endgerätes angepasst
wird. Die Vorrichtung zur Verbesserung der Spracherkennung 51 passt
die Audioeinheit 41 an die verteilte Spracherkennungs-Eingangsstufe 61 an,
die Vorrichtung zur Verbesserung der Spracherkennung 52 passt
die Audioeinheit 42 an die verteilte Spracherkennungs-Eingangsstufe 61 an,
die Vorrichtung zur Verbesserung der Spracherkennung 53 passt
die Audioeinheit 42 an die verteilte Spracherkennungs-Eingangsstufe 62 an
und die Vorrichtung zur Verbesserung der Spracherkennung 54 passt
die Audioeinheit 43 an die verteilte Spracherkennungs-Eingangsstufe 62 an.
Jede der Vorrichtungen zur Verbesserung der Spracherkennung 51 bis 54 hat
eine parametrisierbare Vorfilter-Einheit, eine parametrisierbare
dynamische Sprachpegel-Steuereinheit, eine parametrisierbare Geräuschreduktions-Einheit
und eine parametrisierbare Sprachpegel-Steuereinheit. Die Parametrisierung
dieser Einheiten wird auf die Charakteristiken der entsprechenden
der Audio-Eingabeeinheiten 41 bis 43 und/oder die
Charakteristik der speziellen Spracherkennungs-Einheit eingestellt,
die durch die entsprechende der verteilten Spracherkennungs-Eingangsstufen 61 und 62 und
den Server 3 gebildet wird.
-
Zum
Beispiel wird die Spracherkennung mit einem ATIP-Spracherkenner realisiert. Somit werden die
HMMs entsprechend der Regeln von ATIP gelernt. Dies ist die erste
Variable, welche die Empfindlichkeit der Erkennung beeinflussen
kann. Für
diese Einstellung kann es erforderlich werden, den Eingangs-Dynamikbereich
des Sprachsignals zu komprimieren, z.B. um den Faktor 3/1, um eine
bessere Erkennungsrate zu erzielen.
-
Alternativ
dazu kann die Spracherkennung zum Beispiel mit einer Vorrichtung
zur Spracherkennung von Lernout & Hauspic,
Speechworks, TEMIC oder Nuance, die entsprechend der Regeln von
Lernout & Hauspic,
Speechworks, TEMIC, bzw. Nuance eingeübt wird, realisiert werden.
-
Eine
zweite Variable ist von der Darstellung der Sprach-Koeffizienten abhängig. Zum
Beispiel wird eine verteilte Spracherkennungs-Eingangsstufe von
Nokia benutzt, die eine logarithmische Frequenz-Gewichtung (Cepstrum)
durchführt.
Somit kann die Komprimierung auf 2/1 verringert werden. Weiterhin
ist die Empfindlichkeit gegen Geräusche sehr hoch. Es ist eine
Geräuschreduktion
erforderlich, wobei ein Geräuschreduktions-Grad
von 30% die dritte Variable festlegt. Da die HW-Übertragungsfunktion inklusive
Mikrofon eine Tiefpass-Charakteristik hat, ist eine Vorfilterung
erforderlich, um den Frequenzgang zu kompensieren (vierte Variable), und
da die Soundblaster-Karte dauerhaft niedrige Störfrequenzen einführt, bestimmt
eine fünfte
Variable die Grenzfrequenz.
-
Die
spezielle Auswahl für
die fünf
oben erwähnten
Variablen wird durch die Parametrisierung der Vorrichtung zur Verbesserung
der Spracherkennung getroffen, um die Vorrichtung zur Verbesserung der
Spracherkennung auf die Charakteristiken der speziellen Audio-Eingabeeinheit
und die Charakteristiken der speziellen Vorrichtung zur Spracherkennung
einzustellen.
-
Weiterhin
ist die Erfindung nicht auf ein verteiltes Spracherkennungssystem
beschränkt,
wie in 1 gezeigt, sondern kann auch auf ein selbständiges Spracherkennungssystem
angewendet werden, in dem eine komplette Vorrichtung zur Spracherkennung,
eine Vorrichtung zur Verbesserung der Spracherkennung und eine Audioeinheit
in einem Endgerät
implementiert sind, zum Beispiel im Endgerät 1.
-
2 zeigt
Details eines Spracherkennungssystems, das aus der Audioeinheit 41,
der Vorrichtung zur Verbesserung der Spracherkennung 51, der
verteilten Spracherkennungs-Eingangsstufe 61 und
dem Server 3 besteht.
-
Die
Audioeinheit 41 verfügt über ein
Mikrofon 411, einen Verstärker 412 und einen
Analog-/Digital-Wandler 413, der zum Beispiel die Abtastfrequenz von
8, 11 und 16 kHz unterstützt.
-
Die
Vorrichtung zur Verbesserung der Spracherkennung 51 enthält eine
Vorfilter-Einheit 511, eine dynamische Sprachpegel-Steuereinheit 512, eine
Geräuschreduktions-Einheit 513 und
eine Sprachpegel-Steuereinheit 514, wobei jede dieser Einheiten
durch eine Parameter-Einstelleinheit 515 parametrisierbar
ist. Die Parameter dieser Einheiten werden durch die Parameter-Einstelleinheit 515 eingestellt,
wobei die Parameter-Einstelleinheit durch Parameter-Einstellungen
gebildet werden kann, die in einem EPROM, in einer Initialisierungsdatei
oder in einer anderen lesbaren Datei gespeichert sind, auf die der
digitale Signalprozessor zugreifen kann, der die Vorfilter-Einheit 511,
die dynamische Sprachpegel-Steuereinheit 512, die Geräuschreduktions-Einheit 513 und
die Sprachpegel-Steuereinheit 514 implementiert.
-
Die
Vorfilter-Einheit 511 führt
eine Hochpass-, eine Tiefpass- oder
Bandpass-Filterung des digitalen Sprachsignals durch, das von der
Audio-Eingabeeinheit 41 empfangen wird. Die der Vorfilter-Einheit 511 zugeordneten
Parametereinstellungen spezifizieren die Filtercharakteristik einer
solchen Filterung. Vorzugsweise werden die Parameter der Vorfilter-Einheit 511 auf
die Charakteristik der Audio-Eingabeeinheit 41 eingestellt,
zum Beispiel auf die Tiefpass-Charakteristik des Mikrofons 411.
Zum Beispiel hat die Vorfilter-Einheit 511 eine Parametereinstellung
zur Implementation einer Hochpass-Filterung des empfangenen digitalen
Sprachsignals mit einer Übergangsfrequenz
von 50 bis 500Hz, zweiter oder dritter Ordnung.
-
Die
dynamische Sprachpegel-Steuereinheit 512 führt eine
dynamische Sprachpegel-Komprimierung des Ausgangssignals der Vorfilter-Einheit 511 durch.
Die dynamische Sprachpegel-Steuereinheit 512 führt keine Änderung
eines Sprachsignals durch, dessen Sprachpegel den Nennwert hat oder
dessen Sprachpegel kleiner als der Nenn-Sprachpegel ist.
-
Wenn
die dynamische Sprachpegel-Steuereinheit ein Signal empfängt, dessen
Sprachpegel größer als
der Nennwert des Sprachpegels ist, komprimiert sie das Sprachsignal.
Abhängig
vom Sprachpegel senkt sie den Pegel des Ausgangssignals auf lineare
Weise. Sie berechnet den eintreffenden Sprachpegel, senkt den auf
das Eingangssignal angewendeten Verstärkungsfaktor entsprechend einem berechneten
Eingangssignalpegel und stellt den Verstärkungsfaktor wieder auf den
Nenn-Faktor ein, wenn sie eine Rückkehr
auf den Nenn-Signalpegel berechnet.
Vorzugsweise wird die Reaktionszeit für die Neueinstellung auf den
Nennpegel viel länger
gewählt
als die für
die Neueinstellung auf einen höheren Signalpegel.
Zum Beispiel wird eine Reaktionszeit von 65 ms zur Wiedereinstellung
des Nenn-Signalpegels gewählt.
-
Die
Geräuschreduktions-Einheit 513 dient vorzugsweise
zur Anwendung eines Geräuschreduktions-Algorithmus,
der die Geräusche
in den Sprachpausen reduziert. Es ist aber möglich, dass die Geräuschreduktions-Einheit 513 weitere
Geräuschreduktions-Algorithmen
anwendet, zum Beispiel ein spezielles Störsignal subtrahiert.
-
Die
Geräuschreduktions-Einheit 513 enthält einen
Sprachaktivitäts-Detektor
und einen Verstärker,
der durch den Sprachaktivitäts-Detektor
gesteuert wird. Der Sprachaktivitäts-Detektor verringert den Verstärkungsfaktor
des Verstärkers,
wenn er eine Sprachpause erkennt.
-
Vorzugsweise
arbeitet der Sprachaktivitäts-Detektor
nach folgendem Prinzip:
Der Sprachaktivitäts-Detektor 513 berechnet
ein kurzfristiges Ausgangssignal SAS(x), ein mittelfristiges Ausgangssignal
MAS(x) und ein langfristiges Ausgangssignal LAS(x) auf der Grundlage
eines Eingangssignals x und einer kurzfristigen Pegel-Berechnung,
einer mittelfristigen Pegel-Berechnung und einer langfristigen Pegel-Berechnung.
Jedem der Ausgangssignale wird ein Multiplikations-Koeffizient zugeordnet.
Dann werden die Ausgangssignale mit den zugeordneten Multiplikations-Koeffizienten
multipliziert. Die Ergebnisse dieser Operationen werden durch einen
Komparator verglichen. Ein Sprachsignal wird erkannt, wenn SAS(x)
und MAS(x) größer als LAS(x)
sind. Eine Sprachpause wird erkannt, wenn SAS(x) und/oder MAS(x)
kleiner als LAS(x) werden. Vorzugsweise sollte die Reaktionszeit
der kurzfristigen, mittelfristigen und langfristigen Berechnung
den psychoakustischen Regeln folgen, die z.B. in E. Zwicker, "Psychoacoustic", Springer Verlag,
ISBN 3-54011401-7 erwähnt
werden. Weiterhin ist es möglich,
die kurzfristige, mittelfristige und langfristige Berechnung durch
ein adaptives System, z.B. ein neuronales Netz zu bestimmen.
-
Vorzugsweise
verringert die Geräuschreduktions-Einheit 513 den
Verstärkungsfaktor
entsprechend einer Exponentialfunktion, wenn sie den Beginn einer
Sprachpause erkennt. Für
die Reaktionszeit einer solchen Funktion wird ein Wert zwischen
50 ms und 150 ms gewählt,
um die Reduktion an die Charakteristik des menschlichen Ohres anzupassen.
-
Die
Parameter dieses Geräuschreduktions-Algorithmus
werden durch die Parameter-Einstelleinheit 515 eingestellt.
Einstellbare Parameter sind Parameter der Pegel-Berechnung, die
den Ausgangssignalen zugeordneten Multiplikations- Koeffizienten, der
Verstärkungsfaktor
im Fall einer Sprachpause und die Reaktionszeit der Verringerung
des Verstärkungsfaktors.
-
Die
Sprachpegel-Steuereinheit 514 enthält einen Verstärker zur
Anpassung des Sprachpegels des Ausgangssignals der Geräuschreduktions-Einheit 513 an
einen Sprachpegel, der an die Charakteristiken der verteilten Spracherkennungs-Eingangsstufe 61 angepasst
ist.
-
Es
ist möglich,
dass einige der Parameter, die in der Parameter-Einstelleinheit 515 spezifiziert sind,
eine Deaktivierung einer oder mehrerer der Vorfilter-Einheit 511,
der dynamischen Sprachpegel-Steuereinheit 512, der Geräuschreduktions-Einheit 513 und
der Sprachpegel-Steuereinheit 514 auslösen, wenn
eine solche Funktionalität
in dem speziellen Fall nicht erforderlich ist, um die Audio-Eingangseinheit an
die spezielle Vorrichtung zur Spracherkennung anzupassen.