DE69616724T2

DE69616724T2 - Verfahren und System für die Spracherkennung

Info

Publication number: DE69616724T2
Application number: DE69616724T
Authority: DE
Inventors: Mazin G. Rahim; Jay Gordon Wilpon
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-12-20
Filing date: 1996-12-17
Publication date: 2002-04-25
Anticipated expiration: 2016-12-18
Also published as: EP0780828B1; DE69616724D1; CA2192397A1; EP1093112A3; EP1093112A2; DE69635141D1; EP0780828A3; US5806022A; EP0780828A2; DE69635141T2; EP1093112B1; JP4050350B2; MX9606483A; CA2192397C; JPH09179585A

Description

Die Erfindung betrifft ein Verfahren zum Kompensieren der Verstärkung von Sprachsignalen, um die Spracherkennungsqualität zu optimieren, gemäß Anspruch 1. Darüber hinaus betrifft die Erfindung auch ein System zum Kompensieren der Verstärkung von Sprachsignalen, um die Spracherkennungsqualität zu optimieren, gemäß den Ansprüchen 8 und 25.

HINTERGRUND DER ERFINDUNG

Sprachsignale, die über ein Telekommunikationsnetzwerk übertragen werden wie beispielsweise ein Großentfernungs-Nachrichtenaustauschnetzwerk, können häufig akustisch durch unbekannte variable Bedingungen beeinflußt werden. Diese Bedingungen können in signifikanter Weise die Qualität eines automatischen Spracherkennungssystems (ASR) verschlechtern, welches in typischer Weise in solch einem Netzwerk enthalten ist. Solche Bedingungen können beispielsweise Umgebungsstörgeräusche, Kanalinterferenz und die Verwendung unterschiedlicher Schall-Detektionsausrüstungen umfassen.
Ein typisches ASR System führt eine Spracherkennung dadurch aus, indem es übereinstimmende Merkmalsdaten, welche repräsentativ für übertragene Sprachsignale sind, mit Datenmustern vergleicht, welche repräsentativ für phonetische Einheiten sind, die als Trainings-Erkennungsmodelle bekannt sind. Die Erkennungsmodelle werden in typischer Weise durch Überwachen der Übertragung von vorbestimmten Sprachsignalen erhalten, die bekannte phonetische Eigenschaften haben und zwar über den gleichen Netzwerk-Verbindungspfad wie derjenige der aktuellen Sprachsignale, wie beispielsweise solche, die während einer Telefonkonversation auftreten, die dann zu einem ASR System gesendet werden.
In vielen Fällen kann das Vorhandensein von unbekannten variablen Bedingungen oder Zuständen in einem Netzwerkpfad zu akustischen Fehlübereinstimmungen zwischen den Erkennungsmodellen und den Testdaten führen. Diese akustischen Fehlübereinstimmungen können eine Verschlechterung der Spracherkennungsqualität verursachen.
Akustische Fehlübereinstimmungen können leicht beispielsweise dann auftreten, wenn die über einen Netzwerkpfad übertragenen Sprachsignale zur Verbesserung der Sprachqualität der menschlichen Wahrnehmung verstärkt werden. Wenn eine solche Verstärkung (enhancement) oder Anhebung auftritt, kann die Spracherkennungsqualität suboptimal sein und zwar dort, wo die Erkennungsmodelle, die bei der Spracherkennungsverarbeitung verwendet werden, nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad nicht trainiert worden sind, der ähnliche Sprachsignal- Verstärkungsschaltungen enthält. Gegenwärtige Sprachsignal-Verarbeitungstechniken, die versuchen eine Robustheit des ASR Systems hinsichtlich der übereinstimmenden Merkmale zu liefern, die für die detektierten Sprachsignale repräsentativ sind und zwar Übereinstimmung mit Erkennungsmodellen, kompensieren in typischer Weise nicht ausreichend akustische Fehlübereinstimmungen, die in der oben geschilderten Weise resultieren können.
Aus der EP-A-0 674 306 ist ein Signalvorspann-Beseitigungsverfahren (SBR) bekannt, welches auf einer maximalen Wahrscheinlichkeitsschätzung der Vorspannung für minimierte unerwünschte Effekte bei Spracherkennungssystemen basiert. Dieses bekannte Verfahren umfaßt die folgenden Schritte:
Trainieren des Spracherkennungssystems durch Anwenden der folgenden Schritte:
(a) Erzeugen eines Satzes von Zentroiden basierend auf einem Trainings- Sprachsignal;
(b) Berechnen einer Schätzgröße der Vorspannung für das Trainings-Sprachsignal basieren auf einer Maximierung einer Wahrscheinlichkeitsfunktion;
(c) Subtrahieren der Schätzgröße der Vorspannung (bias) von dem Trainings- Sprachsignal, um einen tentativen Trainings-Sprachwert zu erhalten;
(d) Wiederholen der Schritte (b) und (c) eine vorbestimmte Anzahl von Malen, wobei jeder nachfolgende berechnete Schätzwert der Vorspannung auf dem früheren tentativen Trainings-Sprachwert basiert, um an einem reduzierten Vorspannungs- Trainingssprachsignal anzukommen bzw. diesen zu erreichen;
(e) erneutes Berechnen der Schwerpunkte basierend auf dem reduzierten Vorspann-Trainingssprachsignäl, um einen neuen Satz von Schwerpunkte zu generieren;
(f) Wiederholen der Schritte (b) bis (e) eine vorbestimmte Anzahl von Malen, um ein verarbeitetes reduziertes Vorspann-Sprachsignal zu berechnen, und um einen optimalen Satz von Schwerpunkten zu bilden;
(g) Verwenden des optimalen Satzes der Schwerpunkte und des verarbeiteten reduzierten Vorspann-Sprachsignals als Trainings-Eingangsgröße für einen Sprach- Erkenner;
Testen eines Eingangs-Sprachsignals, um die unbekannte Vorspannung zu minimieren und zwar durch Anwenden der folgenden Schritte;
(h) Verwenden des optimalen Satzes der Schwerpunkte, um einen Schätzwert der Vorspannung für jede Äußerung des Sprachsignals zu berechnen, basierend auf einer Maximierung einer Wahrscheinlichkeitsfunktion;
(i) Subtrahieren der Schätzgröße der Vorspannung von dem Sprachsignal, um einen tentativen Sprachwert zu erhalten;
(j) Wiederholen der Schritte (h) und (i) eine vorbestimmte Anzahl Malen, wobei jede nachfolgend berechnete Schätzgröße des Vorspannwertes auf dem früheren tentativen Sprachsignal basiert, was dann zu einem reduzierten Vorspann- Sprachsignalwert führt; und
Verwenden des reduzierten Vorspann-Sprachsignals als Eingangsgröße in einen Sprach-Erkenner.

ZUSAMMENFASSUNG DER ERFINDUNG

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren und ein System anzugeben, welches die Fähigkeit besitzt die Spracherkennungsqualität zu verbessern.
Gemäß dem Verfahren nach der vorliegenden Erfindung wird diese Aufgabe durch die Merkmale des Anspruches 1 gelöst.
Verbesserte Ausführungsformen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen 2 bis 7, 16 bis 24 und 28.
Die oben genannte Aufgabe wird ebenso mit Hilfe eines Systems der Erfindung nach den Ansprüchen 8 und 25 gelöst.
Verbesserte Ausführungsformen des erfindungsgemäßen Systems ergeben sich aus den Unteransprüchen 9 bis 15, 26 und 27.
Gemäß der vorliegenden Erfindung werden Informationen dazu verwendet, um eine Kompensation zu realisieren, die eine höhere Robustheit hinsichtlich der Spracherkennungsqualität in Netzwerken mit Verstärkung bzw. Anhebung liefert und zwar dort, wo beispielsweise Erkennungsmodelle nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad nicht trainiert worden sind, der ähnliche Anhebungs- oder Verstärkungsschaltungen enthält. Die verwendeten Informationen beziehen sich auf Spektraleffekte der Anhebung oder Verstärkung bei den Sprachsignalen während der Übertragung über einen Netzwerk-Verbindungspfad.
Bei einem Aspekt der vorliegenden Erfindung wird die Sprachsignalverstärkung während der Durchführung der Merkmalsextraktionsverarbeitung am Frontende eines Spracherkennungssystems kompensiert, welches einen Merkmalsextrahierer und einen Spracherkenner enthält. Der Merkmalsextrahierer berechnet Cepstral-Merkmale der verstärkten Sprachsignale unter Verwendung einer Kombination einer linearen Vorhersage-Kodierung (LPC) und einer Mel-Filter-Analyse. Der Extrahierer kompensiert die Verstärkung an den zeitvariablen Sprachsignalen nachdem sie auf eine Frequenzdomäne-Repräsentation transformiert wurden.
Ein Aspekt des erfindungsgemäßen Verfahrens sieht vor, daß erstens die zeitvariablen verstärkten Sprachsignale gesampelt werden. Diese Samples werden in Rahmen gesammelt und werden dann von der Zeit in Frequenzdomäne- Repräsentationen unter Verwendung der Fourier-Transformation umgewandelt. Dann wird das Energiespektrum für jeden Rahmen einer selektiven gewichteten Mel- Filterbankverarbeitung unterzogen, wobei die Wichtungen selektiv den Effekt der Anhebung oder Verstärkung der spektralen Eigenschaften der Sprachsignale kompensieren. Anschließend werden die Cepstral-Merkmale dadurch erhalten, indem Autokorrelations-Koeffizienten aus den spektralen Repräsentationen der kompensierten verstärkten Sprachsignale berechnet werden, und indem dann die LPC Analyse und die Cepstral-Rekursion durchgeführt werden.
Weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich unmittelbar für einen Fachmann aus der folgenden detaillierten Beschreibung und den anhängenden Zeichnungen.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 veranschaulicht ein Blockschaltbild eines verbesserten Telekommunikationsnetzwerks, welches zur Durchführung von Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der vorliegenden Erfindung geeignet ist.
Fig. 2 zeigt ein veranschaulichendes Blockschaltbild eines Sprachsignalprozessors, der in dem System von Fig. 1 enthalten sein kann, um eine Spracherkennung durchzuführen, indem die Mel-LPC-Cepstral-Merkmale der verstärkten Sprachsignale gemäß der vorliegenden Erfindung berechnet werden.
Fig. 3 ist ein veranschaulichendes Blockschaltbild eines als Beispiel gewählten Kompensationsmerkmal-Extrahierers:
Fig. 4 ist ein Flußdiagramm eines Verfahrens zur Durchführung einer Spracherkennung gemäß der vorliegenden erfinderischen Technik der Berechnung der Mel-LPC-Cepstrum-Merkmale der verstärkten Sprachsignale.

DETAILLIERTE BESCHREIBUNG

Fig. 1 zeigt ein Blockschaltbild eines als Beispiel gewählten Telekommunikationsnetzwerks 100, welches für die Durchführung einer Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der Technik nach der vorliegenden Erfindung geeignet ist.
Gemäß Fig. 1 kann das Netzwerk 100 in geeigneter Weise eine Vielzahl von Gesprächsgebühr-Ämtern umfassen wie beispielsweise die Gesprächsgebühr-Ämter 105 und 110, die miteinander verbunden sein können und zwar in irgendeiner einer Vielfalt von gut bekannten Arten, um Groß-Sprach- und Daten-Verbindungen für deren Teilnehmer zu liefern wie beispielsweise Telephonteilnehmer, die den Stationseinheiten oder Sätzen 51 und 52 zugeordnet sind. Ein örtliches zentrales Amt 50 verbindet die Station S1 mit dem Gesprächsgebühren-Amt 105, und ein örtliches Zentralamt 75 verbindet die Station S2 mit dem Gesprächsgebühren-Amt 110.
Das Netzwerk 100 kann ferner eine Sprachanhebungsvorrichtung oder einen Verstärker 107 enthalten und zwar in dem Verbindungspfad zwischen den Gesprächsgebühren-Ämtern 105 und 110 zum Anheben der Qualität der Sprachsignale, bevor diese von einem Teilnehmer empfangen werden wie beispielsweise einem Telephonbenutzer. Beispielsweise kann der Verstärker 107 eine geeignete Schaltungsanordnung enthalten wie beispielsweise eine Echo- Beseitigungsschaltungsanordnung oder irgendeine andere Schaltungsanordnung, um den Energiewert der Sprachsignale zu erhöhen oder abzusenken. Siehe hierzu das U.S. Patent 5 195 132 für eine detailliertere Beschreibung der Implementierung der Sprachsignalanhebung in einem Netzwerk, welches das Erhöhen der Energiepegel der ausgewählten Frequenzen involviert.
Gemäß der vorliegenden Erfindung ist ein Sprachsignalprozessor 102 zusätzlich in dem Netzwerkverbindungspfad enthalten, um Sprachsignale von dem Verstärker 107 zu empfangen, und um eine Sprachsignalerkennungssignalverarbeitung durchzuführen, inklusive einer Merkmalsextrahierung, wie dies noch weiter unten vollständiger beschrieben wird. Eine Telephonverbindung von der Station S1 zu der Station S2 wird in geeigneter Weise über das örtliche zentrale Amt 50, das Gesprächsgebühren-Amt 105, den Enhancer 107, den Prozessor 102, das Gesprächsgebühren-Amt 110 und das örtliche Zentralamt 75 gemäß den herkömmlichen Techniken hergestellt, die im folgenden nicht weiter beschrieben werden. Es sei darauf hingewiesen, daß das Netzwerk 100 aus irgendeinem gut bekannten Telekommunikationsnetzwerk bestehen kann wie beispielsweise dem AT&T Netzwerk.
Bei den herkömmlichen Telekommunikationsnetzwerken, ist die Berechnung von Parametern, die als Merkmale zum Charakterisieren von zeitvariablen Sprachsignalen bekannt sind, hoch empfindlich gegenüber der Einführung von akustischen Schwankungen der Sprachsignale durch beispielsweise eine Sprachsignalanhebung oder Verstärkung. Dieser Zustand traf speziell für die Berechnung von bevorzugten Merkmalen wie beispielsweise den Cepstral-Merkmalen zu. Als ein Ergebnis hat das Einschließen oder Einführen solch einer Sprachsignalanhebung in einem Netzwerkverbindungspfad ernsthaft die Qualität der automatischen Spracherkennungsverarbeitung (ASR) verschlechtert, bei der die Erkennungsmodelle, die dazu verwendet werden, um Merkmalsdaten zur Übereinstimmung zu bringen, welche repräsentativ für die übertragenen Sprachsignale sind, auf einem Netzwerkpfad trainiert wurden, der keine ähnliche oder identische Sprachsignal- Verstärkungsschaltungsanordnung enthielt.
Gemäß der vorliegenden Erfindung arbeitet der Prozessor 102, der in dem Netzwerk 100 enthalten ist, in geeigneter Weise derart, um die Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen Sprachsignalen durchgeführt wird, die durch den Sprachsignal-Verstärker 107 angehoben oder verstärkt worden sind bevor sie weiter zu der ASR-Verarbeitungsvorrichtung geroutet wurden wie beispielsweise zu dem Prozessor 102. Der Prozessor 102 führt im wesentlichen Anhebungs-Kompensationsoperationen durch, die die verbesserte Robustheit der Cepstral-Merkmal-gestützten Spracherkennungsverarbeitung verbessern. Alternativ kann der Prozessor 102 in dem Netzwerk 100 in Einklang mit der Technik nach der vorliegenden Erfindung arbeiten, um Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen Signalen durchgeführt wird, die vor ihrer Zuleitung zu dem Prozessor 102 nicht angehoben oder verstärkt wurden oder durch einen Enhancer angehoben oder verstärkt worden sind, der eine Anhebung oder Verstärkung bei den Sprachsignalen einführt, die von der Anhebung oder Verstärkung verschieden ist, die durch den Prozessor 102 kompensiert wird. Zum Zwecke der Veranschaulichung sei angenommen, daß die Erkennungsmodelle, die bei der Durchführung der Merkmalsanpassung verwendet werden und zwar während der Spracherkennungsverarbeitung bei dem Prozessor 102 über einen Netzwerkpfad trainiert worden sind, der keine Sprachsignalanhebungs- oder Verstärkungsschaltungsanordnung enthält.
Zum Zwecke der Veranschaulichung sei angenommen, daß der Verstärker 107 eine Sprachsignalanhebung hinsichtlich der Sprachsignale einführt, die von der Station S1 zu der Station S2 übertragen werden und zwar während der Lenkung der Signale durch das Netzwerk zum Prozessor 102. Es sei angenommen, daß in Verbindung mit den übertragenen Sprachsignalen, die zu dem Prozessor 102 geleitet worden sind, die durch den Verstärker 107 angehoben wurden, Informationen hinsichtlich der Natur der Anhebung oder Verstärkung zum Zwecke der Implementierung an dem Prozessor 102 verfügbar sind und zwar in einer Weise, die weiter unten beschrieben wird, um eine geeignete Kompensation für die Anhebung oder Verstärkung vorzunehmen.
Zum Zwecke der Klarheit und Kürze wird eine Kenntnis der Spracherkennungsverarbeitungstechniken angenommen, die die Verwendung einer linearen Vorhersagekodierung (LPC) und einer Mel-Filteranalyse zum Extrahieren von Cepstral-Merkmalen aus den Daten involviert, die für die spektralen Charakteristiken der Sprachsignale repräsentativ sind. Siehe Rabiner, Lawrence and Juang, Bung- Hwang, "Fundamentals of Speech Recognition" (1993), Seiten 103-107, 112-117 und 183-190. Um es kurz auszudrücken so involviert die LPC Verarbeitung das Extrahieren von Merkmalen aus den Sprachsignalen durch Ursprungstraktat-Separation und Modellierung von spektralen Spitzen als eine lineare Kombination vergangener Sprachproben. Die Mel-Filteranalyse involviert das Extrahieren von Merkmalen aus Sprachsignalen basierend auf der Kenntnis der menschlichen Wahrnehmung von akustischen spektralen Komponenten der Sprachsignale, indem in vorteilhafter Weise das komplette Spektrum der Sprachsignale in Ausdrücken einer subjektiven Steigung (pitch) von reinen Tönen bei sogenannten Mel-Skalen-Intervallen gesampelt wird. Diese Mel-Skalen-Intervallwerte werden in herkömmlicher Weise als Filterbänke implementiert, die als Mel-Filterbänke bekannt sind, um in geeigneter Weise spektrale Komponenten der Sprachsignale zu modifizieren, um die Gesamt-Spracherkennung zu verbessern.
Bei einem Aspekt der vorliegenden Erfindung wird die LPC Analyse mit der Mel- Filterbank-Analyse kombiniert, um Cepstral-Merkmale zu berechnen, welche die Einführung einer Anhebung oder Verstärkung an den übertragenen Sprachsignalen kompensieren, wobei die Kompensation dann implementiert wird, wenn die angehobenen oder verstärkten Sprachsignale in geeigneter Weise in die Frequenz- Domäne-Repräsentation transformiert worden sind. Wie dies noch vollständiger weiter unten beschrieben wird, umfaßt die Berechnung der Mel-LPC-Kepstrum-Merkmale eine Mel-Filterbank-Analyse gefolgt von der LPC Analyse, bei der Autokorrelationskoeffizienten auf der Grundlage einer perzeptualen Frequenzskala berechnet werden und bei der eine Glättung des Energiespektrums unter Anwendung der LPC Techniken durchgeführt wird. Zum Zwecke der Veranschaulichung enthält der Verstärker 107 eine Anhebungs-Schaltungsanordnung ähnlich derjenigen, die in dem U.S. Patent 5 195 132 beschrieben ist, die oben angegeben wurde (im folgenden als TrueVoicesm-Anhebung bezeichnet), um Sprachsignale anzuheben, die zu dem Prozessor 102 von der Station S1 zugeführt werden und wobei die Spracherkennungsverarbeitung an dem Prozessor 102 durchgeführt wird unter Heranziehung von Erkennungsmodellen, die unter Verwendung der Sprachsignale trainiert wurden, die nicht angehoben oder verstärkt worden sind.
Fig. 2 zeigt eine beispielhafte Ausführungsform des Prozessors 102, der arithmetische Operationen durchführen kann, um die Mel-LPC-Cepstrum-Merkmale zu berechnen, um eine hoch robuste Spracherkennung an Sprachsignalen vorzunehmen, die durch die TrueVoicesm-Anhebung bei dem Verstärker 107 angehoben oder verstärkt wurden. Gemäß Fig. 2 enthält der Prozessor 102 in geeigneter Weise einzelne Funktionsblöcke zur Durchführung der Mel-Cepstral-Berechnungen und der Merkmalsanpassung in Verbindung mit den übertragenen oder gesendeten Sprachsignalen, welche die Anhebung enthalten oder keine Anhebung aufweisen. Die Funktionen, die durch diese Blöcke wiedergegeben werden, können durch die Verwendung von entweder einer gemeinsam verwendeten oder getrennt verwendeten Hardware geliefert werden und zwar inklusive, jedoch nicht beschränkt auf eine Hardware, welche eine Software ausführen kann. Bei einer bevorzugten Ausführungsform umfassen die Funktionsblöcke in dem Prozessor 102 einen Kompensiermerkmal-Extrahierer 202 und einen Recognizer 204, die einen Trainings- Erkennungsmodell-Speicher 206 in Form eines RAM enthalten. Der Extrahierer 202 und der Recognizer 204 sind in geeigneter Weise an einen Speicher 208 angeschlossen. Der Speicher 208 enthält programmierte Befehle, die in geeigneter Weise ausgeführt werden können, um die vorliegende erfinderische Technik zu implementieren. Wie weiter unten erläutert wird, liefern die Funktionsblöcke des Extrahierers 202 und des Recognizers 204 die Verarbeitung der Sprachsignale, die über das Gesprächgebühren- Amt 105 oder 110 gesendet werden und zwar entsprechend der Implementierung der Technik nach der vorliegenden Erfindung. Es sei auch darauf hingewiesen, daß die Operationen, die durch die Funktionsblöcke durchgeführt werden, in ähnlicher Form unter Verwendung eines einzelnen gemeinsam verwendeten Prozessors ausgeführt werden können. Solch ein Prozessor kann einen Standard-Digitalsignalprozessor umfassen und würde einen Nur-Lese-Speicher oder einen anderen geeigneten Speicher enthalten, um die Software zu speichern, und um die Operationen durchzuführen, die weiter unten erläutert werden. Ferner kann die Technik nach der vorliegenden Erfindung unter Verwendung einer Firmware oder vermittels diskreter Komponenten implementiert werden, die in einer integrierten Schaltung realisiert sind. Andere geeignete Ausführungsformen können unmittelbar von Fachleuten implementiert werden. Obwohl beispielsweise, wie dies in Fig. 2 gezeigt ist, der Kompensationsmerkmal-Extrahierer 202 so angeschlossen ist, daß er seine Eingangsgröße von dem Verstärker 107 empfängt, kann er auch direkt an ein Gebühren- Amt wie beispielsweise das Amt 105 angeschlossen werden, ohne daß irgendeine Anhebung dazwischen wirksam wird.
Fig. 3 zeigt in Einzelheiten eine beispielhafte Ausführungsform des Extrahierers 202, der die Operationen durchführen kann, um eine Anhebung der Sprachsignale zu kompensieren, die weiter unten in Verbindung mit Fig. 4 beschrieben werden. Gemäß Fig. 3 kann der Extrahierer 202 in geeigneter Weise einen Empfänger 211, einen Vorverzerrer (preemphasizer) 212, einen Rahmen-Blockierer 213, einen Hamming- Multiplizierer 214, einen Frequenzdomäne-Konverter 215, einen Kompensator 216 und einen Cepstral-Merkmal-Computer 217 aufweisen. Diese Funktionsblöcke führen in geeigneter Weise Operationen durch, um die Technik nach der vorliegenden Erfindung zu implementieren, wie dies noch weiter unten in Verbindung mit Fig. 4 vollständig erläutert wird. Es sei darauf hingewiesen, daß die an jedem dieser Funktionsblöcke durchgeführten Operationen unter Verwendung einer Kombination aus Software und/oder Hardware als auch Verwendung von Hardware alleine implementiert werden können.
Gemäß Fig. 2 besteht der Kompensationsmerkmal-Extrahierer 202 im wesentlichen aus einem Frontende-Prozessor in einem ASR System, welches Operationen durchführt, um die Mel-LPC Cepstral-Merkmale der zeitlich variablen Sprachsignale zu berechnen, die von dem Gesprächsgebühren-Amt 105 ausgeroutet wurden basierend auf den spektralen oder Frequenzdomäne-Repräsentationen der Eigenschaften dieser Signale. Die Mel-LPC Cepstral-Merkmale, die letztendlich durch den Cepstral-Merkmal-Computer 217 des Extrahierers 202 berechnet werden, beschreiben die breiten akustischen Eigenschaften der unterschiedlichen phonetischen Einheiten, die in herkömmlicher Weise für die Spracherkennung verwendet werden. Insbesondere kombiniert der Kompensator 216 und der Cepstral-Merkmal-Computer 217 die LPC- und Mel-Filterbank-Analyse, um einen Satz von kompensierten Cepstral- Merkmalen zu berechnen, die für die gesendeten Sprachsignale repräsentativ sind, die dafür sorgen, daß die ASR Verarbeitung in dem Netzwerk 100 durch den Recognizer 204 im wesentlichen unempfindlich gegenüber akustischen Schwankungen ist, die durch die Anhebung oder Verstärkung verursacht werden, die Mel-LPC Cepstral- Merkmale werden dem Recognizer 204 angeboten, der diese dann mit den Erkennungsmodellen vergleicht, die in dem Speicher 206 abgespeichert sind, um das beste Wort oder Sequenz von Wörtern zu bestimmen, welches bzw. die mit der phonetischen Einheit übereinstimmt, die durch die berechneten Merkmale wiedergegeben wird. Ein geeigneter Recognizer kann beispielsweise das gut bekannte versteckte Markov-Modell (HMM) verwenden, welches auf den Erkennungstechniken basiert.
Es sei darauf hingewiesen, daß eine gewisse Vorkenntnis der eingeführten Anhebung oder Verstärkung wie beispielsweise der TrueVoicesm-Anhebung erforderlich ist, um die Kompensation hinsichtlich der Anhebung durchzuführen unter Verwendung der Frequenzdomäne, die für die Sprachsignale repräsentativ ist entsprechend der Technik nach der vorliegenden Erfindung. Diese Informationen können allgemein der Öffentlichkeit zur Verfügung stehen. Alternativ können Informationen, welche die Anhebung oder Verstärkung betreffen, beispielsweise unter Verwendung von Standard-Techniken gemäß einem empirischen Samplevorgang der Sprachsignale bestimmt werden, die über den Netzwerkverbindungspfad übertragen werden, der eine Sprachsignal-Anhebungs-Schaltungsanordnung enthält. Im Vergleich dazu erforderten die herkömmlichen Techniken der Cepstral-Mittelwertsubtraktion und der Signalvorspann-Beseitigung keine Vorkenntnis der akustischen Schwankungen in den Sprachsignalen und werden daher als auf einer blinden Entwindung basierende Techniken betrachtet.
Fig. 4 zeigt ein Verfahren 220 zum Berechnen von Mel-LPC Cepstrum- Merkmalen von angehobenen zeitvariablen Sprachsignalen an den Kompensations- Merkmal-Extrahierer 202 des Prozessors 102 unter Verwendung der als Beispiel genannten Funktionsblöcke, die in Fig. 3 gezeigt sind. Zum Zwecke der Veranschaulichung sei angenommen, daß die Sprachsignale digitalisiert sind und zwar in bevorzugter Weise bei einer 8,0 kHz Rate zum Emulieren eines digitalen Telephonnetzwerks bevor sie zu dem Extrahierer 202 geroutet werden. Gemäß Fig. 4 empfängt bei dem Schritt 222 der Empfänger 211 die angehobenen Sprachsignale von dem Verstärker 107. Dann bei dem Schritt 224 verarbeitet der Vorverzerrer (preemphasizer) 212 die digitalisierten Sprachsignalproben, um eine spektrale Glättung zu erzeugen. Die Vorverzerrung wird in geeigneter Weise unter Verwendung von beispielsweise eines herkömmlichen digitalen Netzwerks erster Ordnung durchgeführt. Bei dem Schritt 226 sammelt der Rahmenblocker 213 die Sprachsignalproben in Rahmen oder bildet Blöcke aus diesen. Ein einzelner Rahmen besteht aus Abschnitten von aufeinanderfolgenden Sprachproben, die n msec des Signals entsprechen und es sind aufeinanderfolgende Rahmen um n msec voneinander beabstandet. Bei dem Schritt 228 multipliziert der Hamming-Multiplizierer 214 jeden Rahmen der Proben durch ein Hamming-Fenster wie dies beim Sand der Technik üblich ist. Bei dem Schritt 230 führt der Frequenzdomäne-Konverter 215 eine Fourier-Transformation an jedem im Fenster erscheinenden Segment der Sprache durch, um einen Satz von Spektralproben zu generieren, die den angehobenen Sprachsignalen entsprechen, die bei dem Empfänger 211 empfangen werden.
Bei dem Schritt 232 verarbeitet der Kompensator 216 jeden Rahmen, um das Energiespektrum für jeden Rahmen der Spektralproben zu veranlassen durch einen Satz von M Mel-Filterbänke hindurch zu laufen und dieser kann in geeigneter Weise eine dreieckförmige Gestalt haben. Die Mel-Filterbänke sind in geeigneter Weise gewichtet, um Effekte zu kompensieren, die die Anhebung auf die Berechnung der Cepstral- Merkmale der übertragenen Sprachsignale haben kann. Mit anderen Worten werden die Effekte der Anhebung oder Verstärkung der Sprachsignale bei dem Kompensator 216 kompensiert, der Operationen an den Frequenzdomäne-Wiedergaben der angehobenen oder verstärkten Sprachsignale durchführt. Es sei darauf hingewiesen, daß die Mel-LPC Cepstrum-Berechnung dazu beiträgt, daß die Verstärkung von jedem Spektralband vollständig gesteuert werden kann. Dies erlaubt eine Kompensation der Sprachsignalanhebung einfach dadurch, indem eine Wichtungsfunktion bei den Mel- Filterbänken vorgenommen wird. Beispielsweise wird eine Kompensation der Sprachsignalanhebung dadurch ausgeführt, indem eine ideale Hochpaßfilterung implementiert wird, indem solche unerwünschten Mel-Filterbänke einer Nachentzerrung oder Höhenabsenkung (de-emphasizing) vor der Berechnung der Cepstral-Merkmale aus der Frequenzdomäne-Repräsenttion der Sprachsignale unter Verwendung der LPC Techniken vorgenommen wird. Diese Wichtung von Datenwert-Koeffizienten in der Spektraldomäne ist extrem vorteilhaft und sorgt für die Berechnung von kompensierten Cepstral-Merkmalen der angehobenen Sprachsignale, die in geeigneter Weise an Erkennungsmodelle angepaßt werden können, die nicht trainiert wurden und zwar unter Verwendung der angehobenen Sprachsignale. Es sei darauf hingewiesen, daß die Cepstral-Merkmale, wenn sie einmal berechnet wurden, in einer analogen Weise nicht gewichtet werden können. Es sei ferner darauf hingewiesen, daß solch eine Verarbeitung der angehobenen Sprachsignale grob angenähert werden kann, indem die angehobenen Sprachsignale gefiltert werden während sie sich noch in ihrer Zeitdomäne- Repräsentation befinden.
Bei der als Beispiel gewählten Ausführungsform des Netzwerks 100, bei dem eine TrueVoicesm-Anhebung hinsichtlich der Sprachsignale durch den Verstärker 107 eingeführt wird, werden Informationen, welche die Eigenschäften der True-Voicesm- Anhebung betreffen dazu verwendet, um die Wichtungen zu bestimmen, die bei den Mel-Filterbänken des Kompensators 216 angewendet werden. Anhand von experimentellen Analysen wurde festgestellt, daß die True-Voicesm-Anhebung einen Filtervorgang der Sprachsignale involviert hat unter Verwendung eines Preemphasis- Filters (p-Filters) und Anwenden eines langsam variierenden AVC (automatischer Volumen-Controller) an den Signalen und zwar dort, wo das p-Filter einen 10-20 dB Spektral-Pol einführt und zwar irgendwo in dem Frequenzband zwischen 150 Hz und 220 Hz. In diesem Fall würden die Mel-Filterbänke die gewünschte Hochpaßfilterung implementieren und zwar in der Frequenzdomäne, was dann zu einer Modifikation der berechneten Cepstrum-Merkmale führen würde und somit die Robustheit der Spracherkennungsqualität in Richtung auf einen niederfrequenten Powerbootingvorgang (Leistungshochtreibvorgang) verbessert. Beispielsweise kann Mel-Filterbänken mit einer Frequenz unter 290 Hz eine Wichtung von Null zugeordnet werden und Filterbänken mit Frequenzen oberhalb von 290 Hz kann eine Wichtung der Einheit zugeordnet werden. Mit anderen Worten wird die Wirkung der TrueVoicesm- Anhebung in Verbindung mit der Sprachsignalerkennung dadurch minimiert werden, indem die Niederfrequenz-Mel-Spektralbänder nachentzerrt werden (de-emphasizing), die bei der Berechnung des Mel-LPC-Cepstrums verwendet werden. In bevorzugter Weise kann ein Schwellenwert von 290 Hz implementiert werden und zwar derart, daß die Mel-Bank-Frequenzbänder unterhalb dieser Schwelle während der Berechnung des Cepstrums nicht in Betracht gezogen werden. Diese Mel-LPC-Cepstrumverarbeitung kann als eine ideale Hochpaßfilterung betrachtet werden, bei der die Niederfrequenzbänder bis 290 Hz schwer gedämpft sind.
Gemäß Fig. 4 führt der Cepstral-Merkmal-Computer 217 bei dem Schritt 234 eine IDCT (inverse diskrete Kosinus-Transformation) durch und zwar in Verbindung mit dem geglätteten Energiespektrum, um Q-Autokorrelationskoeffizienten zu liefern, wobei Q in geeigneter Weise auf 12 gesetzt wird. Bei dem Schritt 236 konvertiert der Cepstral-Merkmal-Computer 217 jeden Satz der Autokorrelationskoeffizienten zuerst in LPC Koeffizienten und zwar unter Verwendung von beispielsweise dem Durbinschen Rekursionsalgorithmus, und dann in Cepstralparameter unter Verwendung der Standard LPC-Zu-Cepstrum-Rekursion. Das Abmaß oder Größe des Cepstralvektors wird in geeigneter Weise auf U gesetzt. Schließlich bei dem Schritt 238 versucht der Recognizer 204 die Erkennungsmodelle, die in dem Modellspeicher 206 gespeichert sind, in Übereinstimmung mit den berechneten Cepstral-Merkmalen zu bringen und zwar für die kompensierten angehobenen Sprachsignale, und liefert Daten, die für die Merkmalsübereinstimmungsoperationen repräsentativ sind, um einen weiteren Routing- Vorgang zu der Station S2 durchzuführen, wie dies auf dem Gebiet üblich ist.
Es sei darauf hingewiesen, daß die Berechnungstechnik für das Mel-LPC- Cepstrum-Merkmal eine höhere Robustheit gegenüber Sprachanhebungen oder Verstärkungen liefern kann und in einigen Fällen die ASR Performance nicht nachteilig beeinflußt wird selbst dann nicht, wenn die Anhebung nicht eingeführt worden ist und die Mel-LPC-Cepstrum-Merkmale für eine Kompensation einer bestimmten Anhebung der Sprachsignale sorgen. Es sei darauf hingewiesen, daß unterschiedliche Filter und Abfallfrequenzen verwendet werden können, um die Technik gemäß der vorliegenden Erfindung zu implementieren unter Verwendung der Mel-Filterbankverarbeitung, um eine Anhebung oder Verstärkung von Sprachsignalen zu kompensieren. Es sei ferner drauf hingewiesen, daß für eine Signalanhebung, die feine Modifikationen hinsichtlich des Sprachspektrums involviert, ein robustes Frontende-System wie beispielsweise ein solches, welches die Mel-LPC-Cepstrum-Merkmale berechnet, einen einfachen Zugriff auf Spracherkennungssysteme bietet, um das Sprachspektrum in irgendeiner Weise zu ändern, was für die Zwecke erforderlich ist, um Merkmale der Sprachsignale zu berechnen, die mit Erkennungsmodellen übereinstimmen müssen, welche unter Verwendung der angehobenen Sprachsignale nicht trainiert wurden.
Es sei darauf hingewiesen, daß die Ausführungsformen und Abwandlungen, die hier gezeigt und oben beschrieben wurden, lediglich die Prinzipien der Erfindung veranschaulichen, und daß vielfältige Abwandlungen für Fachleute möglich sind, ohne dabei den Rahmen der Erfindung zu verlassen.

Claims

1. Verfahren zum Kompensieren der Verstärkung von Sprachsignalen zur Optimierung der Spracherkennungsqualität, welches Verfahren die folgenden Schritte umfaßt:

Empfangen von Sprachsignalen, die durch einen Audioverstärker (enhancer) verstärkt wurden, wobei der Verstärker Frequenzverstärkungsschwankungen der Sprachsignale einführt;

Umsetzen der verstärkten Sprachsignale in eine Frequenzbereich-Wiedergabe;

Kompensieren der Verstärkungsschwankungen, die durch den Verstärker auf die Sprachsignale übertragen wurden unter Verwendung der Frequenzbereich- Wiedergabe der verstärkten Sprachsignale; und

Berechnen von Merkmalen der verstärkten Sprachsignale nachdem sie durch den Kompensationsschritt kompensiert worden sind.

2. Verfahren nach Anspruch 1, ferner mit dem folgenden Schritt:

Vergleichen der Merkmale mit Erkennungsmodellen, die in einem Erkennungsspeicher abgespeichert sind.

3. Verfahren nach Anspruch 2, bei dem die Erkennungsmodelle unter Verwendung von Sprachsignalen, die durch den Verstärker nicht verstärkt worden sind, trainiert worden sind.

4. Verfahren nach Anspruch 1, bei dem die Schritte gemäß dem Umsetzen und Kompensieren das Berechnen von kompensierten mel-LPC-Koeffizienten umfassen, wobei der Schritt der Berechnung der kompensierten mel-LPC- Koeffizienten ferner die folgenden Schritte umfaßt:

Anheben der verstärkten Sprachsignale für eine spektrale Glättung;

Bilden von Blöcken der verstärkten Sprachsignale in aufeinanderfolgenden Rahmen von Sprach-Samples;

Multiplizieren von jedem der Rahmen mit einem Hamming-Fenster;

Transformieren von jedem Hamming-Fensterrahmen von zeitlichen Nachfrequenzbereich-Wiedergaben;

Filtern von jeder der Frequenzbereich-Wiedergaben vermittels eines Satzes von gewichteten mel-Filterbänken; und

Erzeugen von Autokorrelations-Koeffizienten aus den gefilterten Frequenz- Wiedergaben.

5. Verfahren nach Anspruch 4, ferner mit den folgenden Schritten:

Umsetzen der Autokorrelations-Koeffizienten in LPC-Koeffizienten; und

Berechnen der Cepstral-Parametern aus den LPC-Koeffizienten.

6. Verfahren nach Anspruch 4, bei dem die mel-Filterbänke unter einer spezifischen Frequenz gedämpft sind.

7. Verfahren nach Anspruch 6, bei dem die spezifische Frequenz angenähert 290 Hz beträgt.

8. System zum Kompensieren von verstärkten Sprachsignalen zum Optimieren der Spracherkennungsqualität, welches System aufweist:

einen Verstärker (enhancer) (107) für eine selektive Variation der Verstärkung von ausgewählten Frequenzen von zeitvariablen Sprachsignalen, die über einen Netzwerkpfad übertragen werden;

einen Empfänger (211) zum Empfangen der verstärkten Sprachsignale;

einen Frequenzbereich-Umsetzer (215) zum Umsetzen des verstärkten Sprachsignals, welches an dem Empfänger (211) empfangen wurde, in Frequenzbereich-Wiedergaben;

einen Kompensator (216) zum Empfangen der Frequenzbereich-Wiedergaben der Sprachsignale, die durch den Verstärker (107) verstärkt wurden, wobei der Kompensator (216) Verstärkungsvariationen der Frequenzbereich-Wiedergaben der Sprachsignale einführt, die über den Pfad übertragen wurden, um Verstärkungsschwankungen zu kompensieren, die durch den Verstärker (107) in die Sprachsignale eingeführt wurden; und

einen Merkmals-Computer (217) zum Berechnen von Merkmalen aus den kompensierten Frequenzbereich-Wiedergaben der verstärkten Sprachsignale.

9. System nach Anspruch 8, bei dem der Merkmals-Computer aus einem Cepstral- Merkmal-Computer besteht und bei dem das System ferner eine Erkennungseinrichtung aufweist, um die Cepstral-Merkmale von dem Cepstral- Merkmal-Computer zu empfangen.

10. System nach Anspruch 9, bei dem die Erkennungseinrichtung (204) die Merkmale mit Erkennungsmodellen vergleicht, die in dem Pfad unter Verwendung der Sprachsignale, die durch den Verstärker (107) nicht verstärkt wurden, trainiert worden sind, wobei die Erkennungsmodelle in einem Erkennungsspeicher (206) abgespeichert sind.

11. System nach Anspruch 8, bei dem der Kompensator (216) die Frequenzbereich- Wiedergaben der verstärkten Sprachsignale durch einen Satz von gewichteten mel-Filterbänken (216) hindurchschickt.

12. System, nach Anspruch 11, bei dem der Cepstral-Computer (217) Autokorrelationseffizienten aus den kompensierten Frequenzbereich- Wiedergaben generiert.

13. System nach Anspruch 12, bei dem der Cepstral-Computer (217) ferner die folgenden Operationen durchführt:

Umsetzen der Autokorrelationskoeffizienten in LPC-Koeffizienten; und

Berechnen der Cepstral-Merkmale aus den LPC-Koeffizienten.

14. System nach Anspruch 12, bei dem die mel-Filterbänke (216) unter einer spezifischen Frequenz gedämpft sind.

15. System nach Anspruch 14, bei dem die spezifische Frequenz etwa 290 Hz beträgt.

16. Verfahren nach Anspruch 5, bei dem das Verfahren unter Verwendung eines Computersystems ausgeführt wird, welches einen Speicher und wenigstens einen Prozessor enthält, wobei der Speicher mel-Filterbank-Wichtungswerte enthält.

17. Verfahren nach Anspruch 16, ferner mit dem folgenden Schritt:

18. Verfahren nach Anspruch 17, bei dem die Erkennungsmodelle unter Verwendung von Sprachsignalen, die nicht verstärkt worden sind, trainiert worden sind.

19. Verfahren nach Anspruch 16, bei dem die Werte der mel-Filterbänke unter einer spezifischen Frequenz gedämpft sind.

20. Verfahren nach Anspruch 19, bei dem die spezifische Frequenz etwa 290 Hz beträgt.

21. Verfahren nach Anspruch 16, ferner mit dem folgenden Schritt:

Modifizieren der mel-Filterbank-Wichtungswerte, die in dem Speicher zum Kompensieren der Verstärkung der Sprachsignale gespeichert sind, durch einen zweiten Verstärker (enhancer), wobei der zweite Verstärker eine Verstärkung oder Erhöhung liefert, die von der Verstärkung oder Erhöhung des ersten Verstärkers (enhancer) verschieden ist.

22. Verfahren nach Anspruch 16, bei dem die mel-Filterbank-Wichtungswerte eine Kompensation für die Berechnung der Cepstral-Merkmale für die verstärkten Sprachsignale liefern.

23. Verfahren nach Anspruch 22, ferner mit dem folgenden Schritt:

24. Verfahren nach Anspruch 23, bei dem die Erkennungsmodelle unter Verwendung von Sprachsignalen, die nicht erhöht oder verstärkt worden sind, trainiert worden sind.

25. System zum Erkennen von Sprachsignalen und zum Kompensieren von Netzwerkverstärkungen der Signale, mit:

einem Filter (215) zum Kompensieren einer Netzwerkverstärkungskomponente der verstärkten Sprachsignale;

einem Merkmal-Extraktor (202) zum Extrahieren von Merkmalen basierend auf gefilterten Sprachsignalen aus dem Filter; und

einer Spracherkennungseinrichtung (204) zum Erkennen der Sprachsignale auf der Grundlage der extrahierten Merkmale aus dem Merkmal-Extraktor (202).

26. System nach Anspruch 25, bei dem das Filter (215) einen Satz von selektiv gewichteten mel-Filterbänken aufweist.

27. System nach Anspruch 25, bei dem der Merkmal-Extraktor (202) eine Kombination aus einem linearen Vorhersage-Kodier-Analysierer und einem mel- Filter-Analysierer aufweist.

28. Verfahren nach Anspruch 1, bei dem der Schritt der Berechnung der Merkmal- Signale den Schritt der Generierung von Cepstral-Merkmalsignalen umfaßt, welche die verstärkten Sprachsignale charakterisieren, nachdem sie gemäß dem Kompensationsschritt kompensiert worden sind.