DE69616724T2 - Verfahren und System für die Spracherkennung - Google Patents

Verfahren und System für die Spracherkennung

Info

Publication number
DE69616724T2
DE69616724T2 DE69616724T DE69616724T DE69616724T2 DE 69616724 T2 DE69616724 T2 DE 69616724T2 DE 69616724 T DE69616724 T DE 69616724T DE 69616724 T DE69616724 T DE 69616724T DE 69616724 T2 DE69616724 T2 DE 69616724T2
Authority
DE
Germany
Prior art keywords
speech signals
amplified
speech
recognition
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69616724T
Other languages
English (en)
Other versions
DE69616724D1 (de
Inventor
Mazin G. Rahim
Jay Gordon Wilpon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69616724D1 publication Critical patent/DE69616724D1/de
Publication of DE69616724T2 publication Critical patent/DE69616724T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Character Discrimination (AREA)

Description

  • Die Erfindung betrifft ein Verfahren zum Kompensieren der Verstärkung von Sprachsignalen, um die Spracherkennungsqualität zu optimieren, gemäß Anspruch 1. Darüber hinaus betrifft die Erfindung auch ein System zum Kompensieren der Verstärkung von Sprachsignalen, um die Spracherkennungsqualität zu optimieren, gemäß den Ansprüchen 8 und 25.
  • HINTERGRUND DER ERFINDUNG
  • Sprachsignale, die über ein Telekommunikationsnetzwerk übertragen werden wie beispielsweise ein Großentfernungs-Nachrichtenaustauschnetzwerk, können häufig akustisch durch unbekannte variable Bedingungen beeinflußt werden. Diese Bedingungen können in signifikanter Weise die Qualität eines automatischen Spracherkennungssystems (ASR) verschlechtern, welches in typischer Weise in solch einem Netzwerk enthalten ist. Solche Bedingungen können beispielsweise Umgebungsstörgeräusche, Kanalinterferenz und die Verwendung unterschiedlicher Schall-Detektionsausrüstungen umfassen.
  • Ein typisches ASR System führt eine Spracherkennung dadurch aus, indem es übereinstimmende Merkmalsdaten, welche repräsentativ für übertragene Sprachsignale sind, mit Datenmustern vergleicht, welche repräsentativ für phonetische Einheiten sind, die als Trainings-Erkennungsmodelle bekannt sind. Die Erkennungsmodelle werden in typischer Weise durch Überwachen der Übertragung von vorbestimmten Sprachsignalen erhalten, die bekannte phonetische Eigenschaften haben und zwar über den gleichen Netzwerk-Verbindungspfad wie derjenige der aktuellen Sprachsignale, wie beispielsweise solche, die während einer Telefonkonversation auftreten, die dann zu einem ASR System gesendet werden.
  • In vielen Fällen kann das Vorhandensein von unbekannten variablen Bedingungen oder Zuständen in einem Netzwerkpfad zu akustischen Fehlübereinstimmungen zwischen den Erkennungsmodellen und den Testdaten führen. Diese akustischen Fehlübereinstimmungen können eine Verschlechterung der Spracherkennungsqualität verursachen.
  • Akustische Fehlübereinstimmungen können leicht beispielsweise dann auftreten, wenn die über einen Netzwerkpfad übertragenen Sprachsignale zur Verbesserung der Sprachqualität der menschlichen Wahrnehmung verstärkt werden. Wenn eine solche Verstärkung (enhancement) oder Anhebung auftritt, kann die Spracherkennungsqualität suboptimal sein und zwar dort, wo die Erkennungsmodelle, die bei der Spracherkennungsverarbeitung verwendet werden, nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad nicht trainiert worden sind, der ähnliche Sprachsignal- Verstärkungsschaltungen enthält. Gegenwärtige Sprachsignal-Verarbeitungstechniken, die versuchen eine Robustheit des ASR Systems hinsichtlich der übereinstimmenden Merkmale zu liefern, die für die detektierten Sprachsignale repräsentativ sind und zwar Übereinstimmung mit Erkennungsmodellen, kompensieren in typischer Weise nicht ausreichend akustische Fehlübereinstimmungen, die in der oben geschilderten Weise resultieren können.
  • Aus der EP-A-0 674 306 ist ein Signalvorspann-Beseitigungsverfahren (SBR) bekannt, welches auf einer maximalen Wahrscheinlichkeitsschätzung der Vorspannung für minimierte unerwünschte Effekte bei Spracherkennungssystemen basiert. Dieses bekannte Verfahren umfaßt die folgenden Schritte:
  • Trainieren des Spracherkennungssystems durch Anwenden der folgenden Schritte:
  • (a) Erzeugen eines Satzes von Zentroiden basierend auf einem Trainings- Sprachsignal;
  • (b) Berechnen einer Schätzgröße der Vorspannung für das Trainings-Sprachsignal basieren auf einer Maximierung einer Wahrscheinlichkeitsfunktion;
  • (c) Subtrahieren der Schätzgröße der Vorspannung (bias) von dem Trainings- Sprachsignal, um einen tentativen Trainings-Sprachwert zu erhalten;
  • (d) Wiederholen der Schritte (b) und (c) eine vorbestimmte Anzahl von Malen, wobei jeder nachfolgende berechnete Schätzwert der Vorspannung auf dem früheren tentativen Trainings-Sprachwert basiert, um an einem reduzierten Vorspannungs- Trainingssprachsignal anzukommen bzw. diesen zu erreichen;
  • (e) erneutes Berechnen der Schwerpunkte basierend auf dem reduzierten Vorspann-Trainingssprachsignäl, um einen neuen Satz von Schwerpunkte zu generieren;
  • (f) Wiederholen der Schritte (b) bis (e) eine vorbestimmte Anzahl von Malen, um ein verarbeitetes reduziertes Vorspann-Sprachsignal zu berechnen, und um einen optimalen Satz von Schwerpunkten zu bilden;
  • (g) Verwenden des optimalen Satzes der Schwerpunkte und des verarbeiteten reduzierten Vorspann-Sprachsignals als Trainings-Eingangsgröße für einen Sprach- Erkenner;
  • Testen eines Eingangs-Sprachsignals, um die unbekannte Vorspannung zu minimieren und zwar durch Anwenden der folgenden Schritte;
  • (h) Verwenden des optimalen Satzes der Schwerpunkte, um einen Schätzwert der Vorspannung für jede Äußerung des Sprachsignals zu berechnen, basierend auf einer Maximierung einer Wahrscheinlichkeitsfunktion;
  • (i) Subtrahieren der Schätzgröße der Vorspannung von dem Sprachsignal, um einen tentativen Sprachwert zu erhalten;
  • (j) Wiederholen der Schritte (h) und (i) eine vorbestimmte Anzahl Malen, wobei jede nachfolgend berechnete Schätzgröße des Vorspannwertes auf dem früheren tentativen Sprachsignal basiert, was dann zu einem reduzierten Vorspann- Sprachsignalwert führt; und
  • Verwenden des reduzierten Vorspann-Sprachsignals als Eingangsgröße in einen Sprach-Erkenner.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren und ein System anzugeben, welches die Fähigkeit besitzt die Spracherkennungsqualität zu verbessern.
  • Gemäß dem Verfahren nach der vorliegenden Erfindung wird diese Aufgabe durch die Merkmale des Anspruches 1 gelöst.
  • Verbesserte Ausführungsformen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen 2 bis 7, 16 bis 24 und 28.
  • Die oben genannte Aufgabe wird ebenso mit Hilfe eines Systems der Erfindung nach den Ansprüchen 8 und 25 gelöst.
  • Verbesserte Ausführungsformen des erfindungsgemäßen Systems ergeben sich aus den Unteransprüchen 9 bis 15, 26 und 27.
  • Gemäß der vorliegenden Erfindung werden Informationen dazu verwendet, um eine Kompensation zu realisieren, die eine höhere Robustheit hinsichtlich der Spracherkennungsqualität in Netzwerken mit Verstärkung bzw. Anhebung liefert und zwar dort, wo beispielsweise Erkennungsmodelle nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad nicht trainiert worden sind, der ähnliche Anhebungs- oder Verstärkungsschaltungen enthält. Die verwendeten Informationen beziehen sich auf Spektraleffekte der Anhebung oder Verstärkung bei den Sprachsignalen während der Übertragung über einen Netzwerk-Verbindungspfad.
  • Bei einem Aspekt der vorliegenden Erfindung wird die Sprachsignalverstärkung während der Durchführung der Merkmalsextraktionsverarbeitung am Frontende eines Spracherkennungssystems kompensiert, welches einen Merkmalsextrahierer und einen Spracherkenner enthält. Der Merkmalsextrahierer berechnet Cepstral-Merkmale der verstärkten Sprachsignale unter Verwendung einer Kombination einer linearen Vorhersage-Kodierung (LPC) und einer Mel-Filter-Analyse. Der Extrahierer kompensiert die Verstärkung an den zeitvariablen Sprachsignalen nachdem sie auf eine Frequenzdomäne-Repräsentation transformiert wurden.
  • Ein Aspekt des erfindungsgemäßen Verfahrens sieht vor, daß erstens die zeitvariablen verstärkten Sprachsignale gesampelt werden. Diese Samples werden in Rahmen gesammelt und werden dann von der Zeit in Frequenzdomäne- Repräsentationen unter Verwendung der Fourier-Transformation umgewandelt. Dann wird das Energiespektrum für jeden Rahmen einer selektiven gewichteten Mel- Filterbankverarbeitung unterzogen, wobei die Wichtungen selektiv den Effekt der Anhebung oder Verstärkung der spektralen Eigenschaften der Sprachsignale kompensieren. Anschließend werden die Cepstral-Merkmale dadurch erhalten, indem Autokorrelations-Koeffizienten aus den spektralen Repräsentationen der kompensierten verstärkten Sprachsignale berechnet werden, und indem dann die LPC Analyse und die Cepstral-Rekursion durchgeführt werden.
  • Weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich unmittelbar für einen Fachmann aus der folgenden detaillierten Beschreibung und den anhängenden Zeichnungen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 veranschaulicht ein Blockschaltbild eines verbesserten Telekommunikationsnetzwerks, welches zur Durchführung von Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der vorliegenden Erfindung geeignet ist.
  • Fig. 2 zeigt ein veranschaulichendes Blockschaltbild eines Sprachsignalprozessors, der in dem System von Fig. 1 enthalten sein kann, um eine Spracherkennung durchzuführen, indem die Mel-LPC-Cepstral-Merkmale der verstärkten Sprachsignale gemäß der vorliegenden Erfindung berechnet werden.
  • Fig. 3 ist ein veranschaulichendes Blockschaltbild eines als Beispiel gewählten Kompensationsmerkmal-Extrahierers:
  • Fig. 4 ist ein Flußdiagramm eines Verfahrens zur Durchführung einer Spracherkennung gemäß der vorliegenden erfinderischen Technik der Berechnung der Mel-LPC-Cepstrum-Merkmale der verstärkten Sprachsignale.
  • DETAILLIERTE BESCHREIBUNG
  • Fig. 1 zeigt ein Blockschaltbild eines als Beispiel gewählten Telekommunikationsnetzwerks 100, welches für die Durchführung einer Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der Technik nach der vorliegenden Erfindung geeignet ist.
  • Gemäß Fig. 1 kann das Netzwerk 100 in geeigneter Weise eine Vielzahl von Gesprächsgebühr-Ämtern umfassen wie beispielsweise die Gesprächsgebühr-Ämter 105 und 110, die miteinander verbunden sein können und zwar in irgendeiner einer Vielfalt von gut bekannten Arten, um Groß-Sprach- und Daten-Verbindungen für deren Teilnehmer zu liefern wie beispielsweise Telephonteilnehmer, die den Stationseinheiten oder Sätzen 51 und 52 zugeordnet sind. Ein örtliches zentrales Amt 50 verbindet die Station S1 mit dem Gesprächsgebühren-Amt 105, und ein örtliches Zentralamt 75 verbindet die Station S2 mit dem Gesprächsgebühren-Amt 110.
  • Das Netzwerk 100 kann ferner eine Sprachanhebungsvorrichtung oder einen Verstärker 107 enthalten und zwar in dem Verbindungspfad zwischen den Gesprächsgebühren-Ämtern 105 und 110 zum Anheben der Qualität der Sprachsignale, bevor diese von einem Teilnehmer empfangen werden wie beispielsweise einem Telephonbenutzer. Beispielsweise kann der Verstärker 107 eine geeignete Schaltungsanordnung enthalten wie beispielsweise eine Echo- Beseitigungsschaltungsanordnung oder irgendeine andere Schaltungsanordnung, um den Energiewert der Sprachsignale zu erhöhen oder abzusenken. Siehe hierzu das U.S. Patent 5 195 132 für eine detailliertere Beschreibung der Implementierung der Sprachsignalanhebung in einem Netzwerk, welches das Erhöhen der Energiepegel der ausgewählten Frequenzen involviert.
  • Gemäß der vorliegenden Erfindung ist ein Sprachsignalprozessor 102 zusätzlich in dem Netzwerkverbindungspfad enthalten, um Sprachsignale von dem Verstärker 107 zu empfangen, und um eine Sprachsignalerkennungssignalverarbeitung durchzuführen, inklusive einer Merkmalsextrahierung, wie dies noch weiter unten vollständiger beschrieben wird. Eine Telephonverbindung von der Station S1 zu der Station S2 wird in geeigneter Weise über das örtliche zentrale Amt 50, das Gesprächsgebühren-Amt 105, den Enhancer 107, den Prozessor 102, das Gesprächsgebühren-Amt 110 und das örtliche Zentralamt 75 gemäß den herkömmlichen Techniken hergestellt, die im folgenden nicht weiter beschrieben werden. Es sei darauf hingewiesen, daß das Netzwerk 100 aus irgendeinem gut bekannten Telekommunikationsnetzwerk bestehen kann wie beispielsweise dem AT&T Netzwerk.
  • Bei den herkömmlichen Telekommunikationsnetzwerken, ist die Berechnung von Parametern, die als Merkmale zum Charakterisieren von zeitvariablen Sprachsignalen bekannt sind, hoch empfindlich gegenüber der Einführung von akustischen Schwankungen der Sprachsignale durch beispielsweise eine Sprachsignalanhebung oder Verstärkung. Dieser Zustand traf speziell für die Berechnung von bevorzugten Merkmalen wie beispielsweise den Cepstral-Merkmalen zu. Als ein Ergebnis hat das Einschließen oder Einführen solch einer Sprachsignalanhebung in einem Netzwerkverbindungspfad ernsthaft die Qualität der automatischen Spracherkennungsverarbeitung (ASR) verschlechtert, bei der die Erkennungsmodelle, die dazu verwendet werden, um Merkmalsdaten zur Übereinstimmung zu bringen, welche repräsentativ für die übertragenen Sprachsignale sind, auf einem Netzwerkpfad trainiert wurden, der keine ähnliche oder identische Sprachsignal- Verstärkungsschaltungsanordnung enthielt.
  • Gemäß der vorliegenden Erfindung arbeitet der Prozessor 102, der in dem Netzwerk 100 enthalten ist, in geeigneter Weise derart, um die Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen Sprachsignalen durchgeführt wird, die durch den Sprachsignal-Verstärker 107 angehoben oder verstärkt worden sind bevor sie weiter zu der ASR-Verarbeitungsvorrichtung geroutet wurden wie beispielsweise zu dem Prozessor 102. Der Prozessor 102 führt im wesentlichen Anhebungs-Kompensationsoperationen durch, die die verbesserte Robustheit der Cepstral-Merkmal-gestützten Spracherkennungsverarbeitung verbessern. Alternativ kann der Prozessor 102 in dem Netzwerk 100 in Einklang mit der Technik nach der vorliegenden Erfindung arbeiten, um Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen Signalen durchgeführt wird, die vor ihrer Zuleitung zu dem Prozessor 102 nicht angehoben oder verstärkt wurden oder durch einen Enhancer angehoben oder verstärkt worden sind, der eine Anhebung oder Verstärkung bei den Sprachsignalen einführt, die von der Anhebung oder Verstärkung verschieden ist, die durch den Prozessor 102 kompensiert wird. Zum Zwecke der Veranschaulichung sei angenommen, daß die Erkennungsmodelle, die bei der Durchführung der Merkmalsanpassung verwendet werden und zwar während der Spracherkennungsverarbeitung bei dem Prozessor 102 über einen Netzwerkpfad trainiert worden sind, der keine Sprachsignalanhebungs- oder Verstärkungsschaltungsanordnung enthält.
  • Zum Zwecke der Veranschaulichung sei angenommen, daß der Verstärker 107 eine Sprachsignalanhebung hinsichtlich der Sprachsignale einführt, die von der Station S1 zu der Station S2 übertragen werden und zwar während der Lenkung der Signale durch das Netzwerk zum Prozessor 102. Es sei angenommen, daß in Verbindung mit den übertragenen Sprachsignalen, die zu dem Prozessor 102 geleitet worden sind, die durch den Verstärker 107 angehoben wurden, Informationen hinsichtlich der Natur der Anhebung oder Verstärkung zum Zwecke der Implementierung an dem Prozessor 102 verfügbar sind und zwar in einer Weise, die weiter unten beschrieben wird, um eine geeignete Kompensation für die Anhebung oder Verstärkung vorzunehmen.
  • Zum Zwecke der Klarheit und Kürze wird eine Kenntnis der Spracherkennungsverarbeitungstechniken angenommen, die die Verwendung einer linearen Vorhersagekodierung (LPC) und einer Mel-Filteranalyse zum Extrahieren von Cepstral-Merkmalen aus den Daten involviert, die für die spektralen Charakteristiken der Sprachsignale repräsentativ sind. Siehe Rabiner, Lawrence and Juang, Bung- Hwang, "Fundamentals of Speech Recognition" (1993), Seiten 103-107, 112-117 und 183-190. Um es kurz auszudrücken so involviert die LPC Verarbeitung das Extrahieren von Merkmalen aus den Sprachsignalen durch Ursprungstraktat-Separation und Modellierung von spektralen Spitzen als eine lineare Kombination vergangener Sprachproben. Die Mel-Filteranalyse involviert das Extrahieren von Merkmalen aus Sprachsignalen basierend auf der Kenntnis der menschlichen Wahrnehmung von akustischen spektralen Komponenten der Sprachsignale, indem in vorteilhafter Weise das komplette Spektrum der Sprachsignale in Ausdrücken einer subjektiven Steigung (pitch) von reinen Tönen bei sogenannten Mel-Skalen-Intervallen gesampelt wird. Diese Mel-Skalen-Intervallwerte werden in herkömmlicher Weise als Filterbänke implementiert, die als Mel-Filterbänke bekannt sind, um in geeigneter Weise spektrale Komponenten der Sprachsignale zu modifizieren, um die Gesamt-Spracherkennung zu verbessern.
  • Bei einem Aspekt der vorliegenden Erfindung wird die LPC Analyse mit der Mel- Filterbank-Analyse kombiniert, um Cepstral-Merkmale zu berechnen, welche die Einführung einer Anhebung oder Verstärkung an den übertragenen Sprachsignalen kompensieren, wobei die Kompensation dann implementiert wird, wenn die angehobenen oder verstärkten Sprachsignale in geeigneter Weise in die Frequenz- Domäne-Repräsentation transformiert worden sind. Wie dies noch vollständiger weiter unten beschrieben wird, umfaßt die Berechnung der Mel-LPC-Kepstrum-Merkmale eine Mel-Filterbank-Analyse gefolgt von der LPC Analyse, bei der Autokorrelationskoeffizienten auf der Grundlage einer perzeptualen Frequenzskala berechnet werden und bei der eine Glättung des Energiespektrums unter Anwendung der LPC Techniken durchgeführt wird. Zum Zwecke der Veranschaulichung enthält der Verstärker 107 eine Anhebungs-Schaltungsanordnung ähnlich derjenigen, die in dem U.S. Patent 5 195 132 beschrieben ist, die oben angegeben wurde (im folgenden als TrueVoicesm-Anhebung bezeichnet), um Sprachsignale anzuheben, die zu dem Prozessor 102 von der Station S1 zugeführt werden und wobei die Spracherkennungsverarbeitung an dem Prozessor 102 durchgeführt wird unter Heranziehung von Erkennungsmodellen, die unter Verwendung der Sprachsignale trainiert wurden, die nicht angehoben oder verstärkt worden sind.
  • Fig. 2 zeigt eine beispielhafte Ausführungsform des Prozessors 102, der arithmetische Operationen durchführen kann, um die Mel-LPC-Cepstrum-Merkmale zu berechnen, um eine hoch robuste Spracherkennung an Sprachsignalen vorzunehmen, die durch die TrueVoicesm-Anhebung bei dem Verstärker 107 angehoben oder verstärkt wurden. Gemäß Fig. 2 enthält der Prozessor 102 in geeigneter Weise einzelne Funktionsblöcke zur Durchführung der Mel-Cepstral-Berechnungen und der Merkmalsanpassung in Verbindung mit den übertragenen oder gesendeten Sprachsignalen, welche die Anhebung enthalten oder keine Anhebung aufweisen. Die Funktionen, die durch diese Blöcke wiedergegeben werden, können durch die Verwendung von entweder einer gemeinsam verwendeten oder getrennt verwendeten Hardware geliefert werden und zwar inklusive, jedoch nicht beschränkt auf eine Hardware, welche eine Software ausführen kann. Bei einer bevorzugten Ausführungsform umfassen die Funktionsblöcke in dem Prozessor 102 einen Kompensiermerkmal-Extrahierer 202 und einen Recognizer 204, die einen Trainings- Erkennungsmodell-Speicher 206 in Form eines RAM enthalten. Der Extrahierer 202 und der Recognizer 204 sind in geeigneter Weise an einen Speicher 208 angeschlossen. Der Speicher 208 enthält programmierte Befehle, die in geeigneter Weise ausgeführt werden können, um die vorliegende erfinderische Technik zu implementieren. Wie weiter unten erläutert wird, liefern die Funktionsblöcke des Extrahierers 202 und des Recognizers 204 die Verarbeitung der Sprachsignale, die über das Gesprächgebühren- Amt 105 oder 110 gesendet werden und zwar entsprechend der Implementierung der Technik nach der vorliegenden Erfindung. Es sei auch darauf hingewiesen, daß die Operationen, die durch die Funktionsblöcke durchgeführt werden, in ähnlicher Form unter Verwendung eines einzelnen gemeinsam verwendeten Prozessors ausgeführt werden können. Solch ein Prozessor kann einen Standard-Digitalsignalprozessor umfassen und würde einen Nur-Lese-Speicher oder einen anderen geeigneten Speicher enthalten, um die Software zu speichern, und um die Operationen durchzuführen, die weiter unten erläutert werden. Ferner kann die Technik nach der vorliegenden Erfindung unter Verwendung einer Firmware oder vermittels diskreter Komponenten implementiert werden, die in einer integrierten Schaltung realisiert sind. Andere geeignete Ausführungsformen können unmittelbar von Fachleuten implementiert werden. Obwohl beispielsweise, wie dies in Fig. 2 gezeigt ist, der Kompensationsmerkmal-Extrahierer 202 so angeschlossen ist, daß er seine Eingangsgröße von dem Verstärker 107 empfängt, kann er auch direkt an ein Gebühren- Amt wie beispielsweise das Amt 105 angeschlossen werden, ohne daß irgendeine Anhebung dazwischen wirksam wird.
  • Fig. 3 zeigt in Einzelheiten eine beispielhafte Ausführungsform des Extrahierers 202, der die Operationen durchführen kann, um eine Anhebung der Sprachsignale zu kompensieren, die weiter unten in Verbindung mit Fig. 4 beschrieben werden. Gemäß Fig. 3 kann der Extrahierer 202 in geeigneter Weise einen Empfänger 211, einen Vorverzerrer (preemphasizer) 212, einen Rahmen-Blockierer 213, einen Hamming- Multiplizierer 214, einen Frequenzdomäne-Konverter 215, einen Kompensator 216 und einen Cepstral-Merkmal-Computer 217 aufweisen. Diese Funktionsblöcke führen in geeigneter Weise Operationen durch, um die Technik nach der vorliegenden Erfindung zu implementieren, wie dies noch weiter unten in Verbindung mit Fig. 4 vollständig erläutert wird. Es sei darauf hingewiesen, daß die an jedem dieser Funktionsblöcke durchgeführten Operationen unter Verwendung einer Kombination aus Software und/oder Hardware als auch Verwendung von Hardware alleine implementiert werden können.
  • Gemäß Fig. 2 besteht der Kompensationsmerkmal-Extrahierer 202 im wesentlichen aus einem Frontende-Prozessor in einem ASR System, welches Operationen durchführt, um die Mel-LPC Cepstral-Merkmale der zeitlich variablen Sprachsignale zu berechnen, die von dem Gesprächsgebühren-Amt 105 ausgeroutet wurden basierend auf den spektralen oder Frequenzdomäne-Repräsentationen der Eigenschaften dieser Signale. Die Mel-LPC Cepstral-Merkmale, die letztendlich durch den Cepstral-Merkmal-Computer 217 des Extrahierers 202 berechnet werden, beschreiben die breiten akustischen Eigenschaften der unterschiedlichen phonetischen Einheiten, die in herkömmlicher Weise für die Spracherkennung verwendet werden. Insbesondere kombiniert der Kompensator 216 und der Cepstral-Merkmal-Computer 217 die LPC- und Mel-Filterbank-Analyse, um einen Satz von kompensierten Cepstral- Merkmalen zu berechnen, die für die gesendeten Sprachsignale repräsentativ sind, die dafür sorgen, daß die ASR Verarbeitung in dem Netzwerk 100 durch den Recognizer 204 im wesentlichen unempfindlich gegenüber akustischen Schwankungen ist, die durch die Anhebung oder Verstärkung verursacht werden, die Mel-LPC Cepstral- Merkmale werden dem Recognizer 204 angeboten, der diese dann mit den Erkennungsmodellen vergleicht, die in dem Speicher 206 abgespeichert sind, um das beste Wort oder Sequenz von Wörtern zu bestimmen, welches bzw. die mit der phonetischen Einheit übereinstimmt, die durch die berechneten Merkmale wiedergegeben wird. Ein geeigneter Recognizer kann beispielsweise das gut bekannte versteckte Markov-Modell (HMM) verwenden, welches auf den Erkennungstechniken basiert.
  • Es sei darauf hingewiesen, daß eine gewisse Vorkenntnis der eingeführten Anhebung oder Verstärkung wie beispielsweise der TrueVoicesm-Anhebung erforderlich ist, um die Kompensation hinsichtlich der Anhebung durchzuführen unter Verwendung der Frequenzdomäne, die für die Sprachsignale repräsentativ ist entsprechend der Technik nach der vorliegenden Erfindung. Diese Informationen können allgemein der Öffentlichkeit zur Verfügung stehen. Alternativ können Informationen, welche die Anhebung oder Verstärkung betreffen, beispielsweise unter Verwendung von Standard-Techniken gemäß einem empirischen Samplevorgang der Sprachsignale bestimmt werden, die über den Netzwerkverbindungspfad übertragen werden, der eine Sprachsignal-Anhebungs-Schaltungsanordnung enthält. Im Vergleich dazu erforderten die herkömmlichen Techniken der Cepstral-Mittelwertsubtraktion und der Signalvorspann-Beseitigung keine Vorkenntnis der akustischen Schwankungen in den Sprachsignalen und werden daher als auf einer blinden Entwindung basierende Techniken betrachtet.
  • Fig. 4 zeigt ein Verfahren 220 zum Berechnen von Mel-LPC Cepstrum- Merkmalen von angehobenen zeitvariablen Sprachsignalen an den Kompensations- Merkmal-Extrahierer 202 des Prozessors 102 unter Verwendung der als Beispiel genannten Funktionsblöcke, die in Fig. 3 gezeigt sind. Zum Zwecke der Veranschaulichung sei angenommen, daß die Sprachsignale digitalisiert sind und zwar in bevorzugter Weise bei einer 8,0 kHz Rate zum Emulieren eines digitalen Telephonnetzwerks bevor sie zu dem Extrahierer 202 geroutet werden. Gemäß Fig. 4 empfängt bei dem Schritt 222 der Empfänger 211 die angehobenen Sprachsignale von dem Verstärker 107. Dann bei dem Schritt 224 verarbeitet der Vorverzerrer (preemphasizer) 212 die digitalisierten Sprachsignalproben, um eine spektrale Glättung zu erzeugen. Die Vorverzerrung wird in geeigneter Weise unter Verwendung von beispielsweise eines herkömmlichen digitalen Netzwerks erster Ordnung durchgeführt. Bei dem Schritt 226 sammelt der Rahmenblocker 213 die Sprachsignalproben in Rahmen oder bildet Blöcke aus diesen. Ein einzelner Rahmen besteht aus Abschnitten von aufeinanderfolgenden Sprachproben, die n msec des Signals entsprechen und es sind aufeinanderfolgende Rahmen um n msec voneinander beabstandet. Bei dem Schritt 228 multipliziert der Hamming-Multiplizierer 214 jeden Rahmen der Proben durch ein Hamming-Fenster wie dies beim Sand der Technik üblich ist. Bei dem Schritt 230 führt der Frequenzdomäne-Konverter 215 eine Fourier-Transformation an jedem im Fenster erscheinenden Segment der Sprache durch, um einen Satz von Spektralproben zu generieren, die den angehobenen Sprachsignalen entsprechen, die bei dem Empfänger 211 empfangen werden.
  • Bei dem Schritt 232 verarbeitet der Kompensator 216 jeden Rahmen, um das Energiespektrum für jeden Rahmen der Spektralproben zu veranlassen durch einen Satz von M Mel-Filterbänke hindurch zu laufen und dieser kann in geeigneter Weise eine dreieckförmige Gestalt haben. Die Mel-Filterbänke sind in geeigneter Weise gewichtet, um Effekte zu kompensieren, die die Anhebung auf die Berechnung der Cepstral- Merkmale der übertragenen Sprachsignale haben kann. Mit anderen Worten werden die Effekte der Anhebung oder Verstärkung der Sprachsignale bei dem Kompensator 216 kompensiert, der Operationen an den Frequenzdomäne-Wiedergaben der angehobenen oder verstärkten Sprachsignale durchführt. Es sei darauf hingewiesen, daß die Mel-LPC Cepstrum-Berechnung dazu beiträgt, daß die Verstärkung von jedem Spektralband vollständig gesteuert werden kann. Dies erlaubt eine Kompensation der Sprachsignalanhebung einfach dadurch, indem eine Wichtungsfunktion bei den Mel- Filterbänken vorgenommen wird. Beispielsweise wird eine Kompensation der Sprachsignalanhebung dadurch ausgeführt, indem eine ideale Hochpaßfilterung implementiert wird, indem solche unerwünschten Mel-Filterbänke einer Nachentzerrung oder Höhenabsenkung (de-emphasizing) vor der Berechnung der Cepstral-Merkmale aus der Frequenzdomäne-Repräsenttion der Sprachsignale unter Verwendung der LPC Techniken vorgenommen wird. Diese Wichtung von Datenwert-Koeffizienten in der Spektraldomäne ist extrem vorteilhaft und sorgt für die Berechnung von kompensierten Cepstral-Merkmalen der angehobenen Sprachsignale, die in geeigneter Weise an Erkennungsmodelle angepaßt werden können, die nicht trainiert wurden und zwar unter Verwendung der angehobenen Sprachsignale. Es sei darauf hingewiesen, daß die Cepstral-Merkmale, wenn sie einmal berechnet wurden, in einer analogen Weise nicht gewichtet werden können. Es sei ferner darauf hingewiesen, daß solch eine Verarbeitung der angehobenen Sprachsignale grob angenähert werden kann, indem die angehobenen Sprachsignale gefiltert werden während sie sich noch in ihrer Zeitdomäne- Repräsentation befinden.
  • Bei der als Beispiel gewählten Ausführungsform des Netzwerks 100, bei dem eine TrueVoicesm-Anhebung hinsichtlich der Sprachsignale durch den Verstärker 107 eingeführt wird, werden Informationen, welche die Eigenschäften der True-Voicesm- Anhebung betreffen dazu verwendet, um die Wichtungen zu bestimmen, die bei den Mel-Filterbänken des Kompensators 216 angewendet werden. Anhand von experimentellen Analysen wurde festgestellt, daß die True-Voicesm-Anhebung einen Filtervorgang der Sprachsignale involviert hat unter Verwendung eines Preemphasis- Filters (p-Filters) und Anwenden eines langsam variierenden AVC (automatischer Volumen-Controller) an den Signalen und zwar dort, wo das p-Filter einen 10-20 dB Spektral-Pol einführt und zwar irgendwo in dem Frequenzband zwischen 150 Hz und 220 Hz. In diesem Fall würden die Mel-Filterbänke die gewünschte Hochpaßfilterung implementieren und zwar in der Frequenzdomäne, was dann zu einer Modifikation der berechneten Cepstrum-Merkmale führen würde und somit die Robustheit der Spracherkennungsqualität in Richtung auf einen niederfrequenten Powerbootingvorgang (Leistungshochtreibvorgang) verbessert. Beispielsweise kann Mel-Filterbänken mit einer Frequenz unter 290 Hz eine Wichtung von Null zugeordnet werden und Filterbänken mit Frequenzen oberhalb von 290 Hz kann eine Wichtung der Einheit zugeordnet werden. Mit anderen Worten wird die Wirkung der TrueVoicesm- Anhebung in Verbindung mit der Sprachsignalerkennung dadurch minimiert werden, indem die Niederfrequenz-Mel-Spektralbänder nachentzerrt werden (de-emphasizing), die bei der Berechnung des Mel-LPC-Cepstrums verwendet werden. In bevorzugter Weise kann ein Schwellenwert von 290 Hz implementiert werden und zwar derart, daß die Mel-Bank-Frequenzbänder unterhalb dieser Schwelle während der Berechnung des Cepstrums nicht in Betracht gezogen werden. Diese Mel-LPC-Cepstrumverarbeitung kann als eine ideale Hochpaßfilterung betrachtet werden, bei der die Niederfrequenzbänder bis 290 Hz schwer gedämpft sind.
  • Gemäß Fig. 4 führt der Cepstral-Merkmal-Computer 217 bei dem Schritt 234 eine IDCT (inverse diskrete Kosinus-Transformation) durch und zwar in Verbindung mit dem geglätteten Energiespektrum, um Q-Autokorrelationskoeffizienten zu liefern, wobei Q in geeigneter Weise auf 12 gesetzt wird. Bei dem Schritt 236 konvertiert der Cepstral-Merkmal-Computer 217 jeden Satz der Autokorrelationskoeffizienten zuerst in LPC Koeffizienten und zwar unter Verwendung von beispielsweise dem Durbinschen Rekursionsalgorithmus, und dann in Cepstralparameter unter Verwendung der Standard LPC-Zu-Cepstrum-Rekursion. Das Abmaß oder Größe des Cepstralvektors wird in geeigneter Weise auf U gesetzt. Schließlich bei dem Schritt 238 versucht der Recognizer 204 die Erkennungsmodelle, die in dem Modellspeicher 206 gespeichert sind, in Übereinstimmung mit den berechneten Cepstral-Merkmalen zu bringen und zwar für die kompensierten angehobenen Sprachsignale, und liefert Daten, die für die Merkmalsübereinstimmungsoperationen repräsentativ sind, um einen weiteren Routing- Vorgang zu der Station S2 durchzuführen, wie dies auf dem Gebiet üblich ist.
  • Es sei darauf hingewiesen, daß die Berechnungstechnik für das Mel-LPC- Cepstrum-Merkmal eine höhere Robustheit gegenüber Sprachanhebungen oder Verstärkungen liefern kann und in einigen Fällen die ASR Performance nicht nachteilig beeinflußt wird selbst dann nicht, wenn die Anhebung nicht eingeführt worden ist und die Mel-LPC-Cepstrum-Merkmale für eine Kompensation einer bestimmten Anhebung der Sprachsignale sorgen. Es sei darauf hingewiesen, daß unterschiedliche Filter und Abfallfrequenzen verwendet werden können, um die Technik gemäß der vorliegenden Erfindung zu implementieren unter Verwendung der Mel-Filterbankverarbeitung, um eine Anhebung oder Verstärkung von Sprachsignalen zu kompensieren. Es sei ferner drauf hingewiesen, daß für eine Signalanhebung, die feine Modifikationen hinsichtlich des Sprachspektrums involviert, ein robustes Frontende-System wie beispielsweise ein solches, welches die Mel-LPC-Cepstrum-Merkmale berechnet, einen einfachen Zugriff auf Spracherkennungssysteme bietet, um das Sprachspektrum in irgendeiner Weise zu ändern, was für die Zwecke erforderlich ist, um Merkmale der Sprachsignale zu berechnen, die mit Erkennungsmodellen übereinstimmen müssen, welche unter Verwendung der angehobenen Sprachsignale nicht trainiert wurden.
  • Es sei darauf hingewiesen, daß die Ausführungsformen und Abwandlungen, die hier gezeigt und oben beschrieben wurden, lediglich die Prinzipien der Erfindung veranschaulichen, und daß vielfältige Abwandlungen für Fachleute möglich sind, ohne dabei den Rahmen der Erfindung zu verlassen.

Claims (28)

1. Verfahren zum Kompensieren der Verstärkung von Sprachsignalen zur Optimierung der Spracherkennungsqualität, welches Verfahren die folgenden Schritte umfaßt:
Empfangen von Sprachsignalen, die durch einen Audioverstärker (enhancer) verstärkt wurden, wobei der Verstärker Frequenzverstärkungsschwankungen der Sprachsignale einführt;
Umsetzen der verstärkten Sprachsignale in eine Frequenzbereich-Wiedergabe;
Kompensieren der Verstärkungsschwankungen, die durch den Verstärker auf die Sprachsignale übertragen wurden unter Verwendung der Frequenzbereich- Wiedergabe der verstärkten Sprachsignale; und
Berechnen von Merkmalen der verstärkten Sprachsignale nachdem sie durch den Kompensationsschritt kompensiert worden sind.
2. Verfahren nach Anspruch 1, ferner mit dem folgenden Schritt:
Vergleichen der Merkmale mit Erkennungsmodellen, die in einem Erkennungsspeicher abgespeichert sind.
3. Verfahren nach Anspruch 2, bei dem die Erkennungsmodelle unter Verwendung von Sprachsignalen, die durch den Verstärker nicht verstärkt worden sind, trainiert worden sind.
4. Verfahren nach Anspruch 1, bei dem die Schritte gemäß dem Umsetzen und Kompensieren das Berechnen von kompensierten mel-LPC-Koeffizienten umfassen, wobei der Schritt der Berechnung der kompensierten mel-LPC- Koeffizienten ferner die folgenden Schritte umfaßt:
Anheben der verstärkten Sprachsignale für eine spektrale Glättung;
Bilden von Blöcken der verstärkten Sprachsignale in aufeinanderfolgenden Rahmen von Sprach-Samples;
Multiplizieren von jedem der Rahmen mit einem Hamming-Fenster;
Transformieren von jedem Hamming-Fensterrahmen von zeitlichen Nachfrequenzbereich-Wiedergaben;
Filtern von jeder der Frequenzbereich-Wiedergaben vermittels eines Satzes von gewichteten mel-Filterbänken; und
Erzeugen von Autokorrelations-Koeffizienten aus den gefilterten Frequenz- Wiedergaben.
5. Verfahren nach Anspruch 4, ferner mit den folgenden Schritten:
Umsetzen der Autokorrelations-Koeffizienten in LPC-Koeffizienten; und
Berechnen der Cepstral-Parametern aus den LPC-Koeffizienten.
6. Verfahren nach Anspruch 4, bei dem die mel-Filterbänke unter einer spezifischen Frequenz gedämpft sind.
7. Verfahren nach Anspruch 6, bei dem die spezifische Frequenz angenähert 290 Hz beträgt.
8. System zum Kompensieren von verstärkten Sprachsignalen zum Optimieren der Spracherkennungsqualität, welches System aufweist:
einen Verstärker (enhancer) (107) für eine selektive Variation der Verstärkung von ausgewählten Frequenzen von zeitvariablen Sprachsignalen, die über einen Netzwerkpfad übertragen werden;
einen Empfänger (211) zum Empfangen der verstärkten Sprachsignale;
einen Frequenzbereich-Umsetzer (215) zum Umsetzen des verstärkten Sprachsignals, welches an dem Empfänger (211) empfangen wurde, in Frequenzbereich-Wiedergaben;
einen Kompensator (216) zum Empfangen der Frequenzbereich-Wiedergaben der Sprachsignale, die durch den Verstärker (107) verstärkt wurden, wobei der Kompensator (216) Verstärkungsvariationen der Frequenzbereich-Wiedergaben der Sprachsignale einführt, die über den Pfad übertragen wurden, um Verstärkungsschwankungen zu kompensieren, die durch den Verstärker (107) in die Sprachsignale eingeführt wurden; und
einen Merkmals-Computer (217) zum Berechnen von Merkmalen aus den kompensierten Frequenzbereich-Wiedergaben der verstärkten Sprachsignale.
9. System nach Anspruch 8, bei dem der Merkmals-Computer aus einem Cepstral- Merkmal-Computer besteht und bei dem das System ferner eine Erkennungseinrichtung aufweist, um die Cepstral-Merkmale von dem Cepstral- Merkmal-Computer zu empfangen.
10. System nach Anspruch 9, bei dem die Erkennungseinrichtung (204) die Merkmale mit Erkennungsmodellen vergleicht, die in dem Pfad unter Verwendung der Sprachsignale, die durch den Verstärker (107) nicht verstärkt wurden, trainiert worden sind, wobei die Erkennungsmodelle in einem Erkennungsspeicher (206) abgespeichert sind.
11. System nach Anspruch 8, bei dem der Kompensator (216) die Frequenzbereich- Wiedergaben der verstärkten Sprachsignale durch einen Satz von gewichteten mel-Filterbänken (216) hindurchschickt.
12. System, nach Anspruch 11, bei dem der Cepstral-Computer (217) Autokorrelationseffizienten aus den kompensierten Frequenzbereich- Wiedergaben generiert.
13. System nach Anspruch 12, bei dem der Cepstral-Computer (217) ferner die folgenden Operationen durchführt:
Umsetzen der Autokorrelationskoeffizienten in LPC-Koeffizienten; und
Berechnen der Cepstral-Merkmale aus den LPC-Koeffizienten.
14. System nach Anspruch 12, bei dem die mel-Filterbänke (216) unter einer spezifischen Frequenz gedämpft sind.
15. System nach Anspruch 14, bei dem die spezifische Frequenz etwa 290 Hz beträgt.
16. Verfahren nach Anspruch 5, bei dem das Verfahren unter Verwendung eines Computersystems ausgeführt wird, welches einen Speicher und wenigstens einen Prozessor enthält, wobei der Speicher mel-Filterbank-Wichtungswerte enthält.
17. Verfahren nach Anspruch 16, ferner mit dem folgenden Schritt:
Vergleichen der Merkmale mit Erkennungsmodellen, die in einem Erkennungsspeicher abgespeichert sind.
18. Verfahren nach Anspruch 17, bei dem die Erkennungsmodelle unter Verwendung von Sprachsignalen, die nicht verstärkt worden sind, trainiert worden sind.
19. Verfahren nach Anspruch 16, bei dem die Werte der mel-Filterbänke unter einer spezifischen Frequenz gedämpft sind.
20. Verfahren nach Anspruch 19, bei dem die spezifische Frequenz etwa 290 Hz beträgt.
21. Verfahren nach Anspruch 16, ferner mit dem folgenden Schritt:
Modifizieren der mel-Filterbank-Wichtungswerte, die in dem Speicher zum Kompensieren der Verstärkung der Sprachsignale gespeichert sind, durch einen zweiten Verstärker (enhancer), wobei der zweite Verstärker eine Verstärkung oder Erhöhung liefert, die von der Verstärkung oder Erhöhung des ersten Verstärkers (enhancer) verschieden ist.
22. Verfahren nach Anspruch 16, bei dem die mel-Filterbank-Wichtungswerte eine Kompensation für die Berechnung der Cepstral-Merkmale für die verstärkten Sprachsignale liefern.
23. Verfahren nach Anspruch 22, ferner mit dem folgenden Schritt:
Vergleichen der Merkmale mit Erkennungsmodellen, die in einem Erkennungsspeicher abgespeichert sind.
24. Verfahren nach Anspruch 23, bei dem die Erkennungsmodelle unter Verwendung von Sprachsignalen, die nicht erhöht oder verstärkt worden sind, trainiert worden sind.
25. System zum Erkennen von Sprachsignalen und zum Kompensieren von Netzwerkverstärkungen der Signale, mit:
einem Filter (215) zum Kompensieren einer Netzwerkverstärkungskomponente der verstärkten Sprachsignale;
einem Merkmal-Extraktor (202) zum Extrahieren von Merkmalen basierend auf gefilterten Sprachsignalen aus dem Filter; und
einer Spracherkennungseinrichtung (204) zum Erkennen der Sprachsignale auf der Grundlage der extrahierten Merkmale aus dem Merkmal-Extraktor (202).
26. System nach Anspruch 25, bei dem das Filter (215) einen Satz von selektiv gewichteten mel-Filterbänken aufweist.
27. System nach Anspruch 25, bei dem der Merkmal-Extraktor (202) eine Kombination aus einem linearen Vorhersage-Kodier-Analysierer und einem mel- Filter-Analysierer aufweist.
28. Verfahren nach Anspruch 1, bei dem der Schritt der Berechnung der Merkmal- Signale den Schritt der Generierung von Cepstral-Merkmalsignalen umfaßt, welche die verstärkten Sprachsignale charakterisieren, nachdem sie gemäß dem Kompensationsschritt kompensiert worden sind.
DE69616724T 1995-12-20 1996-12-17 Verfahren und System für die Spracherkennung Expired - Lifetime DE69616724T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/575,378 US5806022A (en) 1995-12-20 1995-12-20 Method and system for performing speech recognition

Publications (2)

Publication Number Publication Date
DE69616724D1 DE69616724D1 (de) 2001-12-13
DE69616724T2 true DE69616724T2 (de) 2002-04-25

Family

ID=24300085

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69616724T Expired - Lifetime DE69616724T2 (de) 1995-12-20 1996-12-17 Verfahren und System für die Spracherkennung
DE69635141T Expired - Lifetime DE69635141T2 (de) 1995-12-20 1996-12-17 Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69635141T Expired - Lifetime DE69635141T2 (de) 1995-12-20 1996-12-17 Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung

Country Status (5)

Country Link
US (1) US5806022A (de)
EP (2) EP1093112B1 (de)
JP (1) JP4050350B2 (de)
CA (1) CA2192397C (de)
DE (2) DE69616724T2 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2766604B1 (fr) * 1997-07-22 1999-10-01 France Telecom Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique
US6076058A (en) * 1998-03-02 2000-06-13 Lucent Technologies Inc. Linear trajectory models incorporating preprocessing parameters for speech recognition
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
US6151572A (en) * 1998-04-27 2000-11-21 Motorola, Inc. Automatic and attendant speech to text conversion in a selective call radio system and method
US6571393B1 (en) * 1998-05-27 2003-05-27 The Hong Kong University Of Science And Technology Data transmission system
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6658202B1 (en) * 1998-09-09 2003-12-02 Smartdisk Portable data transfer and mass storage device for removable memory modules
US6826528B1 (en) 1998-09-09 2004-11-30 Sony Corporation Weighted frequency-channel background noise suppressor
US6987927B1 (en) * 1998-09-09 2006-01-17 Smartdisk Corporation Enhanced digital data collector for removable memory modules
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
AU2297301A (en) * 1999-10-21 2001-04-30 Sony Electronics Inc. Method for implementing a noise suppressor in a speech recognition system
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP5150542B2 (ja) * 2009-03-26 2013-02-20 株式会社東芝 パターン認識装置、パターン認識方法、及び、プログラム
US8489632B1 (en) * 2011-06-28 2013-07-16 Google Inc. Predictive model training management
CN102723081B (zh) * 2012-05-30 2014-05-21 无锡百互科技有限公司 语音信号处理方法、语音和声纹识别方法及其装置
US9704478B1 (en) * 2013-12-02 2017-07-11 Amazon Technologies, Inc. Audio output masking for improved automatic speech recognition
CN107393554B (zh) * 2017-06-20 2020-07-10 武汉大学 一种声场景分类中融合类间标准差的特征提取方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60146399A (ja) * 1984-01-11 1985-08-02 松下電器産業株式会社 音声遠隔制御装置
CA1232686A (en) * 1985-01-30 1988-02-09 Northern Telecom Limited Speech recognition
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US4914692A (en) * 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
JPH02299360A (ja) * 1989-05-12 1990-12-11 Toshiba Corp 音声認織装置
US5195132B1 (en) * 1990-12-03 1996-03-19 At & T Bell Lab Telephone network speech signal enhancement
JP3354252B2 (ja) * 1993-12-27 2002-12-09 株式会社リコー 音声認識装置
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition

Also Published As

Publication number Publication date
EP0780828B1 (de) 2001-11-07
DE69616724D1 (de) 2001-12-13
CA2192397A1 (en) 1997-06-21
EP1093112A3 (de) 2002-02-06
EP1093112A2 (de) 2001-04-18
DE69635141D1 (de) 2005-10-06
EP0780828A3 (de) 1998-12-30
US5806022A (en) 1998-09-08
EP0780828A2 (de) 1997-06-25
DE69635141T2 (de) 2006-03-09
EP1093112B1 (de) 2005-08-31
JP4050350B2 (ja) 2008-02-20
MX9606483A (es) 1997-09-30
CA2192397C (en) 2001-04-03
JPH09179585A (ja) 1997-07-11

Similar Documents

Publication Publication Date Title
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
EP1091349B1 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE10030105A1 (de) Spracherkennungseinrichtung
EP0747880B1 (de) Spracherkennungssystem
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
EP0669606B1 (de) Verfahren zur Geräuschreduktion eines gestörten Sprachsignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition