DE69616724T2 - Verfahren und System für die Spracherkennung - Google Patents
Verfahren und System für die SpracherkennungInfo
- Publication number
- DE69616724T2 DE69616724T2 DE69616724T DE69616724T DE69616724T2 DE 69616724 T2 DE69616724 T2 DE 69616724T2 DE 69616724 T DE69616724 T DE 69616724T DE 69616724 T DE69616724 T DE 69616724T DE 69616724 T2 DE69616724 T2 DE 69616724T2
- Authority
- DE
- Germany
- Prior art keywords
- speech signals
- amplified
- speech
- recognition
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 49
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000003321 amplification Effects 0.000 claims description 14
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 14
- 239000003623 enhancer Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000002238 attenuated effect Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000033458 reproduction Effects 0.000 claims 4
- 230000004044 response Effects 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Character Discrimination (AREA)
Description
- Die Erfindung betrifft ein Verfahren zum Kompensieren der Verstärkung von Sprachsignalen, um die Spracherkennungsqualität zu optimieren, gemäß Anspruch 1. Darüber hinaus betrifft die Erfindung auch ein System zum Kompensieren der Verstärkung von Sprachsignalen, um die Spracherkennungsqualität zu optimieren, gemäß den Ansprüchen 8 und 25.
- Sprachsignale, die über ein Telekommunikationsnetzwerk übertragen werden wie beispielsweise ein Großentfernungs-Nachrichtenaustauschnetzwerk, können häufig akustisch durch unbekannte variable Bedingungen beeinflußt werden. Diese Bedingungen können in signifikanter Weise die Qualität eines automatischen Spracherkennungssystems (ASR) verschlechtern, welches in typischer Weise in solch einem Netzwerk enthalten ist. Solche Bedingungen können beispielsweise Umgebungsstörgeräusche, Kanalinterferenz und die Verwendung unterschiedlicher Schall-Detektionsausrüstungen umfassen.
- Ein typisches ASR System führt eine Spracherkennung dadurch aus, indem es übereinstimmende Merkmalsdaten, welche repräsentativ für übertragene Sprachsignale sind, mit Datenmustern vergleicht, welche repräsentativ für phonetische Einheiten sind, die als Trainings-Erkennungsmodelle bekannt sind. Die Erkennungsmodelle werden in typischer Weise durch Überwachen der Übertragung von vorbestimmten Sprachsignalen erhalten, die bekannte phonetische Eigenschaften haben und zwar über den gleichen Netzwerk-Verbindungspfad wie derjenige der aktuellen Sprachsignale, wie beispielsweise solche, die während einer Telefonkonversation auftreten, die dann zu einem ASR System gesendet werden.
- In vielen Fällen kann das Vorhandensein von unbekannten variablen Bedingungen oder Zuständen in einem Netzwerkpfad zu akustischen Fehlübereinstimmungen zwischen den Erkennungsmodellen und den Testdaten führen. Diese akustischen Fehlübereinstimmungen können eine Verschlechterung der Spracherkennungsqualität verursachen.
- Akustische Fehlübereinstimmungen können leicht beispielsweise dann auftreten, wenn die über einen Netzwerkpfad übertragenen Sprachsignale zur Verbesserung der Sprachqualität der menschlichen Wahrnehmung verstärkt werden. Wenn eine solche Verstärkung (enhancement) oder Anhebung auftritt, kann die Spracherkennungsqualität suboptimal sein und zwar dort, wo die Erkennungsmodelle, die bei der Spracherkennungsverarbeitung verwendet werden, nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad nicht trainiert worden sind, der ähnliche Sprachsignal- Verstärkungsschaltungen enthält. Gegenwärtige Sprachsignal-Verarbeitungstechniken, die versuchen eine Robustheit des ASR Systems hinsichtlich der übereinstimmenden Merkmale zu liefern, die für die detektierten Sprachsignale repräsentativ sind und zwar Übereinstimmung mit Erkennungsmodellen, kompensieren in typischer Weise nicht ausreichend akustische Fehlübereinstimmungen, die in der oben geschilderten Weise resultieren können.
- Aus der EP-A-0 674 306 ist ein Signalvorspann-Beseitigungsverfahren (SBR) bekannt, welches auf einer maximalen Wahrscheinlichkeitsschätzung der Vorspannung für minimierte unerwünschte Effekte bei Spracherkennungssystemen basiert. Dieses bekannte Verfahren umfaßt die folgenden Schritte:
- Trainieren des Spracherkennungssystems durch Anwenden der folgenden Schritte:
- (a) Erzeugen eines Satzes von Zentroiden basierend auf einem Trainings- Sprachsignal;
- (b) Berechnen einer Schätzgröße der Vorspannung für das Trainings-Sprachsignal basieren auf einer Maximierung einer Wahrscheinlichkeitsfunktion;
- (c) Subtrahieren der Schätzgröße der Vorspannung (bias) von dem Trainings- Sprachsignal, um einen tentativen Trainings-Sprachwert zu erhalten;
- (d) Wiederholen der Schritte (b) und (c) eine vorbestimmte Anzahl von Malen, wobei jeder nachfolgende berechnete Schätzwert der Vorspannung auf dem früheren tentativen Trainings-Sprachwert basiert, um an einem reduzierten Vorspannungs- Trainingssprachsignal anzukommen bzw. diesen zu erreichen;
- (e) erneutes Berechnen der Schwerpunkte basierend auf dem reduzierten Vorspann-Trainingssprachsignäl, um einen neuen Satz von Schwerpunkte zu generieren;
- (f) Wiederholen der Schritte (b) bis (e) eine vorbestimmte Anzahl von Malen, um ein verarbeitetes reduziertes Vorspann-Sprachsignal zu berechnen, und um einen optimalen Satz von Schwerpunkten zu bilden;
- (g) Verwenden des optimalen Satzes der Schwerpunkte und des verarbeiteten reduzierten Vorspann-Sprachsignals als Trainings-Eingangsgröße für einen Sprach- Erkenner;
- Testen eines Eingangs-Sprachsignals, um die unbekannte Vorspannung zu minimieren und zwar durch Anwenden der folgenden Schritte;
- (h) Verwenden des optimalen Satzes der Schwerpunkte, um einen Schätzwert der Vorspannung für jede Äußerung des Sprachsignals zu berechnen, basierend auf einer Maximierung einer Wahrscheinlichkeitsfunktion;
- (i) Subtrahieren der Schätzgröße der Vorspannung von dem Sprachsignal, um einen tentativen Sprachwert zu erhalten;
- (j) Wiederholen der Schritte (h) und (i) eine vorbestimmte Anzahl Malen, wobei jede nachfolgend berechnete Schätzgröße des Vorspannwertes auf dem früheren tentativen Sprachsignal basiert, was dann zu einem reduzierten Vorspann- Sprachsignalwert führt; und
- Verwenden des reduzierten Vorspann-Sprachsignals als Eingangsgröße in einen Sprach-Erkenner.
- Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren und ein System anzugeben, welches die Fähigkeit besitzt die Spracherkennungsqualität zu verbessern.
- Gemäß dem Verfahren nach der vorliegenden Erfindung wird diese Aufgabe durch die Merkmale des Anspruches 1 gelöst.
- Verbesserte Ausführungsformen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen 2 bis 7, 16 bis 24 und 28.
- Die oben genannte Aufgabe wird ebenso mit Hilfe eines Systems der Erfindung nach den Ansprüchen 8 und 25 gelöst.
- Verbesserte Ausführungsformen des erfindungsgemäßen Systems ergeben sich aus den Unteransprüchen 9 bis 15, 26 und 27.
- Gemäß der vorliegenden Erfindung werden Informationen dazu verwendet, um eine Kompensation zu realisieren, die eine höhere Robustheit hinsichtlich der Spracherkennungsqualität in Netzwerken mit Verstärkung bzw. Anhebung liefert und zwar dort, wo beispielsweise Erkennungsmodelle nicht erzeugt worden sind oder auf einem Netzwerkverbindungspfad nicht trainiert worden sind, der ähnliche Anhebungs- oder Verstärkungsschaltungen enthält. Die verwendeten Informationen beziehen sich auf Spektraleffekte der Anhebung oder Verstärkung bei den Sprachsignalen während der Übertragung über einen Netzwerk-Verbindungspfad.
- Bei einem Aspekt der vorliegenden Erfindung wird die Sprachsignalverstärkung während der Durchführung der Merkmalsextraktionsverarbeitung am Frontende eines Spracherkennungssystems kompensiert, welches einen Merkmalsextrahierer und einen Spracherkenner enthält. Der Merkmalsextrahierer berechnet Cepstral-Merkmale der verstärkten Sprachsignale unter Verwendung einer Kombination einer linearen Vorhersage-Kodierung (LPC) und einer Mel-Filter-Analyse. Der Extrahierer kompensiert die Verstärkung an den zeitvariablen Sprachsignalen nachdem sie auf eine Frequenzdomäne-Repräsentation transformiert wurden.
- Ein Aspekt des erfindungsgemäßen Verfahrens sieht vor, daß erstens die zeitvariablen verstärkten Sprachsignale gesampelt werden. Diese Samples werden in Rahmen gesammelt und werden dann von der Zeit in Frequenzdomäne- Repräsentationen unter Verwendung der Fourier-Transformation umgewandelt. Dann wird das Energiespektrum für jeden Rahmen einer selektiven gewichteten Mel- Filterbankverarbeitung unterzogen, wobei die Wichtungen selektiv den Effekt der Anhebung oder Verstärkung der spektralen Eigenschaften der Sprachsignale kompensieren. Anschließend werden die Cepstral-Merkmale dadurch erhalten, indem Autokorrelations-Koeffizienten aus den spektralen Repräsentationen der kompensierten verstärkten Sprachsignale berechnet werden, und indem dann die LPC Analyse und die Cepstral-Rekursion durchgeführt werden.
- Weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich unmittelbar für einen Fachmann aus der folgenden detaillierten Beschreibung und den anhängenden Zeichnungen.
- Fig. 1 veranschaulicht ein Blockschaltbild eines verbesserten Telekommunikationsnetzwerks, welches zur Durchführung von Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der vorliegenden Erfindung geeignet ist.
- Fig. 2 zeigt ein veranschaulichendes Blockschaltbild eines Sprachsignalprozessors, der in dem System von Fig. 1 enthalten sein kann, um eine Spracherkennung durchzuführen, indem die Mel-LPC-Cepstral-Merkmale der verstärkten Sprachsignale gemäß der vorliegenden Erfindung berechnet werden.
- Fig. 3 ist ein veranschaulichendes Blockschaltbild eines als Beispiel gewählten Kompensationsmerkmal-Extrahierers:
- Fig. 4 ist ein Flußdiagramm eines Verfahrens zur Durchführung einer Spracherkennung gemäß der vorliegenden erfinderischen Technik der Berechnung der Mel-LPC-Cepstrum-Merkmale der verstärkten Sprachsignale.
- Fig. 1 zeigt ein Blockschaltbild eines als Beispiel gewählten Telekommunikationsnetzwerks 100, welches für die Durchführung einer Spracherkennungsverarbeitung an verstärkten Sprachsignalen gemäß der Technik nach der vorliegenden Erfindung geeignet ist.
- Gemäß Fig. 1 kann das Netzwerk 100 in geeigneter Weise eine Vielzahl von Gesprächsgebühr-Ämtern umfassen wie beispielsweise die Gesprächsgebühr-Ämter 105 und 110, die miteinander verbunden sein können und zwar in irgendeiner einer Vielfalt von gut bekannten Arten, um Groß-Sprach- und Daten-Verbindungen für deren Teilnehmer zu liefern wie beispielsweise Telephonteilnehmer, die den Stationseinheiten oder Sätzen 51 und 52 zugeordnet sind. Ein örtliches zentrales Amt 50 verbindet die Station S1 mit dem Gesprächsgebühren-Amt 105, und ein örtliches Zentralamt 75 verbindet die Station S2 mit dem Gesprächsgebühren-Amt 110.
- Das Netzwerk 100 kann ferner eine Sprachanhebungsvorrichtung oder einen Verstärker 107 enthalten und zwar in dem Verbindungspfad zwischen den Gesprächsgebühren-Ämtern 105 und 110 zum Anheben der Qualität der Sprachsignale, bevor diese von einem Teilnehmer empfangen werden wie beispielsweise einem Telephonbenutzer. Beispielsweise kann der Verstärker 107 eine geeignete Schaltungsanordnung enthalten wie beispielsweise eine Echo- Beseitigungsschaltungsanordnung oder irgendeine andere Schaltungsanordnung, um den Energiewert der Sprachsignale zu erhöhen oder abzusenken. Siehe hierzu das U.S. Patent 5 195 132 für eine detailliertere Beschreibung der Implementierung der Sprachsignalanhebung in einem Netzwerk, welches das Erhöhen der Energiepegel der ausgewählten Frequenzen involviert.
- Gemäß der vorliegenden Erfindung ist ein Sprachsignalprozessor 102 zusätzlich in dem Netzwerkverbindungspfad enthalten, um Sprachsignale von dem Verstärker 107 zu empfangen, und um eine Sprachsignalerkennungssignalverarbeitung durchzuführen, inklusive einer Merkmalsextrahierung, wie dies noch weiter unten vollständiger beschrieben wird. Eine Telephonverbindung von der Station S1 zu der Station S2 wird in geeigneter Weise über das örtliche zentrale Amt 50, das Gesprächsgebühren-Amt 105, den Enhancer 107, den Prozessor 102, das Gesprächsgebühren-Amt 110 und das örtliche Zentralamt 75 gemäß den herkömmlichen Techniken hergestellt, die im folgenden nicht weiter beschrieben werden. Es sei darauf hingewiesen, daß das Netzwerk 100 aus irgendeinem gut bekannten Telekommunikationsnetzwerk bestehen kann wie beispielsweise dem AT&T Netzwerk.
- Bei den herkömmlichen Telekommunikationsnetzwerken, ist die Berechnung von Parametern, die als Merkmale zum Charakterisieren von zeitvariablen Sprachsignalen bekannt sind, hoch empfindlich gegenüber der Einführung von akustischen Schwankungen der Sprachsignale durch beispielsweise eine Sprachsignalanhebung oder Verstärkung. Dieser Zustand traf speziell für die Berechnung von bevorzugten Merkmalen wie beispielsweise den Cepstral-Merkmalen zu. Als ein Ergebnis hat das Einschließen oder Einführen solch einer Sprachsignalanhebung in einem Netzwerkverbindungspfad ernsthaft die Qualität der automatischen Spracherkennungsverarbeitung (ASR) verschlechtert, bei der die Erkennungsmodelle, die dazu verwendet werden, um Merkmalsdaten zur Übereinstimmung zu bringen, welche repräsentativ für die übertragenen Sprachsignale sind, auf einem Netzwerkpfad trainiert wurden, der keine ähnliche oder identische Sprachsignal- Verstärkungsschaltungsanordnung enthielt.
- Gemäß der vorliegenden Erfindung arbeitet der Prozessor 102, der in dem Netzwerk 100 enthalten ist, in geeigneter Weise derart, um die Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen Sprachsignalen durchgeführt wird, die durch den Sprachsignal-Verstärker 107 angehoben oder verstärkt worden sind bevor sie weiter zu der ASR-Verarbeitungsvorrichtung geroutet wurden wie beispielsweise zu dem Prozessor 102. Der Prozessor 102 führt im wesentlichen Anhebungs-Kompensationsoperationen durch, die die verbesserte Robustheit der Cepstral-Merkmal-gestützten Spracherkennungsverarbeitung verbessern. Alternativ kann der Prozessor 102 in dem Netzwerk 100 in Einklang mit der Technik nach der vorliegenden Erfindung arbeiten, um Fehlerwerte zu minimieren, wenn die Spracherkennung an übertragenen Signalen durchgeführt wird, die vor ihrer Zuleitung zu dem Prozessor 102 nicht angehoben oder verstärkt wurden oder durch einen Enhancer angehoben oder verstärkt worden sind, der eine Anhebung oder Verstärkung bei den Sprachsignalen einführt, die von der Anhebung oder Verstärkung verschieden ist, die durch den Prozessor 102 kompensiert wird. Zum Zwecke der Veranschaulichung sei angenommen, daß die Erkennungsmodelle, die bei der Durchführung der Merkmalsanpassung verwendet werden und zwar während der Spracherkennungsverarbeitung bei dem Prozessor 102 über einen Netzwerkpfad trainiert worden sind, der keine Sprachsignalanhebungs- oder Verstärkungsschaltungsanordnung enthält.
- Zum Zwecke der Veranschaulichung sei angenommen, daß der Verstärker 107 eine Sprachsignalanhebung hinsichtlich der Sprachsignale einführt, die von der Station S1 zu der Station S2 übertragen werden und zwar während der Lenkung der Signale durch das Netzwerk zum Prozessor 102. Es sei angenommen, daß in Verbindung mit den übertragenen Sprachsignalen, die zu dem Prozessor 102 geleitet worden sind, die durch den Verstärker 107 angehoben wurden, Informationen hinsichtlich der Natur der Anhebung oder Verstärkung zum Zwecke der Implementierung an dem Prozessor 102 verfügbar sind und zwar in einer Weise, die weiter unten beschrieben wird, um eine geeignete Kompensation für die Anhebung oder Verstärkung vorzunehmen.
- Zum Zwecke der Klarheit und Kürze wird eine Kenntnis der Spracherkennungsverarbeitungstechniken angenommen, die die Verwendung einer linearen Vorhersagekodierung (LPC) und einer Mel-Filteranalyse zum Extrahieren von Cepstral-Merkmalen aus den Daten involviert, die für die spektralen Charakteristiken der Sprachsignale repräsentativ sind. Siehe Rabiner, Lawrence and Juang, Bung- Hwang, "Fundamentals of Speech Recognition" (1993), Seiten 103-107, 112-117 und 183-190. Um es kurz auszudrücken so involviert die LPC Verarbeitung das Extrahieren von Merkmalen aus den Sprachsignalen durch Ursprungstraktat-Separation und Modellierung von spektralen Spitzen als eine lineare Kombination vergangener Sprachproben. Die Mel-Filteranalyse involviert das Extrahieren von Merkmalen aus Sprachsignalen basierend auf der Kenntnis der menschlichen Wahrnehmung von akustischen spektralen Komponenten der Sprachsignale, indem in vorteilhafter Weise das komplette Spektrum der Sprachsignale in Ausdrücken einer subjektiven Steigung (pitch) von reinen Tönen bei sogenannten Mel-Skalen-Intervallen gesampelt wird. Diese Mel-Skalen-Intervallwerte werden in herkömmlicher Weise als Filterbänke implementiert, die als Mel-Filterbänke bekannt sind, um in geeigneter Weise spektrale Komponenten der Sprachsignale zu modifizieren, um die Gesamt-Spracherkennung zu verbessern.
- Bei einem Aspekt der vorliegenden Erfindung wird die LPC Analyse mit der Mel- Filterbank-Analyse kombiniert, um Cepstral-Merkmale zu berechnen, welche die Einführung einer Anhebung oder Verstärkung an den übertragenen Sprachsignalen kompensieren, wobei die Kompensation dann implementiert wird, wenn die angehobenen oder verstärkten Sprachsignale in geeigneter Weise in die Frequenz- Domäne-Repräsentation transformiert worden sind. Wie dies noch vollständiger weiter unten beschrieben wird, umfaßt die Berechnung der Mel-LPC-Kepstrum-Merkmale eine Mel-Filterbank-Analyse gefolgt von der LPC Analyse, bei der Autokorrelationskoeffizienten auf der Grundlage einer perzeptualen Frequenzskala berechnet werden und bei der eine Glättung des Energiespektrums unter Anwendung der LPC Techniken durchgeführt wird. Zum Zwecke der Veranschaulichung enthält der Verstärker 107 eine Anhebungs-Schaltungsanordnung ähnlich derjenigen, die in dem U.S. Patent 5 195 132 beschrieben ist, die oben angegeben wurde (im folgenden als TrueVoicesm-Anhebung bezeichnet), um Sprachsignale anzuheben, die zu dem Prozessor 102 von der Station S1 zugeführt werden und wobei die Spracherkennungsverarbeitung an dem Prozessor 102 durchgeführt wird unter Heranziehung von Erkennungsmodellen, die unter Verwendung der Sprachsignale trainiert wurden, die nicht angehoben oder verstärkt worden sind.
- Fig. 2 zeigt eine beispielhafte Ausführungsform des Prozessors 102, der arithmetische Operationen durchführen kann, um die Mel-LPC-Cepstrum-Merkmale zu berechnen, um eine hoch robuste Spracherkennung an Sprachsignalen vorzunehmen, die durch die TrueVoicesm-Anhebung bei dem Verstärker 107 angehoben oder verstärkt wurden. Gemäß Fig. 2 enthält der Prozessor 102 in geeigneter Weise einzelne Funktionsblöcke zur Durchführung der Mel-Cepstral-Berechnungen und der Merkmalsanpassung in Verbindung mit den übertragenen oder gesendeten Sprachsignalen, welche die Anhebung enthalten oder keine Anhebung aufweisen. Die Funktionen, die durch diese Blöcke wiedergegeben werden, können durch die Verwendung von entweder einer gemeinsam verwendeten oder getrennt verwendeten Hardware geliefert werden und zwar inklusive, jedoch nicht beschränkt auf eine Hardware, welche eine Software ausführen kann. Bei einer bevorzugten Ausführungsform umfassen die Funktionsblöcke in dem Prozessor 102 einen Kompensiermerkmal-Extrahierer 202 und einen Recognizer 204, die einen Trainings- Erkennungsmodell-Speicher 206 in Form eines RAM enthalten. Der Extrahierer 202 und der Recognizer 204 sind in geeigneter Weise an einen Speicher 208 angeschlossen. Der Speicher 208 enthält programmierte Befehle, die in geeigneter Weise ausgeführt werden können, um die vorliegende erfinderische Technik zu implementieren. Wie weiter unten erläutert wird, liefern die Funktionsblöcke des Extrahierers 202 und des Recognizers 204 die Verarbeitung der Sprachsignale, die über das Gesprächgebühren- Amt 105 oder 110 gesendet werden und zwar entsprechend der Implementierung der Technik nach der vorliegenden Erfindung. Es sei auch darauf hingewiesen, daß die Operationen, die durch die Funktionsblöcke durchgeführt werden, in ähnlicher Form unter Verwendung eines einzelnen gemeinsam verwendeten Prozessors ausgeführt werden können. Solch ein Prozessor kann einen Standard-Digitalsignalprozessor umfassen und würde einen Nur-Lese-Speicher oder einen anderen geeigneten Speicher enthalten, um die Software zu speichern, und um die Operationen durchzuführen, die weiter unten erläutert werden. Ferner kann die Technik nach der vorliegenden Erfindung unter Verwendung einer Firmware oder vermittels diskreter Komponenten implementiert werden, die in einer integrierten Schaltung realisiert sind. Andere geeignete Ausführungsformen können unmittelbar von Fachleuten implementiert werden. Obwohl beispielsweise, wie dies in Fig. 2 gezeigt ist, der Kompensationsmerkmal-Extrahierer 202 so angeschlossen ist, daß er seine Eingangsgröße von dem Verstärker 107 empfängt, kann er auch direkt an ein Gebühren- Amt wie beispielsweise das Amt 105 angeschlossen werden, ohne daß irgendeine Anhebung dazwischen wirksam wird.
- Fig. 3 zeigt in Einzelheiten eine beispielhafte Ausführungsform des Extrahierers 202, der die Operationen durchführen kann, um eine Anhebung der Sprachsignale zu kompensieren, die weiter unten in Verbindung mit Fig. 4 beschrieben werden. Gemäß Fig. 3 kann der Extrahierer 202 in geeigneter Weise einen Empfänger 211, einen Vorverzerrer (preemphasizer) 212, einen Rahmen-Blockierer 213, einen Hamming- Multiplizierer 214, einen Frequenzdomäne-Konverter 215, einen Kompensator 216 und einen Cepstral-Merkmal-Computer 217 aufweisen. Diese Funktionsblöcke führen in geeigneter Weise Operationen durch, um die Technik nach der vorliegenden Erfindung zu implementieren, wie dies noch weiter unten in Verbindung mit Fig. 4 vollständig erläutert wird. Es sei darauf hingewiesen, daß die an jedem dieser Funktionsblöcke durchgeführten Operationen unter Verwendung einer Kombination aus Software und/oder Hardware als auch Verwendung von Hardware alleine implementiert werden können.
- Gemäß Fig. 2 besteht der Kompensationsmerkmal-Extrahierer 202 im wesentlichen aus einem Frontende-Prozessor in einem ASR System, welches Operationen durchführt, um die Mel-LPC Cepstral-Merkmale der zeitlich variablen Sprachsignale zu berechnen, die von dem Gesprächsgebühren-Amt 105 ausgeroutet wurden basierend auf den spektralen oder Frequenzdomäne-Repräsentationen der Eigenschaften dieser Signale. Die Mel-LPC Cepstral-Merkmale, die letztendlich durch den Cepstral-Merkmal-Computer 217 des Extrahierers 202 berechnet werden, beschreiben die breiten akustischen Eigenschaften der unterschiedlichen phonetischen Einheiten, die in herkömmlicher Weise für die Spracherkennung verwendet werden. Insbesondere kombiniert der Kompensator 216 und der Cepstral-Merkmal-Computer 217 die LPC- und Mel-Filterbank-Analyse, um einen Satz von kompensierten Cepstral- Merkmalen zu berechnen, die für die gesendeten Sprachsignale repräsentativ sind, die dafür sorgen, daß die ASR Verarbeitung in dem Netzwerk 100 durch den Recognizer 204 im wesentlichen unempfindlich gegenüber akustischen Schwankungen ist, die durch die Anhebung oder Verstärkung verursacht werden, die Mel-LPC Cepstral- Merkmale werden dem Recognizer 204 angeboten, der diese dann mit den Erkennungsmodellen vergleicht, die in dem Speicher 206 abgespeichert sind, um das beste Wort oder Sequenz von Wörtern zu bestimmen, welches bzw. die mit der phonetischen Einheit übereinstimmt, die durch die berechneten Merkmale wiedergegeben wird. Ein geeigneter Recognizer kann beispielsweise das gut bekannte versteckte Markov-Modell (HMM) verwenden, welches auf den Erkennungstechniken basiert.
- Es sei darauf hingewiesen, daß eine gewisse Vorkenntnis der eingeführten Anhebung oder Verstärkung wie beispielsweise der TrueVoicesm-Anhebung erforderlich ist, um die Kompensation hinsichtlich der Anhebung durchzuführen unter Verwendung der Frequenzdomäne, die für die Sprachsignale repräsentativ ist entsprechend der Technik nach der vorliegenden Erfindung. Diese Informationen können allgemein der Öffentlichkeit zur Verfügung stehen. Alternativ können Informationen, welche die Anhebung oder Verstärkung betreffen, beispielsweise unter Verwendung von Standard-Techniken gemäß einem empirischen Samplevorgang der Sprachsignale bestimmt werden, die über den Netzwerkverbindungspfad übertragen werden, der eine Sprachsignal-Anhebungs-Schaltungsanordnung enthält. Im Vergleich dazu erforderten die herkömmlichen Techniken der Cepstral-Mittelwertsubtraktion und der Signalvorspann-Beseitigung keine Vorkenntnis der akustischen Schwankungen in den Sprachsignalen und werden daher als auf einer blinden Entwindung basierende Techniken betrachtet.
- Fig. 4 zeigt ein Verfahren 220 zum Berechnen von Mel-LPC Cepstrum- Merkmalen von angehobenen zeitvariablen Sprachsignalen an den Kompensations- Merkmal-Extrahierer 202 des Prozessors 102 unter Verwendung der als Beispiel genannten Funktionsblöcke, die in Fig. 3 gezeigt sind. Zum Zwecke der Veranschaulichung sei angenommen, daß die Sprachsignale digitalisiert sind und zwar in bevorzugter Weise bei einer 8,0 kHz Rate zum Emulieren eines digitalen Telephonnetzwerks bevor sie zu dem Extrahierer 202 geroutet werden. Gemäß Fig. 4 empfängt bei dem Schritt 222 der Empfänger 211 die angehobenen Sprachsignale von dem Verstärker 107. Dann bei dem Schritt 224 verarbeitet der Vorverzerrer (preemphasizer) 212 die digitalisierten Sprachsignalproben, um eine spektrale Glättung zu erzeugen. Die Vorverzerrung wird in geeigneter Weise unter Verwendung von beispielsweise eines herkömmlichen digitalen Netzwerks erster Ordnung durchgeführt. Bei dem Schritt 226 sammelt der Rahmenblocker 213 die Sprachsignalproben in Rahmen oder bildet Blöcke aus diesen. Ein einzelner Rahmen besteht aus Abschnitten von aufeinanderfolgenden Sprachproben, die n msec des Signals entsprechen und es sind aufeinanderfolgende Rahmen um n msec voneinander beabstandet. Bei dem Schritt 228 multipliziert der Hamming-Multiplizierer 214 jeden Rahmen der Proben durch ein Hamming-Fenster wie dies beim Sand der Technik üblich ist. Bei dem Schritt 230 führt der Frequenzdomäne-Konverter 215 eine Fourier-Transformation an jedem im Fenster erscheinenden Segment der Sprache durch, um einen Satz von Spektralproben zu generieren, die den angehobenen Sprachsignalen entsprechen, die bei dem Empfänger 211 empfangen werden.
- Bei dem Schritt 232 verarbeitet der Kompensator 216 jeden Rahmen, um das Energiespektrum für jeden Rahmen der Spektralproben zu veranlassen durch einen Satz von M Mel-Filterbänke hindurch zu laufen und dieser kann in geeigneter Weise eine dreieckförmige Gestalt haben. Die Mel-Filterbänke sind in geeigneter Weise gewichtet, um Effekte zu kompensieren, die die Anhebung auf die Berechnung der Cepstral- Merkmale der übertragenen Sprachsignale haben kann. Mit anderen Worten werden die Effekte der Anhebung oder Verstärkung der Sprachsignale bei dem Kompensator 216 kompensiert, der Operationen an den Frequenzdomäne-Wiedergaben der angehobenen oder verstärkten Sprachsignale durchführt. Es sei darauf hingewiesen, daß die Mel-LPC Cepstrum-Berechnung dazu beiträgt, daß die Verstärkung von jedem Spektralband vollständig gesteuert werden kann. Dies erlaubt eine Kompensation der Sprachsignalanhebung einfach dadurch, indem eine Wichtungsfunktion bei den Mel- Filterbänken vorgenommen wird. Beispielsweise wird eine Kompensation der Sprachsignalanhebung dadurch ausgeführt, indem eine ideale Hochpaßfilterung implementiert wird, indem solche unerwünschten Mel-Filterbänke einer Nachentzerrung oder Höhenabsenkung (de-emphasizing) vor der Berechnung der Cepstral-Merkmale aus der Frequenzdomäne-Repräsenttion der Sprachsignale unter Verwendung der LPC Techniken vorgenommen wird. Diese Wichtung von Datenwert-Koeffizienten in der Spektraldomäne ist extrem vorteilhaft und sorgt für die Berechnung von kompensierten Cepstral-Merkmalen der angehobenen Sprachsignale, die in geeigneter Weise an Erkennungsmodelle angepaßt werden können, die nicht trainiert wurden und zwar unter Verwendung der angehobenen Sprachsignale. Es sei darauf hingewiesen, daß die Cepstral-Merkmale, wenn sie einmal berechnet wurden, in einer analogen Weise nicht gewichtet werden können. Es sei ferner darauf hingewiesen, daß solch eine Verarbeitung der angehobenen Sprachsignale grob angenähert werden kann, indem die angehobenen Sprachsignale gefiltert werden während sie sich noch in ihrer Zeitdomäne- Repräsentation befinden.
- Bei der als Beispiel gewählten Ausführungsform des Netzwerks 100, bei dem eine TrueVoicesm-Anhebung hinsichtlich der Sprachsignale durch den Verstärker 107 eingeführt wird, werden Informationen, welche die Eigenschäften der True-Voicesm- Anhebung betreffen dazu verwendet, um die Wichtungen zu bestimmen, die bei den Mel-Filterbänken des Kompensators 216 angewendet werden. Anhand von experimentellen Analysen wurde festgestellt, daß die True-Voicesm-Anhebung einen Filtervorgang der Sprachsignale involviert hat unter Verwendung eines Preemphasis- Filters (p-Filters) und Anwenden eines langsam variierenden AVC (automatischer Volumen-Controller) an den Signalen und zwar dort, wo das p-Filter einen 10-20 dB Spektral-Pol einführt und zwar irgendwo in dem Frequenzband zwischen 150 Hz und 220 Hz. In diesem Fall würden die Mel-Filterbänke die gewünschte Hochpaßfilterung implementieren und zwar in der Frequenzdomäne, was dann zu einer Modifikation der berechneten Cepstrum-Merkmale führen würde und somit die Robustheit der Spracherkennungsqualität in Richtung auf einen niederfrequenten Powerbootingvorgang (Leistungshochtreibvorgang) verbessert. Beispielsweise kann Mel-Filterbänken mit einer Frequenz unter 290 Hz eine Wichtung von Null zugeordnet werden und Filterbänken mit Frequenzen oberhalb von 290 Hz kann eine Wichtung der Einheit zugeordnet werden. Mit anderen Worten wird die Wirkung der TrueVoicesm- Anhebung in Verbindung mit der Sprachsignalerkennung dadurch minimiert werden, indem die Niederfrequenz-Mel-Spektralbänder nachentzerrt werden (de-emphasizing), die bei der Berechnung des Mel-LPC-Cepstrums verwendet werden. In bevorzugter Weise kann ein Schwellenwert von 290 Hz implementiert werden und zwar derart, daß die Mel-Bank-Frequenzbänder unterhalb dieser Schwelle während der Berechnung des Cepstrums nicht in Betracht gezogen werden. Diese Mel-LPC-Cepstrumverarbeitung kann als eine ideale Hochpaßfilterung betrachtet werden, bei der die Niederfrequenzbänder bis 290 Hz schwer gedämpft sind.
- Gemäß Fig. 4 führt der Cepstral-Merkmal-Computer 217 bei dem Schritt 234 eine IDCT (inverse diskrete Kosinus-Transformation) durch und zwar in Verbindung mit dem geglätteten Energiespektrum, um Q-Autokorrelationskoeffizienten zu liefern, wobei Q in geeigneter Weise auf 12 gesetzt wird. Bei dem Schritt 236 konvertiert der Cepstral-Merkmal-Computer 217 jeden Satz der Autokorrelationskoeffizienten zuerst in LPC Koeffizienten und zwar unter Verwendung von beispielsweise dem Durbinschen Rekursionsalgorithmus, und dann in Cepstralparameter unter Verwendung der Standard LPC-Zu-Cepstrum-Rekursion. Das Abmaß oder Größe des Cepstralvektors wird in geeigneter Weise auf U gesetzt. Schließlich bei dem Schritt 238 versucht der Recognizer 204 die Erkennungsmodelle, die in dem Modellspeicher 206 gespeichert sind, in Übereinstimmung mit den berechneten Cepstral-Merkmalen zu bringen und zwar für die kompensierten angehobenen Sprachsignale, und liefert Daten, die für die Merkmalsübereinstimmungsoperationen repräsentativ sind, um einen weiteren Routing- Vorgang zu der Station S2 durchzuführen, wie dies auf dem Gebiet üblich ist.
- Es sei darauf hingewiesen, daß die Berechnungstechnik für das Mel-LPC- Cepstrum-Merkmal eine höhere Robustheit gegenüber Sprachanhebungen oder Verstärkungen liefern kann und in einigen Fällen die ASR Performance nicht nachteilig beeinflußt wird selbst dann nicht, wenn die Anhebung nicht eingeführt worden ist und die Mel-LPC-Cepstrum-Merkmale für eine Kompensation einer bestimmten Anhebung der Sprachsignale sorgen. Es sei darauf hingewiesen, daß unterschiedliche Filter und Abfallfrequenzen verwendet werden können, um die Technik gemäß der vorliegenden Erfindung zu implementieren unter Verwendung der Mel-Filterbankverarbeitung, um eine Anhebung oder Verstärkung von Sprachsignalen zu kompensieren. Es sei ferner drauf hingewiesen, daß für eine Signalanhebung, die feine Modifikationen hinsichtlich des Sprachspektrums involviert, ein robustes Frontende-System wie beispielsweise ein solches, welches die Mel-LPC-Cepstrum-Merkmale berechnet, einen einfachen Zugriff auf Spracherkennungssysteme bietet, um das Sprachspektrum in irgendeiner Weise zu ändern, was für die Zwecke erforderlich ist, um Merkmale der Sprachsignale zu berechnen, die mit Erkennungsmodellen übereinstimmen müssen, welche unter Verwendung der angehobenen Sprachsignale nicht trainiert wurden.
- Es sei darauf hingewiesen, daß die Ausführungsformen und Abwandlungen, die hier gezeigt und oben beschrieben wurden, lediglich die Prinzipien der Erfindung veranschaulichen, und daß vielfältige Abwandlungen für Fachleute möglich sind, ohne dabei den Rahmen der Erfindung zu verlassen.
Claims (28)
1. Verfahren zum Kompensieren der Verstärkung von Sprachsignalen zur
Optimierung der Spracherkennungsqualität, welches Verfahren die folgenden
Schritte umfaßt:
Empfangen von Sprachsignalen, die durch einen Audioverstärker (enhancer)
verstärkt wurden, wobei der Verstärker Frequenzverstärkungsschwankungen der
Sprachsignale einführt;
Umsetzen der verstärkten Sprachsignale in eine Frequenzbereich-Wiedergabe;
Kompensieren der Verstärkungsschwankungen, die durch den Verstärker auf die
Sprachsignale übertragen wurden unter Verwendung der Frequenzbereich-
Wiedergabe der verstärkten Sprachsignale; und
Berechnen von Merkmalen der verstärkten Sprachsignale nachdem sie durch den
Kompensationsschritt kompensiert worden sind.
2. Verfahren nach Anspruch 1, ferner mit dem folgenden Schritt:
Vergleichen der Merkmale mit Erkennungsmodellen, die in einem
Erkennungsspeicher abgespeichert sind.
3. Verfahren nach Anspruch 2, bei dem die Erkennungsmodelle unter Verwendung
von Sprachsignalen, die durch den Verstärker nicht verstärkt worden sind,
trainiert worden sind.
4. Verfahren nach Anspruch 1, bei dem die Schritte gemäß dem Umsetzen und
Kompensieren das Berechnen von kompensierten mel-LPC-Koeffizienten
umfassen, wobei der Schritt der Berechnung der kompensierten mel-LPC-
Koeffizienten ferner die folgenden Schritte umfaßt:
Anheben der verstärkten Sprachsignale für eine spektrale Glättung;
Bilden von Blöcken
der verstärkten Sprachsignale in aufeinanderfolgenden
Rahmen von Sprach-Samples;
Multiplizieren von jedem der Rahmen mit einem Hamming-Fenster;
Transformieren von jedem Hamming-Fensterrahmen von zeitlichen
Nachfrequenzbereich-Wiedergaben;
Filtern von jeder der Frequenzbereich-Wiedergaben vermittels eines Satzes von
gewichteten mel-Filterbänken; und
Erzeugen von Autokorrelations-Koeffizienten aus den gefilterten Frequenz-
Wiedergaben.
5. Verfahren nach Anspruch 4, ferner mit den folgenden Schritten:
Umsetzen der Autokorrelations-Koeffizienten in LPC-Koeffizienten; und
Berechnen der Cepstral-Parametern aus den LPC-Koeffizienten.
6. Verfahren nach Anspruch 4, bei dem die mel-Filterbänke unter einer
spezifischen Frequenz gedämpft sind.
7. Verfahren nach Anspruch 6, bei dem die spezifische Frequenz angenähert 290
Hz beträgt.
8. System zum Kompensieren von verstärkten Sprachsignalen zum Optimieren der
Spracherkennungsqualität, welches System aufweist:
einen Verstärker (enhancer) (107) für eine selektive Variation der Verstärkung
von ausgewählten Frequenzen von zeitvariablen Sprachsignalen, die über einen
Netzwerkpfad übertragen werden;
einen Empfänger (211) zum Empfangen der verstärkten Sprachsignale;
einen Frequenzbereich-Umsetzer (215) zum Umsetzen des verstärkten
Sprachsignals, welches an dem Empfänger (211) empfangen wurde, in
Frequenzbereich-Wiedergaben;
einen Kompensator (216) zum Empfangen der Frequenzbereich-Wiedergaben
der Sprachsignale, die durch den Verstärker (107) verstärkt wurden, wobei der
Kompensator (216) Verstärkungsvariationen der Frequenzbereich-Wiedergaben
der Sprachsignale einführt, die über den Pfad übertragen wurden, um
Verstärkungsschwankungen zu kompensieren, die durch den Verstärker (107) in
die Sprachsignale eingeführt wurden; und
einen Merkmals-Computer (217) zum Berechnen von Merkmalen aus den
kompensierten Frequenzbereich-Wiedergaben der verstärkten Sprachsignale.
9. System nach Anspruch 8, bei dem der Merkmals-Computer aus einem Cepstral-
Merkmal-Computer besteht und bei dem das System ferner eine
Erkennungseinrichtung aufweist, um die Cepstral-Merkmale von dem Cepstral-
Merkmal-Computer zu empfangen.
10. System nach Anspruch 9, bei dem die Erkennungseinrichtung (204) die
Merkmale mit Erkennungsmodellen vergleicht, die in dem Pfad unter
Verwendung der Sprachsignale, die durch den Verstärker (107) nicht verstärkt
wurden, trainiert worden sind, wobei die Erkennungsmodelle in einem
Erkennungsspeicher (206) abgespeichert sind.
11. System nach Anspruch 8, bei dem der Kompensator (216) die Frequenzbereich-
Wiedergaben der verstärkten Sprachsignale durch einen Satz von gewichteten
mel-Filterbänken (216) hindurchschickt.
12. System, nach Anspruch 11, bei dem der Cepstral-Computer (217)
Autokorrelationseffizienten aus den kompensierten Frequenzbereich-
Wiedergaben generiert.
13. System nach Anspruch 12, bei dem der Cepstral-Computer (217) ferner die
folgenden Operationen durchführt:
Umsetzen der Autokorrelationskoeffizienten in LPC-Koeffizienten; und
Berechnen der Cepstral-Merkmale aus den LPC-Koeffizienten.
14. System nach
Anspruch 12, bei dem die mel-Filterbänke (216) unter einer
spezifischen Frequenz gedämpft sind.
15. System nach Anspruch 14, bei dem die spezifische Frequenz etwa 290 Hz
beträgt.
16. Verfahren nach Anspruch 5, bei dem das Verfahren unter Verwendung eines
Computersystems ausgeführt wird, welches einen Speicher und wenigstens einen
Prozessor enthält, wobei der Speicher mel-Filterbank-Wichtungswerte enthält.
17. Verfahren nach Anspruch 16, ferner mit dem folgenden Schritt:
Vergleichen der Merkmale mit Erkennungsmodellen, die in einem
Erkennungsspeicher abgespeichert sind.
18. Verfahren nach Anspruch 17, bei dem die Erkennungsmodelle unter
Verwendung von Sprachsignalen, die nicht verstärkt worden sind, trainiert
worden sind.
19. Verfahren nach Anspruch 16, bei dem die Werte der mel-Filterbänke unter einer
spezifischen Frequenz gedämpft sind.
20. Verfahren nach Anspruch 19, bei dem die spezifische Frequenz etwa 290 Hz
beträgt.
21. Verfahren nach Anspruch 16, ferner mit dem folgenden Schritt:
Modifizieren der mel-Filterbank-Wichtungswerte, die in dem Speicher zum
Kompensieren der Verstärkung der Sprachsignale gespeichert sind, durch einen
zweiten Verstärker (enhancer), wobei der zweite Verstärker eine Verstärkung
oder Erhöhung liefert, die von der Verstärkung oder Erhöhung des ersten
Verstärkers (enhancer) verschieden ist.
22. Verfahren nach Anspruch 16, bei dem die mel-Filterbank-Wichtungswerte eine
Kompensation für die Berechnung der Cepstral-Merkmale für die verstärkten
Sprachsignale liefern.
23. Verfahren nach
Anspruch 22, ferner mit dem folgenden Schritt:
Vergleichen der Merkmale mit Erkennungsmodellen, die in einem
Erkennungsspeicher abgespeichert sind.
24. Verfahren nach Anspruch 23, bei dem die Erkennungsmodelle unter
Verwendung von Sprachsignalen, die nicht erhöht oder verstärkt worden sind,
trainiert worden sind.
25. System zum Erkennen von Sprachsignalen und zum Kompensieren von
Netzwerkverstärkungen der Signale, mit:
einem Filter (215) zum Kompensieren einer Netzwerkverstärkungskomponente
der verstärkten Sprachsignale;
einem Merkmal-Extraktor (202) zum Extrahieren von Merkmalen basierend auf
gefilterten Sprachsignalen aus dem Filter; und
einer Spracherkennungseinrichtung (204) zum Erkennen der Sprachsignale auf
der Grundlage der extrahierten Merkmale aus dem Merkmal-Extraktor (202).
26. System nach Anspruch 25, bei dem das Filter (215) einen Satz von selektiv
gewichteten mel-Filterbänken aufweist.
27. System nach Anspruch 25, bei dem der Merkmal-Extraktor (202) eine
Kombination aus einem linearen Vorhersage-Kodier-Analysierer und einem mel-
Filter-Analysierer aufweist.
28. Verfahren nach Anspruch 1, bei dem der Schritt der Berechnung der Merkmal-
Signale den Schritt der Generierung von Cepstral-Merkmalsignalen umfaßt,
welche die verstärkten Sprachsignale charakterisieren, nachdem sie gemäß dem
Kompensationsschritt kompensiert worden sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/575,378 US5806022A (en) | 1995-12-20 | 1995-12-20 | Method and system for performing speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69616724D1 DE69616724D1 (de) | 2001-12-13 |
DE69616724T2 true DE69616724T2 (de) | 2002-04-25 |
Family
ID=24300085
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69616724T Expired - Lifetime DE69616724T2 (de) | 1995-12-20 | 1996-12-17 | Verfahren und System für die Spracherkennung |
DE69635141T Expired - Lifetime DE69635141T2 (de) | 1995-12-20 | 1996-12-17 | Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69635141T Expired - Lifetime DE69635141T2 (de) | 1995-12-20 | 1996-12-17 | Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung |
Country Status (5)
Country | Link |
---|---|
US (1) | US5806022A (de) |
EP (2) | EP1093112B1 (de) |
JP (1) | JP4050350B2 (de) |
CA (1) | CA2192397C (de) |
DE (2) | DE69616724T2 (de) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2766604B1 (fr) * | 1997-07-22 | 1999-10-01 | France Telecom | Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique |
US6076058A (en) * | 1998-03-02 | 2000-06-13 | Lucent Technologies Inc. | Linear trajectory models incorporating preprocessing parameters for speech recognition |
US6163765A (en) * | 1998-03-30 | 2000-12-19 | Motorola, Inc. | Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system |
US6151572A (en) * | 1998-04-27 | 2000-11-21 | Motorola, Inc. | Automatic and attendant speech to text conversion in a selective call radio system and method |
US6571393B1 (en) * | 1998-05-27 | 2003-05-27 | The Hong Kong University Of Science And Technology | Data transmission system |
US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
US6658202B1 (en) * | 1998-09-09 | 2003-12-02 | Smartdisk | Portable data transfer and mass storage device for removable memory modules |
US6826528B1 (en) | 1998-09-09 | 2004-11-30 | Sony Corporation | Weighted frequency-channel background noise suppressor |
US6987927B1 (en) * | 1998-09-09 | 2006-01-17 | Smartdisk Corporation | Enhanced digital data collector for removable memory modules |
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
AU2297301A (en) * | 1999-10-21 | 2001-04-30 | Sony Electronics Inc. | Method for implementing a noise suppressor in a speech recognition system |
US20020065649A1 (en) * | 2000-08-25 | 2002-05-30 | Yoon Kim | Mel-frequency linear prediction speech recognition apparatus and method |
US7010480B2 (en) * | 2000-09-15 | 2006-03-07 | Mindspeed Technologies, Inc. | Controlling a weighting filter based on the spectral content of a speech signal |
JP4757158B2 (ja) * | 2006-09-20 | 2011-08-24 | 富士通株式会社 | 音信号処理方法、音信号処理装置及びコンピュータプログラム |
JP5150542B2 (ja) * | 2009-03-26 | 2013-02-20 | 株式会社東芝 | パターン認識装置、パターン認識方法、及び、プログラム |
US8489632B1 (en) * | 2011-06-28 | 2013-07-16 | Google Inc. | Predictive model training management |
CN102723081B (zh) * | 2012-05-30 | 2014-05-21 | 无锡百互科技有限公司 | 语音信号处理方法、语音和声纹识别方法及其装置 |
US9704478B1 (en) * | 2013-12-02 | 2017-07-11 | Amazon Technologies, Inc. | Audio output masking for improved automatic speech recognition |
CN107393554B (zh) * | 2017-06-20 | 2020-07-10 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60146399A (ja) * | 1984-01-11 | 1985-08-02 | 松下電器産業株式会社 | 音声遠隔制御装置 |
CA1232686A (en) * | 1985-01-30 | 1988-02-09 | Northern Telecom Limited | Speech recognition |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
US4914692A (en) * | 1987-12-29 | 1990-04-03 | At&T Bell Laboratories | Automatic speech recognition using echo cancellation |
JPH02299360A (ja) * | 1989-05-12 | 1990-12-11 | Toshiba Corp | 音声認織装置 |
US5195132B1 (en) * | 1990-12-03 | 1996-03-19 | At & T Bell Lab | Telephone network speech signal enhancement |
JP3354252B2 (ja) * | 1993-12-27 | 2002-12-09 | 株式会社リコー | 音声認識装置 |
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
-
1995
- 1995-12-20 US US08/575,378 patent/US5806022A/en not_active Expired - Lifetime
-
1996
- 1996-12-09 CA CA002192397A patent/CA2192397C/en not_active Expired - Lifetime
- 1996-12-17 DE DE69616724T patent/DE69616724T2/de not_active Expired - Lifetime
- 1996-12-17 DE DE69635141T patent/DE69635141T2/de not_active Expired - Lifetime
- 1996-12-17 EP EP00124763A patent/EP1093112B1/de not_active Expired - Lifetime
- 1996-12-17 EP EP96120278A patent/EP0780828B1/de not_active Expired - Lifetime
- 1996-12-20 JP JP34173896A patent/JP4050350B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0780828B1 (de) | 2001-11-07 |
DE69616724D1 (de) | 2001-12-13 |
CA2192397A1 (en) | 1997-06-21 |
EP1093112A3 (de) | 2002-02-06 |
EP1093112A2 (de) | 2001-04-18 |
DE69635141D1 (de) | 2005-10-06 |
EP0780828A3 (de) | 1998-12-30 |
US5806022A (en) | 1998-09-08 |
EP0780828A2 (de) | 1997-06-25 |
DE69635141T2 (de) | 2006-03-09 |
EP1093112B1 (de) | 2005-08-31 |
JP4050350B2 (ja) | 2008-02-20 |
MX9606483A (es) | 1997-09-30 |
CA2192397C (en) | 2001-04-03 |
JPH09179585A (ja) | 1997-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
DE69627580T2 (de) | Verfahren zur Rauschverminderung in einem Sprachsignal | |
DE69926851T2 (de) | Verfahren und Vorrichtung zur Sprachaktivitätsdetektion | |
EP1091349B1 (de) | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE10041512B4 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
DE69518705T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69534942T2 (de) | System zur sprecher-identifizierung und-überprüfung | |
DE60027438T2 (de) | Verbesserung eines verrauschten akustischen signals | |
DE69816610T2 (de) | Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69830017T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE602005001048T2 (de) | Erweiterung der Bandbreite eines schmalbandigen Sprachsignals | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
EP0747880B1 (de) | Spracherkennungssystem | |
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
DE112017007005B4 (de) | Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung | |
DE69730721T2 (de) | Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
DE60107072T2 (de) | Robuste merkmale für die erkennung von verrauschten sprachsignalen | |
EP0669606B1 (de) | Verfahren zur Geräuschreduktion eines gestörten Sprachsignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |