DE60107072T2 - Robuste merkmale für die erkennung von verrauschten sprachsignalen - Google Patents

Robuste merkmale für die erkennung von verrauschten sprachsignalen Download PDF

Info

Publication number
DE60107072T2
DE60107072T2 DE60107072T DE60107072T DE60107072T2 DE 60107072 T2 DE60107072 T2 DE 60107072T2 DE 60107072 T DE60107072 T DE 60107072T DE 60107072 T DE60107072 T DE 60107072T DE 60107072 T2 DE60107072 T2 DE 60107072T2
Authority
DE
Germany
Prior art keywords
noise
speech
parameters
vectors
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60107072T
Other languages
English (en)
Other versions
DE60107072D1 (de
Inventor
Stephane Dupont
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faculte Polytechnique de Mons
Original Assignee
Faculte Polytechnique de Mons
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Faculte Polytechnique de Mons filed Critical Faculte Polytechnique de Mons
Publication of DE60107072D1 publication Critical patent/DE60107072D1/de
Application granted granted Critical
Publication of DE60107072T2 publication Critical patent/DE60107072T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Noise Elimination (AREA)

Description

  • GEGENSTAND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Verfahren und ein automatisches System zur Sprachverarbeitung.
  • STAND DER TECHNIK
  • Die automatische Sprachverarbeitung umfasst alle Verfahren, die die Sprache durch Software- oder Hardwaremittel analysieren oder erzeugen. Derzeit sind die Hauptanwendungsbereiche der Sprachverarbeitungsverfahren die folgenden:
    • (1) das Erkennen der Sprache, das es Maschinen erlaubt, die menschliche Sprache zu „verstehen" und insbesondere den Text, der ausgesprochen wurde, zu transkribieren (ASR-Systeme – „Automatic Speech Recognition");
    • (2) das Erkennen des Sprechers, das es erlaubt, aus einer Einheit von Gruppen eine Person zu erkennen, die gesprochen hat (ja sogar sie zu authentifizieren);
    • (3) das Erkennen der Sprache (Französisch, Deutsch, Englisch usw.), was es erlaubt, die von einer Person verwendete Sprache zu erkennen;
    • (4) das Codieren der Sprache, das das Hauptziel verfolgt, die Übertragung eines Sprachsignals zu erleichtern, indem die erforderliche Speichergröße für das Speichern des Sprachsignals verringert wird und indem seine Binärrate reduziert wird;
    • (5) die Sprachsynthese, die es erlaubt, ein Sprachsignal zu erzeugen, zum Beispiel ausgehend von einem Text.
  • Bei den derzeitigen Spracherkennungssystemen beginnt man mit dem Digitalisieren des von einem Mikrofon erfassten Sprachsignals. Danach berechnet ein Analysesystem Vektoren repräsentativer Parameter dieses digitalisierten Sprachsignals. Diese Berechnungen erfolgen in regelmäßigen Abständen, typisch alle 10 Millisekunden, durch Analyse kurzer zeitlicher Signalsequenzen, die Rahmen genannt werden, von etwa 30 Millisekunden digitalisiertem Signal. Die Analyse des Sprachsignals führt daher zu einer Sequenz repräsentativer Vektoren von Parametern mit einem repräsentativen Vektor von Parametern pro Rahmen. Diese Vektoren repräsentativer Parameter werden anschließend mit Referenzwerken verglichen. Dieser Vergleich bedient sich im Allgemeinen eines statistischen Ansatzes, der auf dem Prinzip der verborgenen Markov-Modelle (HMMs) beruht.
  • Diese Modelle stellen lexikalische Grundeinheiten dar, wie zum Beispiel Phoneme, Diphone, Silben oder andere und erlauben eventuell das Schätzen der Wahrscheinlichkeiten oder Mutmaßlichkeiten für diese lexikalischen Grundeinheiten. Diese Modelle können als Bausteine gesehen werden, die es erlauben, Wörter oder Sätze zu bauen. Ein Lexikon erlaubt es, Wörter auf der Basis dieser Bausteine zu definieren, und eine Syntax erlaubt es, Anordnungen von Wörtern zu definieren, die Sätze bilden können. Die Variablen, die diese Modelle definieren, werden im Allgemeinen durch Üben auf der Basis eines Lernkorpus geschätzt, das aus aufgezeichneten Sprachsignalen besteht. Man kann auch Kenntnisse in der Phonetik oder Linguistik verwenden, um die Definition der Modelle und das Schätzen ihrer Parameter zu erleilchtern.
  • Unterschiedliche Variabilitätsquellen machen die Aufgabe des Erkennens schwierig, wie zum Beispiel die Stimmunterschiede von einer Person zur anderen, die schlechten Aussprachen, die lokalen Akzente, die Aufnahmebedingungen der Sprache und das Umgebungsgeräusch.
  • Wenn daher der Einsatz herkömmlicher automatischer Spracherkennungssysteme unter gut kontrollierten Bedingungen im Allgemeinen zufriedenstellt, steigt jedoch die Fehlerrate derartiger Systeme bei Präsenz von Lärm deutlich. Diese Steigerung ist umso größer als das Lärmniveau steigt. Die Anwesenheit von Lärm führt nämlich zu Verzerrungen der Vektoren repräsentativer Parameter. Da diese Verzerrungen in den Modellen nicht vorhanden sind, verschlechtern sich die Leistungen des Systems.
  • Zahlreiche Techniken wurden entwickelt, um die Empfindlichkeit dieser Systeme gegenüber Lärm zu verringern. Die verschiedenen Techniken können gemäß dem Konzept, das sie verwenden, in fünf Hauptfamilien zusammengefasst werden.
  • Unter diesen Techniken zielt eine erste Familie darauf ab, einne Verarbeitung durchzuführen, deren Ziel darin besteht, entweder eine im Wesentlichen entrauschte Version eines rauschbehafteten Signals zu erzielen, das von einem Mikrofon oder mehreren Mikrofonen erfasst wird, oder eine im Wesentlichen entrauschte (kompensierte) Version der repräsentative Parameter (J. A. Lim & A. V. Oppenheim, „Enhancement and bandwith compression of noisy speech", Proceedings of the IEEE, 67(12): 1586–1604, Dezember 1979). Ein Ausführungsbeispiel, das dieses Konzept verwendet, ist in dem Dokument EP-0 556 992 beschrieben. Obwohl sie sehr nützlich sind, weisen diese Techniken trotzdem den Nachteil auf, dass sie auf der Ebene der Vektoren repräsentativer Parameter Verzerrungen einführen und im Allgemeinen unzureichend sind, um ein Erkennen in unterschiedlichen akustischen Umgebungen zu erlauben und insbesondere in dem Fall von hohen Geräuschniveaus.
  • Eine zweite Familie von Techniken betrifft das Erzielen intrinsisch weniger rauschempfindlicher repräsentativer Parameter als die herkömmlichen bei den meisten automatischen Spracherkennungssystemen verwendeten (H. Hermansky, N. Morgan & H. G. Hirsch, „Recognition of speech in additive and concolutional noise based on rasta spectral processing", in Proc. IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing, Seiten 83–86, 1993; O. Viiki, D. Bye & K. Laurila, „A recurcive feature vector normalization approach for robust speech recognition in noise", in Proc. of ICASSP'98, Seiten 733–736, 1998). Diese Techniken weisen jedoch bestimmte Einschränkungen in Zusammenhang mit den Annahmen auf, auf welchen sie beruhen.
  • Eine dritte Familie von Techniken wurde ebenfalls vorgeschlagen. Diese Techniken basieren statt danach zu streben, die repräsentativen Parameter umzuwandeln, auf der Umwandlung der Parameter der Modelle, die in den Spracherkennungssystemen eingreifen, so dass sie an die geläufigen Verwendungsbedingungen angepasst werden (A. P. Varga & R. K. Moore, „Simultaneous recognition of current speech signals using hidden markov model decomposition", in Proc. of EUROSPEECH'91, Seiten 1175–1178, Genua, Italien, 1991; C. J. Leggeter & P. C. Woodland, „Maximum likehood linear regression for speaker adaptation", Computer Speech and Language, 9: 171–185, 1995). Diese Anpassungstechniken sind in der Tat Schnelllerntechniken, die den Nachteil aufweisen, dass sie nur effizient sind, wenn die Rauschbedingungen langsam variieren. In der Tat benötigen diese Techniken mehrere Dutzend Sekunden geräuschbelastetes Sprachsignal, um die Parameter der Erkennungsmodelle anzupassen. Wenn sich die Rauschbedingungen nach dieser Anpassung erneut ändern, ist das Erkennungssystem nicht mehr fähig, die Vektoren repräsentativer Parameter des Sprachsignals und die Modelle einander zuzuordnen.
  • Eine vierte Familie von Techniken besteht darin, eine Analyse durchzuführen, die es erlaubt, repräsentative Parameter von Frequenzbändern zu erzielen (H. Bourlard & S. Dupont, „A new ASR approach based on independent processing and recombination of partial frequency bands" in Proc. of Intl. Conf. on Spoken Language Processing, Seiten 422–425, Philadelphia, Oktober 1996). Modelle können daher für jedes dieser Frequenzbänder entwickelt werden alle diese Frequenzbänder müssen idealerweise das gesamte Nutzfrequenzspektrum decken, das heißt bis zu 4 oder 8 kHz. Die Bedeutung dieser Techniken, die wir in weiterer Folge „Multifrequenzband"-Techniken nennen, besteht darin, in einer späteren Beschlussfassungsphase die Bedeutung der stark geräuschbehafteten Frequenzbänder minimieren zu können. Diese Techniken sind jedoch nur wenig effizient, wenn das Geräusch einen großen Bereich des Nutzfreguenzspektrums deckt. Beispiele für Verfahren, die zu dieser Familie gehören, werden gegeben in den Dokumenten von Tibrewala et al. („Sub-band based recognition of noisy speech" IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), US, Los Alamitos, IEE Comp. Soc. Press, 21. April 1997, Seiten 1255–1258) und Bourlard et al. „Subband-based speech recognition", IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), US, Los Alamitos, IEE Comp. Soc. Press, 21. April 1997, Seiten 1251–1254).
  • Schließlich besteht eine fünfte Familie von Techniken darin, durch Geräuscherzeugung auf mehreren Niveaus verschiedener Geräusche die Gesamtheit oder einen Teil des Lernkorpus zu kontaminieren und die Parameter der Modelle abzuschätzen, die in dem ASR-System auf der Grundlage dieses geräuschbehafteten Korpus eingreifen (T. Morii & H. Hoshimi, „Noise robustness in speaker independent speech", in Proc. of the Intl. Conf. on Spoken Language Processing, Seiten 1145–1148, November 1990). Anwendungsbeispiele, die dieses Konzept verwenden, sind in dem Dokument EP-A-0 881 625 beschrieben, dem Dokument US-A-5 185 848 sowie in dem Dokument von Yuk et al. („Environment-independent continuous speech recognition using neural networks and hidden Markov models", IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), US, New York, IEE, Band Conf. 21, 7 Mai 1996, Seiten 3358–3361). Insbesondere schlägt das Dokument von Yuk et al. vor, ein Netzwerk künstlicher Neuronen zu verwenden, das die Umwandlung der repräsentativen Parameter zum Ziel hat, die aus der Analyse entrauschter Parameter hervorgehen oder einfach besser an das nachgeschaltete Erkennungssystem angepasste. Die Parameter dieses Neuronennetzwerkes werden auf der Basis einer reduzierten Anzahl von Anpassungssätzen (10 bis 100 Sätze, um gute Leistungen zu erzielen) geschätzt. Die Bedeutung dieser Techniken besteht darin, dass ihre Leistungen quasi optimal sind, wenn das Rauschen, das die Verwendungsbedingungen charakterisiert, dem Rauschen ähnlich ist, das zum Kontaminieren des Sprachkorpus verwendet wurde. Wenn die zwei Rauschen unterschiedlich sind, ist das Verfahren jedoch relativ uninteressant. Der Anwendungsbereich dieser Techniken ist daher leider insofern eingeschränkt, als es nicht in Betracht gezogen werden kann, die Kontamination auf der Basis diversifizierter Geräusche durchzuführen, die alle Geräusche decken, die bei der Verwendung angetroffen werden können.
  • Das Dokument von Hussain A. („Non-linear sub-band processing for binaural adaptative speech-enhancement" ICANN99. Ninth International Conference on Artificial Neural Networks IEE Conf. Publ. No. 470), Edinburgh, UK, 7–10 Sept. 1999, Seiten 121–125, Band 1) beschreibt als solches nicht ein Analyseverfahren des Sprachsignals, das zur Spracherkennung und/oder zur Codierung der Sprache bestimmt ist, sondern beschreibt ein besonderes Entrauschungsverfahren (Rauschbefreiungsverfahren) der Sprache, um ein entrauschtes zeitliches Signal zu erzielen. Genauer genommen entspricht das Verfahren einem „Multifrequenzband"-Entrauschungsansatz, der darin besteht, einen Filterstand zu verwenden, der zeitliche Signale erzeugt, wobei die zeitlichen Signale anschließend von anpassenden linearen oder nicht linearen Filtern verarbeitet werden, das heißt von Filtern, die sich an die Einsatzbedingungen anpassen. Diese Methode funktioniert daher auf dem Sprachsignal selbst und nicht auf Vektoren repräsentativer Parameter dieses Signals, die durch Analyse erzielt werden. Die mit diesem Verfahren verwendeten linearen Filter sind Netzwerke herkömmlicher künstlicher Neuronen oder solche, die Expansionsfunktionen verwenden. Das Heranziehen dieser anpassenden Filter weist mehrere Nachteile auf. Ein erster Nachteil besteht darin, dass die Konvergenz der Anpassungsalgorithmen der Netzwerke aus künstlichen Neuronen im Vergleich zu den Modulationsfrequenzen bestimmter Umgebungsgeräusche langsam ist, was sie wenig zuverlässig macht. Ein weiterer Nachteil besteht darin, dass der anpassende Ansatz, wie in dem Dokument erwähnt, das Anwenden eines Verfahrens des Typs „adapt-and-freeze" derart erforderlich macht, dass nur während Abschnitten ohne Sprachsignal angepasst wird. Das bedeutet, dass ein Unterschied zwischen den Signalabschnitten mit Sprache und den Signalabschnitten ohne Sprache gemacht werden muss, was mit den Spracherfassungsalgorithmen, die derzeit verfügbar sind, schwer durchzuführen ist, insbesondere wenn das Geräuschniveau hoch ist.
  • ZIELSETZUNGEN DER ERFINDUNG
  • Die vorliegende Erfindung zielt darauf ab, ein automatisches Sprachverarbeitungsverfahren vorzuschlagen, dessen Fehlerrate im Vergleich zu der der Techniken des Stands der Technik deutlich geringer ist.
  • Insbesondere zielt die vorliegende Erfindung darauf ab, ein Verfahren zu liefern, das die Spracherkennung in der Gegenwart von Lärm erlaubt (dessen Codieren und Entrauschung), egal welcher Art dieses Geräusch ist, das heißt sogar, wenn das Geräusch Breitbandcharakteristiken aufweist und/oder sogar, wenn die Charakteristiken im Laufe der Zeit sehr stark variieren, zum Beispiel wenn es aus einem Geräusch besteht, das im Wesentlichen niedrige Frequenzen umfasst, gefolgt von einem Geräusch, das im Wesentlichen hohe Frequenzen umfasst.
  • CHARAKTERISTISCHE HAUPTELEMENTE DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Verfahren zum automatischen Verarbeiten der durch Rauschen gestörten Sprache, das mindestens die folgenden Schritte umfasst:
    • – Erfassen und Digitalisieren der Sprache in Form mindestens eines digitalisierten Signals,
    • – Extrahieren mehrerer zeitlicher Sequenzen oder Rahmen, die dem Signal entsprechen, mit Hilfe eines Extraktionssystems,
    • – Aufschlüsseln jedes Rahmens mit Hilfe eines Analysesystems in mindestens zwei unterschiedliche Frequenzbänder, so dass mindestens zwei erste Vektoren repräsentativer Parameter für jeden Rahmen erzielt werden, je einer pro Frequenzband und
    • – Umwandeln mit Hilfe von Umwandlersystemen der ersten Vektoren repräsentativer Parameter in zweite Vektoren von Parametern, die für das Rauschen relativ unempfindlich sind, wobei jedes Umwandlersystem einem Frequenzband zugeordnet ist und den ersten Vektor repräsentativer Parameter umwandelt, der diesem Frequenzband zugeordnet ist, und wobei das Lernen der Umwandlersysteme auf der Basis eines Lernkorpus, das einem durch Rauschen kontaminierten Sprachkorpus entspricht, aufbaut.
  • Der Aufschlüsselungsschritt in Frequenzbänder bei dem erfindungsgemäßen Verfahren ist grundlegend, um die Robustheit gegenüber verschiedenen Rauschtypen sicherzustellen.
  • Vorzugsweise umfasst das erfindungsgemäße Verfahren ferner einen Konkatenationsschritt der zweiten Vektoren repräsentativer Parameter, die für Rauschen relativ unempfindlich sind, die den verschiedenen Frequenzbändern eines gleichen Rahmens zugeordnet sind, so dass man nur noch einen einzigen dritten Vektor konkatenierter Parameter für jeden Rahmen hat, der danach als Eingang in ein automatisches Spracherkennungssystem verwendet wird.
  • Die Umwandlung mit Hilfe der Umwandlersysteme kann durch linearen Umwandlungsprozeß oder nicht linearen Umwandlungsprozeß durchgeführt werden.
  • Vorzugsweise sind die Umwandlersysteme Netzwerke künstlicher Neuronen.
  • Die Tatsache, dass Netzwerke künstlicher Neuronen verwendet werden, die auf der Grundlage von Sprachdaten mit Rauschen geübt werden, weist den Vorteil auf, dass kein „anpassender" Ansatz erforderlich ist, wie der, der im Dokument von Hussain A. (op. cit.) beschrieben ist, um ihre Parameter an die Einsatzbedingungen anzupassen.
  • Ferner und im Gegensatz zu den Netzwerken künstlicher Neuronen, die bei den von Hussain A. (op. cit.) verwendeten Verfahren beschrieben werden, funktionieren die Netzwerke von Neuronen, wie sie bei der vorliegenden Erfindung verwendet werden, auf repräsentativen Vektoren, die durch Analyse erzielt werden und nicht direkt am Sprachsignal selbst. Diese Analyse hat den Vorteil, dass sie die Redundanz, die in dem Sprachsignal vorhanden ist, stark reduziert, und eine Darstellung des Signals auf der Basis von Vektoren repräsentativer Parameter mit relativ geringem Umfang erlaubt.
  • Vorzugsweise sind die Netzwerke künstlicher Neuronen des Typs Multilayer-Perzeptron und jedes umfasst mindestens eine verborgene Schicht.
  • Vorteilhafterweise zieht das Lernen der Netzwerke aus künstlichen Neuronen des Typs Multilayer-Perzeptron Ziele heran, die den lexikalischen Grundeinheiten für jeden Rahmen des Lernkorpus entsprechen, wobei die Ausgangsvektoren der letzten oder der verborgenen Schicht oder der verborgenen Schichten der Netzwerke aus künstlichen Neuronen als Vektor repräsentativer Parameter verwendet werden, die für Rauschen relativ unempfindlich sind.
  • Die Originalität des erfindungsgemäßen automatischen Sprachverarbeitungsverfahrens beruht in der Kombination von zwei Konzepten, der „Multifrequenzband"-Aufschlüsselung und der Kontamination durch Rauschen, die im Stand der Technik getrennt verwendet werden und als solche nur beschränkte Bedeutung aufweisen, während ihre Kombination dem Verfahren besondere Eigenschaften und im Vergleich zu den derzeit verfügbaren Methoden deutlich verbesserte Leistungen verleiht.
  • Herkömmlich fordern die Übungsdatenkontaminationstechniken ein Korpus, das die meisten Rauschsituationen, die in der Praxis auftreten können, korrekt decken (was man Multistil-Üben nennt), was aufgrund der Diversität der Rauschformen quasi unmöglich durchzuführen ist. Hingegen beruht das erfindungsgemäße Verfahren auf dem Einsatz eines „Multfrequenzband"-Ansatzes, der die Kontaminationstechniken rechtfertigt.
  • Das erfindungsgemäße Verfahren basiert im Grunde auf der Beobachtung, dass, wenn man ein relativ enges Frequenzband betrachtet, sich die Rauschtypen im Wesentlichen nur durch ihr Niveau unterscheiden. Daher können Modelle in Zusammenhang mit jedem der Frequenzbänder des Systems nach der Kontamination des Lernkorpus durch ein beliebiges Rauschen mit verschiedenen Niveaus geübt werden; diese Modelle bleiben für andere Rauschtypen relativ unempfindlich. Eine spätere Beschlussfassungsphase verwendet daher diese so genannten „robusten Modelle" zur automatischen Spracherkennung.
  • Die vorliegende Erfindung betrifft auch ein automatisches Sprachverarbeitungssystem, das mindestens Folgendes umfasst:
    • – ein Erfassungssystem, das das Erzielen mindestens eines digitalisierten Sprachsignals erlaubt,
    • – ein Extraktionssystem, das es erlaubt, mehrere zeitliche Sequenzen oder Rahmen zu extrahieren, die dem Signal entsprechen,
    • – Mittel, die es erlauben, jeden Rahmen in mindestens zwei unterschiedliche Frequenzbänder aufzuschlüsseln, so dass man mindestens zwei erste Vektoren repräsentativer Parameter erzielt, einen Vektor für jedes Frequenzband, und
    • – mehrere Umwandlersysteme, wobei jedes Umwandlersystem einem Frequenzband zugeordnet ist und es erlaubt, den ersten Vektor repräsentativer Parameter, der eben diesem Frequenzband zugeordnet ist, in einen zweiten Vektor von Parametern umzuwandeln, der für Rauschen relativ unempfindlich ist, und
    wobei das Lernen der Umwandlersysteme auf der Basis eines Sprachkorpus durchgeführt wird, das durch Rauschen kontaminiert ist.
  • Vorzugsweise sind die Umwandlersysteme Netzwerke von künstlichen Neuronen, vorzugsweise des Typs Multilayer-Perzeptron.
  • Vorzugsweise umfasst das erfindungsgemäße automatische Sprachverarbeitungssystem ferner Mittel, die die Konkatenation der zweiten Vektoren repräsentativer Parameter, die für Rauschen relativ unempfindlich sind, die den verschiedenen Frequenzbändern eines gleichen Rahmens zugeordnet sind, erlauben, so dass man nur noch einen dritten Vektor konkatenierter Parameter für jeden Rahmen hat, wobei der dritte Vektor anschließend als Eingang in ein automatisches Spracherkennungssystem verwendet wird.
  • Zu bemerken ist, dass, da die Analysearchitektur für alle Frequenzbänder ähnlich ist, nur das Blockschema für eines der Frequenzbänder hier detailliert beschrieben wird.
  • Das erfindungsgemäße Verfahren und erfindungsgemäße automatische Verarbeitungssystem können zum Erkennen von Sprache, zum Codieren von Sprache oder zum Entrauschen von Sprache verwendet werden.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 stellt ein Schema der ersten automatischen Sprachverarbeitungsschritte gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung dar, die vom Erfassen des Sprachsignals bis zum Erzielen der für Rauschen relativ unempfindlichen repräsentativen Parameter reicht, die jedem der Frequenzbänder zugewiesen werden.
  • 2 stellt das Kontaminationskonzept des Lernkorpus durch Rauschen gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung dar.
  • 3 stellt ein Schema der automatischen Sprachverarbeitungsschritte dar, die auf die Schritte der 1 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung für eine Spracherkennungsanwendung folgen, und von der Konkatenation der für das Rauschen unempfindlichen repräsentativen Parameter, die jedem der Frequenzbänder zugeordnet sind, bis zur Erkennungsbeschlussfassung reichen.
  • 4 stellt die Schritte der automatischen Sprachverarbeitung dar, die auf die Schritte der 1 gemäß einer bevorzugten Ausführungsform der Erfindung folgen, und die für die Codierungs-, Entrauschungs- und Spracherkennungsanwendungen gemeinsam sind.
  • BESCHREIBUNG EINER BEVORZUGTEN AUSFÜHRUNGSFORM DER ERFINDUNG
  • Gemäß einer bevorzugten Ausführungsform der Erfindung, wie 1 zeigt, durchläuft das Signal 1, das bei einer Frequenz von 8 kHz abgetastet wird, zuerst ein Fensteraufteilungsmodul 10, das ein Extraktionssystem darstellt und das Signal in eine Abfolge zeitlicher Rahmen 15 zu je 30 ms (240 Abtastungen) unterteilt. Zwei aufeinander folgende Rahmen überlappen sich um 20 ms. Die Elemente jedes Rahmens werden durch ein Hammingfenster gewichtet.
  • Danach wird bei einem ersten Schritt der digitalen Verarbeitung eine Analyse in kritischen Bändern an jedem Rahmen des abgetasteten Signals mit Hilfe eines Moduls 20 durchgeführt. Diese Analyse ist für den Frequenzauflösungsmaßstab des menschlichen Ohrs repräsentativ. Der verwendete Ansatz lehnt sich an die erste Analysephase der PLP-Technik an (H. Hermansky, „Perpetual linear predictive (PLP) analysis speech", the Journal of the Acoustical Society of America, 87(4): 1738–1752, April 1992). Sie arbeitet im Frequenzbereich. Die verwendeten Filter sind trapezartig, und der Abstand zwischen den zentralen Frequenzen folgt einem psychoakustischen Frequenzmaßstab. Der Abstand zwischen den zentralen Frequenzen von zwei aufeinander folgenden Filtern ist in diesem Fall auf 0,5 Bark festgelegt, wobei die Frequenz in Bark (B) durch den folgenden Ausdruck erzielt werden kann: B = 6ln(f/600 + sgrt((f/600)^2 + 1))wobei (f) die Frequenz in Hertz ist.
  • Andere Werte könnten jedoch in Betracht gezogen werden.
  • Für ein bei 8 kHz abgetastetes Signal führt diese Analyse zu einem Vektor 25, der die Energien von 30 Frequenzbändern umfasst. Die Vorgehensweise umfasst auch eine Akzentuierung der hohen Frequenzen.
  • Dieser Vektor zu 30 Elementen wird anschließend in sieben Untervektoren repräsentativer Parameter des spektralen Mantels in sieben verschiedenen Frequenzbändern aufgeteilt. Es wird die folgende Aufschlüsselung verwendet: 1–4 (die Filter mit den Indexen von 1 bis 4 bilden das erste Frequenzband), 5–8, 9–12, 13–16, 17–20, 21–24 und 25–30 (die von diesen sieben Bändern betroffenen Frequenzen sind in 1 gegeben).
  • Jeder Untervektor wird genormt, indem die Werte seiner Elemente durch die Summe aller Elemente des Untervektors geteilt werden, das heißt durch eine Schätzung der Energie des Signals in dem betrachteten Frequenzbereich. Diese Normung verleiht dem Untervektor eine Unempfindlichkeit gegenüber dem Energieniveau des Signals.
  • Für jedes Frequenzband werden die repräsentativen Parameter schließlich aus dem genormten Untervektor gebildet, der dem Band entspricht, sowie aus der Schätzung der Energie des Signals in diesem Band.
  • Für jedes der sieben Frequenzbänder wird die oben beschriebene Verarbeitung durch ein Modul 40 durchgeführt, das einen Vektor 45 repräsentativer Parameter des betreffenden Bands liefert. Das Modul 40 definiert mit dem Modul 20 ein Analysesystem genanntes System.
  • Die Module 10, 20 und 40 könnten durch jeden anderen Ansatz ersetzt werden, der es erlaubt, repräsentative Parameter verschiedener Frequenzbänder zu erzielen.
  • Für jedes Frequenzband werden die entsprechenden repräsentativen Parameter anschließend von einem Umwandlersystem 50 verwendet, dessen Ziel darin besteht, einen Vektor 55 repräsentativer Parameter, die für das Rauschen, das in dem abgetasteten Sprachsignal vorhanden ist, relativ unempfindlich sind.
  • Wie 3 zeigt, werden die Vektoren repräsentativer Parameter, die für das Rauschen unempfindlich sind, die jedem der Frequenzbänder zugeordnet sind, anschließend konkateniert, um einen größeren Vektor 56 zu bilden.
  • Dieser große Vektor 56 wird schließlich als Vektor repräsentativer Parameter des betreffenden Rahmens verwendet. Er kann von dem Modul 60 verwendet werden, das einem Spracherkennungssystem entspricht, und dessen Ziel darin besteht, die Sequenz von Spracheinheiten zu liefern, die ausgesprochen wurden.
  • Zum Durchführen der gewünschten Funktionalität wurde ein Netzwerk künstlicher Neuronen (RNA) (B. D. Ripley, „Pattern recognition and neural networks", Cambridge University Press, 1996) als Implementierung des Umwandlersystems 50 verwendet. Im Allgemeinen berechnet das RNA Vektoren repräsentativer Parameter gemäß einem ähnlichen Ansatz wie der der diskriminierenden nicht linearen Analyse (V. Fontaine, C. Ris & J. M. Boite, „Nonlinear discriminant analysis for improved speech recognition", in Proc. of EUROSPEECH'97, Rhodos, Griechenland, 1997). Andere Ansätze linearer Umwandlung oder nicht linearer Umwandlung, die nicht unbedingt ein RNA einbeziehen, könnten ebenfalls zum Berechnen der Vektoren repräsentativer Parameter geeignet sein, wie zum Beispiel die Techniken der linearen diskriminierenden Analyse (Fukunaga, Introduction to Statistical Pattern Analysis, Academic Press, 1990), Analysetechniken in Hauptkomponenten (I. T. Jolliffe, „Principal Component Analysis", Springer-Verlag, 1986) oder Regressionstechniken, die das Schätzen einer entrauschten Version der repräsentativen Parameter erlauben (H. Sorensen, „A cepstral noise reduction multi-layer neural network", Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing, Band 2, Seiten 933–936, 1991).
  • Genauer genommen ist das hier verwendete Neuronennetzwerk ein Multilayer-Perzeptron, das zwei verborgene Neuronenschichten umfasst. Die nicht linearen Funktionen der Neuronen dieses Perzeptrons sind Sigmoide. Das RNA umfasst einen Ausgang pro lexikalischer Grundeinheit.
  • Dieses Netzwerk von künstlichen Neuronen wird durch den Rückpropagierungsalgorithmus auf der Basis eines Minimierungskriteriums der relativen Entropie geübt. Das Üben oder Lernen wird überwacht und greift auf Ziele zurück, die den lexikalischen Grundeinheiten der präsentierten Übungsbeispiele entsprechen. Genauer genommen wird für jeden Übungs- oder Lernrahmen der gewünschte Ausgang des RNA, der der lexikalischen geläufigen Grundeinheit entspricht, auf 1 gesetzt, wobei die anderen Ausgänge auf 0 gesetzt werden.
  • In dem vorliegenden Fall sind die lexikalischen Grundeinheiten Phoneme. Es ist aber auch möglich, andere Einheitentypen zu verwenden, wie zum Beispiel Allophone (Phoneme in einem besonderen phonetischen Kontext) oder phonetische Merkmale (Nasalisierung, Reibelaute).
  • Wie 2 zeigt, werden die Parameter dieses RNA auf der Basis eines Lernkorpus 101 geschätzt, das durch das Rauschen 102 mit Hilfe des Moduls 100 kontaminiert ist. Um eine Mehrheit von Rauschniveaus zu decken, die in der Praxis angetroffen werden können, werden hier sechs Versionen des Lernkorpus verwendet.
  • Eine der Versionen wird verwendet so wie sie ist, das heißt ohne hinzugefügtes Rauschen. Die anderen Versionen werden mit Hilfe des Moduls 100 mit unterschiedlichen Signal/Rauschen-Verhältnissen gestört: 0 dB, 5 dB, 10 dB, 15 dB und 20 dB. Diese sechs Versionen werden zum Üben des RNA verwendet. Diese Übungsdaten werden am Eingang des in 1 dargestellten Systems verwendet.
  • Dieses System erlaubt es, repräsentative Parameter 45 der verschiedenen in Betracht gezogenen Frequenzbänder zu erzielen. Es handelt sich um Parameter, die das Netzwerk künstlicher Neuronen versorgen und insbesondere das Üben durch Rückpropagation (B. D. Ripley, „Pattern recognition and neural networks", Cambridge University Press, 1996) erlauben.
  • Zu bemerken ist, dass alle Techniken, die im Allgemeinen angewandt werden, wenn man Neuronennetzwerke in der Sprachverarbeitung anwendet, hier angewandt werden können. Hier wurde daher beschlossen, am Eingang des RNA mehrere, genauer genommen 9 Vektoren repräsentativer Parameter aufeinander folgender Signalrahmen zu verwenden (um die zeitliche Korrelation des Sprachsignals zu modellieren).
  • Bei der Verwendung des RNA wird ein ähnlicher Ansatz wie bei der diskriminierenden nicht linearen Analyse verwendet. Die Ausgänge der zweiten verborgenen Schicht, nämlich 30, werden als Parameter 55, die für Rauschen unempfindlich sind, für das zugeordnete Frequenzband verwendet.
  • Wie 3 zeigt, werden bei einer ersten Anwendung die jedem der sieben Frequenzbänder zugewiesenen Parametervektoren anschließend konkateniert, um zu einem Vektor 56 zu 210 konkatenierten Parametern zu führen.
  • Bei jedem Signalrahmen wird dieser Vektor daher als Eingang eines automatischen Spracherkennungssystems 60 verwendet. Dieses System wird auf der Basis repräsentativer Parameter geübt, die von der oben beschriebenen Technik (in 1 dargestelltes System) ausgehend von einem Sprachkorpus (mit oder ohne Rauschen) der gewünschten Erkennungsaufgabe entsprechend berechnet werden.
  • Zu bemerken ist, dass das Datenkorpus, das das Entwickeln der Systeme 50 erlaubt, die jedem Frequenzband zugeordnet sind, nicht notwendigerweise das gleiche wie das ist, das zum Üben des Spracherkennungssystems 60 dient.
  • Alle Typen robuster Techniken des Stands der Technik können frei im Rahmen des hier vorgeschlagenen Systems eingreifen, wie 1 darstellt.
  • Daher können die robusten Erfassungstechniken, insbesondere die, die auf Mikrophonnetzwerken 2 beruhen, nützlich sein, um ein relativ entrauschtes Sprachsignal zu erzielen.
  • Ebenso können die Entrauschungstechniken, wie zum Beispiel die spektrale Substraktion 3 (M. Berouti, R. Schwartz & J. Makhoul, „Enhancement of speech corrupted by acoustic noise", in Proc. of ICASSP'79, Seiten 208–211, April 1979) in Betracht gezogen werden.
  • Jede Technik 22 zum Berechnen intrinsisch robuster Parameter oder jede Technik 21 zum Ausgleichen repräsentativer Parameter kann ebenfalls verwendet werden.
  • Die Module 10, 20 und 40 können durch jede andere Technik ersetzt werden, die es erlaubt, repräsentative Parameter verschiedener Frequenzbänder zu erzielen.
  • Je unempfindlicher für Umgebungsrauschen diese Parameter sind, desto besser wird sich das Gesamtsystem verhalten.
  • Im Rahmen der Anwendung an die Spracherkennung, wie 2 zeigt, können auch Techniken 61 zur Anpassung der Modelle verwendet werden.
  • Ein Verfahren 62 zum Üben des Systems auf der Basis eines Sprachkorpus, das durch Rauschen kontaminiert ist, ist ebenfalls möglich.
  • Bei einer zweiten Anwendung werden die „robusten" Parameter 55, wie 4 zeigt, am Eingang eines Regressionsmoduls 70 verwendet, das das Schätzen herkömmlicher repräsentativer Parameter 75 erlaubt, die im Rahmen von Sprachverarbeitungstechniken verwendbar sind. Für eine Sprachcodierungsaufgabe oder Entrauschungsaufgabe kann dieses System 70 die Parameter eines autoregressiven Modells des Sprachsignals schätzen. Für eine Spracherkennungsaufgabe werden vorzugsweise Cepstra geschätzt, das heißt Werte der diskreten Umgekehrten der Fourier-Trans formation der Logarithmen der diskreten Fourier-Transformation des Signals.
  • Das Regressionsmodul wird herkömmlich auf der Grundlage eines Sprachkorpus mit oder ohne Rauschen optimiert.
  • Die idealen Ausgänge des Regressionsmoduls werden auf der Basis von Daten ohne Rauschen berechnet.
  • Alle oben beschriebenen Operationen werden von Softwaremodulen durchgeführt, die auf einem alleinigen Mikroprozessor laufen. Ferner kann jeder andere Ansatz frei verwendet werden.
  • Man kann zum Beispiel eine verteilte Verarbeitung in Betracht ziehen, bei der das Modul 60 zur Spracherkennung auf einem nahen oder dezentralen Server funktioniert, dem man die repräsentativen Parameter 55 über ein EDV- oder Telefonnetzwerk liefert.

Claims (12)

  1. Verfahren zum automatischen Verarbeiten der durch Rauschen gestörten Sprache, das mindestens die folgenden Schritte umfasst: – Erfassen und Digitalisieren der Sprache in Form mindestens eines digitalisierten Signals (1), – Extrahieren mehrerer zeitlicher Sequenzen oder Rahmen (15), die dem besagten Signal entsprechen, mit Hilfe eines Extraktionssystems (10), – Aufschlüsseln jedes Rahmens (15) mit Hilfe eines Analysesystems (20, 40) in mindestens zwei unterschiedliche Frequenzbänder, so dass mindestens zwei erste Vektoren repräsentativer Parameter (45) für jeden Rahmen (15) erzielt werden, je einer pro Frequenzband und – Umwandeln mit Hilfe von Umwandlersystemen (50) der ersten Vektoren repräsentativer Parameter (45) in zweite Vektoren von Parametern, die für das Rauschen relativ unempfindlich sind (55), wobei jedes Umwandlersystem (50) einem Frequenzband zugeordnet ist und den ersten Vektor repräsentativer Parameter (45) umwandelt, der diesem Frequenzband zugeordnet ist, und wobei das Lernen der besagten Umwandlersysteme (50) auf der Basis eines Lernkorpus, der einem durch Rauschen kontaminierten Sprachkorpus (102) entspricht, aufbaut.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es ferner einen Konkatenationsschritt der zweiten Vektoren repräsentativer Parameter, die für Rauschen relativ unempfindlich sind (55), die den verschiedenen Frequenzbändern eines gleichen Rahmens (15) zugeordnet sind, umfasst, so dass man nur noch einen einzigen dritten Vektor konkatenierter Parameter (56) für jeden Rahmen (15) hat, der danach als Eingang in ein automatisches Spracherkennungssystem (60) verwendet wird.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Umwandlung mit Hilfe der Umwandlersysteme (50) durch linearen Umwandlungsprozeß oder nicht linearen Umwandlungsprozeß durchgeführt wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Umwandlersysteme (50) Netzwerke aus künstlichen Neuronen sind.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die besagten Netzwerke aus künstlichen Neuronen des Typs Multilayer-Perzeptron sind und jedes mindestens eine verborgene Schicht umfasst.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass das Lernen der besagten Netzwerke aus künstlichen Neuronen des Typs Multilayer-Perzeptron Ziele heranzieht, die den lexikalischen Grundeinheiten für jeden Rahmen des Lernkorpus entsprechen, wobei die Ausgangsvektoren der letzten verborgenen Schicht oder Schichten der besagten Netzwerke aus künstlichen Neuronen als Vektor repräsentativer Parameter verwendet werden, die für Rauschen relativ unempfindlich sind.
  7. Automatisches Sprachverarbeitungssystem, das mindestens Folgendes umfasst: – ein Erfassungssystem, das das Erzielen mindestens eines digitalisierten Sprachsignals (1) erlaubt, – ein Extraktionssystem (10), das es erlaubt, mehrere zeitliche Sequenzen oder Rahmen (15) zu extrahieren, die dem besagten Signal (1) entsprechen, – Mittel (20, 40), die es erlauben, jeden Rahmen (15) in mindestens zwei unterschiedliche Frequenzbänder aufzuschlüsseln, so dass man mindestens zwei erste Vektoren repräsentativer Parameter (45) erzielt, einen Vektor für jedes Frequenzband, und – mehrere Umwandlersysteme (50), wobei jedes Umwandlersystem (50) einem Frequenzband zugeordnet ist und es erlaubt, den ersten Vektor repräsentativer Parameter (45), der eben diesem Frequenzband zugeordnet ist, in einen zweiten Vektor von Parametern (55) umzuwandeln, der für Rauschen relativ unempfindlich ist, und wobei das Lernen der Umwandlersysteme (50) auf der Basis eines Sprachkorpus durchgeführt ist, der von Rauschen (102) kontaminiert ist.
  8. Automatisches Sprachverarbeitungssystem nach Anspruch 7, dadurch gekennzeichnet, dass die Umwandlersysteme (50) Netzwerke aus künstlichen Neuronen, vorzugsweise des Multilayer-Perzeptrontyps sind.
  9. Automatisches Sprachverarbeitungssystem nach Anspruch 7 oder Anspruch 8, dadurch gekennzeich net, dass es ferner Mittel umfasst, die die Konkatenation der zweiten Vektoren repräsentativer Parameter, die für Rauschen relativ unempfindlich sind (55), die den verschiedenen Frequenzbändern eines gleichen Rahmens (15) zugeordnet sind, erlauben, so dass man nur noch einen dritten Vektor konkatenierter Parameter (56) für jeden Rahmen (15) hat, wobei der dritte Vektor anschließend als Eingang in ein automatisches Spracherkennungssystem (60) verwendet wird.
  10. Einsatz des Verfahrens nach einem der Ansprüche 1 bis 6 und/oder des Systems nach einem der Ansprüche 7 bis 9 zum Erkennen der Sprache.
  11. Einsatz des Verfahrens nach einem der Ansprüche 1, 3 bis 6 und/oder des Systems nach einem der Ansprüche 7 oder 8 zur Codierung der Sprache.
  12. Einsatz des Verfahrens nach einem der Ansprüche 1, 3 bis 6 und/oder des Systems nach einem der Ansprüche 7 oder 8 zur Rauschbefreiung der Sprache.
DE60107072T 2000-05-04 2001-04-25 Robuste merkmale für die erkennung von verrauschten sprachsignalen Expired - Lifetime DE60107072T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00870094 2000-05-04
EP00870094A EP1152399A1 (de) 2000-05-04 2000-05-04 Teilband-Sprachverarbeitung mit neuronalen Netzwerken
PCT/BE2001/000072 WO2001084537A1 (fr) 2000-05-04 2001-04-25 Parametres robustes pour la reconnaissance de parole bruitee

Publications (2)

Publication Number Publication Date
DE60107072D1 DE60107072D1 (de) 2004-12-16
DE60107072T2 true DE60107072T2 (de) 2005-10-27

Family

ID=8175744

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60107072T Expired - Lifetime DE60107072T2 (de) 2000-05-04 2001-04-25 Robuste merkmale für die erkennung von verrauschten sprachsignalen

Country Status (8)

Country Link
US (1) US7212965B2 (de)
EP (2) EP1152399A1 (de)
JP (1) JP2003532162A (de)
AT (1) ATE282235T1 (de)
AU (1) AU776919B2 (de)
CA (1) CA2404441C (de)
DE (1) DE60107072T2 (de)
WO (1) WO2001084537A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1416472A1 (de) * 2002-10-30 2004-05-06 Swisscom AG Bandbreitenabhängiges Spracherkennungssystem
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition
US8386125B2 (en) * 2006-11-22 2013-02-26 General Motors Llc Adaptive communication between a vehicle telematics unit and a call center based on acoustic conditions
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
US8972256B2 (en) 2011-10-17 2015-03-03 Nuance Communications, Inc. System and method for dynamic noise adaptation for robust automatic speech recognition
US9934780B2 (en) 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
US9263040B2 (en) 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
US8571871B1 (en) * 2012-10-02 2013-10-29 Google Inc. Methods and systems for adaptation of synthetic speech in an environment
US9280968B2 (en) 2013-10-04 2016-03-08 At&T Intellectual Property I, L.P. System and method of using neural transforms of robust audio features for speech processing
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
US10283140B1 (en) * 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
US10997967B2 (en) * 2019-04-18 2021-05-04 Honeywell International Inc. Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation
CN110047468B (zh) * 2019-05-20 2022-01-25 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
JP3084721B2 (ja) * 1990-02-23 2000-09-04 ソニー株式会社 雑音除去回路
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US5963899A (en) * 1996-08-07 1999-10-05 U S West, Inc. Method and system for region based filtering of speech
US5806025A (en) * 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
US6035048A (en) * 1997-06-18 2000-03-07 Lucent Technologies Inc. Method and apparatus for reducing noise in speech and audio signals
FR2765715B1 (fr) * 1997-07-04 1999-09-17 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
US6230122B1 (en) * 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition

Also Published As

Publication number Publication date
CA2404441C (fr) 2009-07-14
AU776919B2 (en) 2004-09-23
DE60107072D1 (de) 2004-12-16
AU5205101A (en) 2001-11-12
US7212965B2 (en) 2007-05-01
EP1279166A1 (de) 2003-01-29
EP1279166B1 (de) 2004-11-10
JP2003532162A (ja) 2003-10-28
CA2404441A1 (fr) 2001-11-08
WO2001084537A1 (fr) 2001-11-08
US20030182114A1 (en) 2003-09-25
EP1152399A1 (de) 2001-11-07
ATE282235T1 (de) 2004-11-15

Similar Documents

Publication Publication Date Title
DE69616568T2 (de) Mustererkennung
CN109326302B (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69321656T2 (de) Verfahren zur Spracherkennung
Murthy et al. Robust text-independent speaker identification over telephone channels
Hermansky et al. TRAPS-classifiers of temporal patterns.
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
DE69514382T2 (de) Spracherkennung
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE60004331T2 (de) Sprecher-erkennung
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE69616724T2 (de) Verfahren und System für die Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition