DE69830017T2 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Spracherkennung Download PDF

Info

Publication number
DE69830017T2
DE69830017T2 DE69830017T DE69830017T DE69830017T2 DE 69830017 T2 DE69830017 T2 DE 69830017T2 DE 69830017 T DE69830017 T DE 69830017T DE 69830017 T DE69830017 T DE 69830017T DE 69830017 T2 DE69830017 T2 DE 69830017T2
Authority
DE
Germany
Prior art keywords
speech recognition
parameters
parameter
speech
modified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69830017T
Other languages
English (en)
Other versions
DE69830017D1 (de
Inventor
Kari Laurila
Olli Viikki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of DE69830017D1 publication Critical patent/DE69830017D1/de
Application granted granted Critical
Publication of DE69830017T2 publication Critical patent/DE69830017T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

  • Die vorliegende Erfindung betrifft Spracherkennung und insbesondere ein Verfahren zum Modifizieren von Leistungsvektoren, die bei der Spracherkennung zu bestimmen sind. Die Erfindung betrifft des Weiteren eine Vorrichtung, die das Verfahren gemäß der vorliegenden Erfindung zum Verbessern der Spracherkennung anwendet.
  • Die Erfindung betrifft automatische Spracherkennung, insbesondere Spracherkennung, die auf Hidden-Markov-Modellen (HMM) basiert. Auf den HMM basierende Spracherkennung basiert auf statistischen Modellen von erkennbaren Wörtern. In der Erkennungsphase werden auf Markov-Ketten basierende Beobachtungen und Zustandsübergänge in einem ausgesprochenen Wort berechnet, und basierend auf Wahrscheinlichkeiten wird ein. in der Schulungsphase der Spracherkennungs-Vorrichtung gespeichertes und dem ausgesprochenen Wort entsprechendes Modell bestimmt. Beispielsweise ist der Ablauf von auf den Hidden-Markov-Modellen basierter Spracherkennung in der Referenz: "L. Rabiner, "A tutorial on Hidden Markov Models and selected applications in speech recognition", Proceedings of the IEEE, Band 77, Nr. 2, Februar 1989, beschrieben worden.
  • Das Problem bei den derzeitigen Spracherkennungs-Vorrichtungen besteht darin, dass die Erkennungsgenauigkeit in einer lauten Umgebung beträchtlich abnimmt. Des Weiteren nimmt die Leistung von Spracherkennungs-Vorrichtungen insbesondere ab, wenn die Geräuschbedingungen während des Betriebs der Spracherkennungs-Vorrichtung sich von den Geräuschbedingungen in der Schulungsphase der Spracherkennungs-Vorrichtung unterscheiden. Dies ist tatsächlich eines der schwierigsten Probleme, das bei in Anwendung befindlichen Spracherkennungssystemen gelöst werden muss, weil es unmöglich ist, die Auswirkungen aller Geräuschumgebungen zu berücksichtigen, in denen eine Spracherkennungs-Vorrichtung verwendet werden kann. Eine normale Situation für einen Benutzer eines Geräts, das eine Spracherkennungs-Vorrichtung verwendet, ist, dass die Schulung der Spracherkennungs-Vorrichtung typischerweise in einer fast geräuschlosen Umgebung ausgeführt wird, wogegen in der Betriebsumgebung der Spracherkennungs-Vorrichtung, z.B. wenn sie in einem Fahrzeug verwendet wird, das Hintergrundgeräusch, das von umgebendem Verkehr und dem Fahrzeug selbst verursacht wird, sich beträchtlich von dem nahezu ruhigen Geräuschpegel der Schulungsphase unterscheidet.
  • Das Problem bei den derzeitigen Spracherkennungs-Vorrichtungen ist auch, dass die Leistung einer Spracherkennungs-Vorrichtung von den verwendeten Mikrofonen abhängt. Insbesondere in einer Situation, in der in der Schulungsphase der Spracherkennungs-Vorrichtung ein anderes Mikrofon verwendet wird als in der tatsächlichen Spracherkennungsphase, nimmt die Leistung der Spracherkennungs-Vorrichtung wesentlich ab.
  • Mehrere unterschiedliche Verfahren sind entwickelt worden, um die Auswirkung von Geräusch bei der Berechnung von Leistungsvektoren zu eliminieren. Die Spracherkennungs-Vorrichtungen, die diese Verfahren einsetzen, können jedoch nur in festen Rechner/Arbeitsplatz-Anwendungen eingesetzt werden, in denen Sprache in einer Offline-Weise erkannt wird. Es ist typisch für diese Verfahren, dass die zu erkennende Sprache in einem Speicher eines Rechners gespeichert ist. Typischerweise beträgt die Länge des zu speichernden Sprachsignals mehrere Sekunden. Anschließend werden die Leistungsvektoren modifiziert, wobei bei der Berechnung Parameter verwendet werden, die aus dem Inhalt der gesamten Datei definiert werden. Auf Grund der Länge des zu speichernden Sprachsignals sind diese Arten von Verfahren nicht auf Echtzeit-Spracherkennung anwendbar.
  • Des Weiteren wird ein Normalisierungsverfahren bereitgestellt, wobei sowohl Sprache als auch Geräusch ihre eigenen Normalisierungs-Koeffizienten aufweisen, die adaptiv unter Verwendung einer Sprechaktivitätserkennung (VAD) aktualisiert werden. Auf Grund des adaptiven Aktualisierens werden die Normalisierungs-Koeffizienten mit Verzögerung aktualisiert, worauf der Normalisierungsprozess in der Praxis nicht schnell genug ausgeführt wird. Des Weiteren erfordert dieses Verfahren eine VAD, deren Betrieb für Spracherkennungs-Anwendungen bei geringem Signal-Rausch-Verhältnis (SVR) oft zu ungenau ist. Des Weiteren erfüllt dieses Verfahren auf Grund der Verzögerung auch nicht die Echtzeitanforderungen.
  • Jetzt wurde ein Verfahren und eine Vorrichtung zur Spracherkennung erfunden, um die oben genannten Probleme zu verhindern, und mit deren Hilfe Leistungsvektoren, die bei der Spracherkennung bestimmt werden, modifiziert werden, um die Auswirkungen von Geräuschen auszugleichen. Die Modifizierung der Leistungsvektoren wird durch Definieren von Mittelwerten und Standardabweichungen für die Leistungsvektoren und durch Normalisieren des Leistungsvektors ausgeführt, der diese Parameter verwendet. Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung werden die Leistungsvektoren unter Verwendung eines Gleit-Normalisierungspuffers normalisiert. Mit Hilfe der Erfindung wird die Aktualisierung der Normalisierungs-Parameter des Leistungsvektors fast ohne Verzögerung ausgeführt, und die Verzögerung in dem eigentlichen Normalisierungsprozess ist ausreichend klein, um das Implementieren einer Echtzeit-Spracherkennungsanwendung zu gestatten.
  • Des Weiteren ist es mit Hilfe des Verfahrens gemäß der vorliegenden Erfindung möglich, die Leistung der Spracherkennungs-Vorrichtung weniger abhängig von dem verwendeten Mikrofon zu machen. Mit Hilfe der Erfindung lässt sich eine fast so hohe Leistung der Spracherkennungs-Vorrichtung in einer Situation erreichen, in der ein anderes Mikrofon in der Versuchs- und Erkennungsphase der Spracherkennungs-Vorrichtung verwendet wird, wie in einer Situation, in der das gleiche Mikrofon sowohl in der Schulungs- als auch in der Erkennungsphase verwendet wird.
  • Die Erfindung ist gekennzeichnet durch das, was in den kennzeichnenden Teilen der Ansprüche 1 und 4 dargelegt ist.
  • 1 stellt die Struktur einer Spracherkennungs-Vorrichtung gemäß dem bisherigen Stand der Technik als ein Blockschaltbild dar,
  • 2 stellt die Struktur eines Analyseblocks gemäß dem bisherigen Stand der Technik als en Blockschaltbild dar,
  • 3a und 3b stellen die Struktur einer Spracherkennungs-Vorrichtung gemäß der Erfindung dar,
  • 4 stellt den Einsatz eines Normalisierungspuffers gemäß der Erfindung dar,
  • 5 stellt den Ablauf eines Verfahrens gemäß der Erfindung als ein Ablaufdiagramm dar, und
  • 6 stellt die Struktur einer Mobilstation gemäß der Erfindung dar.
  • 1 stellt den Blockschaltbild-Aufbau einer bekannten Spracherkennungs-Vorrichtung dar, wie er auf die vorliegende Erfindung angewendet werden kann. Typischerweise ist der Betrieb der Spracherkennungs-Vorrichtung in zwei verschiedene Hauptaktivitäten unterteilt: eine tatsächliche Spracherkennungsphase 1012, 1415 und eine Sprach-Schulungsphase 13, wie in 1 dargestellt. Die Spracherkennungs-Vorrichtung erhält von einem Mikrofon als ihre Eingabe ein Sprachsignal s(n), das mit Hilfe eines A/D-Wandlers 10 in eine digitale Form umgewandelt wird, wobei z.B. eine Abtastfrequenz von 8 kHz und eine 12-Bit-Auflösung pro Abtastung verwendet werden. Typischerweise umfasst die Spracherkennungs-Vorrichtung einen so genannten Vorrechner 11, in dem das Sprachsignal analysiert und ein Leistungsvektor 12 modelliert werden, wobei der Leistungsvektor das Sprachsignal während einer bestimmten Zeitdauer beschreibt. Der Leistungsvektor wird z.B. in Intervallen von 10 ms definiert. Der Leistungsvektor kann unter Verwendung mehrerer verschiedener Techniken modelliert werden. Beispielsweise sind mehrere verschiedene Arten von Techniken zum Modellieren eines Leistungsvektors beschrieben worden in dem Referenzdokument : J. Picone, "Signal modelling techniques in speech recognition", IEEE Proceedings, Band 81, Nr. 9, S. 1215–1247, September 1993. Der in der vorliegenden Erfindung verwendete Leistungsvektor wird modelliert durch Definieren so genannter Mel-Frequenz- Cepstrum-Koeffizienten (MFCC). Während der Schulungsphase werden Modelle mit Hilfe des Leistungsvektors in einem Schulungsblock 13 der Spracherkennungs-Vorrichtung für die Wörter konstruiert, die von der Spracherkennungs-Vorrichtung verwendet werden. Bei der Modell-Schulung 13a wird ein Modell für ein erkennbares Wort festgelegt. In der Schulungsphase kann die Wiederholung des zu modellierenden Worts verwendet werden. Die Modelle werden in einem Speicher 13b gespeichert. Während der Spracherkennung wird der Leistungsvektor zu einer tatsächlichen Erkennungsvorrichtung 14 übertragen, die in einem Block 15a die Modelle, die während der Schulungsphase konstruiert wurden, mit den Leistungsvektoren vergleicht, die aus der erkennbaren Sprache zu konstruieren sind, und die Entscheidung über ein Erkennungsergebnis wird in einem Block 15b getroffen. Das Erkennungsergebnis 15 bezeichnet das Wort, das in dem Speicher der Spracherkennungs-Vorrichtung gespeichert ist, das dem von einer Person ausgesprochenen Wort unter Verwendung der Spracherkennungsvorrichtung am besten entspricht.
  • 2 stellt den Aufbau eines bekannten Analyseblocks des Vorrechners 11 dar, der auf die vorliegende Erfindung anwendbar ist. Typischerweise umfasst der Vorrechner 11 ein Vorverzerrungsfilter 20 zum Verzerren von Frequenzen, die für die Spracherkennung relevant sind. Typischerweise ist das Vorverzerrungsfilter 20 ein Hochpassfilter, z.B. ein FIR-Filter 1. Grades mit einem Ansprechverhalten von H(z) = 1 – 0,95 z–1. Danach werden in einem Block 21 Frames mit einer Länge von N Abtastungen aus einem gefilterten Signal ausgebildet. Unter Verwendung von z.B. einer Abtastlänge N = 240, wird eine Frame-Struktur von 30 ms bei der Abtastfrequenz von 8 kHz erzeugt. Typischerweise können die Sprach-Frames auch unter Verwendung einer so genannten Überlappungstechnik ausgebildet werden, wobei aufeinander folgende Frames sich bis zum Ausmaß von S aufeinander folgenden Abtastungen überlappen (z.B. 10 ms). Vor dem Modellieren einer schnellen Fourier-Transformations- (FFT) Frequenzdarstellung für das Sprachsignal in einem Block 23a kann auch eine so genannte Fenstertechnik ausgeführt werden, um die Genauigkeit einer Spektrumsschätzung zu verbessern, wobei z.B. ein Hamming-Fenster in einem Block 22 verwendet wird. Anschließend wird die FFT-Darstellung des Signals in eine Mel-Frequenz-Darstellung in einem Mel-Fensterungsblock 24 umgewandelt. Die Umwandlung in die Mel-Frequenz-Darstellung ist dem Fachmann bekannt. Die Übertragung in die Mel-Frequenz-Darstellung wurde dargestellt in dem Quell-Referenzdokument: "J. Picone, "Signal Modelling Techniques in Speech Recognition", IEEE Proceedings, Band 81, Nr. 9". Mit dieser Frequenzumwandlung wird die nicht-lineare Empfindlichkeit des Ohrs in Bezug auf unterschiedliche Frequenzen berücksichtigt. Typischerweise kann die Anzahl (k) der verwendeten Frequenzbänder k = 24 sein. Der eigentliche Leistungsvektor 12, die so genannten Cepstrum-Koeffizienten c(i), wird erhalten, indem eine so genannte diskrete Kosinus-Transformation (DCT) für 26 logarithmische Mel-Werte, die in einem Block 25 ausgebildet werden, ausgeführt wird. Beispielsweise kann die Grad-Anzahl J = 24 in der diskreten Kosinus-Transformation verwendet werden. Typischerweise wird nur die Hälfte der DCT-Koeffizienten c(i), wobei i der Index eines Kosinus-Ausdrucks ist, verwendet. Typischerweise enthält der tatsächliche Leistungsvektor auch Informationen über Sprachdynamik, indem so genannte 1. und 2. Stufen-Differenzsignale dc(i), ddc(i) berechnet werden. Diese Differenzsignale können aus den nacheinander ausgegebenen Vektoren eines diskreten Kosinus-Transformationsblocks in einem Block 27 ermittelt werden, indem davon ausgegangen wird, dass dc(i) = c(i) – c(i – 1) und ddc(i) = dc(i) – dc(i – 1) ist. Wenn diese 26 zusätzlichen Parameter berücksichtigt werden, beträgt die Länge des Leistungsvektor in unserem Beispielfall 13 + 26 = 39 Parameter.
  • Die 3a und 3b stellen die Struktur der Spracherkennunas-Vorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung dar. Ein Vorrechner 30 erzeugt als ein Ausgabesignal einen Leistungsvektor xi, wobei i = 1, ..., M (z.B. M = 39) bei 10-ms-Intervallen ist. Der Leistungsvektor wird in einem Normalisierungspuffer 31 gespeichert, mit dessen Hilfe ein Mittelwert μi und eine Standardabweichung σi für jede Leistungsvektor-Komponente xi, wobei i = 1, ..., M ist, wie folgt berechnet wird:
  • Figure 00080001
  • I n den Formeln 1 und 2 ist N die Länge des Normalisierungspuffers, und M ist die Länge des Leistungsvektors. Danach wird die Komponente xi des zu erkennenden Leistungsvektors in einem Block 31 unter Verwendung der berechneten Normalisierungs-Koeffizienten μi, σi normalisiert. Der zu normalisierende und zu erkennende Leistungsvektor x befindet sich in der Mitte des Normalisierungspuffers 31, wie in 4 dargestellt.
  • Figure 00090001
  • Der normalisierte Leistungsvektor x ^ wird als ein Eingabesignal entweder an die Spracherkennungseinheit 14 oder an den Schulungsblock 13 übertragen, was davon abhängt, ob es sich um die Schulungsphase der Spracherkennungs-Vorrichtung oder um die tatsächliche Spracherkennungsphase handelt. In dem Verfahren gemäß der ersten Ausführungsform der vorliegenden Erfindung wird vorzugsweise ein Normalisierungspuffer mit fester Länge (N) verwendet, wobei der Puffer über den Leistungsvektoren verschoben wird. Auf Grund des Gleit-Normalisierungspuffers kann das Verfahren auch in einem Echtzeit-Spracherkennungssystem implementiert werden. Ein Normalisierungspuffer 34 ist ein N·M Abtastungen großer Puffer, der typischerweise in Verbindung mit der Spracherkennungseinheit durch Programmieren eines digitalen Signalprozessors (DSP) implementiert werden kann, wobei entweder die internen Speicherstrukturen oder der externe Speicher des DSDP verwendet werden kann. In der Lösung weist der Normalisierungspuffer gemäß dem Beispiel der vorliegenden Erfindung 100 Leistungsvektoren in der Länge auf. Der jederzeit zu normalisierende und zu erkennende Leistungsvektor befindet sich in der Mitte des Normalisierungspuffers 34. Weil dieser zu normalisierende Leistungsvektor in der Mitte des Normalisierungspuffers liegt, wird in der Spracherkennung eine Verzögerung N verursacht, welche die Länge des Normalisierungspuffers aufweist. Wenn die Parameter aus diesem Beispiel verwendet werden, beträgt die Verzögerung 100·10 ms = 1 s. Diese Verzögerung kann jedoch halbiert werden, wenn nur ein Teil der Länge des Puffers am Anfang der Spracherkennung verwendet wird, wie im Folgenden erläutert wird.
  • 5 stellt in Form eines Ablaufdiagramms den Ablauf des Verfahrens gemäß der vorliegenden Erfindung dar. Zu Beginn jeder Spracherkennung wird der Normalisierungspuffer so lange gefüllt, bis eine Hälfte der vollen Länge des Puffers N/2 verwendet worden ist (Blöcke 100102). Danach werden der Mittelwert und Standardabweichungs-Vektoren μi, σi (Block 103) berechnet, und ein erster Leistungsvektor wird unter Verwendung der ersten N/2-Leistungsvektoren normalisiert. Der tatsächliche Spracherkennungsprozess wird für diesen normalisierten Leistungsvektor x ^ unter Verwendung von Viterbi-Decodierung in einem Block 15b (1) gemäß einer bekannten Technik ausgeführt. Anschließend wird ein neuer Leistungsvektor gepuffert (Block 104), neue Normalisierungs-Koeffizienten werden unter Verwendung der speicherten (N/2 – 1) Leistungsvektoren berechnet, und ein zweiter Leistungsvektor wird normalisiert und die Erkennung damit ausgeführt (Block 103). Der entsprechende Prozess wird fortgesetzt, bis der Normalisierungspuffer voll ist. Dann wird eine Übertragung im Ablaufdiagramm von einem Block 105 zu einem Block 106 vorgenommen. Dies bedeutet, dass die ersten N/2-Leistungsvektoren erkannt worden sind, und sich die zu normalisierenden Leistungsvektoren in der Mitte des Normalisierungspuffers befinden. Jetzt wird der Puffer nach dem FIFO-Prinzip (First In-First Out) so verschoben, dass, nachdem ein neuer Leistungsvektor berechnet und erkannt worden ist (Block 107), der älteste Leistungsvektor aus dem Normalisierungspuffer (Block 106) entfernt wird. Am Ende der Erkennungsphase (Block 107) werden die Normalisierungs-Koeffizienten unter Verwendung der Werte berechnet, die in dem Normalisierungspuffer gespeichert sind. Diese gleichen Normalisierungs-Koeffizienten werden in Verbindung mit der Erkennung der letzten N/2 Leistungsvektoren verwendet. Daher werden die Mittelwerte und Standardabweichungen unter Verwendung von nicht-normalisierten Leistungsvektoren berechnet. Wenn die Spracherkennung mit allen der N Leistungsvektoren (Block 108) ausgeführt worden ist, modelliert die Spracherkennungs-Vorrichtung ein Ergebnis aus dem erkennbaren Wort (Block 109).
  • Gemäß einer zweiten Ausführungsform der vorliegenden Erfindung kann sich die Länge des Normalisierungspuffers während der Spracherkennung ändern. Zu Beginn der Spracherkennung ist es möglich, einen in der Länge kürzeren Puffer zu verwenden, z.B. N = 45, und die Länge des zu puffernden Signals kann mit fortschreitender Spracherkennung erhöht werden, z.B. für jeden Frame (30 ms). Daher kann der zu normalisierende Leistungsvektor, als eine Ausnahme zu der ersten beispielhaften Anwendung der Erfindung, der erste Leistungsvektor, der in den Puffer geladen wird, und nicht der mittlere Leistungsvektor des Puffers sein, und der gesamte Inhalt des Puffers dieses speziellen Moments kann in der Berechnung der Normalisierungs-Koeffizienten verwendet werden. In dieser Anwendung beträgt die Länge der Verzögerung N, wobei N die Länge eines Segments am Beginn der Spracherkennung ist (z.B. N = 45).
  • Eine Lösung gemäß einer Anwendung der vorliegenden Erfindung ist also, dass nicht alle der Komponenten eines Leistungsvektors normalisiert werden, sondern die Normalisierung nur für einen Teil der Komponenten des Leistungsvektors ausgeführt wird. Beispielsweise kann die Normalisierung nur für die wichtigsten Komponenten in Bezug auf das Wahrnehmungsvermögen des menschlichen Hörsinns/der Spracherkennung ausgeführt werden. Eine Modifizierung gemäß der Erfindung ist auch, dass die Normalisierung nur für Leistungsvektoren ausgeführt wird, die in Beziehung zu dem Mittelwert oder der Standardabweichung stehen. Die Modifizierung von Leistungsvektoren kann auch allgemeiner in Bezug auf jede beliebige statistische Menge ausgeführt werden.
  • 6 stellt den Aufbau einer Mobilstation dar, in der eine Spracherkennungs-Vorrichtung 66 bereitgestellt ist, welche die vorliegende Erfindung einsetzt. Die Mobilstation umfasst Teile, die für die Vorrichtung typisch sind, wie beispielsweise ein Mikrofon 61, eine Tastatur 62, eine Anzeigevorrichtung 63, ein Lautsprecher 64 sowie ein Steuerblock 65, der den Betrieb der Mobilstation steuert. Des Weiteren zeigt die Figur Sende- und Empfangs-Blöcke 67, 68, die für die Mobilstation typisch sind. Der Steuerblock 65 steuert des Weiteren den Betrieb der Spracherkennungs-Vorrichtung 66 in Verbindung mit der Mobilstation. Wenn die Spracherkennungs-Vorrichtung aktiviert ist, entweder während der Schulungsphase der Spracherkennungs-Vorrichtung oder während des eigentlichen Spracherkennungsprozesses, werden von einem Benutzer gesprochene Audiobefehle durch den Steuerblock gesteuert vom Mikrofon 61 zu der Spracherkennungs-Vorrichtung 66 übertragen. Die Audiobefehle können auch über ein separates FH- (Freihand) Mikrofon übertragen werden. Typischerweise wurde die Spracherkennungs-Vorrichtung mittels eines DSP implementiert und umfasst ROM/RAM-Speicherschaltkreise, die für ihre Aktivitäten erforderlich sind.
  • Tabelle 1 stellt die Leistung einer Spracherkennungs-Vorrichtung mit dem Verfahren gemäß der vorliegenden Erfindung im Vergleich mit anderen Geräuschausgleich-Techniken dar. Die Erfindung wurde verglichen mit der Verwendung von nicht-normalisierten Mel-Frequenz- Cepstrum-Koeffizienten oder der PMC-Technik (parallele Modell-Kombination). Der Test wurde ausgeführt unter Verwendung Hidden-Markov-Modellen, die in einer geräuschlosen Umgebung modelliert wurden. Während der Spracherkennung wurde dem zu erkennenden Wort ein Rauschsignal hinzugefügt, um das erforderliche Signal-Rausch-Verhältnis zu erreichen. Ein "sauberer" Modus entspricht einer Situation, in der sowohl die Schulung der Spracherkennungs-Vorrichtung und der tatsächliche Spracherkennungsprozess in einer geräuschlosen Umgebung ausgeführt worden sind. Die Testergebnisse zeigen, dass die Spracherkennungs-Vorrichtung gemäß der vorliegenden Erfindung die Zuverlässigkeit einer Erkennungsvorrichtung in einer lauten Umgebung verbessert. Des Weiteren wird klar, dass die Spracherkennungs-Vorrichtung gemäß der vorliegenden Erfindung besser als die PMC-Technik funktioniert, die rechnerisch viel komplizierter als das erfindungsgemäße Verfahren ist.
  • Figure 00130001
    Tabelle 1
  • Dieses Dokument stellt die Implementierung und Ausführungsformen der vorliegenden Erfindung mit Hilfe von Beispielen dar. Beispielsweise wurde die Erfindung oben in einer Spracherkennungs-Vorrichtung dargestellt, die auf HMM basiert. Die Erfindung ist jedoch des Weiteren geeignet zum Einsatz in Spracherkennungs- Vorrichtungen, die auf anderen Techniken basieren. Die Erfindung kann beispielsweise auf Spracherkennungs-Vorrichtungen angewendet werden, die neuronale Netze verwenden. Für einen Fachmann ist es offenkundig, dass die vorliegende Erfindung nicht auf Details der oben vorgestellten Ausführungsformen beschränkt ist, und dass die Erfindung auch in einer anderen Form implementiert werden kann, ohne dadurch von den Merkmalen der Erfindung abzuweichen. Die oben dargestellten Ausführungsformen sind als beispielhaft, aber nicht als einschränkend zu betrachten. Daher werden die Möglichkeiten der Implementierung und Verwendung der Erfindung nur durch die Ansprüche im Anhang eingeschränkt.

Claims (6)

  1. Verfahren zur Spracherkennung, in dem ein erkennbares Sprachsignal zeitlich in aufeinanderfolgende Rahmen mit bestimmter Länge aufgeteilt wird, wobei jeder Sprachrahmen auf das Erzeugen wenigstens eines Parameters pro Rahmen analysiert wird, der das Sprachsignal darstellt, wobei die Parameter, die sich auf bestimmte Rahmen beziehen, gespeichert werden, wobei die Parameter modifiziert werden, und die Spracherkennung unter Verwendung der modifizierten Parameter ausgeführt wird, dadurch gekennzeichnet, daß nur ein Teil der aufeinanderfolgenden Parameter periodisch gespeichert wird, und wenigstens ein Parameter auf der Basis der periodisch gespeicherten Parameter modifiziert wird, um den modifizierten Parameter zu erzeugen.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß auf der Basis von N aufeinanderfolgenden Parametern eine der folgenden Mengen für die Modifizierung definiert wird: ein Mittelwert, eine Standardabweichung, beide vorher genannten Mengen, und wobei N eine ganze Zahl ist.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Modifizierung der Parameter eine Normalisierung in Bezug auf eine der Mengen umfaßt.
  4. Sprachsignal-Verarbeitungsvorrichtung, umfassend Mittel (21) zum zeitlichen Aufteilen des Sprachsignals in aufeinanderfolgende Rahmen, Mittel (11, 30) zum Analysieren eines Sprachrahmens zum Erzeugen wenigstens eines Parameters, der das Sprachsignal darstellt, Speichermittel (31) zum Speichern der Parameter, Mittel (31) zum Modifizieren des Parameters zum Erzeugen des modifizierten Parameters und Mittel (14) zur Spracherkennung unter Verwendung des modifizierten Parameters, dadurch gekennzeichnet, daß die Speichermittel (31) periodisch angeordnet sind, um nur einen Teil der aufeinanderfolgenden Parameter zu speichern, und die Mittel (31) zum Modifizieren des Parameters so angeordnet sind, daß der Parameter, der das Sprachsignal darstellt, auf der Basis der in den Speichermitteln (31) periodisch gespeicherten Parameter modifiziert wird, um den modifizierten Parameter zu erzeugen.
  5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß die Speichermittel (31) einen Puffer umfassen, der in der Länge (31) fixiert ist.
  6. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß die Speichermittel (31) einen Puffer umfassen, der in der Länge (31) veränderlich ist.
DE69830017T 1997-04-11 1998-03-24 Verfahren und Vorrichtung zur Spracherkennung Expired - Lifetime DE69830017T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI971521A FI114247B (fi) 1997-04-11 1997-04-11 Menetelmä ja laite puheen tunnistamiseksi
FI971521 1997-04-11

Publications (2)

Publication Number Publication Date
DE69830017D1 DE69830017D1 (de) 2005-06-09
DE69830017T2 true DE69830017T2 (de) 2005-09-29

Family

ID=8548593

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69830017T Expired - Lifetime DE69830017T2 (de) 1997-04-11 1998-03-24 Verfahren und Vorrichtung zur Spracherkennung

Country Status (5)

Country Link
US (1) US6772117B1 (de)
EP (1) EP0871157B1 (de)
JP (1) JPH10288996A (de)
DE (1) DE69830017T2 (de)
FI (1) FI114247B (de)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002073600A1 (en) * 2001-03-14 2002-09-19 International Business Machines Corporation Method and processor system for processing of an audio signal
JP3746690B2 (ja) * 2001-07-10 2006-02-15 日本電信電話株式会社 信号検出方法及び装置、プログラムならびに記録媒体
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7035797B2 (en) 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
TWI223791B (en) * 2003-04-14 2004-11-11 Ind Tech Res Inst Method and system for utterance verification
CN1898720B (zh) * 2004-07-09 2012-01-25 日本电信电话株式会社 音响信号检测系统、音响信号检测服务器、影像信号搜索装置、影像信号搜索方法、影像信号搜索程序与记录介质、信号搜索装置、信号搜索方法、及信号搜索程序与记录介质
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US20100094622A1 (en) * 2008-10-10 2010-04-15 Nexidia Inc. Feature normalization for speech and audio processing
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8880396B1 (en) * 2010-04-28 2014-11-04 Audience, Inc. Spectrum reconstruction for automatic speech recognition
JP6127422B2 (ja) 2012-09-25 2017-05-17 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
US9691377B2 (en) * 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9542933B2 (en) 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9570069B2 (en) * 2014-09-09 2017-02-14 Disney Enterprises, Inc. Sectioned memory networks for online word-spotting in continuous speech
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US10127919B2 (en) * 2014-11-12 2018-11-13 Cirrus Logic, Inc. Determining noise and sound power level differences between primary and reference channels
JP5995226B2 (ja) 2014-11-27 2016-09-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
US9576589B2 (en) * 2015-02-06 2017-02-21 Knuedge, Inc. Harmonic feature processing for reducing noise
WO2017154279A1 (ja) * 2016-03-10 2017-09-14 ソニー株式会社 音声処理装置および音声処理方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US20210201937A1 (en) * 2019-12-31 2021-07-01 Texas Instruments Incorporated Adaptive detection threshold for non-stationary signals in noise

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
FI97919C (fi) 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
DE4229577A1 (de) * 1992-09-04 1994-03-10 Daimler Benz Ag Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors

Also Published As

Publication number Publication date
EP0871157B1 (de) 2005-05-04
DE69830017D1 (de) 2005-06-09
FI971521A (fi) 1998-10-12
FI971521A0 (fi) 1997-04-11
JPH10288996A (ja) 1998-10-27
FI114247B (fi) 2004-09-15
US6772117B1 (en) 2004-08-03
EP0871157A2 (de) 1998-10-14
EP0871157A3 (de) 1999-06-16

Similar Documents

Publication Publication Date Title
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69606978T2 (de) Verfahren zur rauschunterdrückung mittels spektraler subtraktion
DE60023517T2 (de) Klassifizierung von schallquellen
DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
EP3291234A1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE102019201456B3 (de) Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition