DE10006930B4 - System und Verfahren zur Spracherkennung - Google Patents

System und Verfahren zur Spracherkennung Download PDF

Info

Publication number
DE10006930B4
DE10006930B4 DE10006930A DE10006930A DE10006930B4 DE 10006930 B4 DE10006930 B4 DE 10006930B4 DE 10006930 A DE10006930 A DE 10006930A DE 10006930 A DE10006930 A DE 10006930A DE 10006930 B4 DE10006930 B4 DE 10006930B4
Authority
DE
Germany
Prior art keywords
noise
utterance
training
model
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE10006930A
Other languages
English (en)
Other versions
DE10006930A1 (de
Inventor
David Erik Mukwonago Chevalier
Henry L. Arlington Heights Kazecki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of DE10006930A1 publication Critical patent/DE10006930A1/de
Application granted granted Critical
Publication of DE10006930B4 publication Critical patent/DE10006930B4/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

Verfahren zum Betrieb eines Spracherkennungssystems (204, 206, 207, 208), bei dem eine Sprachäußerung unter Verwendung von gespeicherten Parametern identifiziert wird, mit den folgenden Schritten:
Berechnen eines Rauschmerkmals, in einem Trainingsmodus, als Funktion von zumindest einer eingegebenen Trainingsäußerung;
Berechnen einer Eingaberauschmessung, in einem Erkennungsmodus, als Funktion einer eingegebenen Sprachäußerung;
Berechnen eines Genauigkeitsparameters aus einem Verhältnis der Rauschmessung zum Rauschmerkmal; und
Bestimmen einer besten Übereinstimmung der Sprachäußerung in Bezug auf die gespeicherten Parameter und Auswählen der bestimmten besten Übereinstimmung für die Sprachäußerung, wenn die beste Übereinstimmung den Genauigkeitsparameter übersteigt.

Description

  • Die Erfindung betrifft Spracherkennungssysteme.
  • Aus der DE 40 29 716 A1 ist ein sprachgesteuertes Fernbedienungssystem bekannt, das aufgrund eines Sprachbefehls ein Fernbedienungssignal aussendet. Das sprachgesteuerte Fernbedienungssystem umfasst eine Wichtigkeitsgrad-Bestimmungseinheit, die den Wichtigkeitsgrad eines in das Fernbedienungssystem eingegebenen Sprachbefehls bestimmt. Die Wichtigkeits-Bestimmungseinheit schickt ein dem Wichtigkeitsgrad des Sprachbefehls entsprechendes Wichtigkeitsgradsignal an eine Erkennungsgenauigkeit-Bestimmungseinheit. In Abhängigkeit vom Wichtigkeitsgrad des eingegebenen Sprachbefehls, wie er durch das Wichtigkeitsgradsignal angezeigt wird, bestimmt die Erkennungsgenauigkeit-Bestimmungseinheit, ob die Genauigkeit des Erkennungsergebnisses hoch oder niedrig ist. Aufgrund des Ergebnisses dieser Bestimmung schickt die Erkennungsgenauigkeit-Bestimmungseinheit nur ein Erkennungsergebnis mit höherer Erkennungsgenauigkeit an eine Sendeschaltung.
  • Die EP 0 240 330 A2 betrifft die Rauschkompensation bei der Spracherkennung. Bei der Spracherkennung ist es entsprechend der Lehre dieser Druckschrift vorteilhaft, Rauschpegel sowohl bei der Erkennung als auch beim Training zu berücksichtigen. Bei beiden Vorgängen werden ein Mikrophon erreichende Signal digitalisiert und durch eine Filterbank geleitet, um in Frequenzkanäle aufgeteilt zu werden. Beim Training werden ein Rauschschätzer und ein Maskierer zusammen mit einem Erkenner verwendet, um Wahrscheinlichkeitsdichtefunktionen für jeden Kanal zu erzeugen und zu speichern, die partial Markov-Modelle von zu erkennenden Wörtern definieren. Die Wahrscheinlichkeitsdichtefunktionen werden nur von Eingangssignalen oberhalb von Rauschpegeln abgeleitet, die Ableitung erfolgt jedoch derart, dass die Gesamtheit von jeder Wahrscheinlichkeitsdichtefunktion repräsentiert wird. Bei der Erkennung werden "Abstands"-Messungen, auf denen die Erkennung basiert, für jeden Kanal abgeleitet. Wenn das Signal in einem Kanal über dem Rauschen liegt, wird der Abstand durch den Erkenner über den negativen Logarithmus der Wahrscheinlichkeitsdichtefunktion abgeleitet. Wenn ein Kanalsignal jedoch unter dem Rauschen liegt, wird der Abstand über den negativen Logarithmus des kumulativen Abstandes der Wahrscheinlichkeitsdichtefunktion zum Rauschpegel bestimmt.
  • Sprecherspezifische Spracherkennungssysteme verwenden einen Merkmalsextraktionsalgorithmus, um Signalverarbeitung an einem Rahmen der Eingangssprache vornehmen und Merkmalsvektoren für jeden Rahmen ausgeben zu können. Die Rahmenrate liegt i.a. zwischen 10 und 30 ms und wird hier als Beispiel auf 20 ms Dauer festgelegt. Bekanntermaßen wird eine große Anzahl unterschiedlicher Merkmale bei Spracherkennungssystemen verwendet.
  • Allgemein ausgedrückt werden bei einem Trainingsalgorithmus die Merkmale verwendet, die aus der abgetasteten Sprache einer oder mehrerer Äußerungen eines Wortes oder eines Satzes extrahiert wurden, um Parameter für ein Modell dieses Wortes oder Satzes zu erzeugen. Dieses Model wird dann in einem Modellablagespeicher gespeichert. Diese Modelle werden später bei der Spracherkennung verwendet. Das Erkennungssystem vergleicht die Merkmale einer unbekannten Äußerung mit abgespeicherten Modellparametern, um eine beste Übereinstimmung zu finden. Das am besten übereinstimmende Modell wird dann von dem Erkennungssystem als Ergebnis ausgegeben.
  • Es ist bekannt, verborgene Markov-Modelle (Hidden Markov Model = HMM) als Basis für Erkennungssysteme zu verwenden. HMM-Erkennungssysteme ordnen Rahmen der Äußerung Zuständen des HMM zu. Die Rahmenzustandszuordnung, bei der die größte Wahrscheinlichkeit oder Wertung vorliegt, wird als beste Übereinstimmung ausgewählt.
  • Viele Spracherkennungssysteme unterscheiden nicht zwischen gültigen und ungültigen Äußerungen. Statt dessen wählen diese Systeme eines unter den abgespeicherten Modellen, das die größte Übereinstimmung ergibt. Einige Systeme verwenden einen Vokabularabgrenzungsalgorithmus, der ungültige Äußerungen zu erfas sen und zurückzuweisen versucht. Dies ist ein schwieriges Problem bei sprecherabhängigen Spracherkennungssystemen mit einem kleinen Vokabular aufgrund der dynamischen Größe und der unbekannten Zusammensetzung des Vokabulars. Diese Algorithmen werden in verrauschten Verhältnissen schlechter, so dass die Anzahl der falschen Zurückweisungen unter verrauschten Verhältnissen zunimmt.
  • In der Praxis müssen Vokabularabgrenzungsalgorithmen bei der Leistung die Balance zwischen korrekten Zurückweisungen ungültiger Äußerungen und falschen Zurückweisungen gültiger Äußerungen finden. Die Rate falscher Zurückweisungen kann eine kritische Rolle bei dem Grad der Zufriedenheit der Kunden spielen, ebenso wie häufige falsche Zurückweisungen oder fehlerhafte Übereinstimmungen zu Frustrationen führen. Damit ist die Zurückweisung aufgrund des Vokabularabgrenzungsalgorithmus eine Balance in Bezug auf die Erfüllung der Erwartungen der Anwender an die Erkennung.
  • Dementsprechend wird bekanntermaßen ein Zurückweisungsschwellenwert auf der Grundlage des Rauschpegels berechnet. Beispielsweise ist es bekannt, den Rauschpegel zu messen, bevor der erste Sprachrahmen erkannt wird. Ein Schwellenwert wird aus der Messung berechnet. Ein Eingangswert wird zurückgewiesen, wenn die Differenz zwischen dem Wortreferenzmuster und dem Eingangssprachmuster größer als der Zurückweisungsschwellenwert ist. Solch ein System ist daher abhängig von dem zufälligen Rauscheingangspegel. Solche Messungen sind nicht zuverlässig genug, um darauf basierend eine wirkliche Zurückweisungsentscheidung zu fällen.
  • Dementsprechend besteht ein Bedarf an einem verbesserten Verfahren zum Bereitstellen einer Basis für das Zurückweisen von Äußerungen in einem Spracherkennungssystem.
  • 1 zeigt ein schematisches Schaltbild als Blockdiagramm zur Darstellung einer drahtlosen Kommunikationseinrichtung.
  • 2 zeigt ein schematisches Schaltbild als Blockdiagramm zur Darstellung eines Spracherkennungssystems in der Einrichtung nach 1.
  • 3 zeigt ein Grammatiknetz mit zwei Knoten.
  • 4 ist ein Flussdiagramm des Trainingsvorgangs.
  • 5 zeigt ein Fenster und entsprechende Rahmen.
  • 6 ist ein grobes Flussdiagramm der Erkennungsvorgangs.
  • 7 ist ein Flussdiagramm des Trainingsvorgangs während der Erkennung.
  • 8 zeigt eine Straffunktion.
  • Die vorliegende Erfindung hat eine variable Genauigkeitsvorgabe für die Zurückweisung, die von den Hintergrundrauschpegeln während des Trainings und der Erkennung abhängt. Beim Training werden Rauschmerkmale durch Trainingsäußerungen erzeugt. Eine Zunahme des Referenzrauschmittelwertes wird aufgrund der Rauschmerkmale aktualisiert. Die Statistiken werden in einem Speicher abgelegt, um sie dem Erkennungsalgorithmus zur Verfügung zu stellen. Rauschstatistiken werden im Training im freihändigen Modus nicht aktualisiert, da das Hintergrundrauschen dann größer ist. Wenn keine Rauschstatistik vorliegt, geht der Erkennungsalgorithmus als Default-Einstellung zu der geringsten Genauigkeitsvorgabe über.
  • Bei der Erkennung wird das Eingangsrauschenergiemerkmal mit den Referenzrauschstatistiken verglichen, und es wird ein Rauschverhältnis berechnet. Die Genauigkeitsvorgabe des Vokabularabgrenzungsalgorithmus wird dann auf der Grundlage des Rauschverhältnisses eingestellt. Durch die vorliegende Erfindung wird es möglich, falschen Zurückweisungen gültiger Äußerungen bei Rauschen vorzubeugen.
  • Der Genauigkeitsvorgabeparameter ist eine Worteintrittsstrafe in dem zweistufigen Algorithmus der Anpassungserkennungssuche. Das Vertrauensmaß des besten Pfades wird als ein Einzelzustandsaussonderungsmodell mit Nullmittelwert parallel zu den Sprachidentifizierungsmodellen implementiert.
  • In 1 ist eine Vorrichtung 100 dargestellt, bei der die Erfindung vorteilhaft eingesetzt werden kann. Die Vorrichtung 100 wird hier zur Erläuterung als tragbares Mobiltelefon beschrieben, aber es könnte sich dabei ebensogut um einen Computer, einen digitalen Assistenten oder eine andere Vorrichtung handeln, bei der Spracherkennung vorteilhaft eingesetzt werden kann, und insbesondere kann es sich dabei um eine Vorrichtung handeln, bei der ein speichereffizientes Spracherkennungssystem von Vorteil ist. Das dargestellte Mobiltelefon umfasst einen Sender 102 und einen Empfänger 104, verbunden mit einer Antenne 106. Der Sender 102 und der Empfänger 104 sind mit einem Rufprozessor 108 verbunden, der die Rufverarbeitungsfunktionen ausführt. Der Rufprozessor 108 kann unter Verwendung eines digitalen Signalprozessors (DSP), eines Mikroprozessors, eines Mikrocontrollers, einer programmierbaren Logikeinheit, einer Kombination aus zwei oder mehr der genannten Einheiten oder irgendeiner anderen digitalen Schaltung implementiert werden.
  • Der Rufprozessor 108 ist mit einem Speicher 110 verbunden. Der Speicher 110 enthält RAM-Speicher, elektronisch lösch- und programmierbare Festwertspeicher (EEPROM), flash-ROM oder dergleichen bzw. eine Kombination aus zwei oder mehreren der genannten Speichertypen. Der Speicher 110 unterstützt den Betrieb des Rufprozessors 108, einschließlich der Spracherkennung, und muss einen elektronisch veränderbaren Speicher umfassen, um den Zustandsübergangspfadspeicher zu unterstützen. Der ROM kann dafür ausgelegt sein, das Betriebssystem der Vorrichtung aufzunehmen.
  • Ein Audioschaltkreis 112 stellt dem Rufprozessor 108 digitalisierte Signale von einem Mikrophon 114 zur Verfügung. Der Audioschaltkreis 112 treibt Lautsprecher 116 in Abhängigkeit von digitalen Signalen von dem Rufprozessor 108.
  • Der Rufprozessor 108 ist mit einem Anzeigeprozessor 120 verbunden. Der Anzeigeprozessor ist optional, wenn zusätzliche Prozessorunterstützung für die Vorrichtung 100 gewünscht wird. Insbesondere versorgt der Anzeigeprozessor 120 die Anzeige 126 mit Anzeigesteuerungssignalen und empfängt Eingangssignale von den Tasten 124. Der Anzeigeprozessor 120 kann unter Verwendung eines Mikroprozessors, eines Mikrocontrollers, eines digitalen Signalprozessors, einer programmierbaren Logikeinheit, einer Kombination der genannten Einheiten oder dergleichen implementiert sein. Ein Speicher 122 ist mit dem Anzeigeprozessor verbunden, um die digitale Logik darin zu unterstützen. Der Speicher 122 kann unter Verwendung eines RAM, eines EEPROM, eines ROM, eines flash-ROM oder dergleichen sowie einer Kombination von zwei oder mehreren dieser Speicherarten implementiert sein.
  • Wie in 2 gezeigt werden die Audiosignale, die durch das Mikrophon 114 aufgenommen werden, in einem Digital-Analog-Wandler 202 des Audioschaltkreises 112 in digitale Signale gewandelt. Der Fachmann erkennt, dass der Audioschaltkreis 112 zusätzliche Signalverarbeitung wie Filtern durchführt, das der Kürze halber hier nicht beschrieben wird. Der Rufprozessor 108 führt eine Merkmalsextraktion 204 bei der verarbeiteten digitalen Signaldarstellung des analogen Signals von dem Mikrophon 114 durch und erzeugt einen Satz von Merkmalsvektoren, die die Äußerung des Anwenders wiedergeben. Ein Merkmalsvektor wird für jedes Kurzzeitanalysefenster erzeugt. Das Kurzzeitanalysefenster ist bei dem hier dargestellten Beispiel ein Rahmen mit einer Länge von 20 ms. Damit gibt es einen Merkmalsvektor pro Rahmen. Der Prozessor 108 verwendet die Merkmale für die Spracherkennung 206 oder das Training 207.
  • Beim Training werden die Merkmalsvektoren der Äußerung verwendet, um Vorlagen in der Form von HMMen zu erzeugen, die in einem Speicher 208 abgelegt werden. Bei der Spracherkennung werden die Merkmalsvektoren, die die eingegebene Äußerung darstellen, mit Vorlagen der im Speicher 208 abgespeicherten Worte des Vokabulars verglichen, um festzustellen, was der Anwender gesagt hat. Das System kann die beste Übereinstimmung, einen Satz von besten Übereinstimmungen oder, optional, keine Übereinstimmung ausgeben. Der Speicher 208 ist vorzugsweise ein nicht-flüchtiger Speicherabschnitt des Speichers 110 (1) und kann z.B. ein EEPROM oder ein flash-ROM sein. Hierbei sind mit "Wort" mehrere Worte gemeint, so wie "John Doe", oder ein Wort, wie "call".
  • Im allgemeinen führt der Merkmalsextraktor 204 die Signalverarbeitung bei einem Rahmen der eingegebenen Sprache durch und gibt Merkmalsvektoren aus, die jeden Rahmen mit der Rate der Rahmen darstellen. Die Rate der Rahmen liegt im allgemeinen zwischen 10 und 30 ms und kann z.B. eine Dauer von 20 ms haben. Die Trainingsvorrichtung 207 verwendet die Merkmale, die aus der abgetasteten Sprache einer oder mehrerer Äußerungen eines Wortes oder eines Satzes extrahiert wurden, um Parameter für ein Modell für das Wort oder den Satz zu finden. Dieses Modell wird dann in einem nicht-flüchtigen Modellablagespeicher 208 gespeichert. Die Modellgröße hängt direkt von der Länge des Merkmalsvektors ab, so dass der benötigte Speicher um so größer wird, je länger der Merkmalsvektor ist.
  • Die in dem Speicher 208 abgelegten Modelle werden dann während der Erkennung 206 verwendet. Das Erkennungssystem führt einen Vergleich der Merkmale einer unbekannten Äußerung mit abgespeicherten Modellparametern durch, um die beste Übereinstimmung herauszufinden. Das Modell mit der besten Übereinstimmung wird dann von dem Erkennungssystem als Ergebnis ausgegeben.
  • In 3 ist ein Grammatiknetz gezeigt, das die Spracherkennung darstellt. Die Knoten N1 und N2 sind durch HMMe verbunden, die durch Bögen A1 bis AN dargestellt sind, und außerdem durch einen Aussonderungsmodellbogen AGM. Die Bögen A1 bis AN stellen alle die individuellen HMMe dar, die in den Spracherkennungssystemen trainiert und in dem Speicher 208 gespeichert wurden. Der Aussonderungsmodellbogen stellt eine Modellreferenz einer Einzelzustandsaussonderung dar.
  • Der Knoten N1 beinhaltet ein Einzelzustandsrauschmodell A1 Rauschen. Das Erkennungssystem verwendet einen Erkennungsalgo rithmus für die Auswahl eines der Bögen A1 bis AN und AGM als beste Übereinstimmung, oder es identifiziert keine Übereinstimmung (d.h. wenn keine Sprache erfasst wird). Wenn AGM der beste Bogen ist, wird die Eingabe als ungültig verworfen.
  • Der Trainingsprozess wird mit Bezug auf 4 beschrieben. Anfänglich wird ein Haupttraining durchgeführt, um jede Äußerung oder Zustandsmodell A1 bis AN abzuleiten und in dem Speicher 208 abzuspeichern, wie dies in Schritt 402 angedeutet ist. Eine Anzahl von unterschiedlichen Verfahren sind für das Erzeugen der HMMe bekannt. In 4 verläuft jeder Bogen von links nach rechts, HMMe ohne Zustand werden übersprungen, so dass nur Selbstschleifen und Einzelschrittübergänge zugelassen sind. Im folgenden wird die Ableitung eines solchen Modells kurz beschrieben. Der Fachmann erkennt, dass die Bögen von anderen bekannten Modellen stammen können und mit anderen bekannten Verfahren erzeugt werden können.
  • Am Anfang werden die Merkmale in dem Merkmalsextraktor 204 extrahiert. Dabei soll der Merkmalsextraktor Cepstrum- und Delta-Cepstrum-Koeffizienten für jeden Rahmen einer Äußerung erzeugen. Der Fachmann erkennt, dass es viele Arten der Berechnung von Cepstrum-Merkmalen und der Abschätzung ihrer Ableitungen gibt und dass irgendeine geeignete Technik zum Ableiten dieser Koeffizienten eingesetzt werden kann. Die Rahmen F1 bis FN (5) werden während des Fensters erzeugt, wobei jeder Rahmen Merkmale enthält. Einige der Rahmen enthalten Rauschen, aus dem von dem Merkmalsextraktor Rauschenergiemerkmale erzeugt werden. Andere Rahmen stellen einen Abschnitt des Sprachsignals dar.
  • In 4 berechnet der Prozessor 108 in Schritt 604 beim Training 207 ein Rauschmerkmal für jedes Bogenmodell, wie es in Schritt 604 gezeigt ist. Die Messung des Rauschens erfolgt über die Merkmalsvektoren, die beim Anfang und Ende des Aufnahmefensters erzeugt werden. Insbesondere ist es wünschenswert, das Mittel der Merkmalsvektoren zu verwenden, die in einer Anfangsperiode und einer Endperiode der Äußerung gemessen werden. Zum Beispiel können die ersten 160 ms von Savge und die letzten 160 ms von Eavge des Aufnahmefensters verwendet werden. Das Aufnahmefenster ist in 5 dargestellt und umfasst die Anfangsperiode und die Endperiode, während der Rauschmerkmalsvektoren gespeichert werden. Das Aufnahmefenster kann z.B. 2 Sekunden lang sein, was der maximalen Länge eines Wortes entspricht. Dieses Aufnahmefenster kann eine feste oder eine variable Länge haben, abhängig von der erwarteten Länge der eingegebenen Äußerungen und den Beschränkungen in Bezug auf Speicherplatz.
  • Der Prozessor 108 bestimmt in Schritt 404, nachdem das Rauschmerkmal in Schritt 404 abgeleitet wurde, ob die Vorrichtung im freihändigen Modus betrieben wird. Die Vorrichtung kann ein Zustands-Flag aufweisen, das anzeigt, dass sich die Vorrichtung im Freihandmodus befindet, welches von dem Anwender über ein Tastenfeldmenü aktiviert wird, oder sie kann eine mechanische Verbindung aufweisen, die einen Schalter betätigt, wenn die Vorrichtung 100 mit einer Freisprecheinrichtung verbunden wird.
  • Wenn die Vorrichtung sich nicht im Freihandmodus befindet, berechnet der Prozessor beim Training (was unabhängig für jede Äußerung erfolgt) ein Rauschmerkmal Xnz, was dem Minimum von Savge und Eavge (d. h. min (Savg, Eavg)) entspricht, wie in Schritt 410 gezeigt ist. Für jeden Rahmen eines eingegebenen Sprachsegments kann ein Energiewert aus dessen Abtastwerten berechnet werden. Savge und Eavge sind Mittelwerte dieser Energiewerte aus den angezeigten Rahmen. Das Minimum wird für jede der Trainingsäußerungen verwendet, um einen laufenden Rauschmittelwert zu aktualisieren. Dieser Rauschmittelwert wird iterativ nach der folgenden Gleichung aktualisiert: Xref (k) = ((k – 2) · Xref (k – 2) + (Xnz1 + Xnz2)) / kwobei Xref(k) der Referenzwert für das k-te Rauschmerkmal ist, Xnz1 das Rauschmerkmal anzeigt, das aus dem Minimum von Savge und Eavge der ersten Trainingsäußerung abgeleitet wurde, und Xnz2 das Rauschmerkmal anzeigt, das aus dem Minimum von Savge und Eavge der zweiten Trainingsäußerung abgeleitet wurde.
  • Der aktualisierte Rauschmittelwert und die Anzahl der Trainingsäußerungen für die Aktualisierung des Rauschmittelwertes werden in dem Speicher 110 abgelegt, wie dies in Schritt 412 gezeigt ist.
  • In Schritt 406 wurde festgestellt, dass die Vorrichtung in dem freihändigen Modus betrieben wurde. Ein Freihand-Flag HF wird wie in Schritt 408 dargestellt gesetzt. Das HF-Flag wird gesetzt, so dass Freihandwortmodelle verwendet werden anstatt das Rauschmodell zu aktualisieren, wenn das Training im Freihandmodus abläuft.
  • Es wird angenommen, dass die Trainingsumgebung relativ ruhig ist. Dies kann durch eine Signalqualitätsüberprüfung verbessert werden, wobei es erforderlich ist, dass alle Trainingsäußerungen ein Signalrauschverhältnis von wenigstens 18 dB haben. Es können auch Überprüfungen vorgesehen werden, um sicherzustellen, dass der Anwender nicht während der Savge- und Eavge-Messzeit spricht.
  • Der allgemeine Vorgang der Erkennung durch den Prozessor 108 wird allgemein mit Bezug auf 6 beschrieben. Am Anfang wird das Rauschmerkmal für die Testäußerung berechnet, welche die eingegebene Äußerung ist, die das System zu erkennen versucht, wie es in Schritt 602 angedeutet ist. Bei dem Erkennungsmodus wird eine Hintergrundrauschmessung während derselben anfänglichen 160 ms von Savge und 160 ms am Ende von Eavge des Aufnahmefensters vorgenommen. Die Rauschmessung während der Erkennung ist Xrecog und ist gleich dem Mittelwert von Savge und Eavge. Dieser Wert wird mit dem Referenzrauschwert verglichen, der in dem Trainingsmodus berechnet wurde. Ein Vergleich wird durchgeführt, um das Verhältnis zwischen der Erkennungshintergrundrauschabschätzung und der Trainingshintergrundrauschabschätzung zu bestimmen. Der Fachmann erkennt, dass andere relative Vergleiche dieser Werte durchgeführt werden können.
  • Der Prozessor 108 berechnet als nächstes die Wortstrafe in Schritt 606. Das Verhältnis wird verwendet, um eine Worteintrittsstrafe zu berechnen. Die Worteintrittsstrafe steuert die Zurückweisung wegen Vokabularabgrenzung. Allgemein ist bei höherem Rauschen in der Umgebung der Genauigkeitsvorgabewert niedriger. Die Worteintrittsstrafe wird berechnet unter Verwendung einer Vergleichstabelle, wobei das Rauschindexverhältnis die Adresse für die Speichertabelle darstellt und die Strafe der Ausgangswert ist. Eine vorteilhafte Verteilung von zehn Strafen, wie sie in 8 gezeigt ist, kann verwendet werden, wobei wesentlich verrauschtere Umgebungen bei dem Erkennungsmodus (Verhältnisse 6 – 9) eine wesentlich kleinere Strafe als Verhältnisse haben, die Erkennungsmoden darstellen, die näher an der Trainingsmodusrauschreferenz (Verhältnisse 0 – 4) liegen. Beispielsweise kann die Kurve wie folgt dargestellt werden: x = Xref (k) / Xrecog f(x) = 1 / (1 + 21, 5 ( x–5 )).
  • Als Default werden Verhältnisse außerhalb des Bereiches auf die minimale Worteintrittsstrafe gesetzt, die Null ist. Die tatsächlich angewendete Strafe kann zum Beispiel -220 · f(x) betragen, obgleich der tatsächliche Skalar irgendeinen Wert annehmen kann, der dazu führt, dass eine Strafe einen gewünschten Anteil an den Wertungen hat, mit denen er zusammenhängt. Die Verwendung einer nicht-linearen Beziehung bewirkt eine signifikante Verbesserung der Erkennung innerhalb und außerhalb des Vokabulars, indem eine große Strafe verhängt wird, wenn Rauschbedingungen gut sind, und eine kleine Strafe verhängt wird, wenn die Rauschbedingungen schlecht sind. Der Fachmann erkennt, dass die Berechnung der Worteintrittsstrafe direkt erfolgen kann, anstatt über die Verwendung einer Vergleichstabelle.
  • Die Erkennung wird mit der Hauptsuche und parallelen Aussonderungsmodellen fortgesetzt, wie es in Schritt 608 gezeigt ist. Das Ziel des Erkennungssystems ist es, den wahrscheinlichsten Pfad vom Knoten N1 und N2 in 3 zu finden. Die Knoten N1 und N2 sind durch Pfade A1 bis AN verbunden, die die verborgenen Markow-Modelle für das Vokabular mit N Worten dar stellen, optional mit einem Aussonderungsmodell AGM. Zusätzlich stellen A1 Rauschen und A2 Rauschen die Rauschmodelle dar und sind mit den Knoten N1 und N2 verbunden. Das Aussonderungsmodell, versucht alle Geräusche, die nicht aus dem Vokabular stammen, oder Worte in der eingegebenen Äußerung zu fangen. Es ist ein nullwertiges Einzelzustandsmodell, das nur von dem Vokabularabgrenzungsalgorithmus zur Zurückweisung verwendet wird. Um es daran zu hindern, das Rauschen besser als das Rauschmodell zu modellieren, wird eine Strafe gegen Wahrscheinlichkeitswertungen des Aussonderungsmodells verhängt, die als Rauschen eingestuft werden.
  • Die Suche durch das Grammatiknetz, dargestellt in 3, wird durch einen zweistufigen Anpassungsalgorithmus wie dem Viterbi-Algorithmus durchgeführt. Auf der niedrigsten Stufe dieser Suche wird die beste Anpassung und Pfadwertung zwischen den Rahmen der eingegebenen Äußerung und den Zuständen eines gegebenen Bogens gefunden. Ein Beispiel für die Techniken, um Rahmen einer Äußerung auf Zustände eines individuellen Modells anzuwenden, ist in der ebenfalls anhängigen Patentanmeldung mit dem internen Zeichen CS10103, "Method of traceback matrix storage in speech recognition system", von den Erfindern Jeffrey Arthur Meunier et al. gegeben, die am selben Tag eingereicht wurde wie diese Anmeldung, sowie in der ebenfalls anhängigen Patentanmeldung von dem Erfinder Daniel Poppert mit demselben Anmeldetag wie bei dieser und mit dem internen Zeichen CS10104, "Method of selectively assigning a penalty to a probability associated with a voice recognition system" ( US 6233557 B1 ), auf deren Offenbarung hiermit Bezug genommen wird. Der Anpassungsalgorithmus der ersten Stufe erzeugt eine Wertung für den besten Pfad der eingegebenen Äußerung durch den gegebenen HMM-Bogen.
  • Zusätzlich zu dem Anpassungsalgorithmus der ersten Stufe, bei dem die Wertungen für jeden Bogen, oder HMM, über kumulative Wahrscheinlichkeiten c n / i(m) verfolgt werden, wobei dies die kumulative Wahrscheinlichkeit des Zustandes i eines Bogens An beim Rahmen m ist, müssen die Knoten N1 und N2 außerdem ihre eigene kumulativen Wahrscheinlichkeiten verfolgen. Die knotenspezifische kumulative Wahrscheinlichkeit Cj(m) ist die kumula tive Wahrscheinlichkeit des Knoten Nj beim Rahmen m. Diese Wahrscheinlichkeit wird sehr ähnlich zu der kumulativen Wahrscheinlichkeit für jedes HMM berechnet, indem die höchste Wertung bei dem Knoten gehalten wird. Die kumulative Wahrscheinlichkeit kann wie folgt ausgedrückt werden: Cj (m + 1) = MaxnϵAj {Cn In (m) + PoIn (dIn)},wobei Aj die Menge der Bögen {A1, A2,..., An} ist, die bei dem Knoten j enden, In die Anzahl der Zustände auf dem Bogen n ist, dIn die Dauer des letzten Zustandes des Bogens n ist und PoIn(dIn) die Strafe für einen Übergang außerhalb des Zustandes bei wenigstens dem letzten Zustand des Bogens n ist. Die kumulative Wahrscheinlichkeit ist das Maximum der Summe der letzten kumulativen Zustandswahrscheinlichkeit CIn n(m) mit der Wahrscheinlichkeit PoIn(dIn) für außerhalb des Zustandes über alle Bögen, die beim Knoten Nj enden.
  • Während die kumulativen Wahrscheinlichkeiten für die Knoten verfolgt werden, muss die Berechnung der kumulativen Wahrscheinlichkeit für den Anfangszustand jedes Bogens c1 n(m) modifiziert werden, um Übergänge von einem Knoten Nj in seinen Anfangszustand zu berücksichtigen. Es gibt eine einmalige Übergangsstrafe, die dem Übergang von dem Knoten Nj in den Anfangszustand des Bogens An zugeordnet wird, was Worteintrittsstrafe genannt wird. Dies gilt nicht für das Rauschmodell oder das Aussonderungsmodell, so dass bei Aktivierung die Wirkung wie bei einer Steuerung der Zurückweisung wegen Vokabularabgrenzung durch die Genauigkeitsvorgabe eintritt. Die kumulative Wahrscheinlichkeit kann geschrieben werden als Ci n (m + 1) = oi n (fm) + max(Cj(m) + W(n), C1 n(m) + Ps1(d1)),wobei
    Figure 00140001
    wobei W(n) die Worteintrittsstrafe ist, AGM der Aussonderungsbogen ist, A1 Rauschen der Rauschbogen für den Knoten 1 ist, oi n(fm) die Beobachtungswahrscheinlichkeit des Merkmalsvektors fm im Zustand i des Bogens n ist und Ps1(d1) die Übergangsstrafe für denselben Zustand beim Zustand 1 des Bogens n ist. Diese Gleichung hält das Maximum von dem Übergang in denselben Zustand und dem Übergang von dem ursprünglichen Knoten und addiert die Beobachtungswahrscheinlichkeit. Die am Ende des Erkennungsprozesse erhaltene Information besteht darin, dass der Bogen überquert wurde, um zu Knoten N2 zu gelangen. Dies erfolgt durch Information über den Ausbreitungspfad zusammen mit den kumulativen Wahrscheinlichkeiten Ci n(m) und Cj n(m).
  • Bei gültigen Äußerungen muss der beste Pfad des Wortmodells durch den Anpassungsalgorithmus eine um einen Wert, der größer als die Worteintrittsstrafe ist, bessere Wertung erzielen als das Aussonderungsmodell, oder die gültige Äußerung wird fälschlich zurückgewiesen. Bei ungültigen Äußerungen muss das Aussonderungsmodell größer als der Pfad durch jedes der auswählbaren Wortmodelle sein, so dass die Äußerung zurecht zurückgewiesen wird.
  • Der Zurückweisungsalgorithmus verwendet das gesamte Fenster von gesammelten Merkmalsvektoren, die beispielsweise einen Datenumfang von 2 Sekunden haben. Zusätzlich verwendet er ein Sprach-Rausch-Klassifizierungsbit für jeden Rahmen, um das Einzelzustandsrauschmodell zu aktualisieren, das in A1 Rauschen und A2 Rauschen nach 3 verwendet wird.
  • In dem Erkennungsmodus initialisert der Prozessor 108 die Erkennung durch Setzen des Rauschaktualisierungsbits auf 1 und des Rahmenzählers auf Null, wie es in Schritt 702 dargestellt ist. Der Rahmenzähler wird in Schritt 704 inkrementiert. Der Prozessor stellt dann fest, ob das Rausch-Flag in Schritt 706 gesetzt wurde. Wenn dies nicht der Fall ist, fährt der Prozessor mit der Entscheidung in Schritt 716 fort. Wenn das Flag gesetzt ist, bestimmt der Prozessor 108, ob das Rauschmodell in Schritt 708 aktiviert werden soll. Wenn dies nicht der Fall ist, wird das Rauschaktualisierungs-Flag in Schritt 714 auf 0 gesetzt. Die Rauschmodellierung wird abgeschaltet, nachdem eine bestimmte Anzahl von Aktualisierungen durchgeführt wurden.
  • Wenn Rauschaktualisierung weiter durchgeführt werden soll, bestimmt der Prozessor, ob das Rauschmodell in Schritt 710 aktualisiert werden soll. Wenn der Prozessor das Rauschmodell für den Rahmen aktualisieren soll, wird das Modell in Schritt 712 aktualisiert. Das Rauschmodell A1 Rauschen Und A2 Rauschen werden dynamisch unter Verwendung der Sprach-Rausch-Klassifizierungsbits durch das System berechnet, die durch den Merkmalsextraktionsalgorithmus eingegeben werden. Die Einzelheiten der Entscheidung, ob das Rauschmodell für den momentanen Rahmen aktualisiert werden soll, erfolgt durch Betrachten der Sprachklassifizierung durch die Merkmalsextraktionsalgorithmen. Wenn einmal eine vorgegebene Anzahl von aufeinanderfolgenden Sprachrahmen für die Äußerung betrachtet worden sind, so erfolgt keine weitere Aktualisierung. Beispielsweise kann die Grenze bei 3 Rahmen liegen. Das Rauschmodell wird bei einem speziellen Rahmen nur aktualisiert, wenn bei diesem Rahmen die Klassifizierung nach Sprache und Rauschen anzeigt, dass es sich um einen Rauschrahmen handelt.
  • Der Prozessor bestimmt dann in Schritt 716, ob der Rahmenzähler kleiner als ein Schwellenwert für die Anzahl der Rahmen ist. Eine Wahrscheinlichkeitsabschätzung erfolgt nicht, solange nicht eine bestimmte Anzahl von Rahmen verarbeitet worden ist. Das dient dazu, dass das Rauschmodell in gewisser Weise genau werden kann, bevor Wahrscheinlichkeiten auf der Grundlage von dem Rauschmodell berechnet werden. Wenn der Schwellenwert für die Anzahl der Rahmen noch nicht erreicht wurde, kehrt der Prozessor zu Schritt 704 zurück, bei dem der Rahmenzähler um Eins inkrementiert wird.
  • Wenn der Rahmenzähler den Schwellenwert überschreitet, berechnet der Prozessor 108 in Schritt 718 die kumulativen Wahrscheinlichkeiten für die Knoten und Bögen für den Rahmen. Die Wahrscheinlichkeitswertungen werden in Schritt 720 normalisiert. Die Normalisierung kann erfolgen, indem die größte kumulative Wahrscheinlichkeit von allen anderen kumulativen Wahrscheinlichkeiten abgezogen wird. Der kumulative Normalisierungsfaktor wird auch verfolgt, so dass die nicht-normierte Wertung am Ende des Erkennungsprozesses zurückgegeben werden kann.
  • Der Prozessor bestimmt dann, ob der letzte Rahmen in Schritt 722 verarbeitet wurde. Wenn dies nicht der Fall ist, kehrt der Prozessor zu Schritt 704 zurück und inkrementiert den Rahmenzähler. Andererseits wird das Erkennungsergebnis mit der normalisierten Wertung wie in Schritt 724 angedeutet ausgegeben.
  • Das Rauschmodell ist eine Einzelzustandsmodell. Der Vektormittelwert dieses Zustandes ist μ1 Rauschen(m), also eine Funktion von m, da die Berechnung dynamisch erfolgt und eine Aktualisierung mit einem neuen Merkmalsvektor fm+i beim Rahmen m+1 auf folgende Art durchgeführt wird: μ1 Rauschen (m) = ((MRausc h en (m) · μ1) + fm+1) / (MR ausc h en (m) + 1),wobei MRausc h en(m) die Anzahl der Rauschrahmen ist, die bei der Berechnung von μ1 Rauschen(m) verwendet wurden, die sich von dem Wert m unterscheiden kann, da nicht alle Rahmen bei der Rauschaktualisierung verwendet werden. Zusätzlich wird die Aktualisierungsgleichung nur für Cepstrum-Elemente des Rauschmodells verwendet. Die Delta-Cepstrum- und die Delta-Energie werden auf Null fixiert.
  • Dementsprechend erkennt man, dass ein verbessertes System vorliegt, das eine variable Genauigkeitsvorgabe für die Zurückweisung zeigt, die von den Hintergrundrauschpegeln beim Training und bei der Erkennung abhängt. Das System trägt dazu bei, ungültige Äußerungen mit gespeicherten Sprachmodellen zu assoziieren, und es trägt dazu bei, die genaue Erfassung von gültigen Äußerungen zu verbessern.
  • Obwohl die Erfindung in obiger Beschreibung und den Zeichnungen beschrieben und erläutert wurde, stellt diese Beschreibung lediglich ein Beispiel dar, und vielerlei Änderungen und Modifikationen sind für den Fachmann möglich, ohne dass Sinn und Umfang der Erfindung geändert. werden. Obgleich die vorlie gende Erfindung insbesondere Anwendung bei tragbaren schnurlosen Vorrichtungen wie zellularen Mobiltelefonen findet, kann die Erfindung auch bei irgendeiner Vorrichtung eingesetzt werden, bei der Spracherkennung eine Rolle spielt, einschließlich Funkrufgeräten, elektronischen Kalendern, Computern und Telefoneinrichtungen. Der Umfang der Erfindung wird nur durch die nachfolgenden Ansprüche bestimmt.

Claims (9)

  1. Verfahren zum Betrieb eines Spracherkennungssystems (204, 206, 207, 208), bei dem eine Sprachäußerung unter Verwendung von gespeicherten Parametern identifiziert wird, mit den folgenden Schritten: Berechnen eines Rauschmerkmals, in einem Trainingsmodus, als Funktion von zumindest einer eingegebenen Trainingsäußerung; Berechnen einer Eingaberauschmessung, in einem Erkennungsmodus, als Funktion einer eingegebenen Sprachäußerung; Berechnen eines Genauigkeitsparameters aus einem Verhältnis der Rauschmessung zum Rauschmerkmal; und Bestimmen einer besten Übereinstimmung der Sprachäußerung in Bezug auf die gespeicherten Parameter und Auswählen der bestimmten besten Übereinstimmung für die Sprachäußerung, wenn die beste Übereinstimmung den Genauigkeitsparameter übersteigt.
  2. Verfahren nach Anspruch 1, das weiterhin den Schritt des selektiven Aktualisierens des Rauschmerkmals aus einer Mehrzahl von Trainingseingabeäußerungen umfasst.
  3. Verfahren nach Anspruch 1 oder 2, das weiterhin den Schritt des Erkennens eines Freihandbetriebsmodus umfasst und bei dem das Rauschmerkmal nicht aktualisiert wird, wenn der Trainingsmodus auftritt während sich eine das Spracherkennungssystem verwendende Vorrichtung in dem Freihandmodus befindet.
  4. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den Schritt des Erzeugens eines Signal-Rausch-Verhältnisses umfasst und bei dem der Trainingsmodus verboten wird, während das Signal-Rausch-Verhältnis unter einem vorgegebenen Wert liegt.
  5. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den Schritt des Speicherns von Rauschstatistiken während des Trainings mit einem Modell umfasst, derart, dass die Rauschstatistiken während der Erkennungsmodusbetriebsweise verfügbar sind, wobei das Rauschmerkmal aus den Rauschstatistiken berechnet wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den Schritt des Berechnens des Rauschmerkmals aus Rauschstatistiken umfasst und bei dem im Erkennungsmodus, wenn keine Rauschstatistiken für eine Äußerung verfügbar sind, ein Erkennungsalgorithmus als Vorgabe einen Minimum-Genauigkeitsparameter verwendet, wenn ein Anpassungsalgorithmus auf diese Äußerung angewendet wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den Schritt des Durchführens einer Vertrauensmessung eines besten Pfades unter Verwendung eines Einzelzustandsaussonderungsmodells mit Nullmittelwert parallel zu einem Sprachidentifizierungsmodell umfasst und bei dem das Sprachidentifizierungsmodell das Aussonderungsmo dell um den Genauigkeitsparameter übersteigen muss, damit die beste Übereinstimmung ausgewählt wird.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Genauigkeitsparameter nicht-linear mit dem Verhältnis der Rauschmessung zum Rauschmerkmal zusammenhängt.
  9. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den Schritt umfasst, im Trainingsmodus jeweilige Vorlagen zu erzeugen, die im Speicher für jeweiligen Vokabularwörtern zugeordnete Äußerungen gespeichert werden, und im Trainingsmodus jeweilige Rauschmerkmale zu speichern, die den den jeweiligen Vokabularwörtern zugeordneten Äußerungen zugeordnet sind.
DE10006930A 1999-02-23 2000-02-16 System und Verfahren zur Spracherkennung Expired - Lifetime DE10006930B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US256279 1981-04-23
US09/256,279 US6275800B1 (en) 1999-02-23 1999-02-23 Voice recognition system and method

Publications (2)

Publication Number Publication Date
DE10006930A1 DE10006930A1 (de) 2000-09-28
DE10006930B4 true DE10006930B4 (de) 2004-08-26

Family

ID=22971635

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10006930A Expired - Lifetime DE10006930B4 (de) 1999-02-23 2000-02-16 System und Verfahren zur Spracherkennung

Country Status (8)

Country Link
US (1) US6275800B1 (de)
JP (1) JP4354072B2 (de)
KR (1) KR100321565B1 (de)
CN (1) CN1171201C (de)
BR (2) BRPI0001268B8 (de)
DE (1) DE10006930B4 (de)
GB (1) GB2347252B (de)
MX (1) MXPA00001875A (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19811879C1 (de) * 1998-03-18 1999-05-12 Siemens Ag Einrichtung und Verfahren zum Erkennen von Sprache
US6577997B1 (en) 1999-05-28 2003-06-10 Texas Instruments Incorporated System and method of noise-dependent classification
DE60018696T2 (de) * 1999-07-01 2006-04-06 Koninklijke Philips Electronics N.V. Robuste sprachverarbeitung von verrauschten sprachmodellen
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
DE60028219T8 (de) 2000-12-13 2007-06-14 Sony Deutschland Gmbh Verfahren zur Spracherkennung
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
DE10133333C1 (de) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
JP3678421B2 (ja) * 2003-02-19 2005-08-03 松下電器産業株式会社 音声認識装置及び音声認識方法
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
KR100664964B1 (ko) 2005-10-11 2007-01-04 삼성전자주식회사 휴대 기기를 제어하는 장치 및 방법
US9093073B1 (en) * 2007-02-12 2015-07-28 West Corporation Automatic speech recognition tagging
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
CN105321518B (zh) * 2014-08-05 2018-12-04 中国科学院声学研究所 一种低资源嵌入式语音识别的拒识方法
US10629184B2 (en) * 2014-12-22 2020-04-21 Intel Corporation Cepstral variance normalization for audio feature extraction
CN105575386B (zh) * 2015-12-18 2019-07-30 百度在线网络技术(北京)有限公司 语音识别方法和装置
KR20200063521A (ko) 2018-11-28 2020-06-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN115631743B (zh) * 2022-12-07 2023-03-21 中诚华隆计算机技术有限公司 一种基于语音芯片的高精度语音识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0240330A2 (de) * 1986-04-04 1987-10-07 National Research Development Corporation Geräuschkompensation zur Spracherkennung
DE4029716A1 (de) * 1989-12-29 1991-07-04 Pioneer Electronic Corp Sprachgesteuertes fernbedienungssystem

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2042926C (en) * 1990-05-22 1997-02-25 Ryuhei Fujiwara Speech recognition method with noise reduction and a system therefor
JPH04182700A (ja) * 1990-11-19 1992-06-30 Nec Corp 音声認識装置
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection
JPH07273840A (ja) * 1994-03-25 1995-10-20 Nec Corp 音声帯域制御機能を有する移動電話機
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
DE19521258A1 (de) * 1995-06-10 1996-12-12 Philips Patentverwaltung Spracherkennungssystem
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
JPH11126090A (ja) * 1997-10-23 1999-05-11 Pioneer Electron Corp 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0240330A2 (de) * 1986-04-04 1987-10-07 National Research Development Corporation Geräuschkompensation zur Spracherkennung
DE4029716A1 (de) * 1989-12-29 1991-07-04 Pioneer Electronic Corp Sprachgesteuertes fernbedienungssystem

Also Published As

Publication number Publication date
KR20000071367A (ko) 2000-11-25
GB2347252A (en) 2000-08-30
DE10006930A1 (de) 2000-09-28
BRPI0001268B8 (pt) 2017-11-07
JP2000242294A (ja) 2000-09-08
CN1264892A (zh) 2000-08-30
JP4354072B2 (ja) 2009-10-28
CN1171201C (zh) 2004-10-13
US6275800B1 (en) 2001-08-14
BRPI0001268B1 (pt) 2017-05-09
MXPA00001875A (es) 2004-09-10
GB0003269D0 (en) 2000-04-05
BR0001268A (pt) 2000-10-10
KR100321565B1 (ko) 2002-01-23
GB2347252B (en) 2001-03-28

Similar Documents

Publication Publication Date Title
DE10006930B4 (de) System und Verfahren zur Spracherkennung
DE60024236T2 (de) Sprach endpunktbestimmung in einem rauschsignal
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
DE69814517T2 (de) Sprachkodierung
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE69827667T2 (de) Vokoder basierter spracherkenner
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60204504T2 (de) Schlüsselworterkennung in einem verrauschten Signal
EP1256936A2 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
EP0747880B1 (de) Spracherkennungssystem
EP0852051A1 (de) Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE60033636T2 (de) Pausendetektion für die Spracherkennung
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
DE69716159T2 (de) Verfahren und Vorrichtung zur Kompensation von Sprachsignalen
EP1199704A2 (de) Auswahl der alternativen Wortfolgen für diskriminative Anpassung
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
DE60208956T2 (de) Verfahren zur Spracherkennung
WO2005069278A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8128 New person/name/address of the agent

Representative=s name: SCHUMACHER & WILLSAU, PATENTANWALTSSOZIETAET, 8033

8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: MOTOROLA MOBILITY, INC. ( N.D. GES. D. STAATES, US

R081 Change of applicant/patentee

Owner name: MOTOROLA MOBILITY, INC. ( N.D. GES. D. STAATES, US

Free format text: FORMER OWNER: MOTOROLA, INC., SCHAUMBURG, ILL., US

Effective date: 20110324

Owner name: MOTOROLA MOBILITY, INC. ( N.D. GES. D. STAATES, US

Free format text: FORMER OWNER: MOTOROLA, INC., SCHAUMBURG, US

Effective date: 20110324

Owner name: GOOGLE TECHNOLOGY HOLDINGS LLC, MOUNTAIN VIEW, US

Free format text: FORMER OWNER: MOTOROLA, INC., SCHAUMBURG, ILL., US

Effective date: 20110324

R081 Change of applicant/patentee

Owner name: GOOGLE TECHNOLOGY HOLDINGS LLC, MOUNTAIN VIEW, US

Free format text: FORMER OWNER: MOTOROLA MOBILITY, INC. ( N.D. GES. D. STAATES DELAWARE ), LIBERTYVILLE, LLL., US

R082 Change of representative

Representative=s name: BETTEN & RESCH PATENT- UND RECHTSANWAELTE PART, DE

R071 Expiry of right