DE69634239T2 - Erkennung kontinuierlich gesprochener Texte und Befehle - Google Patents

Erkennung kontinuierlich gesprochener Texte und Befehle Download PDF

Info

Publication number
DE69634239T2
DE69634239T2 DE69634239T DE69634239T DE69634239T2 DE 69634239 T2 DE69634239 T2 DE 69634239T2 DE 69634239 T DE69634239 T DE 69634239T DE 69634239 T DE69634239 T DE 69634239T DE 69634239 T2 DE69634239 T2 DE 69634239T2
Authority
DE
Germany
Prior art keywords
command
text
language
elements
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69634239T
Other languages
English (en)
Other versions
DE69634239D1 (de
Inventor
Joel M. Winchester Gould
Jonathan H. Cambridge Young
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
L&H Holdings USA Inc
Original Assignee
L&H Holdings USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=24232717&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69634239(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by L&H Holdings USA Inc filed Critical L&H Holdings USA Inc
Publication of DE69634239D1 publication Critical patent/DE69634239D1/de
Application granted granted Critical
Publication of DE69634239T2 publication Critical patent/DE69634239T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Diese Erfindung betrifft kontinuierliche Spracherkennung.
  • Viele Spracherkennungssysteme erkennen gesprochenen Text in einer Betriebsart und gesprochene Befehle in einer anderen Betriebsart. In einem Beispiel erfordert die Diktatbetriebsart diskrete Sprache, während die Befehlsbetriebsart durch kontinuierliche/diskrete Sprache bedient werden kann. In einer Diktatbetriebsart wird die diskrete Sprache eines Benutzers als z.B. englische Worte erkannt, und die erkannten Worte werden dem Benutzer angezeigt. Der Benutzer kann irgendein Wort diktieren, das sich in einem Wörterverzeichnis befindet, das im System gehalten wird, ohne irgendeiner besonderen Struktur folgen zu müssen. Dies wird als diskrete Sprache mit „freiem Kontext" bezeichnet. In der Befehlsbetriebsart erkennt das System entweder kontinuierliche oder diskrete Sprache und führt die Befehle aus. Wenn der Benutzer zum Beispiel „underline last three words" sagt, erkennt das System den Befehl und unterstreicht dann die letzten drei Worte, die der Benutzer in der Diktatbetriebsart gesprochen hat. Der Benutzer spricht Befehle als strukturierte Sprache gemäß einer besonderen Struktur oder Schablone. Zum Beispiel kann der Benutzer „underline last three words" sagen, aber nicht „underline the last three words" oder „please underline the last three words". Der Benutzer schaltet zwischen der Befehlsbetriebsart und Diktatbetriebsart um, indem er „Command Mode" sagt, auf ein Piktogramm doppelklickt, das die Betriebsart repräsentiert, in die der Benutzer umschalten will, oder einen Betriebsartumschaltungsbefehl tippt.
  • US 5,231,670 beschreibt ein Spracherkennungssystem, in dem jedes Sprachelement in ein Diktatereignis und ein Textereignis unterteilt wird. Es wird eine Datenstruktur zur Speicherung einer Information bereitgestellt, die jedes Ereignis betrifft. Dieser ermöglicht es dem System, Diktatereignisse leicht voneinander und Textereignisse voneinander zu unterscheiden.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung weist ein Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache auf:
    Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen;
    Erkennung der Sprachelemente;
    Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden:
    Pausen vor und nach, oder nur vor dem Sprachelement, und
    Sprachmodellinformationen; und
    Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob die Sprachelemente Textelemente oder Befehlselemente repräsentieren.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung weist ein Medium, das Software zur Verwendung füe die Spracherkennung enthält, auf:
    Instruktionen zur Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen;
    Instruktionen zur Erkennung der Sprachelemente;
    Instruktionen zur Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vor dem Sprachelement,
    einer Sprachmodellinformation; und
    Instruktionen zur Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob sie Textelemente oder Befehlselemente repräsentieren.
  • Im allgemeinen zeichnet sich die Erfindung in einem Aspekt durch ein Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache aus.
  • Es werden Signale angenommen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen. Die erkannten Elemente werden in einer Weise behandelt, die davon abhängt, ob sie Text oder Befehle repräsentieren.
  • Implementierungen der Erfindung können eines oder mehreres des folgenden einschließen. Der Text kann behandelt werden, indem es einer Textverarbeitungsanwendung zur Verfügung gestellt wird. Die Befehle können behandelt werden, indem eine Anwendung veranlaßt wird, einen Schritt auszuführen. Die Erkennung kann auf natürlichen Eigenschaften gesprochenen Textes gegenüber gesprochenen Befehlen beruhen. Die Erkennung kann eine Bewertung der Wahrscheinlichkeit einschließen, daß ein gegebenes Element entweder ein Befehlselement oder ein Textelement ist. Die Erkennung kann zugunsten eines gegebenen Elements beeinflußt werden, das ein Text oder ein Befehl ist. Die Beeinflussung kann eine Bestimmung einschließen, ob ein gegebenes der Elemente eine Befehlsrückweisung widerspiegelt oder einer Befehlsschablone entspricht; oder das Vergleichen von Erkennungsbewertungen des gegebenen Elements als Befehl oder als Text; oder eine Bestimmung der Länge des Schweigens zwischen aufeinanderfolgenden der Elemente oder ob die Aktionen des Benutzers darauf schließen lassen, daß ein gegebenes der Elemente kein Text sein kann.
  • Die Erkennung kann parallel einschließen: Erkennung der Elemente, als ob sie Textelemente wären, und Erkennung der Elemente, als ob sie Befehlselemente wären. Die Erkennung von Elementen, als ob sie Text (oder Befehle) wären, kann auf die Bestimmung hin, daß das Element ein Befehlselement (oder ein Textelement) ist, zeitweilig gestoppt werden. Die Ergebnisse der Erkennung können einem Benutzer angezeigt werden. Die Ergebnisse können Teilergebnisse sein. Dem Benutzer kann es ermöglicht werden, eine erneute Erkennung zu veranlassen, wenn das Element falsch als Text oder als Befehl erkannt wird. Der Benutzer kann eine erneute Erkennung veranlassen, wenn ein Befehlselement als Textelement erkannt wird, und als Reaktion auf die erneute Erkennung kann eine Textverarbeitungsanwendung die Aufnahme des Textelements in den Text rückgängig machen, der bearbeitet wird. Vor der Behandlung eines erkannten Befehlselements können einem Benutzer Informationen angezeigt werden, die mit dem Befehlselement verbunden sind; eine Anweisung kann vom Benutzer angenommen werden, vorhergehende oder nachfolgende Sprachelemente entweder als Textelemente oder Befehlselemente zu betrachten, aber nicht als beides.
  • Die Vorteile der Erfindung können eines oder mehreres des folgenden aufweisen. Die Erkennung gesprochener Befehle innerhalb des diktierten Textes gestattet es Benutzern, mit Unterbrechungen Befehle auszuführen, die den Text beeinflussen (z.B. Unterstreichen oder Fettdruck besonderer Worte) ohne daß es erforderlich ist, daß der Benutzer zwischen getrennten Befehls- und Diktatbetriebsarten umschaltet. Außerdem wird die Verwirrung des Benutzers reduziert, da es nicht erforderlich ist, daß der Benutzer sich erinnert, in welcher Betriebsart sich das System befindet.
  • Andere Vorteile und Merkmale werden aus der folgenden Beschreibung und aus den Ansprüchen deutlich.
  • 1 ist ein Blockdiagramm eines Spracherkennungssystems.
  • 2 ist ein Blockdiagramm einer Spracherkennungssoftware und Anwendungssoftware.
  • 3 ist ein Blockdiagramm einer Spracherkennungssoftware und von Wörterverzeichnissen, die im Speicher gespeichert sind.
  • 4 ist ein Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text.
  • 5 ist eine Computerbildschirmanzeige von Wortverarbeitungsbefehlen.
  • 6 ist eine Computerbildschirmanzeige von Beispielen von Wortverarbeitungsbefehlen.
  • 7 ist ein Blockdiagramm von Wortverarbeitungsbefehlen.
  • 8a, 8b, 9a und 9b sind Computerbildschirmanzeigen von Teilergebnissen und Befehlsausführungsergebnissen.
  • 10 ist ein weiterer Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text.
  • 11 ist ein Blockdiagramm einer Spracherkennungssoftware und Wörterverzeichnissen, die im Speicher gespeichert sind.
  • 12 ist ein Ablaufplan einer strukturierten, kontinuierlichen Befehlsspracherkennung.
  • 13 ist ein Blockdiagramm von Tabellenkalkulationsbefehlen.
  • 14 ist ein weiterer Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text.
  • 15a15d sind Computerbildschirmanzeigen, die den Prozeß der Korrektur eines falsch erkannten Befehls darstellen.
  • Das System erkennt sowohl kontinuierlich gesprochene Befehle als auch kontinuierlich diktierten Text, indem es Eigenschaften ausnutzt, die der natürlichen Sprache der meisten Benutzer gemeinsam sind. Zum Beispiel pausieren Benutzer typischerweise (z.B. 0,5 s) vor und nach dem Aussprechen eines Befehls. Entsprechend beginnen Benutzer anschließend an eine Pause Befehle, indem sie Aktionsbefehlsworte (z.B. underline, bold, delete) aussprechen und beginnen diktierten Text, indem sie Substantive aussprechen. Um diese und andere Eigenschaften auszunutzen, erwartet das System, daß der Benutzer vor und nach dem Sprechen eines Befehls pausiert, und einer besonderen Struktur oder Schablone folgt, wenn er einen Befehl ausspricht (z.B. alle Befehle beginnen mit Aktionsbefehlsworten). Diese Anforderung verbessert die Genauigkeit, mit der das System zwischen diktiertem Text und Befehlen unterscheidet.
  • Bezugnehmend auf 1, weist ein typisches Spracherkennungssystem 10 ein Mikrofon 12 zur Umwandlung der Sprache eines Benutzers in ein analoges Datensignal 14 und eine Tonkarte 16 auf. Die Tonkarte weist einen digitalen Signalprozessor (DSP) 19 und einen Analog-Digital-(A/D)-Wandler 17 auf, zur Umwandlung des analogen Datensignals in ein digitales Datensignal 18 durch Abtastung des analogen Datensignals mit etwa 11 khz, um 220 digitale Abtastwerte während einer Zeitspanne von 20 ms zu erzeugen. Jede Zeitspanne von 20 ms entspricht einem getrennten Sprachrahmen. Der DSP verarbeitet die Abtastwerte entsprechend jedem Sprachrahmen, um während der Zeitspanne von 20 ms eine Gruppe von Parametern zu erzeugen, die mit dem analogen Datensignal verbunden ist. Im allgemeinen repräsentieren die Parameter die Amplitude der Sprache in jedem eines Satzes von Frequenzbändern.
  • Der DSP überwacht auch die Lautstärke der Sprachrahmen, um Benutzeräußerungen zu detektieren. Wenn die Lautstärke von drei aufeinanderfolgenden Sprachrahmen innerhalb eines Fensters von fünf aufeinanderfolgenden Sprachrahmen eine vorbestimmte Sprachschwelle überschreitet, zum Beispiel 20 dB, dann stellt der DSP fest, daß das analoge Signal Sprache repräsentiert, und der DSP beginnt, einen Stapel von z.B. drei Sprachrahmen von Daten aufeinmal über ein digitales Datensignal 23 an eine Zentraleinheit (CPU) 20 zu senden. Der DSP macht ein Äußerungssignal (Utt) 22 gültig, um der CPU jedesmal mitzuteilen, daß ein Stapel von Sprachrahmen, die eine Äußerung repräsentieren, über das digitale Datensignal gesendet wird.
  • Wenn ein Unterbrechungs-Behandler 24 an der CPU Geltendmachungen des Utt-Signals 22 empfängt, wird die normale Ausführungsabfolge der CPU unterbrochen. Das Unterbrechungssignal 26 bewirkt, daß die Betriebssystemsoftware 28 eine Speicherroutine 29 aufruft. Die Speicherroutine 29 speichert den ankommenden Stapel von Sprachrahmen in einem Puffer 30. Wenn fünfzehn aufeinanderfolgende Sprachrahmen innerhalb eines Fensters von neunzehn aufeinanderfolgenden Sprachrahmen unter eine vorbestimmte Schweigeschwelle fallen, z.B. 6 dB, dann stoppt die DSP die Sendung von Sprachrahmen an die CPU und macht ein End_Utt-Signal 21 gültig. Das End_Utt-Signal veranlaßt die Speicherroutine, die Stapel zuvor gespeicherter Sprachrahmen in einem Sprachpaket 39 zu erkennen, das der Benutzeräußerung entspricht.
  • Das Unterbrechungssignal 26 bewirkt auch, daß die Betriebssystemsoftware eine Überwachungssoftware 32 aufruft. Die Überwachungssoftware 32 hält einen Zählwert 34 der Anzahl der Sprachpakete, die gespeichert, jedoch noch nicht verarbeitet worden sind. Eine Anwendung 36, zum Beispiel ein Wortprozessor, der durch die CPU periodisch ausgeführt wird, prüft auf eine Benutzereingabe hin, indem er den Zählwert der Überwachungssoftware untersucht. Wenn der Zählwert null ist, dann gibt es keine Benutzereingabe. Wenn der Zählwert nicht null ist, dann ruft die Anwendung eine Spracherkennungssoftware 38 auf, und übergibt einen Zeiger 37 auf die Speicheradresse des Sprachpakets im Puffer 30. Der Spracherkenner kann direkt durch die Anwendung aufgerufen werden oder kann im Auftrag der Anwendung durch ein getrenntes Programm, wie DragonDictateTM von Dragon Systems of West Newton, Massachusetts, als Reaktion auf die Anforderung der Anwendung einer Eingabe von einer Maus oder Tastatur aufgerufen werden.
  • Für eine detailliertere Beschreibung, wie Benutzeräußerungen in einem Spracherkennungssystem empfangen und gespeichert werden, siehe das US-Patent Nr. 5,027,406 mit dem Titel „Method for Interactive Speech Recognition and Training".
  • Bezugnehmend auf 2, veranlaßt die Spracherkennungssoftware 38, um festzustellen, welche Worte gesprochen worden sind, die CPU, Sprachrahmen innerhalb des Sprachpakets 39 aus dem Puffer 30 abzurufen und die Sprachrahmen mit Sprachmodellen zu vergleichen, die in einem oder mehreren Wörterverzeichnissen 40 gespeichert sind. Für eine detailliertere Beschreibung kontinuierlicher Spracherkennung, siehe das US-Patent Nr. 5,202,952, mit dem Titel „Large-Vocabulary Continuous Speech Prefiltering and Processing System".
  • Die Erkennungssoftware verwendet eine gemeinsame Skriptspracheninterpreiersoftware, um mit der Anwendung 36 zu kommunizieren, die die Erkennungssoftware aufrief. Die gemeinsame Skriptspracheninterpretersoftware ermöglicht es dem Benutzer, direkt in die Anwendung diktieren, entweder durch Emulation der Computertastatur und Umwandlung der Erkennungsergebnisse in anwendungsabhängige Tastenanschläge oder durch Senden anwendungsabhängiger Befehle direkt an die Anwendung unter Verwendung der Anwendungskommunikationseinrichtung des Systems (z.B. verwendet Microsoft WindowsTM Dynamic Data ExchangeTM). Die erwünschten Anwendungen umfassen zum Beispiel Textverarbeitungsprogramme 44 (z.B. Word Perfect oder Microsoft WordTM), Tabellenkalkulationen 46 (z.B. Lotus 1-2-3TM oder ExcelTM) und Spiele 48 (z.B. SolitaireTM).
  • Als eine Alternative zum direkten Diktieren in eine Anwendung diktiert der Benutzer Text in ein Spracherkennerfenster, und nach dem Diktieren eines Dokuments übeträgt der Benutzer das Dokument (manuell oder automatisch) in die Anwendung.
  • Wenn eine Anwendung zum erstenmal die Spracherkennungssoftware aufruft, wird sie, bezugnehmend auf 3, von einem Plattenlaufwerk in den lokalen Speicher 42 des Computers geladen. Ein oder mehrere Wörterverzeichnisse, zum Beispiel das gemeinsame Wörterverzeichnis 48 und das Wörterverzeichnis 50 aus Microsoft OfficeTM werden ebenfalls von einem entfernten Speicher in den Speicher 42 geladen. Die Wörterverzeichnisse 48, 52, und 54 umfassen alle Worte 48b, 50b und 54b (Text und Befehle), und die entsprechenden Sprachmodelle 48a, 50a und 54a, die ein Benutzer sprechen kann.
  • Das Ausbreiten der Sprachmodelle und Warte über unterschiedliche Wörterverzeichnisse läßt es zu, daß die Sprachmodelle und Worte in lieferantenabhängige (z.B. MicrosoftTM und NovellTM) Wörterverzeichnisse gruppiert werden, die nur in den Speicher geladen werden, wenn eine Anwendung, die einem besonderen Lieferant entspricht, zum erstenmal nach dem Einschalten ausgeführt wird. Zum Beispiel repräsentieren viele der Sprachmodelle und Worte im Wörterverzeichnis 54 von Novell PerfectOfficeTM Worte, die nur ausgesprochen werden, wenn ein Benutzer eine Novell PerfectOfficeTM-Anwendung ausführt, z.B. WordPerfect. Als Ergebnis werden diese Sprachmodelle und Worte nur benötigt, wenn der Benutzer eine NovellTM-Anwendung ausführt. Um die Verschwendung von wertvollen Speicherplatz zu vermeiden, wird das Novell PerfectOfficeTM-Wörterverzeichnis 54 nur in den Speicher geladen, falls benötigt (d.h. wenn der Benutzer eine NovellTM-Anwendung ausführt).
  • Alternativ können die Sprachmodelle und Worte in anwendungsabhängige Wörterverzeichnisse geladen werden. Zum Beispiel können getrennte Wörterverzeichnisse für Microsoft WordTM, Microsoft ExcelTM und Novell WordPerfectTM vorhanden sein. Als eine andere Alternative wird nur ein einziges Wörterverzeichnis, das alle Worte und entsprechende Sprachmodelle umfaßt, die ein Benutzer sprechen kann, in den lokalen Speicher geladen und durch die Spracherkennungssoftware verwendet, um die Sprache eines Benutzers zu erkennen.
  • Bezugnehmend auf 4, ruft eine Anwendung, sobald die Wörterverzeichnisse im lokalen Speicher gespeichert sind, die Erkennungssoftware auf, und in einem Verfahren vergleicht die CPU Sprachrahmen, die die Sprache des Benutzers repräsentieren, mit Sprachmodellen in den Wörterverzeichnissen, um die Sprache des Benutzers zu erkennen (Schnitt 60). Die CPU stellt dann fest (Schritte 62 und 64), ob die Ergebnisse einen Befehl oder Text darstellen. Befehle umfassen einzelne Worte und Ausdrücke und Sätze, die durch Schablonen (d.h. Einschränkungsregeln) definiert sind. Die Schablonen definieren die Worte, die in Befehlssätzen gesagt werden können, und die Reihenfolge, in der die Worte gesprochen werden. Die CPU vergleicht (Schritt 62) die Erkennungsergebnisse mit den möglichen Befehlsworten und Ausdrücken und mit Befehlsschablonen, und wenn die Ergebnisse zu einem Befehlswort oder Ausdruck oder einer Befehlsschablone passen (Schritt 64), dann sendet die CPU (Schritt 65a) der Anwendung, die die Spracherkennungssoftware aufgerufen hat, Tastenanschläge oder eine Skriptsprache, die die Anwendung veranlassen, den Befehl auszuführen, und wenn die Ergebnisse nicht zu einem Befehlswort oder Ausdruck oder eine Befehlsschablone passen, sendet die CPU (Schritt 65b) der Anwendung Tastenanschläge oder Skriptsprache, die die Anwendung veranlassen, die Ergebnisse als Text zu tippen.
  • Bezugnehmend auf 5, kann der Benutzer, während er einen Text diktiert, den Computer durch einen Tastenanschlag, eine Mausauswahl oder eine Äußerung (z.B. indem er den Ausdruck „What can I say" 68 in das Mikrofon spricht) veranlassen, einen Befehlsbrowser 66 anzuzeigen. Der Befehlsbrowser zeigt mögliche Befehle für die Anwendung an, die ausgeführt wird. Zum Beispiel weist eine Textverarbeitungsanwendung einzelne Befehlsworte auf, z.B. [Bold] 70 und [Center] 72, Befehlsausdrücke, z.B. [Close Document) 74 und [Cut This Paragraph] 76, und flexible Satzbefehle, z.B. [<Action> <2 to 20> <Text Objects>] 78 und [Move <Direction> <2 to 20> <Text Objects>) 80. Außerdem auf 6 bezugnehmend, kann der Benutzer einen Befehl auswählen, der im Befehlsbrowser gezeigt wird, um Beispiele 82 des ausgewählten Befehls 80 anzuzeigen.
  • Bezugnehmend auf 7, werden die Befehlssätze, z.B. 78, 80, 84, und 88, gemäß einer Schablone und ohne lange, z.B. länger als 0,5 Sekunden, Pausen zwischen den Worten des Satzes gesprochen. (Die Länge der Pause kann eingestellt werden, um einen besonderen Sprachfehler des Benutzers auszugleichen.) Zum Beispiel erfordert es der Befehl 80, daß der Benutzer das feste Wort „Move" 88 gefolgt durch eine Anweisungsvariable 90 ausspricht (d.h. <Direction>: „Up", „Down", „Left", „Right", „Back" oder „Forward"), eine Zahlenvariable 92 (d.h. <2 to 20>: „2", „3", „4" ... oder „20"), und optional (gestrichelte Linie 94) eine Mehrfachtextobjektvariable 96 (d.h. <Text Objects>: „Character", „Words", „Lines", „Sentences" oder „Paragraphs"). Wenn sich der Benutzer um zwei Zeilen im vorher diktierten Text nach oben bewegen will, sagt der Benutzer „Move Up 2 Lines". Der Benutzer kann nicht „Move up 2", „Please Move Up 2 Lines", oder „Muve up last 2 Lines" sagen, da diese Sprache nicht der Schablone für den Bewegungsbefehl 80 folgt.
  • Erneut auf 3 bezugnehmend, weisen die Wörterverzeichnisse zusätzlich dazu, daß sie Worte (und Ausdrücke) und entsprechende Sprachmodelle aufweisen, anwendungsabhängige (z.B. Microsoft WordTM 100 und Microsoft ExcelTM 102) Befehlssätze 48c, 50c und 54c, die dem Benutzer zur Verfügung stehen, und anwendungabhängige Gruppen 48d, 50d und 54d auf, auf die durch Sätze gezeigt wird und die auf Gruppen von variablen Worten in den Befehlsschablonen zeigen.
  • Außer daß sie auf Gruppen variabler Worte zeigen, definieren die Gruppen die anwendungabhängigen Tastenanschläge (oder Skriptsprache) für jedes Wort, das gesprochen werden kann. Wenn der Benutzer zum Beispiel einen Befehlssatz ausspricht, der mit „Capitalize" beginnt, während er Microsoft WordTM ausführt, zeigt die Aktionsgruppe auf das Wort „Capitalize" und liefert die folgenden Tastenanschläge:
    {Alt+O}et{Enter}.
  • Wenn er Novell WordPerfectTM ausführt, zeigt die Aktionsgruppe ebenfalls auf das Wort „Capitalize", liefert jedoch die folgenden Tastenanschläge:
    {Alt+e}vi{RightO}.
  • Jeder Befehlssatz in den geladenen Wörferverzeichnissen 48, 50, und 54 weist Zeiger auf verschiedene Komponenten des Satzes auf. Zum Beispiel weist der Befehlssatz 102 einen Zeiger auf das feste Wort Bewege (und sein entsprechendes Sprachmodell) und Zeiger auf die Gruppen, z.B. <Direction> 120, <2 to 20> 122 und <Text objects> 124 auf. Die Gruppen weisen Zeiger auf die Worte in den Gruppen (und die entsprechenden Sprachmodelle) auf, z.B. Anweisungsworte 126, Zahlen 128 und Textobjektworte 130.
  • Der Zeiger läßt es zu, daß sich Komponenten jedes Satzes über mehrere gespeicherte Wörterverzeichnisse ausbreiten und durch die Sätze unterschiedlicher Wörterverzeichnisse genutzt werden. Zum Beispiel ist der Befehlssatz 136 ([Print Pages <Number/1 to 99> bis <Number/1 to 99>) 5) sowohl im (nicht gezeigten) Microsoft OfficeTM-Wörterverzeichnis 50 und im (nicht gezeigten) Novell PerfectOfficeTM-Wörterverzeichnis 54 gespeichert, während die Sprachmodelle und Worte (d.h. Zahlen 1 bis 99) im Zahlwörterverzeichnis 138 gespeichert sind. Um eine „Quer-Wörterverzeichniserkennung" zuzulassen, bezeichnen die Zeiger in den Wörterverzeichnissen 48, 50, und 54 das Wörterverzeichnis dem Namen nach, in dem die Worte gefunden werden können. Zum Beispiel können die variablen Worte 1, 2, 3,... 99 im Zahlenwörterverzeichnis gefunden werden (z.B. <Number/1 to 99>). Sobald die Wörterverzeichnisse in den lokalen Speicher kopiert sind, werden die Namensverweise aufgelöst und durch die tatsächlichen Speicheradressen der Worte im lokalen Speicher ersetzt.
  • Durch die Quer-Wörterverzeichniserkennung kann ein Wort zu einer variablen Gruppe von Worten (z.B. <1 to 99>) in nur einem Wörterverzeichnis anstelle zu jedem Wörterverzeichnis hinzugefügt werden, das die Gruppe enthält. Zusätzlich wird die variable Gruppe von Worten nicht über mehrere Wörterverzeichnisse wiederholt, Während die Sprache eines Benutzers erkannt wird, sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, Teilergebnisse (d.h. erkannte Worte innerhalb einer Äußerung, bevor die gesamte Äußerung betrachtet worden ist) innerhalb des Dokuments anzuzeigen, das auf dem Anzeigeschirm (oder in einem Statusfenster auf dem Anzeigeschirm) angezeigt wird. Wenn die CPU feststellt, daß die die Sprache des Benutzers Text ist und die Teilergebnisse zu den Endergebnissen passen, dann ist die CPU fertig. Wenn jedoch die CPU feststellt, daß die Sprache des Benutzers Text ist, aber daß die Teilergebnisse nicht zu den Endergebnissen passen, dann sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um den angezeigten Text zu korrigieren. Wenn die CPU entsprechend feststellt, daß die Sprache des Benutzers ein Befehl war, dann sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, die Teilergebnisse vom Bildschirm zu löschen und den Befehl auszuführen.
  • Zum Beispiel ist die Anwendung, die durch das System ausgeführt wird, ein Terminplaner (8a, 8b, 9a, und 9b). Nachdem das System Teilergebnisse 302 „schedule this meeting in room 507" (8a) anzeigt, stellt das System fest, daß die Äußerung ein Befehl war und entfernt den Text vom Anzeigeschirm (8b) und führt den Befehl aus, indem es das Treffen im Raum 507 plant 304. Entsprechend stellt das System fest, nachdem das System Teilergebnisse 304 anzeigt „underline last three words" (9a), daß die Äußerung ein Befehl war und entfernt den Text vom Anzeigeschirm (9b) und führt den Befehl durch Unterstreichen 306 der letzten drei Worte aus.
  • Die Teilergebnisse gestatten es dem Benutzer, zu erkennen, wie die Erkennung vor sich geht. Wenn die Spracherkennung nicht genau ist, kann der Benutzer das Sprechen stoppen und fortfahren, indem er langsamer oder klarer spricht, oder der Benutzer oder ein Techniker können die Teilergebnisinformation nutzen, um Spracherkennungssystemfehler zu diagnostizieren.
  • Eine Schwierigkeit bei der Erkennung sowohl von Befehlen als auch Text gegen den selben Satz von Wörterverzeichnissen (d.h. einem oder mehreren) ist es, daß eine Sprachmodellinformation in den Wörterverzeichnissen die CPU veranlassen kann, einen gesprochenen Befehl eines Benutzers eher als Text als einen Befehl zu erkennen. Typischerweise umfassen die Sprachmodelle für diktierte Worte eine Sprachmodellinformation über die Art, in der ein Benutzer eine gegebene Sprache natürlich spricht. Zum Beispiel folgt dem Wort „bold" im allgemeinen ein Substantiv, z.B. „That was a bold presentation". Andererseits sind Befehlssätze absichtlich gestelzt oder unnatürlich (z.B. sie beginnen mit Aktionsbefehlsworten anstelle von Substantiven), um sie von Text zu unterscheiden und die Spracherkennungsgenauigkeit zu verbessern. Zum Beispiel folgt dem Befehl „bold" im allgemeinen eine Anweisung (z.B. next, last), eine Zahl (z.B. 2, 3, 4) oder ein Textobjekt (z.B. Character, Paragraph), z.B. „Bold last Paragraph." Wenn die Sprache eines Benutzers gegenüber demselben Satz von Wörterverzeichnissen als Befehle und Text erkannt wird, neigt jede Sprachmodellinformation in den Wörterverzeichnissen dazu, das System zu veranlassen, die Erkennung von Text gegenüber Befehlen zu bevorzugen.
  • Bezugnehmend auf die 10 und 11, ist es eine Alternative, zwei serielle Erkennungen durchzuführen. Die CPU beginnt mit der Erkennung (Schritt 140, 10) der Sprache des Benutzers, wobei sie ein oder mehrere diktierte Wörterverzeichnisse 150 (11) verwendet, die Worte (und entsprechende Sprachmodelle) enthalten, die ein Benutzer sagen kann, während er Text diktiert. Dieses Wörterverzeichnis enthält eine Sprachmodellinformation, jedoch keine Befehlssätze. Die CPU erkennt dann (Schritt 142) die Sprache des Benutzers, wobei sie ein oder mehrere Befehlswörterverzeichnisse 152 verwendet, die nur Befehlsworte, Ausdrücke und Sätze (und entsprechende Sprachmodelle und Gruppen) enthalten. Jede Erkennung (Schritte 140 und 142) weist jeder Erkennung beruhend darauf eine Bewertung zu, wie gut die die Sprache des Benutzers mit den Sprachmodellen zusammenpaßt, die dem erkannten Wort oder Worten entsprechen. Die Bewertungen beider Erkennungen werden dann verglichen, und die CPU stellt fest (Schritt 144), ob die Sprache des Benutzers ein Befehl oder Text war.
  • Zur Befehlserkennung vergleicht die CPU die Anfangssprachrahmen nur mit einer ersten Gruppe möglicher Sprachmodelle, die die ersten Worte von Befehlen repräsentieren, und vergleicht die Anfangssprachrahmen nicht mit jedem Sprachmodell in den Befehlswörterverzeichnissen. Als Beispiel werden die Anfangssprachrahmen nicht mit den Anweisungsvariablen „Up", „Down", „Left", „Right", „Back" und „Forward" verglichen. Eine Begrenzung der Zahl der Sprachmodelle, mit denen die Sprachrahmen verglichen werden, reduziert die Zeit für den Vergleich und erhöht die Genauigkeit der Befehlserkennung.
  • Außerdem auf 12 bezugnehmend, beginnt die Erkennermaschine zur kontinuierlichen Spracherkennung im Zustand 1 und wartet 60, bis der Benutzer zu sprechen beginnt. Wenn der Benutzer zu sprechen beginnt, erkennt die CPU den Anfang des ersten Wortes des Benutzers und filtert die erste Gruppe von Sprachmodellen nach jenen Sprachmodellen vor, die ähnliche Tonanfänge aufweisen, z.B. „Select", „Center", „Single Space", „Set Font", „Set Size". Die vorgefilterten Sprachmodelle stellen eine mögliche Befehlssatzliste von zum Beispiel zwanzig möglichen Befehlssätzen bereit, die der Benutzer sprechen kann.
  • Der Erkenner fährt fort, indem er die aufeinanderfolgenden Sprachrahmen mit den vorgefilterten Sprachmodellen vergleicht, jedoch nicht mit anderen Sprachmodellen (z.B. „Bold"). Die mögliche Befehlsliste wird in der Reihenfolge der höchsten zur niedrigsten Wahrscheinlichkeit geordnet, wobei der Befehl, der das Sprachmodell aufweist, das mit den Sprachrahmen am nächsten zusammenpaßt, die höchste Wahrscheinlichkeit (bester Kandidat) aufweist. Wenn die CPU fortfährt, aufeinanderfolgende Sprachrahmen mit den vorgefilterten Sprachmodellen zu vergleichen, ordnet die CPU aktiv die Befehlsliste neu an, wenn sich die Wahrscheinlichkeiten ändern.
  • Wenn die CPU feststellt, daß die Sprachrahmen im wesentlichen mit den Sprachmodellen für eines oder mehrere erste Worte in einem oder mehreren Befehlen zusammenpassen, verwendet die CPU den Zeiger in jedem Befehl auf die nächste Befehlskomponente (d.h. zweites Wort), um zu beginnen, die aufeinanderfolgenden Sprachrahmen mit Gruppen von Sprachmodellen zu vergleichen, die mögliche zweite Worte repräsentieren. Wenn zum Beispiel die Spracherkennungsmaschine das Wort Copy 202 als eines der zwanzig möglichen ersten gesprochenen Worte erkennt, dann verwendet die Spracherkennermaschine die Verweise in den <Action>-Befehlssätzen 78 (7), um damit zu beginnen (Zustand 2), die aufeinanderfolgenden Sprachrahmen mit den Sprachmodellen zu vergleichen, die die Worte in der <Next or Previous>-Gruppe 204 repräsentieren, einschließlich „Previous", „Last", „Back", „Next" und „Forward", das feste Wort „Selction" 206, die <2 to 20>-Gruppe 208, und die <Text Objects>-Gruppe 210. Der Spracherkenner kann auch den Anfang des zweiten Wortes identifizieren, um die Sprachmodelle vorzufiltern, die mögliche zweite Befehlssatzworte repräsentieren.
  • Da einige Worte länger brauchen ausgesprochen zu werden als andere, fährt die Spracherkennungsmaschine gleichzeitig fort, die aufeinanderfolgenden Sprachrahmen mit längeren vorgefilterten Sprachmodellen zu vergleichen. Wenn folglich der Spracherkenner die aufeinanderfolgenden Sprachrahmen mit Gruppen von Sprachmodellen vergleicht (Zustand 2), die mögliche zweite Worte in den Befehlssätzen repräsentieren, die mit dem Wort „Copy" beginnen, fährt der Spracherkenner fort, die aufeinanderfolgenden Sprachmodelle mit längeren Sprachmodellen zu vergleichen, die die Worte „Capitalize" 212 und „Quote" 214 repräsentieren. Der fortgesetzte Vergleich kann die CPU veranlassen, eine dieser Möglichkeiten als eine höhere Wahrscheinlichkeit als „Copy" 202 aufzulisten, dem ein zweites Befehlssatzwort folgt.
  • Die Befehlssätze sind in ihrer Grammatik ähnlich und in ihrer Zahl begrenzt, um das Ausmaß der Verwirrung des Benutzers zu reduzieren und es dem Benutzer zu gestatten, sich leicht an die möglichen Befehle zu erinnern. Die Variablen (z.B. <Action>, <Style>, <Next or Prev>) in den Befehlssätzen versehen den Benutzer mit einer breiten Vielfalt von Befehlen, ohne eine große Zahl einzelner Befehlssätze einzuführen.
  • Zusätzliche Befehlssätze können für andere Arten von Anwendungen bereitgestellt werden. Zum Beispiel zeigt 13 mögliche Befehlssätze für Tabellenkalkulationsanwendungen (z.B. Lotus 1-2-3TM und ExcelTM). Die Befehlssatzschablonen sind über Tabellenkalkulationsanwendungen allgemein. Jedoch sind Tastenanschläge von der Befehlserkennersoftware zur Anwendung anwendungabhängig (d.h. die Tastenanschläge, die für Lotus 1-2-3TM erforderlich sind, können sich von den Tastenanschlägen unterscheiden, die von ExcelTM benötigt werden).
  • Die CPU bevorzugt diktierten Text gegenüber ähnlich bewerteten Befehlen, da es für den Benutzer leichter ist, falsch erkannte Befehle zu löschen, die in ein Dokument getippt werden, als es für einen Benutzer ist, Text rückgängig zu machen, der falsch erkannt und als Befehl ausgeführt wird. Wenn zum Beispiel der Benutzer „belated fall flies" diktiert, und das System den Text „belated fall flies" und den Befehl „delete all files" erkennt, ist es für den Benutzer einfacher, den getippten Befehl „delete all files" zu löschen, als es für den Benutzer ist, alle gelöschten Dateien wieder herzustellen.
  • Bei der Bevorzugung von Text stellt das System zuerst fest, ob es eine Befehlsrückweisung gab. Befehlsrückweisungen umfassen Geräusche, die durch das Systemmikrofon aufgenommen werden. Die Sprachrahmen können dann als Geräusche identifiziert werden, wenn sie mit Sprachmodellen zusammenpassen, die Hintergrundgeräuschen, Telefonklingeln oder anderen üblichen Geräuschen entsprechen, oder die Benutzeräußerung kann als eine Befehlsrückweisung betrachtet werden, wenn die Befehlserkennungsbewertungen unter einer empirisch eingestellten Schwelle liegen. Dem Benutzer kann die Fähigkeit gegeben werden, die Schwelle zu verändern, um den Benutzer mit einer gewissen Kontrolle über die Präzision gesprochener Befehle zu versehen. Andere Befehlsrückweisungen umfassen eine ungenügende Lautstärke oder übermäßige Lautstärke, Hardwarefehler oder Pufferüberlauffehler. Verschiedene Befehlsrückweisungen können ebenso als Textrückweisungen betrachtet werden.
  • Bei der Bevorzugung von Text stellt das System danach fest, ob die Sprache des Benutzers mit einer Befehlsschablone übereinstimmt. Die Sprache des Benutzers, die nicht mit einer Befehlsschablone übereinstimmt, liefert keinen gültigen erkannten Befehl. Die Sprache eines Benutzers stimmt nicht mit einer Schablone überein, wenn der Benutzer keine erlaubten Worte in der vorbestimmten Reihefolge ausspricht oder wenn der Benutzer Pausen zwischen die Worte eines Befehls setzt. Wenn zum Beispiel der Benutzer sagt bold last 3 (Pause) words", werden die Worte „bold last 3" als eine Äußerung betrachtet, während das Wort words" als einen andere Äußerung betrachtet wird. Keine Äußerung stimmt mit der Befehlsschablone überein, und folglich liefert keine Äußerung ein gültiges erkanntes Befehlsergebnis.
  • Das System bevorzugt außerdem Text, indem es die Erkennungsbewertung des Befehls mit der Erkennungsbewertung des Textes vergleicht. Wenn die Textbewertung höher ist, dann erkennt das System die Sprache des Benutzers als Text. Wenn die Text- und Befehlsbewertungen gleich sind oder die Befehlsbewertung innerhalb eines empirisch eingestellten Bereichs der Textbewertung liegt, dann bevorzugt das System den Text, indem es die Sprache des Benutzers als Text erkennt. Zum Beispiel kann der empirisch eingestellte Bereich bestimmt werden, indem die Zahl der Worte in der Äußerung mit einer empirisch bestimmten Zahl, z.B. 100 multipliziert wird. Da jedoch die Befehle gestelzt oder unnatürlich sind, wird die Erkennungsbewertung eines korrekt gesprochenen Befehls im allgemeinen beträchtlich außerhalb der Bewertung der Texterkennung liegen.
  • Diktierter Text wird nicht bevorzugt, wo es nicht sein kann, daß der Benutzer Text diktiert. Wenn zum Beispiel der Benutzer ein Fenstermenü heruntergezogen hat, dann kann eine gesprochene Äußerung des Benutzers nur ein Befehl sein, und folglich wird die Befehlserkennung bevorzugt oder nur eine Befehlserkennung ausgeführt.
  • Wenn die CPU feststellt, daß die Sprache des Benutzers Text ist, sendet die CPU (Schritt 146) Tastenanschläge oder Skriptsprache, die die erkannten Worte repräsentieren, an die Anwendung, die die Spracherkennungssoftware aufrief. Wenn die CPU feststellt, daß die Sprache des Benutzers ein Befehl ist, sendet die CPU (Schritt 148) Tastenanschläge oder Skriptsprachenbefehie an die Anwendung, die die Anwendung veranlassen, den Befehl auszuführen.
  • Die Erkennung diktierten Textes braucht länger (z.B. 1,2 Echtzeit) als die Erkennung von Befehlen (z.B. 0,1 Echtzeit). Ein Grund für die Zunahme der Zeit ist es, daß das Wörterverzeichnis für diktierten Text sehr viel größer als das Befehlswörterverzeichnis ist. Die Erkennung von diktiertem Text vor der Erkennung von Befehlen nutzt die Sprechzeit aus, die durch den Benutzer benötigt wird.
  • Da die Wörterverzeichnisse für diktierten Text und Befehle getrennt sind, können sie für ihre jeweiligen Zwecke optimiert werden, ohne die Genauigkeit einer Erkennung zu reduzieren. Wie erläutert, kann das Wörterverzeichnis für diktierten Text eine Sprachmodellinformation umfassen. Entsprechend kann das Befehlswörterverzeichnis eine Modellinformation umfassen, die die Befehlserkennung optimiert. Zum Beispiel kann das Wort „sentence" eine höhere Wahrscheinlichkeit als das Wort „character" aufweisen (d.h. eine höhere Bewertung erhalten).
  • Eine andere Alternative ist die parallele Spracherkennung von sowohl diktierten Text als auch Befehlen. Bezugnehmend auf 14, erkennt die CPU gleichzeitig (Schritte 160 und 162) diktierten Text und Befehle, indem sie gleichzeitig die Sprachrahmen der Benutzeräußerung mit einem oder mehreren Wörterverzeichnissen 150 für diktierten Text und einem oder mehreren Befehlswörterverzeichnissen 152 vergleicht. Die CPU vergleicht dann (Schritt 164) die Ergebnisse beider Erkennungen und stellt fest (Schritt 166), ob die Benutzeräußerung ein Befehl oder Text ist. Wieder bevorzugt die CPU die Texterkennung gegenüber der Befehlserkennung. Wenn die CPU feststellt, daß die Benutzeräußerung ein Befehl ist, dann sendet die CPU (Schritt 168) Tastenanschläge oder Skriptsprache an die Anwendung, die die Spracherkennungssoftware aufrief, um die Anwendung zu veranlassen, den erkannten Befehl auszuführen. Wenn die CPU feststellt, daß die Benutzeräußerung diktierter Text ist, dann sendet die CPU (Schritt 170) Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, den erkannten Text zu tippen.
  • Wenn das erste Wort einer Benutzeräußerung als ein erstes Wort eines Befehlssatzes erkannt wird, dann kann die CPU die Erkennung des diktierten Textes stoppen und nur die Befehlserkennung vollenden. Entsprechend kann dann, wenn das erste Wort einer Benutzeräußerung nicht als ein erstes Wort eines Befehlssatzes erkannt wird, die CPU die Befehlserkennung stoppen und nur die Erkennung des diktierten Textes stoppen. Zusätzliche Spracherkennungsoptimierungen und Optimierungen zur Unterscheidung von Text von Befehlen sind ebenfalls möglich.
  • Befehlskorrektur
  • Bezugnehmend auf die 15a15c, kann der Benutzer, wenn das Spracherkennungssystem einen gesprochenen Befehl 310 falsch als diktierten Text erkennt, die CPU (durch Tastenanschlag, Mausauswahl oder einen gesprochenen Befehl, z.B. „That was a command" 312, 15b) veranlassen, die Spracherkennungssoftware erneut auszuführen. Die CPU erkennt dann die vorhergehende Äußerung des Benutzers neu und erzeugt Tastenanschläge oder Skriptsprachenbefehle, um die Anwendung zu veranlassen, die die Spracherkennungssoftware aufrief, den vorher geschriebenen Text zu löschen (15c). Wo ein getrenntes Befehlswörterverzeichnis verfügbar ist, wird die erneute Erkennung nur an diesem Wörterverzeichnis ausgeführt, um die Wahrscheinlichkeit zu erhöhen, daß der gesprochene Befehl korrekt erkannt wird. Wenn die erneute Erkennung ein Befehlsergebnis mit einer Bewertung liefert, die die empirisch eingestellte Schwelle überschreitet, dann erzeugt die CPU Tastenanschläge oder Skriptsprachenbefehle, die bewirken, daß die Anwendung den Befehl erneut ausführt (z.B. unterstrichenen Text 314, 15c).
  • Bezugnehmend auf 15d, zeigt die CPU dann, wenn die erneute Erkennung kein Befehlsergebnis liefert oder die Bewertung des Befehlsergebnisses ungenügend ist, den erneut erkannten Text 310 in einem Befehlsfenster 220 auf dem Anzeigeschirm des Systems an. Alternativ wird das Befehlsfenster jedesmal angezeigt, wenn der Benutzer die erneute Erkennung auswählt, oder der Benutzer bestimmt für jede Auswahl einer erneuten Erkennung, wann das Befehlsfenster angezeigt wird. Wie vorhergehend beschrieben, kann es viele Gründe geben, warum ein Befehl falsch erkannt werden kann. Wenn der Benutzer zum Beispiel einen Befehl nicht gemäß einer Befehlsschablone ausspricht, dann kann die CPU die Sprache des Benutzers nicht als einen Befehl erkennen. Entsprechend kann die CPU dann, wenn die Umgebung des Benutzers besonders geräuschvoll ist oder der Benutzer zu schnell oder undeutlich spricht, die Sprache des Benutzers nicht als einen Befehl erkennen. Die erneut erkannte Sprache dem Benutzer anzuzeigen, läßt es zu, daß der Benutzer seine eigenen Fehler ebenso wie Umgebungsprobleme bemerkt. Diese Information kann auch verwendet werden, um Systemprobleme zu diagnostizieren.
  • Die Erkennung eines "gefährlichen" (d.h. schwierig zu widerrufenden) Befehls kann ebenfalls die CPU veranlassen, den erneut erkannten Befehl im Befehlsfenster anzuzeigen. Wenn zum Beispiel die CPU den Befehl „delete all files" erkennt, zeigt die CPU, bevor sie diesen „gefährlichen" Befehl ausführt, den Befehl für den Benutzer. Die CPU kann auch niedrig bewertete Befehle für den Benutzer anzeigen. Wenn der Benutzer zustimmt, daß der angezeigte Befehl im Befehlsfenster der Befehl ist, den der Benutzer ausführen will, dann fordert der Benutzer (durch Tastenanschlag, Mausauswahl oder die Äußerung „OK") die Ausführung des Befehls an. Wenn der Benutzer dem angezeigten Befehl nicht zustimmt oder der angezeigte Text nicht mit einem gültigen Befehl zusammenpaßt, dann kann der Benutzer den zuvor ausgesprochenen Befehl editieren, indem er zum Beispiel den korrekten Befehl in das Befehlsfenster tippt oder indem er „Edit" sagt, wiederum gefolgt durch den beabsichtigten gesprochenen Befehl. Das System führt dann erkannte gültige Befehle aus oder zeigt erneut irgendeine erkannte Sprache an, die nicht mit einer Befehlsschablone übereinstimmt.
  • Um das falsche Erkennen von Befehlen zu vermeiden, kann der Benutzer dem System im voraus mitteilen, daß der Benutzer dabei ist, einen Befehl zu sprechen. Zum Beispiel kann der Benutzer „Simon Says" sagen (oder einen anderen ungewöhnlichen Ausdruck), bevor er einen Befehl ausspricht oder die Control- Taste gedrückt hält, wenn er einen Befehl ausspricht. Wenn das System „Simon Says" erkennt, tippt es das nicht als Text, sondern verwendet es als eine Mitteilung, daß die nächste Äußerung ein Befehl ist oder daß die folgenden Worte in derselben Äußerung ein Befehl sind. Die Befehlsmitteilung kann verwendet werden, um zu verhindern, daß die CPU einen erkannten diktierten Text als das Ergebnis auswählt oder die Äußerung nur mit einem Befehlswörterverzeichnis vergleicht (falls verfügbar), um die Spracherkennungsgenauigkeit weiter zu verbessern. Die Bereitstellung einer Befehlsmitteilung ist besonders nützlich, wenn der Benutzer dabei ist, einen Befehl auszusprechen, den das System regelmäßig falsch als Text erkennt. Für andere leicht erkannte Befehle kann der Benutzer wählen, die Mitteilung nicht bereitzustellen.
  • Anstatt dem System mitzuteilen, daß der Benutzer dabei ist, einen Befehl auszusprechen, kann dem System mitgeteilt werden, daß der Benutzer dabei ist, einen Text zu diktieren.
  • Zusätzlich kann der Benutzer dann, wenn das Spracherkennungssystem einen diktierten Text falsch als einen Befehl erkennt, die CPU (durch Tastenanschlag, Mausauswahl oder einen gesprochen Befehl, z.B. „Type That") veranlassen, die Spracherkennungssoftware erneut auszuführen.
  • Andere Ausführungsformen liegen im Rahmen der folgenden Ansprüche.
  • Zum Beispiel weist die CPU, anstatt einen digitalen Signalprozessor (DSP) die Abtastwerte verarbeiten zu lassen, die jedem Sprachrahmen entsprechen, um während jeder 20 ms-Zeitspanne eine Gruppe von Parametern zu erzeugen, die mit dem analogen Datensignal verbunden sind, eine Vorfeld-Verarbeitungssoftware auf, die es zuläßt, daß die CPU die Parameter erzeugt.

Claims (20)

  1. Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache, das aufweist: Annahme von Signalen (Schritt 23), die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen; Erkennung der Sprachelemente (Schritt 60; 140,142; 160,162); Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert (Schritt 64;144,166), beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vordem Sprachelement, und Sprachmodellinformationen; und Behandlung der erkannten Sprachelemente (Schritte 65a,65b; 146,148; 168,170) in einer Weise, die davon abhängt, ob die Sprachelemente Textelemente oder Befehlselemente repräsentieren.
  2. Verfahren nach Anspruch 1, in dem Textelement behandelt wird (Schritt 65b; 146; 170), indem es einer Textverarbeitungsanwendung zur Verfügung gestellt wird.
  3. Verfahren nach Anspruch 1 oder 2, in dem Befehlselement behandelt wird (Schritt 65a; 148; 168), indem eine Anwendung veranlagt wird, einen Schritt auszuführen.
  4. Verfahren nach einem der vorhergehenden Ansprüche, in dem die Sprachmodellinformationen Befehlsschablonen enthalten und in dem Bestimmung das Vergleichen des erkannten Sprachelements und der Befehlsschablone umfaßt.
  5. Verfahren nach einem der vorhergehenden Ansprüche, in dem die Bestimmung die Bewertung der Wahrscheinlichkeit umfaßt, daß ein gegebenes Sprachelement entweder ein Befehlselement oder ein Textelement ist.
  6. Verfahren nach einem der vorhergehenden Ansprüche, das ferner die Beeinflussung der Erkennung zugunsten dessen aufweist, daß ein gegebenes Sprachelements ein Textelement oder ein Befehlselement ist.
  7. Verfahren nach Anspruch 6, in dem die Beeinflussung die Bestimmung aufweist, ob das gegebene Sprachelement eine Befehlsrückweisung widerspiegelt.
  8. Verfahren nach Anspruch 6 oder Claim 7, in dem die Beeinflussung die Bestimmung umfaßt, ob das gegebene Sprachelement einer Befehlsschablone entspricht.
  9. Verfahren nach einem der Ansprüche 6 bis 8, in dem die Beeinflussung das Vergleichen von Erkennungsbewertungen des gegebenen Sprachelements als Befehlselement oder als Textelement umfaßt.
  10. Verfahren nach einem der Ansprüche 6 bis 9, in dem die Beeinflussung die Bestimmung der Länge des Schweigens zwischen aufeinanderfolgenden Sprachelementen umfaßt.
  11. Verfahren nach einem der Ansprüche 6 bis 10, in dem die Beeinflussung die Bestimmung umfaßt, ob die Aktionen des Benutzers darauf schließen lassen, daß das Sprachelement kein Text sein kann.
  12. Verfahren nach einem der vorhergehenden Ansprüche, in dem die Erkennung aufweist: parallele Erkennung der Sprachelemente, als ob sie Textelemente wären (Schritt 160), und Erkennung der Sprachelemente, als ob sie Befehlselemente wären (Schritt 162).
  13. Verfahren nach Anspruch 12, das ferner aufweist, die Erkennung von Sprachelementen zeitweilig zu stoppen, als ob sie Textelemente (oder Befehlselemente) wären, auf die Bestimmung hin, daß das Sprachelement ein Befehlselement (oder ein Textelement) ist.
  14. Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist, einem Benutzer die Ergebnisse der Erkennung anzuzeigen.
  15. Verfahren nach Anspruch 14, wobei die Ergebnisse Teilergebnisse sind.
  16. Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist, es dem Benutzer zu ermöglichen, eine erneute Erkennung zu veranlassen, wenn das Sprachelement falsch als Textelement oder als Befehlselement erkannt wird.
  17. Verfahren nach Anspruch 16, in dem der Benutzer eine erneute Erkennung veranlassen kann, wenn ein Befehlselement als ein Textelement erkannt wird, und als Reaktion auf die erneute Erkennung eine Textverarbeitungsanwendung die Aufnahme des Textelements in Text rückgängig machen kann, der bearbeitet wird.
  18. Verfahren nach einem der vorhergehenden Ansprüche, in dem vor der Behandlung eines erkannten Befehlselements einem Benutzer Informationen angezeigt werden, die mit dem Befehlselement verbunden sind.
  19. Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist: Annanhme von einem Benutzer einer Anweisung, vorhergehende oder nachfolgende Sprachelemente entweder als Textelemente oder Befehlselemente zu betrachten, aber nicht als beides.
  20. Medium, das Software zur Verwendung bei der Spracherkennung enthält, die aufweist: Instruktionen zur Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen; Instruktionen zur Erkennung der Sprachelemente; Instruktionen zur Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vor dem Sprachelement, einer Sprachmodellinformation; und Instruktionen zur Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob sie Textelemente oder Befehlselemente repräsentieren.
DE69634239T 1995-11-13 1996-11-11 Erkennung kontinuierlich gesprochener Texte und Befehle Expired - Lifetime DE69634239T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/559,207 US5799279A (en) 1995-11-13 1995-11-13 Continuous speech recognition of text and commands
US559207 1995-11-13

Publications (2)

Publication Number Publication Date
DE69634239D1 DE69634239D1 (de) 2005-03-03
DE69634239T2 true DE69634239T2 (de) 2006-01-12

Family

ID=24232717

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69634239T Expired - Lifetime DE69634239T2 (de) 1995-11-13 1996-11-11 Erkennung kontinuierlich gesprochener Texte und Befehle

Country Status (3)

Country Link
US (2) US5799279A (de)
EP (1) EP0785540B1 (de)
DE (1) DE69634239T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010049869A1 (de) * 2010-10-28 2012-05-03 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu

Families Citing this family (249)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
US6208959B1 (en) * 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
US6298324B1 (en) 1998-01-05 2001-10-02 Microsoft Corporation Speech recognition system with changing grammars and grammar help command
US6301560B1 (en) 1998-01-05 2001-10-09 Microsoft Corporation Discrete speech recognition system with ballooning active grammar
US6227863B1 (en) * 1998-02-18 2001-05-08 Donald Spector Phonics training computer system for teaching spelling and reading
US8202094B2 (en) * 1998-02-18 2012-06-19 Radmila Solutions, L.L.C. System and method for training users with audible answers to spoken questions
WO1999045475A2 (en) * 1998-03-03 1999-09-10 Koninklijke Philips Electronics N.V. Text processing system including a speech recognition device and text change means for changing a text-block data
US6292779B1 (en) 1998-03-09 2001-09-18 Lernout & Hauspie Speech Products N.V. System and method for modeless large vocabulary speech recognition
US6195637B1 (en) * 1998-03-25 2001-02-27 International Business Machines Corp. Marking and deferring correction of misrecognition errors
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US5970451A (en) * 1998-04-14 1999-10-19 International Business Machines Corporation Method for correcting frequently misrecognized words or command in speech application
US7082391B1 (en) * 1998-07-14 2006-07-25 Intel Corporation Automatic speech recognition
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US6598016B1 (en) 1998-10-20 2003-07-22 Tele Atlas North America, Inc. System for using speech recognition with map data
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US8275617B1 (en) * 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6514201B1 (en) * 1999-01-29 2003-02-04 Acuson Corporation Voice-enhanced diagnostic medical ultrasound system and review station
US6745165B2 (en) * 1999-06-16 2004-06-01 International Business Machines Corporation Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system
US6871179B1 (en) * 1999-07-07 2005-03-22 International Business Machines Corporation Method and apparatus for executing voice commands having dictation as a parameter
US6581033B1 (en) * 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US6813603B1 (en) 2000-01-26 2004-11-02 Korteam International, Inc. System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form
US6434529B1 (en) 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
US6466654B1 (en) * 2000-03-06 2002-10-15 Avaya Technology Corp. Personal virtual assistant with semantic tagging
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6847931B2 (en) 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US7109970B1 (en) * 2000-07-01 2006-09-19 Miller Stephen S Apparatus for remotely controlling computers and other electronic appliances/devices using a combination of voice commands and finger movements
US7200555B1 (en) 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
CA2417926C (en) * 2000-07-31 2013-02-12 Eliza Corporation Method of and system for improving accuracy in a speech recognition system
US6795806B1 (en) * 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command
US6820056B1 (en) 2000-11-21 2004-11-16 International Business Machines Corporation Recognizing non-verbal sound commands in an interactive computer controlled speech word recognition display system
US7024209B1 (en) * 2000-12-20 2006-04-04 Cisco Technology, Inc. Unified messaging system configured for management of short message service-type messages
US7286994B1 (en) 2000-12-26 2007-10-23 At&T Bls Intellectual Property, Inc. System for facilitating technician sales referrals
US7660754B1 (en) 2000-12-26 2010-02-09 At&T Delaware Intellectual Property Inc. Technician communications system with automated claims processing
US7117442B1 (en) * 2001-02-01 2006-10-03 International Business Machines Corporation Efficient presentation of database query results through audio user interfaces
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
US6915258B2 (en) * 2001-04-02 2005-07-05 Thanassis Vasilios Kontonassios Method and apparatus for displaying and manipulating account information using the human voice
US6792408B2 (en) * 2001-06-12 2004-09-14 Dell Products L.P. Interactive command recognition enhancement system and method
US7401144B1 (en) 2001-06-28 2008-07-15 At&T Delaware Intellectual Property, Inc. Technician intranet access via systems interface to legacy systems
US8831949B1 (en) 2001-06-28 2014-09-09 At&T Intellectual Property I, L.P. Voice recognition for performing authentication and completing transactions in a systems interface to legacy systems
US7606712B1 (en) 2001-06-28 2009-10-20 At&T Intellectual Property Ii, L.P. Speech recognition interface for voice actuation of legacy systems
US7219137B1 (en) 2001-06-28 2007-05-15 Bellsouth Intellectual Property Corp Technician wireline and wireless intranet access via systems interface to legacy systems
US7369997B2 (en) * 2001-08-01 2008-05-06 Microsoft Corporation Controlling speech recognition functionality in a computing device
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US6688652B2 (en) * 2001-12-12 2004-02-10 U.S. Pipe And Foundry Company Locking device and method for securing telescoped pipe
US7149702B1 (en) 2001-12-31 2006-12-12 Bellsouth Intellectual Property Corp. System and method for document delays associated with a project
US6882974B2 (en) * 2002-02-15 2005-04-19 Sap Aktiengesellschaft Voice-control for a user interface
US7035091B2 (en) * 2002-02-28 2006-04-25 Accenture Global Services Gmbh Wearable computer system and modes of operating the system
US7257531B2 (en) * 2002-04-19 2007-08-14 Medcom Information Systems, Inc. Speech to text system using controlled vocabulary indices
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US7260529B1 (en) * 2002-06-25 2007-08-21 Lengen Nicholas D Command insertion system and method for voice recognition applications
US20120240045A1 (en) * 2003-08-08 2012-09-20 Bradley Nathaniel T System and method for audio content management
JP4304952B2 (ja) * 2002-10-07 2009-07-29 三菱電機株式会社 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
US7552221B2 (en) 2003-10-15 2009-06-23 Harman Becker Automotive Systems Gmbh System for communicating with a server through a mobile communication device
US20050091064A1 (en) * 2003-10-22 2005-04-28 Weeks Curtis A. Speech recognition module providing real time graphic display capability for a speech recognition engine
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
EP1555652B1 (de) * 2004-01-19 2007-11-14 Harman Becker Automotive Systems GmbH Betätigung eines Sprachdialogsystems
EP1560200B8 (de) * 2004-01-29 2009-08-05 Harman Becker Automotive Systems GmbH Verfahren und System zur Sprachdialogschnittstelle
EP1560199B1 (de) * 2004-01-29 2008-07-09 Harman Becker Automotive Systems GmbH Multimodale Dateneingabe
EP1562180B1 (de) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Sprachdialogsystem und Verfahren zum Steuern eines elektronischen Gerätes
US7624018B2 (en) 2004-03-12 2009-11-24 Microsoft Corporation Speech recognition using categories and speech prefixing
JP2005331882A (ja) * 2004-05-21 2005-12-02 Pioneer Electronic Corp 音声認識装置、音声認識方法、および音声認識プログラム
US20050273337A1 (en) * 2004-06-02 2005-12-08 Adoram Erell Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US8725505B2 (en) * 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US8788271B2 (en) * 2004-12-22 2014-07-22 Sap Aktiengesellschaft Controlling user interfaces with contextual voice commands
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7627096B2 (en) * 2005-01-14 2009-12-01 At&T Intellectual Property I, L.P. System and method for independently recognizing and selecting actions and objects in a speech recognition system
JP4832770B2 (ja) * 2005-02-15 2011-12-07 オリンパス株式会社 医療支援システム
US20060198608A1 (en) * 2005-03-04 2006-09-07 Girardi Frank D Method and apparatus for coaching athletic teams
US7409344B2 (en) * 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
DE102005030967B4 (de) * 2005-06-30 2007-08-09 Daimlerchrysler Ag Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
DE102005030963B4 (de) * 2005-06-30 2007-07-19 Daimlerchrysler Ag Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe
DE102005030965B4 (de) * 2005-06-30 2007-07-19 Daimlerchrysler Ag Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070198271A1 (en) * 2006-02-23 2007-08-23 Dana Abramson Method for training a user of speech recognition software
US8286071B1 (en) * 2006-06-29 2012-10-09 Escription, Inc. Insertion of standard text in transcriptions
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
GB2444539A (en) * 2006-12-07 2008-06-11 Cereproc Ltd Altering text attributes in a text-to-speech converter to change the output speech characteristics
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20090077038A1 (en) * 2007-09-18 2009-03-19 Dolbey And Company Methods and Systems for Verifying the Identity of a Subject of a Dictation Using Text to Speech Conversion and Playback
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US20090271196A1 (en) * 2007-10-24 2009-10-29 Red Shift Company, Llc Classifying portions of a signal representing speech
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20090234655A1 (en) * 2008-03-13 2009-09-17 Jason Kwon Mobile electronic device with active speech recognition
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8417513B2 (en) * 2008-06-06 2013-04-09 Radiant Logic Inc. Representation of objects and relationships in databases, directories, web services, and applications as sentences as a method to represent context in structured data
US9081590B2 (en) * 2008-06-24 2015-07-14 Microsoft Technology Licensing, Llc Multimodal input using scratchpad graphical user interface to edit speech text input with keyboard input
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
GB2473197A (en) 2009-09-02 2011-03-09 Nds Ltd Advert selection using a decision tree
JP5617083B2 (ja) * 2009-09-03 2014-11-05 本田技研工業株式会社 コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット
US20110099507A1 (en) 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
US8903793B2 (en) 2009-12-15 2014-12-02 At&T Intellectual Property I, L.P. System and method for speech-based incremental search
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9009040B2 (en) * 2010-05-05 2015-04-14 Cisco Technology, Inc. Training a transcription system
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9028255B2 (en) 2010-10-06 2015-05-12 Dominic William Massaro Method and system for acquisition of literacy
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5637131B2 (ja) * 2011-12-26 2014-12-10 株式会社デンソー 音声認識装置
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
JP6127371B2 (ja) * 2012-03-28 2017-05-17 ヤマハ株式会社 音声合成装置および音声合成方法
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9224387B1 (en) * 2012-12-04 2015-12-29 Amazon Technologies, Inc. Targeted detection of regions in speech processing data streams
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US8494853B1 (en) * 2013-01-04 2013-07-23 Google Inc. Methods and systems for providing speech recognition systems based on speech recordings logs
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
WO2015025330A1 (en) 2013-08-21 2015-02-26 Kale Aaditya Kishore A system to enable user to interact with an electronic processing device using voice of the user
GB2518002B (en) * 2013-09-10 2017-03-29 Jaguar Land Rover Ltd Vehicle interface system
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10748523B2 (en) 2014-02-28 2020-08-18 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US9401146B2 (en) * 2014-04-01 2016-07-26 Google Inc. Identification of communication-related voice commands
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (de) 2015-04-28 2019-08-28 Google LLC Korrekturspracherkennung mittels selektivem re-speak
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
KR102453603B1 (ko) 2015-11-10 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105869654B (zh) * 2016-03-29 2020-12-04 阿里巴巴集团控股有限公司 音频消息的处理方法及装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10515632B2 (en) 2016-11-15 2019-12-24 At&T Intellectual Property I, L.P. Asynchronous virtual assistant
US11003417B2 (en) * 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR102398649B1 (ko) 2017-03-28 2022-05-17 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11430435B1 (en) 2018-12-13 2022-08-30 Amazon Technologies, Inc. Prompts for user feedback
US11468890B2 (en) * 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11514893B2 (en) * 2020-01-29 2022-11-29 Microsoft Technology Licensing, Llc Voice context-aware content manipulation
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
CN113516969B (zh) * 2021-09-14 2021-12-14 北京远鉴信息技术有限公司 一种拼接语音的鉴别方法、装置、电子设备及存储介质
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4376874A (en) * 1980-12-15 1983-03-15 Sperry Corporation Real time speech compaction/relay with silence detection
JPS58195957A (ja) * 1982-05-11 1983-11-15 Casio Comput Co Ltd 音声によるプログラム実行方式
US4688195A (en) * 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
US4570746A (en) * 1983-06-30 1986-02-18 International Business Machines Corporation Wind/breath screen for a microphone
JPS60158498A (ja) * 1984-01-27 1985-08-19 株式会社リコー パターン照合装置
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4776016A (en) * 1985-11-21 1988-10-04 Position Orientation Systems, Inc. Voice control system
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US4827520A (en) * 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
JP2815579B2 (ja) * 1987-03-10 1998-10-27 富士通株式会社 音声認識における単語候補削減装置
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
US4931950A (en) * 1988-07-25 1990-06-05 Electric Power Research Institute Multimedia interface and method for computer system
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JP2841404B2 (ja) * 1989-01-12 1998-12-24 日本電気株式会社 連続音声認識装置
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
JPH03163623A (ja) * 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
US5036538A (en) * 1989-11-22 1991-07-30 Telephonics Corporation Multi-station voice recognition and processing system
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
DE69330427T2 (de) * 1992-03-06 2002-05-23 Dragon Systems Inc., Newton Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010049869A1 (de) * 2010-10-28 2012-05-03 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu
DE102010049869B4 (de) 2010-10-28 2023-03-16 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu

Also Published As

Publication number Publication date
US6088671A (en) 2000-07-11
DE69634239D1 (de) 2005-03-03
EP0785540B1 (de) 2005-01-26
EP0785540A3 (de) 1998-08-05
US5799279A (en) 1998-08-25
EP0785540A2 (de) 1997-07-23

Similar Documents

Publication Publication Date Title
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE68928097T2 (de) Spracherkennungssystem
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE60201262T2 (de) Hierarchische sprachmodelle
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE69330427T2 (de) Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
DE69725091T2 (de) Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
DE69817844T2 (de) Verfahren und vorrichtung zur spracherkennungscomputereingabe
DE60318544T2 (de) Sprachmodell für die Spracherkennung
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69721938T2 (de) Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE60012655T2 (de) Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen
DE60033106T2 (de) Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung
DE69811921T2 (de) Vorrichtung und verfahren zur unterscheidung von ähnlich klingenden wörtern in der spracherkennung
DE60010827T2 (de) Hintergrundsystem für Audiodatenbeseitigung
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition