DE69634239T2 - Erkennung kontinuierlich gesprochener Texte und Befehle - Google Patents
Erkennung kontinuierlich gesprochener Texte und Befehle Download PDFInfo
- Publication number
- DE69634239T2 DE69634239T2 DE69634239T DE69634239T DE69634239T2 DE 69634239 T2 DE69634239 T2 DE 69634239T2 DE 69634239 T DE69634239 T DE 69634239T DE 69634239 T DE69634239 T DE 69634239T DE 69634239 T2 DE69634239 T2 DE 69634239T2
- Authority
- DE
- Germany
- Prior art keywords
- command
- text
- language
- elements
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 230000036961 partial effect Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 3
- 240000002853 Nelumbo nucifera Species 0.000 description 3
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000549343 Myadestes Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Input From Keyboards Or The Like (AREA)
- Document Processing Apparatus (AREA)
Description
- Diese Erfindung betrifft kontinuierliche Spracherkennung.
- Viele Spracherkennungssysteme erkennen gesprochenen Text in einer Betriebsart und gesprochene Befehle in einer anderen Betriebsart. In einem Beispiel erfordert die Diktatbetriebsart diskrete Sprache, während die Befehlsbetriebsart durch kontinuierliche/diskrete Sprache bedient werden kann. In einer Diktatbetriebsart wird die diskrete Sprache eines Benutzers als z.B. englische Worte erkannt, und die erkannten Worte werden dem Benutzer angezeigt. Der Benutzer kann irgendein Wort diktieren, das sich in einem Wörterverzeichnis befindet, das im System gehalten wird, ohne irgendeiner besonderen Struktur folgen zu müssen. Dies wird als diskrete Sprache mit „freiem Kontext" bezeichnet. In der Befehlsbetriebsart erkennt das System entweder kontinuierliche oder diskrete Sprache und führt die Befehle aus. Wenn der Benutzer zum Beispiel „underline last three words" sagt, erkennt das System den Befehl und unterstreicht dann die letzten drei Worte, die der Benutzer in der Diktatbetriebsart gesprochen hat. Der Benutzer spricht Befehle als strukturierte Sprache gemäß einer besonderen Struktur oder Schablone. Zum Beispiel kann der Benutzer „underline last three words" sagen, aber nicht „underline the last three words" oder „please underline the last three words". Der Benutzer schaltet zwischen der Befehlsbetriebsart und Diktatbetriebsart um, indem er „Command Mode" sagt, auf ein Piktogramm doppelklickt, das die Betriebsart repräsentiert, in die der Benutzer umschalten will, oder einen Betriebsartumschaltungsbefehl tippt.
-
US 5,231,670 beschreibt ein Spracherkennungssystem, in dem jedes Sprachelement in ein Diktatereignis und ein Textereignis unterteilt wird. Es wird eine Datenstruktur zur Speicherung einer Information bereitgestellt, die jedes Ereignis betrifft. Dieser ermöglicht es dem System, Diktatereignisse leicht voneinander und Textereignisse voneinander zu unterscheiden. - Gemäß einem ersten Aspekt der vorliegenden Erfindung weist ein Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache auf:
Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen;
Erkennung der Sprachelemente;
Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden:
Pausen vor und nach, oder nur vor dem Sprachelement, und
Sprachmodellinformationen; und
Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob die Sprachelemente Textelemente oder Befehlselemente repräsentieren. - Gemäß einem zweiten Aspekt der vorliegenden Erfindung weist ein Medium, das Software zur Verwendung füe die Spracherkennung enthält, auf:
Instruktionen zur Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen;
Instruktionen zur Erkennung der Sprachelemente;
Instruktionen zur Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vor dem Sprachelement,
einer Sprachmodellinformation; und
Instruktionen zur Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob sie Textelemente oder Befehlselemente repräsentieren. - Im allgemeinen zeichnet sich die Erfindung in einem Aspekt durch ein Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache aus.
- Es werden Signale angenommen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen. Die erkannten Elemente werden in einer Weise behandelt, die davon abhängt, ob sie Text oder Befehle repräsentieren.
- Implementierungen der Erfindung können eines oder mehreres des folgenden einschließen. Der Text kann behandelt werden, indem es einer Textverarbeitungsanwendung zur Verfügung gestellt wird. Die Befehle können behandelt werden, indem eine Anwendung veranlaßt wird, einen Schritt auszuführen. Die Erkennung kann auf natürlichen Eigenschaften gesprochenen Textes gegenüber gesprochenen Befehlen beruhen. Die Erkennung kann eine Bewertung der Wahrscheinlichkeit einschließen, daß ein gegebenes Element entweder ein Befehlselement oder ein Textelement ist. Die Erkennung kann zugunsten eines gegebenen Elements beeinflußt werden, das ein Text oder ein Befehl ist. Die Beeinflussung kann eine Bestimmung einschließen, ob ein gegebenes der Elemente eine Befehlsrückweisung widerspiegelt oder einer Befehlsschablone entspricht; oder das Vergleichen von Erkennungsbewertungen des gegebenen Elements als Befehl oder als Text; oder eine Bestimmung der Länge des Schweigens zwischen aufeinanderfolgenden der Elemente oder ob die Aktionen des Benutzers darauf schließen lassen, daß ein gegebenes der Elemente kein Text sein kann.
- Die Erkennung kann parallel einschließen: Erkennung der Elemente, als ob sie Textelemente wären, und Erkennung der Elemente, als ob sie Befehlselemente wären. Die Erkennung von Elementen, als ob sie Text (oder Befehle) wären, kann auf die Bestimmung hin, daß das Element ein Befehlselement (oder ein Textelement) ist, zeitweilig gestoppt werden. Die Ergebnisse der Erkennung können einem Benutzer angezeigt werden. Die Ergebnisse können Teilergebnisse sein. Dem Benutzer kann es ermöglicht werden, eine erneute Erkennung zu veranlassen, wenn das Element falsch als Text oder als Befehl erkannt wird. Der Benutzer kann eine erneute Erkennung veranlassen, wenn ein Befehlselement als Textelement erkannt wird, und als Reaktion auf die erneute Erkennung kann eine Textverarbeitungsanwendung die Aufnahme des Textelements in den Text rückgängig machen, der bearbeitet wird. Vor der Behandlung eines erkannten Befehlselements können einem Benutzer Informationen angezeigt werden, die mit dem Befehlselement verbunden sind; eine Anweisung kann vom Benutzer angenommen werden, vorhergehende oder nachfolgende Sprachelemente entweder als Textelemente oder Befehlselemente zu betrachten, aber nicht als beides.
- Die Vorteile der Erfindung können eines oder mehreres des folgenden aufweisen. Die Erkennung gesprochener Befehle innerhalb des diktierten Textes gestattet es Benutzern, mit Unterbrechungen Befehle auszuführen, die den Text beeinflussen (z.B. Unterstreichen oder Fettdruck besonderer Worte) ohne daß es erforderlich ist, daß der Benutzer zwischen getrennten Befehls- und Diktatbetriebsarten umschaltet. Außerdem wird die Verwirrung des Benutzers reduziert, da es nicht erforderlich ist, daß der Benutzer sich erinnert, in welcher Betriebsart sich das System befindet.
- Andere Vorteile und Merkmale werden aus der folgenden Beschreibung und aus den Ansprüchen deutlich.
-
1 ist ein Blockdiagramm eines Spracherkennungssystems. -
2 ist ein Blockdiagramm einer Spracherkennungssoftware und Anwendungssoftware. -
3 ist ein Blockdiagramm einer Spracherkennungssoftware und von Wörterverzeichnissen, die im Speicher gespeichert sind. -
4 ist ein Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text. -
5 ist eine Computerbildschirmanzeige von Wortverarbeitungsbefehlen. -
6 ist eine Computerbildschirmanzeige von Beispielen von Wortverarbeitungsbefehlen. -
7 ist ein Blockdiagramm von Wortverarbeitungsbefehlen. -
8a ,8b ,9a und9b sind Computerbildschirmanzeigen von Teilergebnissen und Befehlsausführungsergebnissen. -
10 ist ein weiterer Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text. -
11 ist ein Blockdiagramm einer Spracherkennungssoftware und Wörterverzeichnissen, die im Speicher gespeichert sind. -
12 ist ein Ablaufplan einer strukturierten, kontinuierlichen Befehlsspracherkennung. -
13 ist ein Blockdiagramm von Tabellenkalkulationsbefehlen. -
14 ist ein weiterer Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text. -
15a –15d sind Computerbildschirmanzeigen, die den Prozeß der Korrektur eines falsch erkannten Befehls darstellen. - Das System erkennt sowohl kontinuierlich gesprochene Befehle als auch kontinuierlich diktierten Text, indem es Eigenschaften ausnutzt, die der natürlichen Sprache der meisten Benutzer gemeinsam sind. Zum Beispiel pausieren Benutzer typischerweise (z.B. 0,5 s) vor und nach dem Aussprechen eines Befehls. Entsprechend beginnen Benutzer anschließend an eine Pause Befehle, indem sie Aktionsbefehlsworte (z.B. underline, bold, delete) aussprechen und beginnen diktierten Text, indem sie Substantive aussprechen. Um diese und andere Eigenschaften auszunutzen, erwartet das System, daß der Benutzer vor und nach dem Sprechen eines Befehls pausiert, und einer besonderen Struktur oder Schablone folgt, wenn er einen Befehl ausspricht (z.B. alle Befehle beginnen mit Aktionsbefehlsworten). Diese Anforderung verbessert die Genauigkeit, mit der das System zwischen diktiertem Text und Befehlen unterscheidet.
- Bezugnehmend auf
1 , weist ein typisches Spracherkennungssystem10 ein Mikrofon12 zur Umwandlung der Sprache eines Benutzers in ein analoges Datensignal14 und eine Tonkarte16 auf. Die Tonkarte weist einen digitalen Signalprozessor (DSP)19 und einen Analog-Digital-(A/D)-Wandler17 auf, zur Umwandlung des analogen Datensignals in ein digitales Datensignal18 durch Abtastung des analogen Datensignals mit etwa 11 khz, um 220 digitale Abtastwerte während einer Zeitspanne von 20 ms zu erzeugen. Jede Zeitspanne von 20 ms entspricht einem getrennten Sprachrahmen. Der DSP verarbeitet die Abtastwerte entsprechend jedem Sprachrahmen, um während der Zeitspanne von 20 ms eine Gruppe von Parametern zu erzeugen, die mit dem analogen Datensignal verbunden ist. Im allgemeinen repräsentieren die Parameter die Amplitude der Sprache in jedem eines Satzes von Frequenzbändern. - Der DSP überwacht auch die Lautstärke der Sprachrahmen, um Benutzeräußerungen zu detektieren. Wenn die Lautstärke von drei aufeinanderfolgenden Sprachrahmen innerhalb eines Fensters von fünf aufeinanderfolgenden Sprachrahmen eine vorbestimmte Sprachschwelle überschreitet, zum Beispiel 20 dB, dann stellt der DSP fest, daß das analoge Signal Sprache repräsentiert, und der DSP beginnt, einen Stapel von z.B. drei Sprachrahmen von Daten aufeinmal über ein digitales Datensignal
23 an eine Zentraleinheit (CPU)20 zu senden. Der DSP macht ein Äußerungssignal (Utt)22 gültig, um der CPU jedesmal mitzuteilen, daß ein Stapel von Sprachrahmen, die eine Äußerung repräsentieren, über das digitale Datensignal gesendet wird. - Wenn ein Unterbrechungs-Behandler
24 an der CPU Geltendmachungen des Utt-Signals22 empfängt, wird die normale Ausführungsabfolge der CPU unterbrochen. Das Unterbrechungssignal26 bewirkt, daß die Betriebssystemsoftware28 eine Speicherroutine29 aufruft. Die Speicherroutine29 speichert den ankommenden Stapel von Sprachrahmen in einem Puffer30 . Wenn fünfzehn aufeinanderfolgende Sprachrahmen innerhalb eines Fensters von neunzehn aufeinanderfolgenden Sprachrahmen unter eine vorbestimmte Schweigeschwelle fallen, z.B. 6 dB, dann stoppt die DSP die Sendung von Sprachrahmen an die CPU und macht ein End_Utt-Signal21 gültig. Das End_Utt-Signal veranlaßt die Speicherroutine, die Stapel zuvor gespeicherter Sprachrahmen in einem Sprachpaket39 zu erkennen, das der Benutzeräußerung entspricht. - Das Unterbrechungssignal
26 bewirkt auch, daß die Betriebssystemsoftware eine Überwachungssoftware32 aufruft. Die Überwachungssoftware32 hält einen Zählwert34 der Anzahl der Sprachpakete, die gespeichert, jedoch noch nicht verarbeitet worden sind. Eine Anwendung36 , zum Beispiel ein Wortprozessor, der durch die CPU periodisch ausgeführt wird, prüft auf eine Benutzereingabe hin, indem er den Zählwert der Überwachungssoftware untersucht. Wenn der Zählwert null ist, dann gibt es keine Benutzereingabe. Wenn der Zählwert nicht null ist, dann ruft die Anwendung eine Spracherkennungssoftware38 auf, und übergibt einen Zeiger37 auf die Speicheradresse des Sprachpakets im Puffer30 . Der Spracherkenner kann direkt durch die Anwendung aufgerufen werden oder kann im Auftrag der Anwendung durch ein getrenntes Programm, wie DragonDictateTM von Dragon Systems of West Newton, Massachusetts, als Reaktion auf die Anforderung der Anwendung einer Eingabe von einer Maus oder Tastatur aufgerufen werden. - Für eine detailliertere Beschreibung, wie Benutzeräußerungen in einem Spracherkennungssystem empfangen und gespeichert werden, siehe das US-Patent Nr. 5,027,406 mit dem Titel „Method for Interactive Speech Recognition and Training".
- Bezugnehmend auf
2 , veranlaßt die Spracherkennungssoftware38 , um festzustellen, welche Worte gesprochen worden sind, die CPU, Sprachrahmen innerhalb des Sprachpakets39 aus dem Puffer30 abzurufen und die Sprachrahmen mit Sprachmodellen zu vergleichen, die in einem oder mehreren Wörterverzeichnissen40 gespeichert sind. Für eine detailliertere Beschreibung kontinuierlicher Spracherkennung, siehe das US-Patent Nr. 5,202,952, mit dem Titel „Large-Vocabulary Continuous Speech Prefiltering and Processing System". - Die Erkennungssoftware verwendet eine gemeinsame Skriptspracheninterpreiersoftware, um mit der Anwendung
36 zu kommunizieren, die die Erkennungssoftware aufrief. Die gemeinsame Skriptspracheninterpretersoftware ermöglicht es dem Benutzer, direkt in die Anwendung diktieren, entweder durch Emulation der Computertastatur und Umwandlung der Erkennungsergebnisse in anwendungsabhängige Tastenanschläge oder durch Senden anwendungsabhängiger Befehle direkt an die Anwendung unter Verwendung der Anwendungskommunikationseinrichtung des Systems (z.B. verwendet Microsoft WindowsTM Dynamic Data ExchangeTM). Die erwünschten Anwendungen umfassen zum Beispiel Textverarbeitungsprogramme44 (z.B. Word Perfect oder Microsoft WordTM), Tabellenkalkulationen46 (z.B. Lotus 1-2-3TM oder ExcelTM) und Spiele48 (z.B. SolitaireTM). - Als eine Alternative zum direkten Diktieren in eine Anwendung diktiert der Benutzer Text in ein Spracherkennerfenster, und nach dem Diktieren eines Dokuments übeträgt der Benutzer das Dokument (manuell oder automatisch) in die Anwendung.
- Wenn eine Anwendung zum erstenmal die Spracherkennungssoftware aufruft, wird sie, bezugnehmend auf
3 , von einem Plattenlaufwerk in den lokalen Speicher42 des Computers geladen. Ein oder mehrere Wörterverzeichnisse, zum Beispiel das gemeinsame Wörterverzeichnis48 und das Wörterverzeichnis50 aus Microsoft OfficeTM werden ebenfalls von einem entfernten Speicher in den Speicher42 geladen. Die Wörterverzeichnisse48 ,52 , und54 umfassen alle Worte48b ,50b und54b (Text und Befehle), und die entsprechenden Sprachmodelle48a ,50a und54a , die ein Benutzer sprechen kann. - Das Ausbreiten der Sprachmodelle und Warte über unterschiedliche Wörterverzeichnisse läßt es zu, daß die Sprachmodelle und Worte in lieferantenabhängige (z.B. MicrosoftTM und NovellTM) Wörterverzeichnisse gruppiert werden, die nur in den Speicher geladen werden, wenn eine Anwendung, die einem besonderen Lieferant entspricht, zum erstenmal nach dem Einschalten ausgeführt wird. Zum Beispiel repräsentieren viele der Sprachmodelle und Worte im Wörterverzeichnis
54 von Novell PerfectOfficeTM Worte, die nur ausgesprochen werden, wenn ein Benutzer eine Novell PerfectOfficeTM-Anwendung ausführt, z.B. WordPerfect. Als Ergebnis werden diese Sprachmodelle und Worte nur benötigt, wenn der Benutzer eine NovellTM-Anwendung ausführt. Um die Verschwendung von wertvollen Speicherplatz zu vermeiden, wird das Novell PerfectOfficeTM-Wörterverzeichnis54 nur in den Speicher geladen, falls benötigt (d.h. wenn der Benutzer eine NovellTM-Anwendung ausführt). - Alternativ können die Sprachmodelle und Worte in anwendungsabhängige Wörterverzeichnisse geladen werden. Zum Beispiel können getrennte Wörterverzeichnisse für Microsoft WordTM, Microsoft ExcelTM und Novell WordPerfectTM vorhanden sein. Als eine andere Alternative wird nur ein einziges Wörterverzeichnis, das alle Worte und entsprechende Sprachmodelle umfaßt, die ein Benutzer sprechen kann, in den lokalen Speicher geladen und durch die Spracherkennungssoftware verwendet, um die Sprache eines Benutzers zu erkennen.
- Bezugnehmend auf
4 , ruft eine Anwendung, sobald die Wörterverzeichnisse im lokalen Speicher gespeichert sind, die Erkennungssoftware auf, und in einem Verfahren vergleicht die CPU Sprachrahmen, die die Sprache des Benutzers repräsentieren, mit Sprachmodellen in den Wörterverzeichnissen, um die Sprache des Benutzers zu erkennen (Schnitt60 ). Die CPU stellt dann fest (Schritte62 und64 ), ob die Ergebnisse einen Befehl oder Text darstellen. Befehle umfassen einzelne Worte und Ausdrücke und Sätze, die durch Schablonen (d.h. Einschränkungsregeln) definiert sind. Die Schablonen definieren die Worte, die in Befehlssätzen gesagt werden können, und die Reihenfolge, in der die Worte gesprochen werden. Die CPU vergleicht (Schritt62 ) die Erkennungsergebnisse mit den möglichen Befehlsworten und Ausdrücken und mit Befehlsschablonen, und wenn die Ergebnisse zu einem Befehlswort oder Ausdruck oder einer Befehlsschablone passen (Schritt64 ), dann sendet die CPU (Schritt65a ) der Anwendung, die die Spracherkennungssoftware aufgerufen hat, Tastenanschläge oder eine Skriptsprache, die die Anwendung veranlassen, den Befehl auszuführen, und wenn die Ergebnisse nicht zu einem Befehlswort oder Ausdruck oder eine Befehlsschablone passen, sendet die CPU (Schritt65b ) der Anwendung Tastenanschläge oder Skriptsprache, die die Anwendung veranlassen, die Ergebnisse als Text zu tippen. - Bezugnehmend auf
5 , kann der Benutzer, während er einen Text diktiert, den Computer durch einen Tastenanschlag, eine Mausauswahl oder eine Äußerung (z.B. indem er den Ausdruck „What can I say"68 in das Mikrofon spricht) veranlassen, einen Befehlsbrowser66 anzuzeigen. Der Befehlsbrowser zeigt mögliche Befehle für die Anwendung an, die ausgeführt wird. Zum Beispiel weist eine Textverarbeitungsanwendung einzelne Befehlsworte auf, z.B. [Bold]70 und [Center]72 , Befehlsausdrücke, z.B. [Close Document)74 und [Cut This Paragraph]76 , und flexible Satzbefehle, z.B. [<Action> <2 to 20> <Text Objects>]78 und [Move <Direction> <2 to 20> <Text Objects>)80 . Außerdem auf6 bezugnehmend, kann der Benutzer einen Befehl auswählen, der im Befehlsbrowser gezeigt wird, um Beispiele82 des ausgewählten Befehls80 anzuzeigen. - Bezugnehmend auf
7 , werden die Befehlssätze, z.B.78 ,80 ,84 , und88 , gemäß einer Schablone und ohne lange, z.B. länger als 0,5 Sekunden, Pausen zwischen den Worten des Satzes gesprochen. (Die Länge der Pause kann eingestellt werden, um einen besonderen Sprachfehler des Benutzers auszugleichen.) Zum Beispiel erfordert es der Befehl80 , daß der Benutzer das feste Wort „Move"88 gefolgt durch eine Anweisungsvariable90 ausspricht (d.h. <Direction>: „Up", „Down", „Left", „Right", „Back" oder „Forward"), eine Zahlenvariable92 (d.h. <2 to 20>: „2", „3", „4" ... oder „20"), und optional (gestrichelte Linie94 ) eine Mehrfachtextobjektvariable96 (d.h. <Text Objects>: „Character", „Words", „Lines", „Sentences" oder „Paragraphs"). Wenn sich der Benutzer um zwei Zeilen im vorher diktierten Text nach oben bewegen will, sagt der Benutzer „Move Up 2 Lines". Der Benutzer kann nicht „Move up 2", „Please Move Up 2 Lines", oder „Muve up last 2 Lines" sagen, da diese Sprache nicht der Schablone für den Bewegungsbefehl80 folgt. - Erneut auf
3 bezugnehmend, weisen die Wörterverzeichnisse zusätzlich dazu, daß sie Worte (und Ausdrücke) und entsprechende Sprachmodelle aufweisen, anwendungsabhängige (z.B. Microsoft WordTM100 und Microsoft ExcelTM102 ) Befehlssätze48c ,50c und54c , die dem Benutzer zur Verfügung stehen, und anwendungabhängige Gruppen48d ,50d und54d auf, auf die durch Sätze gezeigt wird und die auf Gruppen von variablen Worten in den Befehlsschablonen zeigen. - Außer daß sie auf Gruppen variabler Worte zeigen, definieren die Gruppen die anwendungabhängigen Tastenanschläge (oder Skriptsprache) für jedes Wort, das gesprochen werden kann. Wenn der Benutzer zum Beispiel einen Befehlssatz ausspricht, der mit „Capitalize" beginnt, während er Microsoft WordTM ausführt, zeigt die Aktionsgruppe auf das Wort „Capitalize" und liefert die folgenden Tastenanschläge:
{Alt+O}et{Enter}. - Wenn er Novell WordPerfectTM ausführt, zeigt die Aktionsgruppe ebenfalls auf das Wort „Capitalize", liefert jedoch die folgenden Tastenanschläge:
{Alt+e}vi{RightO}. - Jeder Befehlssatz in den geladenen Wörferverzeichnissen
48 ,50 , und54 weist Zeiger auf verschiedene Komponenten des Satzes auf. Zum Beispiel weist der Befehlssatz102 einen Zeiger auf das feste Wort Bewege (und sein entsprechendes Sprachmodell) und Zeiger auf die Gruppen, z.B. <Direction>120 , <2 to 20>122 und <Text objects>124 auf. Die Gruppen weisen Zeiger auf die Worte in den Gruppen (und die entsprechenden Sprachmodelle) auf, z.B. Anweisungsworte126 , Zahlen128 und Textobjektworte130 . - Der Zeiger läßt es zu, daß sich Komponenten jedes Satzes über mehrere gespeicherte Wörterverzeichnisse ausbreiten und durch die Sätze unterschiedlicher Wörterverzeichnisse genutzt werden. Zum Beispiel ist der Befehlssatz
136 ([Print Pages <Number/1 to 99> bis <Number/1 to 99>)5 ) sowohl im (nicht gezeigten) Microsoft OfficeTM-Wörterverzeichnis50 und im (nicht gezeigten) Novell PerfectOfficeTM-Wörterverzeichnis54 gespeichert, während die Sprachmodelle und Worte (d.h. Zahlen 1 bis 99) im Zahlwörterverzeichnis138 gespeichert sind. Um eine „Quer-Wörterverzeichniserkennung" zuzulassen, bezeichnen die Zeiger in den Wörterverzeichnissen48 ,50 , und54 das Wörterverzeichnis dem Namen nach, in dem die Worte gefunden werden können. Zum Beispiel können die variablen Worte 1, 2, 3,... 99 im Zahlenwörterverzeichnis gefunden werden (z.B. <Number/1 to 99>). Sobald die Wörterverzeichnisse in den lokalen Speicher kopiert sind, werden die Namensverweise aufgelöst und durch die tatsächlichen Speicheradressen der Worte im lokalen Speicher ersetzt. - Durch die Quer-Wörterverzeichniserkennung kann ein Wort zu einer variablen Gruppe von Worten (z.B. <1 to 99>) in nur einem Wörterverzeichnis anstelle zu jedem Wörterverzeichnis hinzugefügt werden, das die Gruppe enthält. Zusätzlich wird die variable Gruppe von Worten nicht über mehrere Wörterverzeichnisse wiederholt, Während die Sprache eines Benutzers erkannt wird, sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, Teilergebnisse (d.h. erkannte Worte innerhalb einer Äußerung, bevor die gesamte Äußerung betrachtet worden ist) innerhalb des Dokuments anzuzeigen, das auf dem Anzeigeschirm (oder in einem Statusfenster auf dem Anzeigeschirm) angezeigt wird. Wenn die CPU feststellt, daß die die Sprache des Benutzers Text ist und die Teilergebnisse zu den Endergebnissen passen, dann ist die CPU fertig. Wenn jedoch die CPU feststellt, daß die Sprache des Benutzers Text ist, aber daß die Teilergebnisse nicht zu den Endergebnissen passen, dann sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um den angezeigten Text zu korrigieren. Wenn die CPU entsprechend feststellt, daß die Sprache des Benutzers ein Befehl war, dann sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, die Teilergebnisse vom Bildschirm zu löschen und den Befehl auszuführen.
- Zum Beispiel ist die Anwendung, die durch das System ausgeführt wird, ein Terminplaner (
8a ,8b ,9a , und9b ). Nachdem das System Teilergebnisse302 „schedule this meeting in room507 " (8a ) anzeigt, stellt das System fest, daß die Äußerung ein Befehl war und entfernt den Text vom Anzeigeschirm (8b ) und führt den Befehl aus, indem es das Treffen im Raum507 plant304 . Entsprechend stellt das System fest, nachdem das System Teilergebnisse304 anzeigt „underline last three words" (9a ), daß die Äußerung ein Befehl war und entfernt den Text vom Anzeigeschirm (9b ) und führt den Befehl durch Unterstreichen306 der letzten drei Worte aus. - Die Teilergebnisse gestatten es dem Benutzer, zu erkennen, wie die Erkennung vor sich geht. Wenn die Spracherkennung nicht genau ist, kann der Benutzer das Sprechen stoppen und fortfahren, indem er langsamer oder klarer spricht, oder der Benutzer oder ein Techniker können die Teilergebnisinformation nutzen, um Spracherkennungssystemfehler zu diagnostizieren.
- Eine Schwierigkeit bei der Erkennung sowohl von Befehlen als auch Text gegen den selben Satz von Wörterverzeichnissen (d.h. einem oder mehreren) ist es, daß eine Sprachmodellinformation in den Wörterverzeichnissen die CPU veranlassen kann, einen gesprochenen Befehl eines Benutzers eher als Text als einen Befehl zu erkennen. Typischerweise umfassen die Sprachmodelle für diktierte Worte eine Sprachmodellinformation über die Art, in der ein Benutzer eine gegebene Sprache natürlich spricht. Zum Beispiel folgt dem Wort „bold" im allgemeinen ein Substantiv, z.B. „That was a bold presentation". Andererseits sind Befehlssätze absichtlich gestelzt oder unnatürlich (z.B. sie beginnen mit Aktionsbefehlsworten anstelle von Substantiven), um sie von Text zu unterscheiden und die Spracherkennungsgenauigkeit zu verbessern. Zum Beispiel folgt dem Befehl „bold" im allgemeinen eine Anweisung (z.B. next, last), eine Zahl (z.B. 2, 3, 4) oder ein Textobjekt (z.B. Character, Paragraph), z.B. „Bold last Paragraph." Wenn die Sprache eines Benutzers gegenüber demselben Satz von Wörterverzeichnissen als Befehle und Text erkannt wird, neigt jede Sprachmodellinformation in den Wörterverzeichnissen dazu, das System zu veranlassen, die Erkennung von Text gegenüber Befehlen zu bevorzugen.
- Bezugnehmend auf die
10 und11 , ist es eine Alternative, zwei serielle Erkennungen durchzuführen. Die CPU beginnt mit der Erkennung (Schritt140 ,10 ) der Sprache des Benutzers, wobei sie ein oder mehrere diktierte Wörterverzeichnisse150 (11 ) verwendet, die Worte (und entsprechende Sprachmodelle) enthalten, die ein Benutzer sagen kann, während er Text diktiert. Dieses Wörterverzeichnis enthält eine Sprachmodellinformation, jedoch keine Befehlssätze. Die CPU erkennt dann (Schritt142 ) die Sprache des Benutzers, wobei sie ein oder mehrere Befehlswörterverzeichnisse152 verwendet, die nur Befehlsworte, Ausdrücke und Sätze (und entsprechende Sprachmodelle und Gruppen) enthalten. Jede Erkennung (Schritte140 und142 ) weist jeder Erkennung beruhend darauf eine Bewertung zu, wie gut die die Sprache des Benutzers mit den Sprachmodellen zusammenpaßt, die dem erkannten Wort oder Worten entsprechen. Die Bewertungen beider Erkennungen werden dann verglichen, und die CPU stellt fest (Schritt144 ), ob die Sprache des Benutzers ein Befehl oder Text war. - Zur Befehlserkennung vergleicht die CPU die Anfangssprachrahmen nur mit einer ersten Gruppe möglicher Sprachmodelle, die die ersten Worte von Befehlen repräsentieren, und vergleicht die Anfangssprachrahmen nicht mit jedem Sprachmodell in den Befehlswörterverzeichnissen. Als Beispiel werden die Anfangssprachrahmen nicht mit den Anweisungsvariablen „Up", „Down", „Left", „Right", „Back" und „Forward" verglichen. Eine Begrenzung der Zahl der Sprachmodelle, mit denen die Sprachrahmen verglichen werden, reduziert die Zeit für den Vergleich und erhöht die Genauigkeit der Befehlserkennung.
- Außerdem auf
12 bezugnehmend, beginnt die Erkennermaschine zur kontinuierlichen Spracherkennung im Zustand 1 und wartet 60, bis der Benutzer zu sprechen beginnt. Wenn der Benutzer zu sprechen beginnt, erkennt die CPU den Anfang des ersten Wortes des Benutzers und filtert die erste Gruppe von Sprachmodellen nach jenen Sprachmodellen vor, die ähnliche Tonanfänge aufweisen, z.B. „Select", „Center", „Single Space", „Set Font", „Set Size". Die vorgefilterten Sprachmodelle stellen eine mögliche Befehlssatzliste von zum Beispiel zwanzig möglichen Befehlssätzen bereit, die der Benutzer sprechen kann. - Der Erkenner fährt fort, indem er die aufeinanderfolgenden Sprachrahmen mit den vorgefilterten Sprachmodellen vergleicht, jedoch nicht mit anderen Sprachmodellen (z.B. „Bold"). Die mögliche Befehlsliste wird in der Reihenfolge der höchsten zur niedrigsten Wahrscheinlichkeit geordnet, wobei der Befehl, der das Sprachmodell aufweist, das mit den Sprachrahmen am nächsten zusammenpaßt, die höchste Wahrscheinlichkeit (bester Kandidat) aufweist. Wenn die CPU fortfährt, aufeinanderfolgende Sprachrahmen mit den vorgefilterten Sprachmodellen zu vergleichen, ordnet die CPU aktiv die Befehlsliste neu an, wenn sich die Wahrscheinlichkeiten ändern.
- Wenn die CPU feststellt, daß die Sprachrahmen im wesentlichen mit den Sprachmodellen für eines oder mehrere erste Worte in einem oder mehreren Befehlen zusammenpassen, verwendet die CPU den Zeiger in jedem Befehl auf die nächste Befehlskomponente (d.h. zweites Wort), um zu beginnen, die aufeinanderfolgenden Sprachrahmen mit Gruppen von Sprachmodellen zu vergleichen, die mögliche zweite Worte repräsentieren. Wenn zum Beispiel die Spracherkennungsmaschine das Wort Copy
202 als eines der zwanzig möglichen ersten gesprochenen Worte erkennt, dann verwendet die Spracherkennermaschine die Verweise in den <Action>-Befehlssätzen78 (7 ), um damit zu beginnen (Zustand 2), die aufeinanderfolgenden Sprachrahmen mit den Sprachmodellen zu vergleichen, die die Worte in der <Next or Previous>-Gruppe204 repräsentieren, einschließlich „Previous", „Last", „Back", „Next" und „Forward", das feste Wort „Selction"206 , die <2 to 20>-Gruppe208 , und die <Text Objects>-Gruppe210 . Der Spracherkenner kann auch den Anfang des zweiten Wortes identifizieren, um die Sprachmodelle vorzufiltern, die mögliche zweite Befehlssatzworte repräsentieren. - Da einige Worte länger brauchen ausgesprochen zu werden als andere, fährt die Spracherkennungsmaschine gleichzeitig fort, die aufeinanderfolgenden Sprachrahmen mit längeren vorgefilterten Sprachmodellen zu vergleichen. Wenn folglich der Spracherkenner die aufeinanderfolgenden Sprachrahmen mit Gruppen von Sprachmodellen vergleicht (Zustand
2 ), die mögliche zweite Worte in den Befehlssätzen repräsentieren, die mit dem Wort „Copy" beginnen, fährt der Spracherkenner fort, die aufeinanderfolgenden Sprachmodelle mit längeren Sprachmodellen zu vergleichen, die die Worte „Capitalize"212 und „Quote"214 repräsentieren. Der fortgesetzte Vergleich kann die CPU veranlassen, eine dieser Möglichkeiten als eine höhere Wahrscheinlichkeit als „Copy"202 aufzulisten, dem ein zweites Befehlssatzwort folgt. - Die Befehlssätze sind in ihrer Grammatik ähnlich und in ihrer Zahl begrenzt, um das Ausmaß der Verwirrung des Benutzers zu reduzieren und es dem Benutzer zu gestatten, sich leicht an die möglichen Befehle zu erinnern. Die Variablen (z.B. <Action>, <Style>, <Next or Prev>) in den Befehlssätzen versehen den Benutzer mit einer breiten Vielfalt von Befehlen, ohne eine große Zahl einzelner Befehlssätze einzuführen.
- Zusätzliche Befehlssätze können für andere Arten von Anwendungen bereitgestellt werden. Zum Beispiel zeigt
13 mögliche Befehlssätze für Tabellenkalkulationsanwendungen (z.B. Lotus 1-2-3TM und ExcelTM). Die Befehlssatzschablonen sind über Tabellenkalkulationsanwendungen allgemein. Jedoch sind Tastenanschläge von der Befehlserkennersoftware zur Anwendung anwendungabhängig (d.h. die Tastenanschläge, die für Lotus 1-2-3TM erforderlich sind, können sich von den Tastenanschlägen unterscheiden, die von ExcelTM benötigt werden). - Die CPU bevorzugt diktierten Text gegenüber ähnlich bewerteten Befehlen, da es für den Benutzer leichter ist, falsch erkannte Befehle zu löschen, die in ein Dokument getippt werden, als es für einen Benutzer ist, Text rückgängig zu machen, der falsch erkannt und als Befehl ausgeführt wird. Wenn zum Beispiel der Benutzer „belated fall flies" diktiert, und das System den Text „belated fall flies" und den Befehl „delete all files" erkennt, ist es für den Benutzer einfacher, den getippten Befehl „delete all files" zu löschen, als es für den Benutzer ist, alle gelöschten Dateien wieder herzustellen.
- Bei der Bevorzugung von Text stellt das System zuerst fest, ob es eine Befehlsrückweisung gab. Befehlsrückweisungen umfassen Geräusche, die durch das Systemmikrofon aufgenommen werden. Die Sprachrahmen können dann als Geräusche identifiziert werden, wenn sie mit Sprachmodellen zusammenpassen, die Hintergrundgeräuschen, Telefonklingeln oder anderen üblichen Geräuschen entsprechen, oder die Benutzeräußerung kann als eine Befehlsrückweisung betrachtet werden, wenn die Befehlserkennungsbewertungen unter einer empirisch eingestellten Schwelle liegen. Dem Benutzer kann die Fähigkeit gegeben werden, die Schwelle zu verändern, um den Benutzer mit einer gewissen Kontrolle über die Präzision gesprochener Befehle zu versehen. Andere Befehlsrückweisungen umfassen eine ungenügende Lautstärke oder übermäßige Lautstärke, Hardwarefehler oder Pufferüberlauffehler. Verschiedene Befehlsrückweisungen können ebenso als Textrückweisungen betrachtet werden.
- Bei der Bevorzugung von Text stellt das System danach fest, ob die Sprache des Benutzers mit einer Befehlsschablone übereinstimmt. Die Sprache des Benutzers, die nicht mit einer Befehlsschablone übereinstimmt, liefert keinen gültigen erkannten Befehl. Die Sprache eines Benutzers stimmt nicht mit einer Schablone überein, wenn der Benutzer keine erlaubten Worte in der vorbestimmten Reihefolge ausspricht oder wenn der Benutzer Pausen zwischen die Worte eines Befehls setzt. Wenn zum Beispiel der Benutzer sagt bold last 3 (Pause) words", werden die Worte „bold last 3" als eine Äußerung betrachtet, während das Wort words" als einen andere Äußerung betrachtet wird. Keine Äußerung stimmt mit der Befehlsschablone überein, und folglich liefert keine Äußerung ein gültiges erkanntes Befehlsergebnis.
- Das System bevorzugt außerdem Text, indem es die Erkennungsbewertung des Befehls mit der Erkennungsbewertung des Textes vergleicht. Wenn die Textbewertung höher ist, dann erkennt das System die Sprache des Benutzers als Text. Wenn die Text- und Befehlsbewertungen gleich sind oder die Befehlsbewertung innerhalb eines empirisch eingestellten Bereichs der Textbewertung liegt, dann bevorzugt das System den Text, indem es die Sprache des Benutzers als Text erkennt. Zum Beispiel kann der empirisch eingestellte Bereich bestimmt werden, indem die Zahl der Worte in der Äußerung mit einer empirisch bestimmten Zahl, z.B. 100 multipliziert wird. Da jedoch die Befehle gestelzt oder unnatürlich sind, wird die Erkennungsbewertung eines korrekt gesprochenen Befehls im allgemeinen beträchtlich außerhalb der Bewertung der Texterkennung liegen.
- Diktierter Text wird nicht bevorzugt, wo es nicht sein kann, daß der Benutzer Text diktiert. Wenn zum Beispiel der Benutzer ein Fenstermenü heruntergezogen hat, dann kann eine gesprochene Äußerung des Benutzers nur ein Befehl sein, und folglich wird die Befehlserkennung bevorzugt oder nur eine Befehlserkennung ausgeführt.
- Wenn die CPU feststellt, daß die Sprache des Benutzers Text ist, sendet die CPU (Schritt
146 ) Tastenanschläge oder Skriptsprache, die die erkannten Worte repräsentieren, an die Anwendung, die die Spracherkennungssoftware aufrief. Wenn die CPU feststellt, daß die Sprache des Benutzers ein Befehl ist, sendet die CPU (Schritt148 ) Tastenanschläge oder Skriptsprachenbefehie an die Anwendung, die die Anwendung veranlassen, den Befehl auszuführen. - Die Erkennung diktierten Textes braucht länger (z.B. 1,2 Echtzeit) als die Erkennung von Befehlen (z.B. 0,1 Echtzeit). Ein Grund für die Zunahme der Zeit ist es, daß das Wörterverzeichnis für diktierten Text sehr viel größer als das Befehlswörterverzeichnis ist. Die Erkennung von diktiertem Text vor der Erkennung von Befehlen nutzt die Sprechzeit aus, die durch den Benutzer benötigt wird.
- Da die Wörterverzeichnisse für diktierten Text und Befehle getrennt sind, können sie für ihre jeweiligen Zwecke optimiert werden, ohne die Genauigkeit einer Erkennung zu reduzieren. Wie erläutert, kann das Wörterverzeichnis für diktierten Text eine Sprachmodellinformation umfassen. Entsprechend kann das Befehlswörterverzeichnis eine Modellinformation umfassen, die die Befehlserkennung optimiert. Zum Beispiel kann das Wort „sentence" eine höhere Wahrscheinlichkeit als das Wort „character" aufweisen (d.h. eine höhere Bewertung erhalten).
- Eine andere Alternative ist die parallele Spracherkennung von sowohl diktierten Text als auch Befehlen. Bezugnehmend auf
14 , erkennt die CPU gleichzeitig (Schritte160 und162 ) diktierten Text und Befehle, indem sie gleichzeitig die Sprachrahmen der Benutzeräußerung mit einem oder mehreren Wörterverzeichnissen150 für diktierten Text und einem oder mehreren Befehlswörterverzeichnissen152 vergleicht. Die CPU vergleicht dann (Schritt164 ) die Ergebnisse beider Erkennungen und stellt fest (Schritt166 ), ob die Benutzeräußerung ein Befehl oder Text ist. Wieder bevorzugt die CPU die Texterkennung gegenüber der Befehlserkennung. Wenn die CPU feststellt, daß die Benutzeräußerung ein Befehl ist, dann sendet die CPU (Schritt168 ) Tastenanschläge oder Skriptsprache an die Anwendung, die die Spracherkennungssoftware aufrief, um die Anwendung zu veranlassen, den erkannten Befehl auszuführen. Wenn die CPU feststellt, daß die Benutzeräußerung diktierter Text ist, dann sendet die CPU (Schritt170 ) Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, den erkannten Text zu tippen. - Wenn das erste Wort einer Benutzeräußerung als ein erstes Wort eines Befehlssatzes erkannt wird, dann kann die CPU die Erkennung des diktierten Textes stoppen und nur die Befehlserkennung vollenden. Entsprechend kann dann, wenn das erste Wort einer Benutzeräußerung nicht als ein erstes Wort eines Befehlssatzes erkannt wird, die CPU die Befehlserkennung stoppen und nur die Erkennung des diktierten Textes stoppen. Zusätzliche Spracherkennungsoptimierungen und Optimierungen zur Unterscheidung von Text von Befehlen sind ebenfalls möglich.
- Befehlskorrektur
- Bezugnehmend auf die
15a –15c , kann der Benutzer, wenn das Spracherkennungssystem einen gesprochenen Befehl310 falsch als diktierten Text erkennt, die CPU (durch Tastenanschlag, Mausauswahl oder einen gesprochenen Befehl, z.B. „That was a command"312 ,15b ) veranlassen, die Spracherkennungssoftware erneut auszuführen. Die CPU erkennt dann die vorhergehende Äußerung des Benutzers neu und erzeugt Tastenanschläge oder Skriptsprachenbefehle, um die Anwendung zu veranlassen, die die Spracherkennungssoftware aufrief, den vorher geschriebenen Text zu löschen (15c ). Wo ein getrenntes Befehlswörterverzeichnis verfügbar ist, wird die erneute Erkennung nur an diesem Wörterverzeichnis ausgeführt, um die Wahrscheinlichkeit zu erhöhen, daß der gesprochene Befehl korrekt erkannt wird. Wenn die erneute Erkennung ein Befehlsergebnis mit einer Bewertung liefert, die die empirisch eingestellte Schwelle überschreitet, dann erzeugt die CPU Tastenanschläge oder Skriptsprachenbefehle, die bewirken, daß die Anwendung den Befehl erneut ausführt (z.B. unterstrichenen Text314 ,15c ). - Bezugnehmend auf
15d , zeigt die CPU dann, wenn die erneute Erkennung kein Befehlsergebnis liefert oder die Bewertung des Befehlsergebnisses ungenügend ist, den erneut erkannten Text310 in einem Befehlsfenster220 auf dem Anzeigeschirm des Systems an. Alternativ wird das Befehlsfenster jedesmal angezeigt, wenn der Benutzer die erneute Erkennung auswählt, oder der Benutzer bestimmt für jede Auswahl einer erneuten Erkennung, wann das Befehlsfenster angezeigt wird. Wie vorhergehend beschrieben, kann es viele Gründe geben, warum ein Befehl falsch erkannt werden kann. Wenn der Benutzer zum Beispiel einen Befehl nicht gemäß einer Befehlsschablone ausspricht, dann kann die CPU die Sprache des Benutzers nicht als einen Befehl erkennen. Entsprechend kann die CPU dann, wenn die Umgebung des Benutzers besonders geräuschvoll ist oder der Benutzer zu schnell oder undeutlich spricht, die Sprache des Benutzers nicht als einen Befehl erkennen. Die erneut erkannte Sprache dem Benutzer anzuzeigen, läßt es zu, daß der Benutzer seine eigenen Fehler ebenso wie Umgebungsprobleme bemerkt. Diese Information kann auch verwendet werden, um Systemprobleme zu diagnostizieren. - Die Erkennung eines "gefährlichen" (d.h. schwierig zu widerrufenden) Befehls kann ebenfalls die CPU veranlassen, den erneut erkannten Befehl im Befehlsfenster anzuzeigen. Wenn zum Beispiel die CPU den Befehl „delete all files" erkennt, zeigt die CPU, bevor sie diesen „gefährlichen" Befehl ausführt, den Befehl für den Benutzer. Die CPU kann auch niedrig bewertete Befehle für den Benutzer anzeigen. Wenn der Benutzer zustimmt, daß der angezeigte Befehl im Befehlsfenster der Befehl ist, den der Benutzer ausführen will, dann fordert der Benutzer (durch Tastenanschlag, Mausauswahl oder die Äußerung „OK") die Ausführung des Befehls an. Wenn der Benutzer dem angezeigten Befehl nicht zustimmt oder der angezeigte Text nicht mit einem gültigen Befehl zusammenpaßt, dann kann der Benutzer den zuvor ausgesprochenen Befehl editieren, indem er zum Beispiel den korrekten Befehl in das Befehlsfenster tippt oder indem er „Edit" sagt, wiederum gefolgt durch den beabsichtigten gesprochenen Befehl. Das System führt dann erkannte gültige Befehle aus oder zeigt erneut irgendeine erkannte Sprache an, die nicht mit einer Befehlsschablone übereinstimmt.
- Um das falsche Erkennen von Befehlen zu vermeiden, kann der Benutzer dem System im voraus mitteilen, daß der Benutzer dabei ist, einen Befehl zu sprechen. Zum Beispiel kann der Benutzer „Simon Says" sagen (oder einen anderen ungewöhnlichen Ausdruck), bevor er einen Befehl ausspricht oder die Control- Taste gedrückt hält, wenn er einen Befehl ausspricht. Wenn das System „Simon Says" erkennt, tippt es das nicht als Text, sondern verwendet es als eine Mitteilung, daß die nächste Äußerung ein Befehl ist oder daß die folgenden Worte in derselben Äußerung ein Befehl sind. Die Befehlsmitteilung kann verwendet werden, um zu verhindern, daß die CPU einen erkannten diktierten Text als das Ergebnis auswählt oder die Äußerung nur mit einem Befehlswörterverzeichnis vergleicht (falls verfügbar), um die Spracherkennungsgenauigkeit weiter zu verbessern. Die Bereitstellung einer Befehlsmitteilung ist besonders nützlich, wenn der Benutzer dabei ist, einen Befehl auszusprechen, den das System regelmäßig falsch als Text erkennt. Für andere leicht erkannte Befehle kann der Benutzer wählen, die Mitteilung nicht bereitzustellen.
- Anstatt dem System mitzuteilen, daß der Benutzer dabei ist, einen Befehl auszusprechen, kann dem System mitgeteilt werden, daß der Benutzer dabei ist, einen Text zu diktieren.
- Zusätzlich kann der Benutzer dann, wenn das Spracherkennungssystem einen diktierten Text falsch als einen Befehl erkennt, die CPU (durch Tastenanschlag, Mausauswahl oder einen gesprochen Befehl, z.B. „Type That") veranlassen, die Spracherkennungssoftware erneut auszuführen.
- Andere Ausführungsformen liegen im Rahmen der folgenden Ansprüche.
- Zum Beispiel weist die CPU, anstatt einen digitalen Signalprozessor (DSP) die Abtastwerte verarbeiten zu lassen, die jedem Sprachrahmen entsprechen, um während jeder 20 ms-Zeitspanne eine Gruppe von Parametern zu erzeugen, die mit dem analogen Datensignal verbunden sind, eine Vorfeld-Verarbeitungssoftware auf, die es zuläßt, daß die CPU die Parameter erzeugt.
Claims (20)
- Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache, das aufweist: Annahme von Signalen (Schritt
23 ), die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen; Erkennung der Sprachelemente (Schritt60 ;140 ,142 ;160 ,162 ); Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert (Schritt64 ;144 ,166 ), beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vordem Sprachelement, und Sprachmodellinformationen; und Behandlung der erkannten Sprachelemente (Schritte65a ,65b ;146 ,148 ;168 ,170 ) in einer Weise, die davon abhängt, ob die Sprachelemente Textelemente oder Befehlselemente repräsentieren. - Verfahren nach Anspruch 1, in dem Textelement behandelt wird (Schritt
65b ;146 ;170 ), indem es einer Textverarbeitungsanwendung zur Verfügung gestellt wird. - Verfahren nach Anspruch 1 oder 2, in dem Befehlselement behandelt wird (Schritt
65a ;148 ;168 ), indem eine Anwendung veranlagt wird, einen Schritt auszuführen. - Verfahren nach einem der vorhergehenden Ansprüche, in dem die Sprachmodellinformationen Befehlsschablonen enthalten und in dem Bestimmung das Vergleichen des erkannten Sprachelements und der Befehlsschablone umfaßt.
- Verfahren nach einem der vorhergehenden Ansprüche, in dem die Bestimmung die Bewertung der Wahrscheinlichkeit umfaßt, daß ein gegebenes Sprachelement entweder ein Befehlselement oder ein Textelement ist.
- Verfahren nach einem der vorhergehenden Ansprüche, das ferner die Beeinflussung der Erkennung zugunsten dessen aufweist, daß ein gegebenes Sprachelements ein Textelement oder ein Befehlselement ist.
- Verfahren nach Anspruch 6, in dem die Beeinflussung die Bestimmung aufweist, ob das gegebene Sprachelement eine Befehlsrückweisung widerspiegelt.
- Verfahren nach Anspruch 6 oder Claim
7 , in dem die Beeinflussung die Bestimmung umfaßt, ob das gegebene Sprachelement einer Befehlsschablone entspricht. - Verfahren nach einem der Ansprüche 6 bis 8, in dem die Beeinflussung das Vergleichen von Erkennungsbewertungen des gegebenen Sprachelements als Befehlselement oder als Textelement umfaßt.
- Verfahren nach einem der Ansprüche 6 bis 9, in dem die Beeinflussung die Bestimmung der Länge des Schweigens zwischen aufeinanderfolgenden Sprachelementen umfaßt.
- Verfahren nach einem der Ansprüche 6 bis 10, in dem die Beeinflussung die Bestimmung umfaßt, ob die Aktionen des Benutzers darauf schließen lassen, daß das Sprachelement kein Text sein kann.
- Verfahren nach einem der vorhergehenden Ansprüche, in dem die Erkennung aufweist: parallele Erkennung der Sprachelemente, als ob sie Textelemente wären (Schritt
160 ), und Erkennung der Sprachelemente, als ob sie Befehlselemente wären (Schritt162 ). - Verfahren nach Anspruch 12, das ferner aufweist, die Erkennung von Sprachelementen zeitweilig zu stoppen, als ob sie Textelemente (oder Befehlselemente) wären, auf die Bestimmung hin, daß das Sprachelement ein Befehlselement (oder ein Textelement) ist.
- Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist, einem Benutzer die Ergebnisse der Erkennung anzuzeigen.
- Verfahren nach Anspruch 14, wobei die Ergebnisse Teilergebnisse sind.
- Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist, es dem Benutzer zu ermöglichen, eine erneute Erkennung zu veranlassen, wenn das Sprachelement falsch als Textelement oder als Befehlselement erkannt wird.
- Verfahren nach Anspruch 16, in dem der Benutzer eine erneute Erkennung veranlassen kann, wenn ein Befehlselement als ein Textelement erkannt wird, und als Reaktion auf die erneute Erkennung eine Textverarbeitungsanwendung die Aufnahme des Textelements in Text rückgängig machen kann, der bearbeitet wird.
- Verfahren nach einem der vorhergehenden Ansprüche, in dem vor der Behandlung eines erkannten Befehlselements einem Benutzer Informationen angezeigt werden, die mit dem Befehlselement verbunden sind.
- Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist: Annanhme von einem Benutzer einer Anweisung, vorhergehende oder nachfolgende Sprachelemente entweder als Textelemente oder Befehlselemente zu betrachten, aber nicht als beides.
- Medium, das Software zur Verwendung bei der Spracherkennung enthält, die aufweist: Instruktionen zur Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen; Instruktionen zur Erkennung der Sprachelemente; Instruktionen zur Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vor dem Sprachelement, einer Sprachmodellinformation; und Instruktionen zur Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob sie Textelemente oder Befehlselemente repräsentieren.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/559,207 US5799279A (en) | 1995-11-13 | 1995-11-13 | Continuous speech recognition of text and commands |
US559207 | 1995-11-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69634239D1 DE69634239D1 (de) | 2005-03-03 |
DE69634239T2 true DE69634239T2 (de) | 2006-01-12 |
Family
ID=24232717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69634239T Expired - Lifetime DE69634239T2 (de) | 1995-11-13 | 1996-11-11 | Erkennung kontinuierlich gesprochener Texte und Befehle |
Country Status (3)
Country | Link |
---|---|
US (2) | US5799279A (de) |
EP (1) | EP0785540B1 (de) |
DE (1) | DE69634239T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010049869A1 (de) * | 2010-10-28 | 2012-05-03 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
Families Citing this family (249)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US6601027B1 (en) * | 1995-11-13 | 2003-07-29 | Scansoft, Inc. | Position manipulation in speech recognition |
US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
US6208959B1 (en) * | 1997-12-15 | 2001-03-27 | Telefonaktibolaget Lm Ericsson (Publ) | Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel |
US6298324B1 (en) | 1998-01-05 | 2001-10-02 | Microsoft Corporation | Speech recognition system with changing grammars and grammar help command |
US6301560B1 (en) | 1998-01-05 | 2001-10-09 | Microsoft Corporation | Discrete speech recognition system with ballooning active grammar |
US6227863B1 (en) * | 1998-02-18 | 2001-05-08 | Donald Spector | Phonics training computer system for teaching spelling and reading |
US8202094B2 (en) * | 1998-02-18 | 2012-06-19 | Radmila Solutions, L.L.C. | System and method for training users with audible answers to spoken questions |
WO1999045475A2 (en) * | 1998-03-03 | 1999-09-10 | Koninklijke Philips Electronics N.V. | Text processing system including a speech recognition device and text change means for changing a text-block data |
US6292779B1 (en) | 1998-03-09 | 2001-09-18 | Lernout & Hauspie Speech Products N.V. | System and method for modeless large vocabulary speech recognition |
US6195637B1 (en) * | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
US6233559B1 (en) * | 1998-04-01 | 2001-05-15 | Motorola, Inc. | Speech control of multiple applications using applets |
US5970451A (en) * | 1998-04-14 | 1999-10-19 | International Business Machines Corporation | Method for correcting frequently misrecognized words or command in speech application |
US7082391B1 (en) * | 1998-07-14 | 2006-07-25 | Intel Corporation | Automatic speech recognition |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
US6598016B1 (en) | 1998-10-20 | 2003-07-22 | Tele Atlas North America, Inc. | System for using speech recognition with map data |
US7206747B1 (en) * | 1998-12-16 | 2007-04-17 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands |
US8275617B1 (en) * | 1998-12-17 | 2012-09-25 | Nuance Communications, Inc. | Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands |
US6514201B1 (en) * | 1999-01-29 | 2003-02-04 | Acuson Corporation | Voice-enhanced diagnostic medical ultrasound system and review station |
US6745165B2 (en) * | 1999-06-16 | 2004-06-01 | International Business Machines Corporation | Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system |
US6871179B1 (en) * | 1999-07-07 | 2005-03-22 | International Business Machines Corporation | Method and apparatus for executing voice commands having dictation as a parameter |
US6581033B1 (en) * | 1999-10-19 | 2003-06-17 | Microsoft Corporation | System and method for correction of speech recognition mode errors |
US6813603B1 (en) | 2000-01-26 | 2004-11-02 | Korteam International, Inc. | System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form |
US6434529B1 (en) | 2000-02-16 | 2002-08-13 | Sun Microsystems, Inc. | System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar |
US6466654B1 (en) * | 2000-03-06 | 2002-10-15 | Avaya Technology Corp. | Personal virtual assistant with semantic tagging |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6847931B2 (en) | 2002-01-29 | 2005-01-25 | Lessac Technology, Inc. | Expressive parsing in computerized conversion of text to speech |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
US6912498B2 (en) * | 2000-05-02 | 2005-06-28 | Scansoft, Inc. | Error correction in speech recognition by correcting text around selected area |
US7109970B1 (en) * | 2000-07-01 | 2006-09-19 | Miller Stephen S | Apparatus for remotely controlling computers and other electronic appliances/devices using a combination of voice commands and finger movements |
US7200555B1 (en) | 2000-07-05 | 2007-04-03 | International Business Machines Corporation | Speech recognition correction for devices having limited or no display |
CA2417926C (en) * | 2000-07-31 | 2013-02-12 | Eliza Corporation | Method of and system for improving accuracy in a speech recognition system |
US6795806B1 (en) * | 2000-09-20 | 2004-09-21 | International Business Machines Corporation | Method for enhancing dictation and command discrimination |
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
US6820056B1 (en) | 2000-11-21 | 2004-11-16 | International Business Machines Corporation | Recognizing non-verbal sound commands in an interactive computer controlled speech word recognition display system |
US7024209B1 (en) * | 2000-12-20 | 2006-04-04 | Cisco Technology, Inc. | Unified messaging system configured for management of short message service-type messages |
US7286994B1 (en) | 2000-12-26 | 2007-10-23 | At&T Bls Intellectual Property, Inc. | System for facilitating technician sales referrals |
US7660754B1 (en) | 2000-12-26 | 2010-02-09 | At&T Delaware Intellectual Property Inc. | Technician communications system with automated claims processing |
US7117442B1 (en) * | 2001-02-01 | 2006-10-03 | International Business Machines Corporation | Efficient presentation of database query results through audio user interfaces |
US7233899B2 (en) * | 2001-03-12 | 2007-06-19 | Fain Vitaliy S | Speech recognition system using normalized voiced segment spectrogram analysis |
US6915258B2 (en) * | 2001-04-02 | 2005-07-05 | Thanassis Vasilios Kontonassios | Method and apparatus for displaying and manipulating account information using the human voice |
US6792408B2 (en) * | 2001-06-12 | 2004-09-14 | Dell Products L.P. | Interactive command recognition enhancement system and method |
US7401144B1 (en) | 2001-06-28 | 2008-07-15 | At&T Delaware Intellectual Property, Inc. | Technician intranet access via systems interface to legacy systems |
US8831949B1 (en) | 2001-06-28 | 2014-09-09 | At&T Intellectual Property I, L.P. | Voice recognition for performing authentication and completing transactions in a systems interface to legacy systems |
US7606712B1 (en) | 2001-06-28 | 2009-10-20 | At&T Intellectual Property Ii, L.P. | Speech recognition interface for voice actuation of legacy systems |
US7219137B1 (en) | 2001-06-28 | 2007-05-15 | Bellsouth Intellectual Property Corp | Technician wireline and wireless intranet access via systems interface to legacy systems |
US7369997B2 (en) * | 2001-08-01 | 2008-05-06 | Microsoft Corporation | Controlling speech recognition functionality in a computing device |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
US6688652B2 (en) * | 2001-12-12 | 2004-02-10 | U.S. Pipe And Foundry Company | Locking device and method for securing telescoped pipe |
US7149702B1 (en) | 2001-12-31 | 2006-12-12 | Bellsouth Intellectual Property Corp. | System and method for document delays associated with a project |
US6882974B2 (en) * | 2002-02-15 | 2005-04-19 | Sap Aktiengesellschaft | Voice-control for a user interface |
US7035091B2 (en) * | 2002-02-28 | 2006-04-25 | Accenture Global Services Gmbh | Wearable computer system and modes of operating the system |
US7257531B2 (en) * | 2002-04-19 | 2007-08-14 | Medcom Information Systems, Inc. | Speech to text system using controlled vocabulary indices |
US7380203B2 (en) * | 2002-05-14 | 2008-05-27 | Microsoft Corporation | Natural input recognition tool |
US7260529B1 (en) * | 2002-06-25 | 2007-08-21 | Lengen Nicholas D | Command insertion system and method for voice recognition applications |
US20120240045A1 (en) * | 2003-08-08 | 2012-09-20 | Bradley Nathaniel T | System and method for audio content management |
JP4304952B2 (ja) * | 2002-10-07 | 2009-07-29 | 三菱電機株式会社 | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム |
US7552221B2 (en) | 2003-10-15 | 2009-06-23 | Harman Becker Automotive Systems Gmbh | System for communicating with a server through a mobile communication device |
US20050091064A1 (en) * | 2003-10-22 | 2005-04-28 | Weeks Curtis A. | Speech recognition module providing real time graphic display capability for a speech recognition engine |
KR100552693B1 (ko) * | 2003-10-25 | 2006-02-20 | 삼성전자주식회사 | 피치검출방법 및 장치 |
EP1555652B1 (de) * | 2004-01-19 | 2007-11-14 | Harman Becker Automotive Systems GmbH | Betätigung eines Sprachdialogsystems |
EP1560200B8 (de) * | 2004-01-29 | 2009-08-05 | Harman Becker Automotive Systems GmbH | Verfahren und System zur Sprachdialogschnittstelle |
EP1560199B1 (de) * | 2004-01-29 | 2008-07-09 | Harman Becker Automotive Systems GmbH | Multimodale Dateneingabe |
EP1562180B1 (de) * | 2004-02-06 | 2015-04-01 | Nuance Communications, Inc. | Sprachdialogsystem und Verfahren zum Steuern eines elektronischen Gerätes |
US7624018B2 (en) | 2004-03-12 | 2009-11-24 | Microsoft Corporation | Speech recognition using categories and speech prefixing |
JP2005331882A (ja) * | 2004-05-21 | 2005-12-02 | Pioneer Electronic Corp | 音声認識装置、音声認識方法、および音声認識プログラム |
US20050273337A1 (en) * | 2004-06-02 | 2005-12-08 | Adoram Erell | Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US8725505B2 (en) * | 2004-10-22 | 2014-05-13 | Microsoft Corporation | Verb error recovery in speech recognition |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US8788271B2 (en) * | 2004-12-22 | 2014-07-22 | Sap Aktiengesellschaft | Controlling user interfaces with contextual voice commands |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7627096B2 (en) * | 2005-01-14 | 2009-12-01 | At&T Intellectual Property I, L.P. | System and method for independently recognizing and selecting actions and objects in a speech recognition system |
JP4832770B2 (ja) * | 2005-02-15 | 2011-12-07 | オリンパス株式会社 | 医療支援システム |
US20060198608A1 (en) * | 2005-03-04 | 2006-09-07 | Girardi Frank D | Method and apparatus for coaching athletic teams |
US7409344B2 (en) * | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
DE102005030967B4 (de) * | 2005-06-30 | 2007-08-09 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen |
DE102005030963B4 (de) * | 2005-06-30 | 2007-07-19 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe |
DE102005030965B4 (de) * | 2005-06-30 | 2007-07-19 | Daimlerchrysler Ag | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments |
US8473295B2 (en) * | 2005-08-05 | 2013-06-25 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
US20070055520A1 (en) * | 2005-08-31 | 2007-03-08 | Microsoft Corporation | Incorporation of speech engine training into interactive user tutorial |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070198271A1 (en) * | 2006-02-23 | 2007-08-23 | Dana Abramson | Method for training a user of speech recognition software |
US8286071B1 (en) * | 2006-06-29 | 2012-10-09 | Escription, Inc. | Insertion of standard text in transcriptions |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
GB2444539A (en) * | 2006-12-07 | 2008-06-11 | Cereproc Ltd | Altering text attributes in a text-to-speech converter to change the output speech characteristics |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20090077038A1 (en) * | 2007-09-18 | 2009-03-19 | Dolbey And Company | Methods and Systems for Verifying the Identity of a Subject of a Dictation Using Text to Speech Conversion and Playback |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) * | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US20090271196A1 (en) * | 2007-10-24 | 2009-10-29 | Red Shift Company, Llc | Classifying portions of a signal representing speech |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20090234655A1 (en) * | 2008-03-13 | 2009-09-17 | Jason Kwon | Mobile electronic device with active speech recognition |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8417513B2 (en) * | 2008-06-06 | 2013-04-09 | Radiant Logic Inc. | Representation of objects and relationships in databases, directories, web services, and applications as sentences as a method to represent context in structured data |
US9081590B2 (en) * | 2008-06-24 | 2015-07-14 | Microsoft Technology Licensing, Llc | Multimodal input using scratchpad graphical user interface to edit speech text input with keyboard input |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
GB2473197A (en) | 2009-09-02 | 2011-03-09 | Nds Ltd | Advert selection using a decision tree |
JP5617083B2 (ja) * | 2009-09-03 | 2014-11-05 | 本田技研工業株式会社 | コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット |
US20110099507A1 (en) | 2009-10-28 | 2011-04-28 | Google Inc. | Displaying a collection of interactive elements that trigger actions directed to an item |
US8903793B2 (en) | 2009-12-15 | 2014-12-02 | At&T Intellectual Property I, L.P. | System and method for speech-based incremental search |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9009040B2 (en) * | 2010-05-05 | 2015-04-14 | Cisco Technology, Inc. | Training a transcription system |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US9028255B2 (en) | 2010-10-06 | 2015-05-12 | Dominic William Massaro | Method and system for acquisition of literacy |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP5637131B2 (ja) * | 2011-12-26 | 2014-12-10 | 株式会社デンソー | 音声認識装置 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
JP6127371B2 (ja) * | 2012-03-28 | 2017-05-17 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9224387B1 (en) * | 2012-12-04 | 2015-12-29 | Amazon Technologies, Inc. | Targeted detection of regions in speech processing data streams |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US8494853B1 (en) * | 2013-01-04 | 2013-07-23 | Google Inc. | Methods and systems for providing speech recognition systems based on speech recordings logs |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
WO2015025330A1 (en) | 2013-08-21 | 2015-02-26 | Kale Aaditya Kishore | A system to enable user to interact with an electronic processing device using voice of the user |
GB2518002B (en) * | 2013-09-10 | 2017-03-29 | Jaguar Land Rover Ltd | Vehicle interface system |
US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US9601108B2 (en) | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10748523B2 (en) | 2014-02-28 | 2020-08-18 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180034961A1 (en) | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
US10878721B2 (en) | 2014-02-28 | 2020-12-29 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US9401146B2 (en) * | 2014-04-01 | 2016-07-26 | Google Inc. | Identification of communication-related voice commands |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
EP3089159B1 (de) | 2015-04-28 | 2019-08-28 | Google LLC | Korrekturspracherkennung mittels selektivem re-speak |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
KR102453603B1 (ko) | 2015-11-10 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10453460B1 (en) * | 2016-02-02 | 2019-10-22 | Amazon Technologies, Inc. | Post-speech recognition request surplus detection and prevention |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105869654B (zh) * | 2016-03-29 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 音频消息的处理方法及装置 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10515632B2 (en) | 2016-11-15 | 2019-12-24 | At&T Intellectual Property I, L.P. | Asynchronous virtual assistant |
US11003417B2 (en) * | 2016-12-15 | 2021-05-11 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus with activation word based on operating environment of the apparatus |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR102398649B1 (ko) | 2017-03-28 | 2022-05-17 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11430435B1 (en) | 2018-12-13 | 2022-08-30 | Amazon Technologies, Inc. | Prompts for user feedback |
US11468890B2 (en) * | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11514893B2 (en) * | 2020-01-29 | 2022-11-29 | Microsoft Technology Licensing, Llc | Voice context-aware content manipulation |
US11539900B2 (en) | 2020-02-21 | 2022-12-27 | Ultratec, Inc. | Caption modification and augmentation systems and methods for use by hearing assisted user |
CN113516969B (zh) * | 2021-09-14 | 2021-12-14 | 北京远鉴信息技术有限公司 | 一种拼接语音的鉴别方法、装置、电子设备及存储介质 |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4376874A (en) * | 1980-12-15 | 1983-03-15 | Sperry Corporation | Real time speech compaction/relay with silence detection |
JPS58195957A (ja) * | 1982-05-11 | 1983-11-15 | Casio Comput Co Ltd | 音声によるプログラム実行方式 |
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
US4624008A (en) * | 1983-03-09 | 1986-11-18 | International Telephone And Telegraph Corporation | Apparatus for automatic speech recognition |
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4570746A (en) * | 1983-06-30 | 1986-02-18 | International Business Machines Corporation | Wind/breath screen for a microphone |
JPS60158498A (ja) * | 1984-01-27 | 1985-08-19 | 株式会社リコー | パターン照合装置 |
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4833712A (en) * | 1985-05-29 | 1989-05-23 | International Business Machines Corporation | Automatic generation of simple Markov model stunted baseforms for words in a vocabulary |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4776016A (en) * | 1985-11-21 | 1988-10-04 | Position Orientation Systems, Inc. | Voice control system |
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US4827520A (en) * | 1987-01-16 | 1989-05-02 | Prince Corporation | Voice actuated control system for use in a vehicle |
JP2815579B2 (ja) * | 1987-03-10 | 1998-10-27 | 富士通株式会社 | 音声認識における単語候補削減装置 |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US4805218A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech analysis and speech recognition |
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US4984177A (en) * | 1988-02-05 | 1991-01-08 | Advanced Products And Technologies, Inc. | Voice language translator |
US4931950A (en) * | 1988-07-25 | 1990-06-05 | Electric Power Research Institute | Multimedia interface and method for computer system |
JPH0293597A (ja) * | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
JP2841404B2 (ja) * | 1989-01-12 | 1998-12-24 | 日本電気株式会社 | 連続音声認識装置 |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JPH03163623A (ja) * | 1989-06-23 | 1991-07-15 | Articulate Syst Inc | 音声制御コンピュータ・インターフェース |
US5036538A (en) * | 1989-11-22 | 1991-07-30 | Telephonics Corporation | Multi-station voice recognition and processing system |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5386494A (en) * | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
DE69330427T2 (de) * | 1992-03-06 | 2002-05-23 | Dragon Systems Inc., Newton | Spracherkennungssystem für sprachen mit zusammengesetzten wörtern |
US5425129A (en) * | 1992-10-29 | 1995-06-13 | International Business Machines Corporation | Method for word spotting in continuous speech |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5765132A (en) * | 1995-10-26 | 1998-06-09 | Dragon Systems, Inc. | Building speech models for new words in a multi-word utterance |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
-
1995
- 1995-11-13 US US08/559,207 patent/US5799279A/en not_active Expired - Lifetime
-
1996
- 1996-11-11 DE DE69634239T patent/DE69634239T2/de not_active Expired - Lifetime
- 1996-11-11 EP EP96308181A patent/EP0785540B1/de not_active Expired - Lifetime
-
1998
- 1998-06-17 US US09/098,502 patent/US6088671A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010049869A1 (de) * | 2010-10-28 | 2012-05-03 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
DE102010049869B4 (de) | 2010-10-28 | 2023-03-16 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
Also Published As
Publication number | Publication date |
---|---|
US6088671A (en) | 2000-07-11 |
DE69634239D1 (de) | 2005-03-03 |
EP0785540B1 (de) | 2005-01-26 |
EP0785540A3 (de) | 1998-08-05 |
US5799279A (en) | 1998-08-25 |
EP0785540A2 (de) | 1997-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69634239T2 (de) | Erkennung kontinuierlich gesprochener Texte und Befehle | |
DE69632517T2 (de) | Erkennung kontinuierlicher Sprache | |
DE69914131T2 (de) | Positionshandhabung bei der Spracherkennung | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
DE68928097T2 (de) | Spracherkennungssystem | |
DE69923191T2 (de) | Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE69721939T2 (de) | Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung | |
DE69330427T2 (de) | Spracherkennungssystem für sprachen mit zusammengesetzten wörtern | |
DE69725091T2 (de) | Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung | |
DE69737987T2 (de) | Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung | |
DE69817844T2 (de) | Verfahren und vorrichtung zur spracherkennungscomputereingabe | |
DE60318544T2 (de) | Sprachmodell für die Spracherkennung | |
DE69814589T2 (de) | Spracherkennung unter verwendung mehrerer spracherkenner | |
DE60207742T2 (de) | Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes | |
DE69721938T2 (de) | Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung | |
DE60012655T2 (de) | Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen | |
DE60033106T2 (de) | Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung | |
DE69811921T2 (de) | Vorrichtung und verfahren zur unterscheidung von ähnlich klingenden wörtern in der spracherkennung | |
DE60010827T2 (de) | Hintergrundsystem für Audiodatenbeseitigung | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
DE602005000308T2 (de) | Vorrichtung für sprachgesteuerte Anwendungen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |