DE69910928T2 - Spracherkennungsverfahren mit mehreren anwendungsprogrammen - Google Patents

Spracherkennungsverfahren mit mehreren anwendungsprogrammen Download PDF

Info

Publication number
DE69910928T2
DE69910928T2 DE69910928T DE69910928T DE69910928T2 DE 69910928 T2 DE69910928 T2 DE 69910928T2 DE 69910928 T DE69910928 T DE 69910928T DE 69910928 T DE69910928 T DE 69910928T DE 69910928 T2 DE69910928 T2 DE 69910928T2
Authority
DE
Germany
Prior art keywords
application
application program
voice commands
operating system
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69910928T
Other languages
English (en)
Other versions
DE69910928D1 (de
Inventor
Sreeram Balakrishnan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Application granted granted Critical
Publication of DE69910928D1 publication Critical patent/DE69910928D1/de
Publication of DE69910928T2 publication Critical patent/DE69910928T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)

Description

  • Gebiet der Erfindung
  • Die Erfindung betrifft ein Computer-Betriebssystem mit Spracherkennung.
  • Hintergrund der Erfindung
  • Mit der starken Verbreitung von Computern und Rechnergeräten in der gesamten Gesellschaft wird alternativen Verfahren der Dateneingabe zum Ersetzen traditioneller Tastaturen immer mehr Aufmerksamkeit geschenkt. Es sind zahlreiche Computerprogramme verfügbar, die Spracherkennung durchführen. Die meisten dieser Computerprogramme sind "Anwendungen", das heißt Computerprogramme, in denen die Funktionalität und der Betrieb eines Programms speziell für das Programm auf einen fest zugeordneten Zweck zugeschnitten sind. Folglich sind beispielsweise Diktieranwendungen bekannt, welche die Sprache eines Anwenders als Eingabe an nehmen und bewirken, dass entsprechend der Spracheingabe durch den Anwender auf eine dem Textprozessor ähnliche Weise Text in ein Dokument eingegeben wird. Ein weiteres Beispiel einer Spracherkennungsanwendung wäre ein Steuerungsprogramm zum Steuern eines Geräteelements, beispielsweise zum Wählen von Telefonnummern bei einem Freisprech ("handsfree")-Funktelefon. Bei einer derartigen Anwendung würde der Anwender die zu wählenden Stellen aussprechen und würde zum Beispiel den Befehl "Senden" aussprechen, was das zellulare Funktelefon zum Wählen der gesprochenen Nummer veranlassen würde. Dies sind Beispiele von fest zugeordneten Spracherkennungsanwendungen.
  • In der Veröffentlichung "Augmenting a Window System with Speech Input" von C. Schmandt, M. S. Acherman und D. Hindus in Computer, Ausgabe 23, Nr. 8, Seiten 50–60, August 1990, wird eine Spracherkennungsanwendung zum Steuern von Fensternavigationsaufgaben beschrieben. Die mit "X Speak" betitelte Anwendung ist eine Sprachschnittstelle zu einem X-Fenstersystem, in dem Wörter Fenstern zugeordnet sind. Das Aussprechen des Namens eines Fensters bewegt es an die Front des Computerbildschirms und bewegt den Cursor in dieses Fenster. Die X-Sprach-Anwendung übernimmt einige der Funktionen, die normalerweise einer Maus zugeordnet sind. Verschiedene Befehle werden beschrieben, wie "Erstellen" ("create"), zum Starten einer Anwendung, "Wiederaufruf" ("recall"), um ein Fenster auf dem Fensterstapel nach oben neu zu positionieren, und "Verbergen" ("hide"), um ein Fenster in dem Fensterstapel nach unten neu zu positionieren. Es existieren auch Befehle, um Fenster in der Größe anzupassen ("resizing") und neu zu positionieren etc. Die Verfasser der Veröffentlichung geben zu, das irgendein er gonomischer Wirkungsgrad von der Verwendung der Fensternavigationsaufgaben-Anwendung begrenzt oder nicht existent ist.
  • Ein Nachteil bei bestehenden Spracherkennungsanwendungen ist ihre fehlende Flexibilität. Bei einer typischen Spracherkennungsanwendung ist der Anwendung ein Vokabular erkennbarer Wörter zugeordnet. Die Erkennungseinrichtung versucht, in ihrem Vokabular befindliche Wörter zu erkennen. Es können Techniken bereitgestellt werden, um zu versuchen, nicht in dem Vokabular befindliche Wörter zu erkennen. Vokabularien können erweitert oder ersetzt werden, um die Leistung der Erkennungsoperation auf den Anwender zuzuschneiden.
  • Im Falle der X-Sprach-Anwendung, die ein, einem Betriebssystem zugeordnetes Hilfsprogramm ist, existiert ein zugehöriger Satz möglicher Befehle, die erkannt werden können. Der verfügbare Satz von Befehlen ist in die Anwendung einprogrammiert. Dies erzeugt ein Fehlen an Flexibilität und ist nicht besonders geeignet für fortschrittliche Personalcomputer mit Mehrfachanwendung und ähnliches Gerät, bei denen von Zeit zu Zeit neue Anwendungen in das Gerät geladen werden und bei denen viele Anwendungen aufeinander folgend laufen gelassen werden können.
  • Es besteht der Wunsch nach einer allgegenwärtigeren Spracherkennungsschnittstelle, das potentiell in der Lage ist, zumindest teilweise sowohl ein Keyboard für die Datenund Befehlseingabe als auch eine Maus für die Bildschirmnavigation zu ersetzen.
  • Das Dokument US-A-5677991 offenbart ein Spracherkennungssystem, wobei eine eingegebene Äußerung sowohl an ein Spracherkennungsmodul mit großem Einzelwortvokabular als auch ein Spracherkennungsmodul mit kleinem Verbundssprach-Vokabular übermittelt wird. Ein Vermittlungsalgorithmus trifft unter den durch die Erkennungsmodule identifizierten Kandidaten die Auswahl.
  • Größere Flexibilität für Anwendungsentwickler, die ihre Anwendungen sprachbefähigen möchten, wird durch eine Programmierschnittstelle für Sprachanwendung (speech application programming interface ("SAPI")) von der Microsoft Corporation bereitgestellt, die es einer Allzweck-Sprachsuchmaschine gestattet, Befehle von unterschiedlichen Anwendungen zu erkennen. Es wird keine Vorkehrung zum Richten von Sprache an irgendeine andere als die aktuell im Fokus befindliche Anwendung oder zur Handhabung mehrerer sprachbefähigter Anwendungen getroffen. Es wird keine Vorkehrung zum Erkennen von Befehlen für eine Anwendung getroffen, die noch nicht aktiviert und zum ersten Mal laufen gelassen worden ist.
  • Es besteht ein Bedarf, dass die Sprachschnittstelle Sprache an mehrere Anwendungen richtet oder an Anwendungen, die neu installiert sind und noch nicht betrieben worden sind.
  • Ferner ist es ein Problem, dass Sprache sowohl Betriebssystembefehle (z. B. "Fenster minimieren", "Fenster schließen") als auch an die Anwendung gerichtete Sprachbefehle (z. B. "Diktat beginnen") und an die Anwendung gerichteten Inhalt (z. B. "Memo an Herrn Jones") enthalten kann. Es besteht eine Notwendigkeit zum Bestimmen des angemessensten Bestimmungsortes für die Sprache, was nicht leicht getan werden kann, ohne Erkennung durchzuführen, die vorzugsweise auf die potentielle Aufgabe zugeschnitten sein muss, an welche die Sprache gerichtet werden kann. Hierfür ist ein für die Aufgabe spezifisches Vokabular- und Sprachmodell (oder dessen Äquivalent) wünschenswert. Gemäß der Erfindung wird ein Verfahren zum Betreiben eines Computers bereitgestellt, wie in Anspruch 1 dargelegt.
  • Kurze Beschreibung der Zeichnungen
  • 1 zeigt einen typischen Personalcomputer mit mehreren auf einem Bildschirm angezeigten Anwendungspiktogrammen bzw. -ikons, der zur Implementierung der Erfindung geeignet ist.
  • 2 ist ein Blockdiagramm eines Satzes von Computerprogrammen gemäß der Erfindung.
  • 3 ist ein Prozess-Flussdiagramm, das eine alternative Ausführungsform der Erfindung veranschaulicht.
  • 4 ist ein Prozess-Flussdiagramm, das eine Ausführungsform der Erfindung veranschaulicht, die alternativ zu der Ausführungsform von 3 ist.
  • 5 ist ein Hardware-Blockdiagramm, das weiterhin die Ausführungsform von 4 veranschaulicht.
  • Beschreibung einer bevorzugten Ausführungsform
  • Nun wird eine Architektur beschrieben, in der mehrere Anwendungen mit Spracherkennungsfähigkeit die Möglichkeit haben, dem Betriebssystem anzuzeigen, ob eine vorgegebene Spracheingabe für die einzelnen Anwendungen nützlich ist. Ein Vorteil davon ist, dass eine Anwendung zum Treffen einer Feststellung der Relevanz einer gewissen Sprache für die Anwendung besser gelegen ist, als das Betriebssystem. Es kann besser entschieden werden, ob die Sprache an das Betriebssystem oder an eine bestimmte Anwendung gerichtet werden soll.
  • Es wird ein Computer 10 gezeigt, der einen Bildschirm 12 aufweist, auf dem verschiedene Ikons und Fenster gezeigt werden. Der Computer wird so gezeigt, dass er ein Ikon 14 aufweist, das einen in dem Computer 10 befindlichen Festplattenantrieb darstellt und ein erstes Anwendungsikon 16, das eine in dem Computer 10 gespeicherte erste Anwendung darstellt und ein zweites Anwendungsikon 18, das eine in dem Computer 10 gespeicherte zweite Anwendung darstellt. Die erste Anwendung hat den Namen "Anw A" und die zweite Anwendung hat den Namen "Anw B". Ferner werden auf dem Bildschirm 12 ein erstes Fenster 20 und eine zweites Fenster 22 gezeigt. Das erste Fenster 20 ist im Fokus in dem Sinne, dass es sich im Vordergrund befindet und das aktuell aktive Fenster ist. Das zweite Fenster 22 ist außerhalb des Fokus in dem Sinne, dass es sich im Hintergrund befindet. Zu Beschreibungszwecken wird das Beispiel herangezogen, wo das erste Fenster 20 ein Eingabe/Ausgabe-Schnittstellenfenster für die Anwendung A ist und das zweite Fenster 22 ein Eingabe/Ausgabe-Anwenderschnittstellenfenster für die Anwendung B ist.
  • Bei einem typischen Betrieb gemäß dem Stand der Technik wird das Fenster 20 durch Bewegen eines Mauscursors zu dem Ikon 16 und durch doppeltes Anklicken des Ikons 16 erzeugt. Auf ähnliche Weise wird das zweite Fenster 22 typischerweise durch Bewegen eines Mauscursors zu dem Ikon 18 und durch doppeltes Anklicken dieses Ikons erzeugt. Doppeltes Anklicken eines Ikons bewirkt, dass die durch das Ikon dargestellte Anwendung aufgerufen oder "gestartet" wird. Anschließend bewirkt ein Einzelklick des Mauscursors entwe der auf das Ikon oder sein entsprechendes Fenster, dass das Fenster in den Vordergrund kommt. Selbstverständlich können mehrere Fenster existieren, die einer einzigen Anwendung entsprechen.
  • In 1 wird ein Mikrofon 40 gezeigt, das Sprachbefehle als Spracheingabe empfangen kann. Die Sprachbefehle können bewirken, dass innerhalb der Anwendung A oder der Anwendung B Operationen ausgeführt werden. Die Spracheingabe kann bewirken, dass Text oder andere Informationen in durch die Anwendung A oder die Anwendung B angelegte Dateien eingegeben werden. Die vorliegende Erfindung spricht das Problem des Entscheidens an, an welche Anwendung Sprachbefehle oder Spracheingaben gerichtet werden sollten.
  • Mit Bezug auf 2 wird nun ein Satz von Computerprogrammen veranschaulicht, der ein Betriebssystem 30, eine erste Anwendung 32, eine zweite Anwendung 34 und einen Phonemnetzwerk-Generator 36 enthält. Dieser Satz von Computerprogrammen wird in einen Mikroprozessor 38 geladen, der in dem Computer 10 residiert. Mit dem Mikroprozessor 38 ist über einen Analog/Digital-Wandler 39 ein Mikrofon 40 verbunden. Mit dem Mikroprozessor 38 ist auch ein Speicher 42 verbunden, der ein Direktzugriffsspeicher sein kann, aber vorzugsweise ein Nur-Lese-Speicher ist. In dem Speicher 42 sind jeweils der ersten und der zweiten Anwendung 32 und 34 zugeordnete erste und zweite Vokabularien 44 und 46 und erste und zweite Sprachmodelle 48 und 50 gespeichert.
  • Der Phonemnetzwerk-Generator 36 ist vorzugsweise ein kontextabhängiger (context dependent ("CD")) Phonemnetzwerk-Generator, wie in der Patentveröffentlichung Nummer W099/28899 von Sreeram Balakrishnan et. al. unter dem Titel "Context Dependent Phoneme Networks for Encoding Speech In formation" beschrieben. Alternativ dazu ist der Phonemnetzwerk-Generator 36 kontextunabhängig.
  • Bezüglich der Einzelheiten der in den Mikroprozessor 38 implementierten Programme umfasst der Phonemnetzwerk-Generator 36 einen an den Analog/Digital-Wandler 39 gekoppelten Eingang 60. Ein Merkmalextraktionsprogrammmodul 62 ist an den Eingang 60 gekoppelt und ein (vorzugsweise ein Viterbi Decoder) Programmmodul 64 ist an das Merkmalextraktionsprogrammmodul 62 gekoppelt. Der Decoder 64 weist einen über eine Anwendungsprogrammierschnittstelle (application programming interface ("API")) 35 des Betriebssystems 30 an die erste und die zweite Anwendung 32 bzw. 34 gekoppelten Ausgang auf.
  • Die erste Anwendung 32 weist ein Such-Applet 33 auf, das in der Lage ist, das erste Vokabular 44 und das erste Sprachmodell 48 aufzurufen. Die zweite Anwendung 34 weist ein Such-Applet 37 auf, das in der Lage ist, das zweite Vokabular 46 und das zweite Sprachmodell 50 aufzurufen. Jedes Vokabular weist Wörter oder Zeichen auf, die potentiell durch die jeweilige Anwendung erkannt werden müssen. Jedes Sprachmodell weist Wörter oder Kombinationen von Wörtern, Buchstaben oder Zeichen auf, deren Gebrauch bei dieser Anwendung üblich ist. Es kann (und es wird tatsächlich) Wörter oder Zeichen geben, die beiden Anwendungen gemein sind.
  • Das Beispiel wird erwogen werden, wo die Anwendung A "Netscape" TM ist und die Anwendung B WisdomPen TM ist. In dem ersten Vokabular 44 gibt es Befehle, die für einen Browser nützlich sind, wie "Starten", "Öffnen, "Zurückgehen", "Suchen", "Ausgangsstellung" und "Netscape", und in dem zweiten Vokabular 46 gibt es Befehle, die für eine Handschriften-Erkennungseinrichtung nützlich sind, wie "Starten" "Öffnen" "nächstes Zeichen" "Phrase" "Redigieren", "WisdomPen" etc. Zu beachten ist, dass der Befehl "Starten" beiden Vokabularien gemein ist. Zu beachten ist, dass die Wortkombination "Netcape starten" nur das erste Vokabular 44 betrifft, während "WisdomPen starten" nur das zweite Vokabular 46 betrifft. Selbst wenn diese Wortkombinationen nicht einmalig sind, ist zu beachten, dass das erste Sprachmodell 48 der Wortkombination "Netscape starten" eine hohe Wahrscheinlichkeitseinstufung gibt und der Wortkombination "WisdomPen starten" eine niedrige Wahrscheinlichkeitseinstufung gibt. Zu beachten ist ferner, dass das zweite Sprachmodell 50 der Wortkombination "WisdomPen starten" eine hohe Wahrscheinlichkeitseinstufung gibt und der Kombination "Netscape starten" eine niedrige Wahrscheinlichkeitseinstufung gibt.
  • Im Betrieb spricht der Anwender einen Befehl in das Mikrofon 40, seine Sprache wird in dem A/D-Wandler 39 digitalisiert und Merkmale werden in dem Merkmalextraktionsprogrammmodul 62 extrahiert. Der Decoder 64 erzeugt von den extrahierten Merkmalen ein CD-Phonemnetzwerk und gibt (auf der API 35) Daten aus, die für ein vorgegebenes Phonem die Identitäten der vorherigen und nachfolgende Phoneme, die Identität des gegenwärtigen Phonems, die Dauer des gegenwärtigen Phonems und die Einstufung des gegenwärtigen Phonems (oder Einstufungen für eine kleine Anzahl von alternativen Phonemen) darstellen. Das so erzeugte CD-Netzwerk wird gleichzeitig an die Such-Applets 33 und 37 der Anwendungen 32 und 34 gesendet (oder von diesen aufgenommen). Unter Verwendung der Daten in den Vokabularien 44 und 46 und der Sprachmodelle 48 und 50 stellt jedes der Applets 33 und 37 ein Ergebnis ihrer Erkennungsoperation zur Verfü gung, das zumindest eine "Einstufung" oder ein "Vertrauensniveau" für die Erkennung enthält. Diese Einstufungen werden durch die Anwendungen 32 und 34 über die API-Ausgänge 71 bzw. 72 an einen Vermittler 70 in dem Betriebssystem 30 geliefert. Der Vermittler 70 bestimmt, welche der mehreren Anwendungen auf die eingegebene Sprache hin zu handeln hat.
  • In seiner einfachsten Form bestimmt der Vermittler 70, dass die, die höchste Erkennungseinstufung aufweisende Anwendung die eingegebene Sprache erhalten und daraufhin handeln wird.
  • Wenn beispielsweise die eingegebene Sprache "Zurückgehen" oder "Netscape starten" ist, wird folglich der Vermittler 70 über den Steuerungsausgang 73 die Anwendung A informieren, dass die Anwendung A auf die eingegebene Sprache hin zu handeln hat und wird über den Steuerungsausgang 74 die Anwendung B informieren, dass sie die eingegebene Sprache zu ignorieren hat. Wenn andererseits die eingegebene Sprache "WisdomPen starten" oder "Redigieren" ist, wird es die Anwendung B sein, die auf diese Eingabe hin handeln darf. Die in Erwiderung auf die Eingabe hin vorgenommene Handlung kann das Starten der Anwendung enthalten, das in den Vordergrund Bringen des Fensters der Anwendung, die Zustandsveränderung innerhalb der Anwendung, das Eingeben der Daten in eine Datei innerhalb der Anwendung oder andere Operationen.
  • In einer fortgeschritteneren Form ist der Vermittler 70 kontextabhängig, z. B. gibt er einer im Fokus befindlichen Anwendung eine höhere Priorität als einer Anwendung, außerhalb des Fokus. Ein höheres Schwellwertniveau an Vertrauen in die Erkennung muss überschritten werden, um eingegebene Sprache an eine Anwendung außerhalb des Fokus zu richten, und ein niedrigeres Schwellwertniveau an Vertrauen wird zulassen, dass eingegebene Sprache an die aktuelle Anwendung gerichtet wird. Alternativ oder zusätzlich dazu unterscheidet der Vermittler 70 zwischen Befehlen und eingegebenen Daten oder er unterscheidet zwischen unterschiedlichen Befehlstypen. Zum Beispiel wird ein Schlüsselsatz von Befehlen ("Starten", "Öffnen", "Verlassen") durch den Vermittler 70 leichter an eine Anwendung außerhalb des Fokus gerichtet (d. h. sogar bei niedrigeren Vertrauensniveau), wenn von einem hohen Vertrauensniveauindikator (z. B. "Netscape" oder "WisdomPen") begleitet, als andere Befehle oder Eingaben. Um dies zu bewerkstelligen, kann der Schlüsselsatz von Befehlen in dem Vermittler 70 gespeichert werden.
  • Auf diese Weise weist jede der Anwendungen 32, 34 (und zusätzliche Anwendungen) bis hin zu dem Betriebssystem 30 eine Anforderung für das Betriebssystem 30 auf, im Vorzug gegenüber anderen Anwendungen, der Anwendung zu vermitteln und erlauben eingehende Sprache zu empfangen und daraufhin zu handeln.
  • Somit ist ein Prozessor 38 beschrieben worden, der folgendes umfasst: einen Eingang 60 zum Empfangen von Sprachbefehlen; ein Betriebssystem 30 mit einem Vermittler 70; und ein, zwei oder mehrere Anwendungsprogramme 32, 34 unter der Steuerung des Betriebssystems. Die Anwendungsprogramme sind modular von dem Betriebssystem getrennt. Die oder jede Anwendung weist eine Spracherkennungseinrichtung 33, 37 auf zum Erkennen von Sprachbefehlen und zum Anbieten von Erkennungsinformationen 71, 72, welche die Fähigkeit der Spracherkennungseinrichtung zum Erkennen der Sprachbefehle anzeigen, an den Vermittler 70.
  • Vorzugsweise sind die Erkennungsinformationen von dem Vokabular 44 und dem Sprachmodell 48 des Anwendungsprogramms abhängig.
  • Ein Betriebsverfahren eines Computers ist ebenfalls beschrieben worden. Das Verfahren umfasst: das Eingeben von Sprachbefehlen; das Vergleichen der eingegebenen Sprachbefehle mit Darstellungen der dem Anwendungsprogramm zugeordneten Sprachbefehle, um ein Erkennungsergebnis zur Verfügung zu stellen; das Liefern des Erkennungsergebnisses an das Betriebssystem; und selektives Zulassen des Anwendungsprogramms zum Handeln auf die Sprachbefehle hin abhängig von dem Erkennungsergebnis.
  • Vorzugsweise umfasst das Verfahren weiterhin das Erzeugen, in Zusammenarbeit mit dem Betriebssystem, von Phonemnetzwerken, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das Anwendungsprogramm. Die Phonemnetzwerke sind vorzugsweise kontextabhängige Phonemnetzwerke.
  • In der bevorzugten Ausführungsform werden die eingegebenen Sprachbefehle mit Darstellungen der den ersten und zweiten Erkennungsergebnissen zugeordneten Sprachbefehle verglichen, und der Schritt des selektiven Zulassens umfasst das Zulassen von entweder dem ersten oder dem zweiten Anwendungsprogramm, um in Abhängigkeit des Ergebnisses gegenüber dem anderen Anwendungsprogramm bevorzugt als eine Funktion eines aktuellen Betriebszustandes des ersten und zweiten Anwendungsprogramms zu handeln.
  • Mit Bezug auf 3 wird nun eine Anordnung veranschaulicht zum Zulassen der Erkennung eines eingegebenen, für ein Anwendungsprogramm spezifischen Sprachbefehls, be vor das Anwendungsprogramm zum ersten Mal laufen gelassen worden ist.
  • Veranschaulicht werden das Betriebssystem 30 und die erste und zweite Anwendung 32 und 34. Die Anwendungen sind durch eine Sprachanwendungs-Programmierschnittstelle (speech application programming interface ("SAPI") 102 an eine Suchmaschine 104 gekoppelt. Jedes der Anwendungsprogramme 32 und 34 verfügt über ein Vokabular 110, 120 (die äquivalent zu den oder Bereiche der Vokabularien 44 und 46 von 2 sind). In dem Beispiel weist das Vokabular 110 das Wort "Netscape" auf, und das Vokabular 120 weist das Wort "Huibi" auf, welches das chinesische Äquivalent zu "WisdomPen" ist.
  • Die Suchmaschine 104 verfügt über ein aktives Vokabular 106, das viele gemeinsame Befehle, wie "Starten", "Öffnen", "Verlassen" enthält, sowie ebenfalls das Wort "Netscape" enthält, das entweder in das Suchmaschinenvokabular 106 vorprogrammiert ist (da ein gemeinsam benutztes Wort) oder ist dem Vokabular 106 von dem Vokabular 110 im Rahmen einer früheren Operation des Anwendungsprogramms 32 übermittelt worden. Im Gegensatz dazu ist das Wort "Huibi" kein sehr übliches Wort, und eine Präsenz in dem Vokabular 106 durch normalen Betrieb ist unwahrscheinlich.
  • Zur Installierung der Anwendung B wird ein Installierungsprogramm 130 verwendet. Bei der Installierung registriert das Programm 130 mit dem Betriebssystem 30 die Anwendung B und extrahiert gleichzeitig Wörter und deren Phonemnetzwerk-Äquivalente von dem Vokabular 120 und fügt diese Wörter und Phonemnetzwerk-Äquivalente in das Suchmaschinenvokabular 106 ein.
  • Wenn der Befehl "Huibi starten" zum ersten Mal ausgesprochen wird, wird auf diese weise dieser Befehl durch die Suchmaschine 104 erkannt. Die Suchmaschine 104 kann bewirken, dass die Anwendung 34 durch das Betriebssystem 30 gestartet wird.
  • Die Anwendungsprogramme 32 und 34 sind modular voneinander getrennt. Dies hat den bedeutenden Vorteil, dass jede einzelne dieser Anwendungen entfernt oder ersetzt werden kann, ohne den Systembetrieb zu beeinträchtigen. Zusätzlich dazu können weitere Anwendungen hinzugefügt werden. Jedes Mal, wenn eine Anwendung hinzugefügt wird (oder eine ersetzt wird), verfügt die neue Anwendung über ihr eigenes Betriebssystemvokabular, das bei der Installierung an das Betriebssystem geliefert wird, um das Betriebssystem zur Suche nach Befehlen zu befähigen, die für diese Anwendung relevant sind. Dies ist eine bedeutende Verbesserung gegenüber früheren Anordnungen, da keine Notwendigkeit besteht, das Betriebssystem selbst mit neuen Sprachbefehlen etc. zu aktualisieren und keine Notwendigkeit besteht, das Betriebssystem zu schulen oder irgendwelches der Spracherkennungseinrichtung 36 zugeordnetes Vokabular zu erweitern, um das System zu befähigen, zu expandieren und verbessert zu werden. Jede der ersten oder zweiten Anwendung kann entfernt werden, ohne die Leistung der anderen Anwendung zu verschlechtern.
  • Eine weitere Ausführungsform der Erfindung, die alternativ zu der Ausführungsform von 3 ist und ergänzend zu oder eine Verbesserung der Ausführungsform von 2 ist, wird in den 4 und 5 veranschaulicht.
  • Mit Bezug auf 4 ermöglicht die alternative Anordnung der Software eine erste Erkennungseinrichtung 200 (als "Erkenner A" bezeichnet) und eine zweite Erkennungseinrichtung 202 (als "Erkenner B" bezeichnet). Diese Erkennungseinrichtungen sind Mini-Anwendungen, die während der Anlaufperiode ("Start-Up") des Mikroprozessors 38 durch das Betriebssystem 30 gestartet werden. Diese Erkennungseinrichtungen sind von den Anwendungen A und B unabhängig, werden aber von den Anwendungen A und B in einer nachstehend beschriebenen Weise verwendet. An den Erkenner A ist ein kleines Vokabular 210 von Schlüsselwörtern angeschlossen, das dem Vokabular 110 von 3 ähnelt. An den Erkenner B ist ein zweites Vokabular 220 von Schlüsselwörtern angeschlossen, das dem Vokabular 120 von 3 ähnelt.
  • Im Betrieb bewirkt das Betriebssystem 30, dass die Erkenner A und B beim Start-Up des Mikroprozessors 38 gestartet werden. Dies bedeutet, dass die Erkenner A und B von dem nicht flüchtigen Speicher, wie der Festplatte, zu dem Direktzugriffsspeicher in dem Computer 10 transferiert werden. Die Anwendungen A und B werden nicht notwendigerweise zu diesem Zeitpunkt gestartet. Indem Sprache in das Mikrofon 40 eingegeben wird, werden phonetische Darstellungen der Sprache (zum Beispiel triphonische Netzwerkdarstellungen) durch das Betriebssystem 30 sowohl dem Erkenner A als auch dem Erkenner B angeboten. Diese Erkenner durchsuchen fortwährend die empfangenen phonetischen Darstellungen der eingegebenen Sprache nach Schlüsselwörtern, die als phonetische Darstellungen in dem Vokabular 210 bzw. dem Vokabular 220 gespeichert sind. Die Erkenner A und B bieten dem Betriebssystem 30 fortwährend Einstufungen an, die den Grad der Korrelation zwischen der eingegebenen Sprache und den in den jeweiligen Vokabularien 210 und 220 gespeicherten Schlüsselwörtern anzeigen. Der Vermittler 70 in dem Be triebssystem 30 (siehe 2) vergleicht die Einstufungen und führt eine Bestimmung durch, ob eine der Anwendungen A und B gestartet werden sollte. Wenn zum Beispiel die Wörter "Netscape öffnen" an dem Mikrofon 40 empfangen werden, wird somit der Erkenner A eine hohe Einstufung liefern und der Erkenner B wird eine niedrige Einstufung liefern. Zudem wird die Einstufung für den durch den Erkenner A gelieferten Befehl "Netscape öffnen" für den Vermittler 70 ausreichend hoch sein (zum Beispiel einen vorbestimmten Schwellwert übersteigend), um eine Bestimmung durchzuführen, dass die Wörter "Netscape öffnen" als Befehl zum Starten der Anwendung 32 vorgesehen sind (und beispielsweise nicht irgendein, für irgendeine andere Anwendung vorgesehener Eingabetext).
  • Bei Durchführung dieser Bestimmung startet das Betriebssystem 30 die Anwendung A. Das Starten oder Einleiten der Anwendung A bewirkt, dass diese Anwendung von dem nicht flüchtigen Speicher in den Direktzugriffsspeicher transferiert wird und die Anwendung A voll funktionsfähig wird und Verarbeitungsleistung von dem Mikroprozessor 38 zu verwenden beginnt. Währenddessen fährt die Anwendung B fort, ausschließlich in dem nicht flüchtigen Speicher zu residieren und verbraucht keinerlei Verarbeitungskapazität.
  • Sobald gestartet, fährt die Anwendung A mit der Verwendung des Erkenners A fort (über die Verbindung 202), um Erkennungsoperationen für Inhalt, der von dem Mikrofon 40 geliefert und an die Anwendung A gerichtet wird, auszuführen. Ferner kann die Anwendung A zu diesem Zeitpunkt sehr wesentlich das Vokabular ergänzen, das der Erkenner zu benutzen hat und kann Sprachmodellierungsmerkmale einführen, die vor dem Starten der Anwendung A nicht notwendigerweise erforderlich sind. Mit anderen Worten, wenn der Erkenner A nach Schlüsselwörtern sucht, benötigt der Erkenner A ein Minimum an Sprachmodellierungsfähigkeit, wohingegen die durch den Erkenner A verwendete Sprachmodellierungsfähigkeit bedeutend erhöht wird, wenn die Anwendung A gestartet wird.
  • Wenn der Erkenner B für einen in dem Vokabular 220 gespeicherten Befehl oder Satz von Wörtern an das Betriebssystem 30 eine hohe Einstufung liefert, wird das Betriebssystem 30 auf ähnliche Weise die Anwendung B starten.
  • Auf eine vollkommen analoge Weise können der Erkenner A und der Erkenner B für einen Befehl, wie "Netscape verlassen" oder "Huibi verlassen", eine hohe Einstufung an das Betriebssystem liefern, worauf das Betriebssystem 30 diese Befehle erkennen kann und das Schließen der jeweiligen Anwendung A oder B veranlassen kann.
  • Mit Bezug auf 5 werden die Anwendungen A und B, sowie die Erkenner A und B in ihrem Start-Up-Zustand in dem Computer 10 illustriert. 5 veranschaulicht einen Festplattenantrieb oder anderen nicht flüchtigen Speicher 300 und sie veranschaulicht einen Direktzugriffsspeicher 310, die beide an den Prozessor 38 gekoppelt sind. In dem nicht flüchtigen Speicher residieren die Anwendungen 32 und 34, sowie die Mini-Erkenner 200 und 202. Ferner wird in dem nicht flüchtigen Speicher 300 ein Start-Up-Programm 320 gezeigt.
  • Beim Start-Up des Prozessors 38 richtet sich der Prozessor durch Vorgabe für sein Start-Up-Programm an den nicht flüchtigen Speicher 300 und findet das Start-Up-Programm 320 vor. Das Start-Up-Programm 320 bewirkt, dass die Erkenner 200 und 202 durch den Prozessor 38 in den Di rektzugriffsspeicher 310 geladen werden. Diese Erkenner werden als in dem Direktzugriffsspeicher 310 residierende Erkenner 200' und 202' gezeigt. Die Anwendungen 32 und 34 sind noch nicht in den Direktzugriffsspeicher 310 geladen worden und nehmen zu diesem Zeitpunkt keinen wertvollen Speicherplatz in Anspruch. Ebenso benutzen sie keine Prozessorleistung von dem Prozessor 38. Die Anwendungen A und B sind sehr viel größer als ihre jeweiligen Erkenner 200 und 202, deshalb ist es zulässig, die Erkenner ohne Laden der vollständigen Anwendungen in den Direktzugriffsspeicher zu laden. Wenn einer der Erkenner 200' und 202' für einen Befehl, der für die entsprechende Anwendung des Erkenners relevant ist, eine hohe Einstufung bereitstellt, bewirkt der Prozessor 38, dass diese Anwendung von dem nicht flüchtigen Speicher 300 in den Direktzugriffsspeicher 310 transferiert wird.
  • Die obige Beschreibung der bevorzugten Ausführungsformen ist lediglich als Beispiel abgegeben worden, und Detailmodifikationen können von einem Fachmann durchgeführt werden, ohne von dem in den beigefügten Ansprüchen definierten Rahmen der Erfindung abzuweichen.

Claims (9)

  1. Verfahren zum Betreiben eines Computers mit einem Betriebssystem und wenigstens zwei Anwendungsprogrammen, umfassend: Eingeben von Sprachbefehlen; Vergleichen der eingegebenen Sprachbefehle mit Darstellungen der Sprachbefehle, die jedem Anwendungsprogramm zugeordnet sind, um ein Erkennungsergebnis entsprechend jedem Anwendungsprogramm zur Verfügung zu stellen; Liefern des Erkennungsergebnisses von jedem Anwendungsprogramm an das Betriebssystem; Identifizieren eines Anwendungsprogramms, welches sich im Vordergrund befindet, und wenigstens eines Anwendungsprogramms, welches sich im Hintergrund befindet, basierend auf den Erkennungsergebnissen; gekennzeichnet durch selektives Zulassen eines speziellen Anwendungsprogramms der wenigstens zwei Anwendungsprogramme, basierend darauf, ob sich das spezielle Anwendungsprogramm im Vordergrund oder im Hintergrund befindet, um auf die Sprachbefehle zu handeln.
  2. Verfahren nach Anspruch 1, das weiterhin das Erzeugen von Phonemnetzwerken umfasst, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das Anwendungsprogramm.
  3. Verfahren nach Anspruch 2, wobei die Phonemnetzwerke kontextabhängige Phonemnetzwerke sind.
  4. Verfahren nach Anspruch 1, wobei die eingegebenen Sprachbefehle mit Darstellungen der dem ersten und dem zweiten Anwendungsprogramm zugeordneten Sprachbefehle im Wesentlichen gleichzeitig verglichen werden, um erste und zweite Erkennungsergebnisse zu liefern.
  5. Verfahren nach Anspruch 4, wobei der Schritt des selektiven Zulassens das Zulassen von entweder dem ersten oder dem zweiten Anwendungsprogramm bevorzugt gegenüber dem anderen des ersten und zweiten Anwendungsprogramms umfasst.
  6. Verfahren nach Anspruch 5, wobei der Schritt des selektiven Zulassens das Vermitteln zwischen dem ersten und zweiten Anwendungsprogramm als eine Funktion eines aktuellen Betriebszustandes des ersten und zweiten Anwendungsprogramms umfasst.
  7. Verfahren nach Anspruch 4, das weiterhin das Erzeugen von Phonemnetzwerken umfasst, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das erste und zweite Anwendungsprogramm.
  8. Verfahren nach Anspruch 7, wobei die Phonemnetzwerke kontextabhängige Phonemnetzwerke sind.
  9. Verfahren nach einem der vorangehenden Ansprüche, wobei der Schritt des selektiven Zulassens den Schritt des Anweisens von wenigstens einem verbleibenden Anwendungsprogramm enthält, die Sprachbefehle zu ignorieren.
DE69910928T 1998-04-01 1999-03-11 Spracherkennungsverfahren mit mehreren anwendungsprogrammen Expired - Fee Related DE69910928T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/053,432 US6233559B1 (en) 1998-04-01 1998-04-01 Speech control of multiple applications using applets
PCT/US1999/005339 WO1999050831A1 (en) 1998-04-01 1999-03-11 Computer operating system with voice recognition
US53432 2002-01-17

Publications (2)

Publication Number Publication Date
DE69910928D1 DE69910928D1 (de) 2003-10-09
DE69910928T2 true DE69910928T2 (de) 2004-05-06

Family

ID=21984190

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69910928T Expired - Fee Related DE69910928T2 (de) 1998-04-01 1999-03-11 Spracherkennungsverfahren mit mehreren anwendungsprogrammen

Country Status (8)

Country Link
US (1) US6233559B1 (de)
EP (1) EP0986809B1 (de)
CN (1) CN1109328C (de)
AU (1) AU3080599A (de)
CA (1) CA2289836A1 (de)
DE (1) DE69910928T2 (de)
HK (1) HK1029208A1 (de)
WO (1) WO1999050831A1 (de)

Families Citing this family (315)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020008751A1 (en) * 1998-03-25 2002-01-24 Stephen L. Spurgeon Decorating system for edible items
US7082397B2 (en) * 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
JP2000276482A (ja) * 1999-03-25 2000-10-06 Matsushita Electric Ind Co Ltd 文書検索装置及び文書検索方法
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
JP2003515778A (ja) * 1999-12-02 2003-05-07 トムソン ライセンシング ソシエテ アノニム 別々の言語モデルによる音声認識方法及び装置
US7024363B1 (en) * 1999-12-14 2006-04-04 International Business Machines Corporation Methods and apparatus for contingent transfer and execution of spoken language interfaces
EP1215662A4 (de) * 2000-02-28 2005-09-21 Sony Corp Spracherkennungseinrichtung sowie verfahren und aufzeichnungsmedium
AU2001241966A1 (en) * 2000-03-06 2001-10-15 Conita Technologies, Inc. Personal virtual assistant
US6466654B1 (en) * 2000-03-06 2002-10-15 Avaya Technology Corp. Personal virtual assistant with semantic tagging
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10021389A1 (de) 2000-05-03 2001-11-08 Nokia Mobile Phones Ltd Verfahren zum Steuern eines Systems, insbesondere eines elektrischen und/oder elektronischen Systems mit zumindest einer Anwendungseinrichtung
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
US6728676B1 (en) * 2000-10-19 2004-04-27 International Business Machines Corporation Using speech recognition to improve efficiency of an inventory task
US6950793B2 (en) * 2001-01-12 2005-09-27 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7127402B2 (en) * 2001-01-12 2006-10-24 International Business Machines Corporation Method and apparatus for converting utterance representations into actions in a conversational system
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US7127401B2 (en) * 2001-03-12 2006-10-24 Ge Medical Systems Global Technology Company, Llc Remote control of a medical device using speech recognition and foot controls
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US7970648B2 (en) * 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7203645B2 (en) * 2001-04-27 2007-04-10 Intel Corporation Speech recognition system loading different recognition engines for different applications
US7698228B2 (en) 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US6944594B2 (en) * 2001-05-30 2005-09-13 Bellsouth Intellectual Property Corporation Multi-context conversational environment system and method
ITFI20010199A1 (it) * 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
ES2268366T3 (es) * 2002-01-17 2007-03-16 Siemens Aktiengesellschaft Reconocedor de voz y procedimiento de funcionamiento para el mismo.
US8374879B2 (en) * 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7139713B2 (en) * 2002-02-04 2006-11-21 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
US7257776B2 (en) 2002-02-05 2007-08-14 Microsoft Corporation Systems and methods for scaling a graphical user interface according to display dimensions and using a tiered sizing schema to define display objects
US7603627B2 (en) * 2002-02-05 2009-10-13 Microsoft Corporation Systems and methods for creating and managing graphical user interface lists
US7587317B2 (en) * 2002-02-15 2009-09-08 Microsoft Corporation Word training interface
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8020114B2 (en) * 2002-06-07 2011-09-13 Sierra Wireless, Inc. Enter-then-act input handling
US6910911B2 (en) 2002-06-27 2005-06-28 Vocollect, Inc. Break-away electrical connector
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7421390B2 (en) * 2002-09-13 2008-09-02 Sun Microsystems, Inc. Method and system for voice control of software applications
US7461352B2 (en) * 2003-02-10 2008-12-02 Ronald Mark Katsuranis Voice activated system and methods to enable a computer user working in a first graphical application window to display and control on-screen help, internet, and other information content in a second graphical application window
US7571102B2 (en) * 2003-04-29 2009-08-04 Ford Motor Company Controller for use with a motor vehicle
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
EP1631899A4 (de) * 2003-06-06 2007-07-18 Univ Columbia System und verfahren zur sprachaktivierung von web-seiten
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US20050010418A1 (en) * 2003-07-10 2005-01-13 Vocollect, Inc. Method and system for intelligent prompt control in a multimodal software application
US20050010892A1 (en) * 2003-07-11 2005-01-13 Vocollect, Inc. Method and system for integrating multi-modal data capture device inputs with multi-modal output capabilities
US7307615B2 (en) * 2003-08-08 2007-12-11 Lucent Technologies Inc. Method and apparatus for voice-controlled graphical user interface pointing device
CN1303582C (zh) * 2003-09-09 2007-03-07 摩托罗拉公司 自动语音归类方法
US7634720B2 (en) * 2003-10-24 2009-12-15 Microsoft Corporation System and method for providing context to an input method
US8001479B2 (en) * 2004-02-03 2011-08-16 Ronald Mark Katsuranis System and methods to access computer files and position and control application window(s) on a graphical user interface
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
FR2871978B1 (fr) * 2004-06-16 2006-09-22 Alcatel Sa Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede
US8942985B2 (en) * 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
DE102005016853A1 (de) * 2005-04-12 2006-10-19 Siemens Ag Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7848928B2 (en) * 2005-08-10 2010-12-07 Nuance Communications, Inc. Overriding default speech processing behavior using a default focus receiver
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
EP1915677A2 (de) 2005-08-11 2008-04-30 Philips Intellectual Property & Standards GmbH Verfahren zum ansteuern eines interaktiven systems und benutzerschnittstellensystem
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) * 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8620667B2 (en) * 2005-10-17 2013-12-31 Microsoft Corporation Flexible speech-activated command and control
US8577682B2 (en) * 2005-10-27 2013-11-05 Nuance Communications, Inc. System and method to use text-to-speech to prompt whether text-to-speech output should be added during installation of a program on a computer system normally controlled through a user interactive display
CN101326571B (zh) * 2005-12-07 2012-05-23 三菱电机株式会社 声音识别装置
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US8346555B2 (en) 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US7949536B2 (en) * 2006-08-31 2011-05-24 Microsoft Corporation Intelligent speech recognition of incomplete phrases
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
TWI345218B (en) * 2007-04-20 2011-07-11 Asustek Comp Inc Portable computer with function for identiying speech and processing method thereof
US8150699B2 (en) * 2007-05-17 2012-04-03 Redstart Systems, Inc. Systems and methods of a structured grammar for a speech recognition command system
US8538757B2 (en) * 2007-05-17 2013-09-17 Redstart Systems, Inc. System and method of a list commands utility for a speech recognition command system
US9794348B2 (en) 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8688459B2 (en) * 2007-10-08 2014-04-01 The Regents Of The University Of California Voice-controlled clinical information dashboard
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
USD626949S1 (en) 2008-02-20 2010-11-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8010465B2 (en) 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8849672B2 (en) * 2008-05-22 2014-09-30 Core Wireless Licensing S.A.R.L. System and method for excerpt creation by designating a text segment using speech
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8386261B2 (en) 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20130219333A1 (en) * 2009-06-12 2013-08-22 Adobe Systems Incorporated Extensible Framework for Facilitating Interaction with Devices
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US9600135B2 (en) 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US9171551B2 (en) * 2011-01-14 2015-10-27 GM Global Technology Operations LLC Unified microphone pre-processing system and method
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
WO2012169679A1 (ko) * 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
WO2013022135A1 (en) * 2011-08-11 2013-02-14 Lg Electronics Inc. Electronic device and method of controlling the same
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8924219B1 (en) * 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
US9183835B2 (en) * 2011-10-18 2015-11-10 GM Global Technology Operations LLC Speech-based user interface for a mobile device
US9159322B2 (en) * 2011-10-18 2015-10-13 GM Global Technology Operations LLC Services identification and initiation for a speech-based interface to a mobile device
US20130212478A1 (en) * 2012-02-15 2013-08-15 Tvg, Llc Audio navigation of an electronic interface
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9715879B2 (en) * 2012-07-02 2017-07-25 Salesforce.Com, Inc. Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device
US9106957B2 (en) * 2012-08-16 2015-08-11 Nuance Communications, Inc. Method and apparatus for searching data sources for entertainment systems
US9026448B2 (en) 2012-08-16 2015-05-05 Nuance Communications, Inc. User interface for entertainment systems
US9031848B2 (en) 2012-08-16 2015-05-12 Nuance Communications, Inc. User interface for searching a bundled service content data source
US8799959B2 (en) 2012-08-16 2014-08-05 Hoi L. Young User interface for entertainment systems
US9497515B2 (en) 2012-08-16 2016-11-15 Nuance Communications, Inc. User interface for entertainment systems
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9570076B2 (en) * 2012-10-30 2017-02-14 Google Technology Holdings LLC Method and system for voice recognition employing multiple voice-recognition techniques
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
US20140282272A1 (en) * 2013-03-15 2014-09-18 Qualcomm Incorporated Interactive Inputs for a Background Task
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
US9431008B2 (en) * 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
US9997160B2 (en) * 2013-07-01 2018-06-12 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for dynamic download of embedded voice components
US10186262B2 (en) 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
RU2654789C2 (ru) 2014-05-30 2018-05-22 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10210003B2 (en) * 2014-09-30 2019-02-19 Nuance Communications, Inc. Methods and apparatus for module arbitration
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US20160225369A1 (en) * 2015-01-30 2016-08-04 Google Technology Holdings LLC Dynamic inference of voice command for software operation from user manipulation of electronic device
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
WO2017132660A1 (en) * 2016-01-29 2017-08-03 Liquid Analytics, Inc. Systems and methods for dynamic prediction of workflows
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049670B2 (en) * 2016-06-06 2018-08-14 Google Llc Providing voice action discoverability example for trigger term
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10261752B2 (en) * 2016-08-02 2019-04-16 Google Llc Component libraries for voice interaction services
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11423215B2 (en) 2018-12-13 2022-08-23 Zebra Technologies Corporation Method and apparatus for providing multimodal input data to client applications
CN112073777B (zh) * 2019-06-10 2022-06-28 海信视像科技股份有限公司 一种语音交互方法及显示设备
US11978449B2 (en) * 2021-03-02 2024-05-07 Samsung Electronics Co., Ltd. Electronic device for processing user utterance and operation method therefor

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
EP0607615B1 (de) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
US5689617A (en) * 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
US5677991A (en) * 1995-06-30 1997-10-14 Kurzweil Applied Intelligence, Inc. Speech recognition system using arbitration between continuous speech and isolated word modules
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer

Also Published As

Publication number Publication date
EP0986809A1 (de) 2000-03-22
WO1999050831A1 (en) 1999-10-07
EP0986809B1 (de) 2003-09-03
HK1029208A1 (en) 2001-03-23
CN1262762A (zh) 2000-08-09
US6233559B1 (en) 2001-05-15
CA2289836A1 (en) 1999-10-07
CN1109328C (zh) 2003-05-21
AU3080599A (en) 1999-10-18
DE69910928D1 (de) 2003-10-09

Similar Documents

Publication Publication Date Title
DE69910928T2 (de) Spracherkennungsverfahren mit mehreren anwendungsprogrammen
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69829235T2 (de) Registrierung für die Spracherkennung
DE60122352T2 (de) Augenverfolgung für kontextabhängige spracherkennung
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
EP1611568B1 (de) Dreistufige einzelworterkennung
DE112009004313B4 (de) Stimmerkennungseinrichtung
DE112014005354T5 (de) Dialog-management-system und dialog-management-verfahren
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE102017124264A1 (de) Bestimmen phonetischer Beziehungen
DE60212725T2 (de) Verfahren zur automatischen spracherkennung
DE60102993T2 (de) Architektur einer Rechnergrundplatine
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE10311581A1 (de) Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
DE10011178A1 (de) Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
EP0814457B1 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee