DE69910928T2 - Spracherkennungsverfahren mit mehreren anwendungsprogrammen - Google Patents
Spracherkennungsverfahren mit mehreren anwendungsprogrammen Download PDFInfo
- Publication number
- DE69910928T2 DE69910928T2 DE69910928T DE69910928T DE69910928T2 DE 69910928 T2 DE69910928 T2 DE 69910928T2 DE 69910928 T DE69910928 T DE 69910928T DE 69910928 T DE69910928 T DE 69910928T DE 69910928 T2 DE69910928 T2 DE 69910928T2
- Authority
- DE
- Germany
- Prior art keywords
- application
- application program
- voice commands
- operating system
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000008569 process Effects 0.000 title description 3
- 238000004590 computer program Methods 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Stored Programmes (AREA)
- Machine Translation (AREA)
Description
- Gebiet der Erfindung
- Die Erfindung betrifft ein Computer-Betriebssystem mit Spracherkennung.
- Hintergrund der Erfindung
- Mit der starken Verbreitung von Computern und Rechnergeräten in der gesamten Gesellschaft wird alternativen Verfahren der Dateneingabe zum Ersetzen traditioneller Tastaturen immer mehr Aufmerksamkeit geschenkt. Es sind zahlreiche Computerprogramme verfügbar, die Spracherkennung durchführen. Die meisten dieser Computerprogramme sind "Anwendungen", das heißt Computerprogramme, in denen die Funktionalität und der Betrieb eines Programms speziell für das Programm auf einen fest zugeordneten Zweck zugeschnitten sind. Folglich sind beispielsweise Diktieranwendungen bekannt, welche die Sprache eines Anwenders als Eingabe an nehmen und bewirken, dass entsprechend der Spracheingabe durch den Anwender auf eine dem Textprozessor ähnliche Weise Text in ein Dokument eingegeben wird. Ein weiteres Beispiel einer Spracherkennungsanwendung wäre ein Steuerungsprogramm zum Steuern eines Geräteelements, beispielsweise zum Wählen von Telefonnummern bei einem Freisprech ("handsfree")-Funktelefon. Bei einer derartigen Anwendung würde der Anwender die zu wählenden Stellen aussprechen und würde zum Beispiel den Befehl "Senden" aussprechen, was das zellulare Funktelefon zum Wählen der gesprochenen Nummer veranlassen würde. Dies sind Beispiele von fest zugeordneten Spracherkennungsanwendungen.
- In der Veröffentlichung "Augmenting a Window System with Speech Input" von C. Schmandt, M. S. Acherman und D. Hindus in Computer, Ausgabe 23, Nr. 8, Seiten 50–60, August 1990, wird eine Spracherkennungsanwendung zum Steuern von Fensternavigationsaufgaben beschrieben. Die mit "X Speak" betitelte Anwendung ist eine Sprachschnittstelle zu einem X-Fenstersystem, in dem Wörter Fenstern zugeordnet sind. Das Aussprechen des Namens eines Fensters bewegt es an die Front des Computerbildschirms und bewegt den Cursor in dieses Fenster. Die X-Sprach-Anwendung übernimmt einige der Funktionen, die normalerweise einer Maus zugeordnet sind. Verschiedene Befehle werden beschrieben, wie "Erstellen" ("create"), zum Starten einer Anwendung, "Wiederaufruf" ("recall"), um ein Fenster auf dem Fensterstapel nach oben neu zu positionieren, und "Verbergen" ("hide"), um ein Fenster in dem Fensterstapel nach unten neu zu positionieren. Es existieren auch Befehle, um Fenster in der Größe anzupassen ("resizing") und neu zu positionieren etc. Die Verfasser der Veröffentlichung geben zu, das irgendein er gonomischer Wirkungsgrad von der Verwendung der Fensternavigationsaufgaben-Anwendung begrenzt oder nicht existent ist.
- Ein Nachteil bei bestehenden Spracherkennungsanwendungen ist ihre fehlende Flexibilität. Bei einer typischen Spracherkennungsanwendung ist der Anwendung ein Vokabular erkennbarer Wörter zugeordnet. Die Erkennungseinrichtung versucht, in ihrem Vokabular befindliche Wörter zu erkennen. Es können Techniken bereitgestellt werden, um zu versuchen, nicht in dem Vokabular befindliche Wörter zu erkennen. Vokabularien können erweitert oder ersetzt werden, um die Leistung der Erkennungsoperation auf den Anwender zuzuschneiden.
- Im Falle der X-Sprach-Anwendung, die ein, einem Betriebssystem zugeordnetes Hilfsprogramm ist, existiert ein zugehöriger Satz möglicher Befehle, die erkannt werden können. Der verfügbare Satz von Befehlen ist in die Anwendung einprogrammiert. Dies erzeugt ein Fehlen an Flexibilität und ist nicht besonders geeignet für fortschrittliche Personalcomputer mit Mehrfachanwendung und ähnliches Gerät, bei denen von Zeit zu Zeit neue Anwendungen in das Gerät geladen werden und bei denen viele Anwendungen aufeinander folgend laufen gelassen werden können.
- Es besteht der Wunsch nach einer allgegenwärtigeren Spracherkennungsschnittstelle, das potentiell in der Lage ist, zumindest teilweise sowohl ein Keyboard für die Datenund Befehlseingabe als auch eine Maus für die Bildschirmnavigation zu ersetzen.
- Das Dokument US-A-5677991 offenbart ein Spracherkennungssystem, wobei eine eingegebene Äußerung sowohl an ein Spracherkennungsmodul mit großem Einzelwortvokabular als auch ein Spracherkennungsmodul mit kleinem Verbundssprach-Vokabular übermittelt wird. Ein Vermittlungsalgorithmus trifft unter den durch die Erkennungsmodule identifizierten Kandidaten die Auswahl.
- Größere Flexibilität für Anwendungsentwickler, die ihre Anwendungen sprachbefähigen möchten, wird durch eine Programmierschnittstelle für Sprachanwendung (speech application programming interface ("SAPI")) von der Microsoft Corporation bereitgestellt, die es einer Allzweck-Sprachsuchmaschine gestattet, Befehle von unterschiedlichen Anwendungen zu erkennen. Es wird keine Vorkehrung zum Richten von Sprache an irgendeine andere als die aktuell im Fokus befindliche Anwendung oder zur Handhabung mehrerer sprachbefähigter Anwendungen getroffen. Es wird keine Vorkehrung zum Erkennen von Befehlen für eine Anwendung getroffen, die noch nicht aktiviert und zum ersten Mal laufen gelassen worden ist.
- Es besteht ein Bedarf, dass die Sprachschnittstelle Sprache an mehrere Anwendungen richtet oder an Anwendungen, die neu installiert sind und noch nicht betrieben worden sind.
- Ferner ist es ein Problem, dass Sprache sowohl Betriebssystembefehle (z. B. "Fenster minimieren", "Fenster schließen") als auch an die Anwendung gerichtete Sprachbefehle (z. B. "Diktat beginnen") und an die Anwendung gerichteten Inhalt (z. B. "Memo an Herrn Jones") enthalten kann. Es besteht eine Notwendigkeit zum Bestimmen des angemessensten Bestimmungsortes für die Sprache, was nicht leicht getan werden kann, ohne Erkennung durchzuführen, die vorzugsweise auf die potentielle Aufgabe zugeschnitten sein muss, an welche die Sprache gerichtet werden kann. Hierfür ist ein für die Aufgabe spezifisches Vokabular- und Sprachmodell (oder dessen Äquivalent) wünschenswert. Gemäß der Erfindung wird ein Verfahren zum Betreiben eines Computers bereitgestellt, wie in Anspruch 1 dargelegt.
- Kurze Beschreibung der Zeichnungen
-
1 zeigt einen typischen Personalcomputer mit mehreren auf einem Bildschirm angezeigten Anwendungspiktogrammen bzw. -ikons, der zur Implementierung der Erfindung geeignet ist. -
2 ist ein Blockdiagramm eines Satzes von Computerprogrammen gemäß der Erfindung. -
3 ist ein Prozess-Flussdiagramm, das eine alternative Ausführungsform der Erfindung veranschaulicht. -
4 ist ein Prozess-Flussdiagramm, das eine Ausführungsform der Erfindung veranschaulicht, die alternativ zu der Ausführungsform von3 ist. -
5 ist ein Hardware-Blockdiagramm, das weiterhin die Ausführungsform von4 veranschaulicht. - Beschreibung einer bevorzugten Ausführungsform
- Nun wird eine Architektur beschrieben, in der mehrere Anwendungen mit Spracherkennungsfähigkeit die Möglichkeit haben, dem Betriebssystem anzuzeigen, ob eine vorgegebene Spracheingabe für die einzelnen Anwendungen nützlich ist. Ein Vorteil davon ist, dass eine Anwendung zum Treffen einer Feststellung der Relevanz einer gewissen Sprache für die Anwendung besser gelegen ist, als das Betriebssystem. Es kann besser entschieden werden, ob die Sprache an das Betriebssystem oder an eine bestimmte Anwendung gerichtet werden soll.
- Es wird ein Computer
10 gezeigt, der einen Bildschirm12 aufweist, auf dem verschiedene Ikons und Fenster gezeigt werden. Der Computer wird so gezeigt, dass er ein Ikon14 aufweist, das einen in dem Computer10 befindlichen Festplattenantrieb darstellt und ein erstes Anwendungsikon16 , das eine in dem Computer10 gespeicherte erste Anwendung darstellt und ein zweites Anwendungsikon18 , das eine in dem Computer10 gespeicherte zweite Anwendung darstellt. Die erste Anwendung hat den Namen "Anw A" und die zweite Anwendung hat den Namen "Anw B". Ferner werden auf dem Bildschirm12 ein erstes Fenster20 und eine zweites Fenster22 gezeigt. Das erste Fenster20 ist im Fokus in dem Sinne, dass es sich im Vordergrund befindet und das aktuell aktive Fenster ist. Das zweite Fenster22 ist außerhalb des Fokus in dem Sinne, dass es sich im Hintergrund befindet. Zu Beschreibungszwecken wird das Beispiel herangezogen, wo das erste Fenster20 ein Eingabe/Ausgabe-Schnittstellenfenster für die Anwendung A ist und das zweite Fenster22 ein Eingabe/Ausgabe-Anwenderschnittstellenfenster für die Anwendung B ist. - Bei einem typischen Betrieb gemäß dem Stand der Technik wird das Fenster
20 durch Bewegen eines Mauscursors zu dem Ikon16 und durch doppeltes Anklicken des Ikons16 erzeugt. Auf ähnliche Weise wird das zweite Fenster22 typischerweise durch Bewegen eines Mauscursors zu dem Ikon18 und durch doppeltes Anklicken dieses Ikons erzeugt. Doppeltes Anklicken eines Ikons bewirkt, dass die durch das Ikon dargestellte Anwendung aufgerufen oder "gestartet" wird. Anschließend bewirkt ein Einzelklick des Mauscursors entwe der auf das Ikon oder sein entsprechendes Fenster, dass das Fenster in den Vordergrund kommt. Selbstverständlich können mehrere Fenster existieren, die einer einzigen Anwendung entsprechen. - In
1 wird ein Mikrofon40 gezeigt, das Sprachbefehle als Spracheingabe empfangen kann. Die Sprachbefehle können bewirken, dass innerhalb der Anwendung A oder der Anwendung B Operationen ausgeführt werden. Die Spracheingabe kann bewirken, dass Text oder andere Informationen in durch die Anwendung A oder die Anwendung B angelegte Dateien eingegeben werden. Die vorliegende Erfindung spricht das Problem des Entscheidens an, an welche Anwendung Sprachbefehle oder Spracheingaben gerichtet werden sollten. - Mit Bezug auf
2 wird nun ein Satz von Computerprogrammen veranschaulicht, der ein Betriebssystem30 , eine erste Anwendung32 , eine zweite Anwendung34 und einen Phonemnetzwerk-Generator36 enthält. Dieser Satz von Computerprogrammen wird in einen Mikroprozessor38 geladen, der in dem Computer10 residiert. Mit dem Mikroprozessor38 ist über einen Analog/Digital-Wandler39 ein Mikrofon40 verbunden. Mit dem Mikroprozessor38 ist auch ein Speicher42 verbunden, der ein Direktzugriffsspeicher sein kann, aber vorzugsweise ein Nur-Lese-Speicher ist. In dem Speicher42 sind jeweils der ersten und der zweiten Anwendung32 und34 zugeordnete erste und zweite Vokabularien44 und46 und erste und zweite Sprachmodelle48 und50 gespeichert. - Der Phonemnetzwerk-Generator
36 ist vorzugsweise ein kontextabhängiger (context dependent ("CD")) Phonemnetzwerk-Generator, wie in der Patentveröffentlichung Nummer W099/28899 von Sreeram Balakrishnan et. al. unter dem Titel "Context Dependent Phoneme Networks for Encoding Speech In formation" beschrieben. Alternativ dazu ist der Phonemnetzwerk-Generator36 kontextunabhängig. - Bezüglich der Einzelheiten der in den Mikroprozessor
38 implementierten Programme umfasst der Phonemnetzwerk-Generator36 einen an den Analog/Digital-Wandler39 gekoppelten Eingang60 . Ein Merkmalextraktionsprogrammmodul62 ist an den Eingang60 gekoppelt und ein (vorzugsweise ein Viterbi Decoder) Programmmodul64 ist an das Merkmalextraktionsprogrammmodul62 gekoppelt. Der Decoder64 weist einen über eine Anwendungsprogrammierschnittstelle (application programming interface ("API"))35 des Betriebssystems30 an die erste und die zweite Anwendung32 bzw.34 gekoppelten Ausgang auf. - Die erste Anwendung
32 weist ein Such-Applet33 auf, das in der Lage ist, das erste Vokabular44 und das erste Sprachmodell48 aufzurufen. Die zweite Anwendung34 weist ein Such-Applet37 auf, das in der Lage ist, das zweite Vokabular46 und das zweite Sprachmodell50 aufzurufen. Jedes Vokabular weist Wörter oder Zeichen auf, die potentiell durch die jeweilige Anwendung erkannt werden müssen. Jedes Sprachmodell weist Wörter oder Kombinationen von Wörtern, Buchstaben oder Zeichen auf, deren Gebrauch bei dieser Anwendung üblich ist. Es kann (und es wird tatsächlich) Wörter oder Zeichen geben, die beiden Anwendungen gemein sind. - Das Beispiel wird erwogen werden, wo die Anwendung A "Netscape" TM ist und die Anwendung B WisdomPen TM ist. In dem ersten Vokabular
44 gibt es Befehle, die für einen Browser nützlich sind, wie "Starten", "Öffnen, "Zurückgehen", "Suchen", "Ausgangsstellung" und "Netscape", und in dem zweiten Vokabular46 gibt es Befehle, die für eine Handschriften-Erkennungseinrichtung nützlich sind, wie "Starten" "Öffnen" "nächstes Zeichen" "Phrase" "Redigieren", "WisdomPen" etc. Zu beachten ist, dass der Befehl "Starten" beiden Vokabularien gemein ist. Zu beachten ist, dass die Wortkombination "Netcape starten" nur das erste Vokabular44 betrifft, während "WisdomPen starten" nur das zweite Vokabular46 betrifft. Selbst wenn diese Wortkombinationen nicht einmalig sind, ist zu beachten, dass das erste Sprachmodell48 der Wortkombination "Netscape starten" eine hohe Wahrscheinlichkeitseinstufung gibt und der Wortkombination "WisdomPen starten" eine niedrige Wahrscheinlichkeitseinstufung gibt. Zu beachten ist ferner, dass das zweite Sprachmodell50 der Wortkombination "WisdomPen starten" eine hohe Wahrscheinlichkeitseinstufung gibt und der Kombination "Netscape starten" eine niedrige Wahrscheinlichkeitseinstufung gibt. - Im Betrieb spricht der Anwender einen Befehl in das Mikrofon
40 , seine Sprache wird in dem A/D-Wandler39 digitalisiert und Merkmale werden in dem Merkmalextraktionsprogrammmodul62 extrahiert. Der Decoder64 erzeugt von den extrahierten Merkmalen ein CD-Phonemnetzwerk und gibt (auf der API35 ) Daten aus, die für ein vorgegebenes Phonem die Identitäten der vorherigen und nachfolgende Phoneme, die Identität des gegenwärtigen Phonems, die Dauer des gegenwärtigen Phonems und die Einstufung des gegenwärtigen Phonems (oder Einstufungen für eine kleine Anzahl von alternativen Phonemen) darstellen. Das so erzeugte CD-Netzwerk wird gleichzeitig an die Such-Applets33 und37 der Anwendungen32 und34 gesendet (oder von diesen aufgenommen). Unter Verwendung der Daten in den Vokabularien44 und46 und der Sprachmodelle48 und50 stellt jedes der Applets33 und37 ein Ergebnis ihrer Erkennungsoperation zur Verfü gung, das zumindest eine "Einstufung" oder ein "Vertrauensniveau" für die Erkennung enthält. Diese Einstufungen werden durch die Anwendungen32 und34 über die API-Ausgänge71 bzw.72 an einen Vermittler70 in dem Betriebssystem30 geliefert. Der Vermittler70 bestimmt, welche der mehreren Anwendungen auf die eingegebene Sprache hin zu handeln hat. - In seiner einfachsten Form bestimmt der Vermittler
70 , dass die, die höchste Erkennungseinstufung aufweisende Anwendung die eingegebene Sprache erhalten und daraufhin handeln wird. - Wenn beispielsweise die eingegebene Sprache "Zurückgehen" oder "Netscape starten" ist, wird folglich der Vermittler
70 über den Steuerungsausgang73 die Anwendung A informieren, dass die Anwendung A auf die eingegebene Sprache hin zu handeln hat und wird über den Steuerungsausgang74 die Anwendung B informieren, dass sie die eingegebene Sprache zu ignorieren hat. Wenn andererseits die eingegebene Sprache "WisdomPen starten" oder "Redigieren" ist, wird es die Anwendung B sein, die auf diese Eingabe hin handeln darf. Die in Erwiderung auf die Eingabe hin vorgenommene Handlung kann das Starten der Anwendung enthalten, das in den Vordergrund Bringen des Fensters der Anwendung, die Zustandsveränderung innerhalb der Anwendung, das Eingeben der Daten in eine Datei innerhalb der Anwendung oder andere Operationen. - In einer fortgeschritteneren Form ist der Vermittler
70 kontextabhängig, z. B. gibt er einer im Fokus befindlichen Anwendung eine höhere Priorität als einer Anwendung, außerhalb des Fokus. Ein höheres Schwellwertniveau an Vertrauen in die Erkennung muss überschritten werden, um eingegebene Sprache an eine Anwendung außerhalb des Fokus zu richten, und ein niedrigeres Schwellwertniveau an Vertrauen wird zulassen, dass eingegebene Sprache an die aktuelle Anwendung gerichtet wird. Alternativ oder zusätzlich dazu unterscheidet der Vermittler70 zwischen Befehlen und eingegebenen Daten oder er unterscheidet zwischen unterschiedlichen Befehlstypen. Zum Beispiel wird ein Schlüsselsatz von Befehlen ("Starten", "Öffnen", "Verlassen") durch den Vermittler70 leichter an eine Anwendung außerhalb des Fokus gerichtet (d. h. sogar bei niedrigeren Vertrauensniveau), wenn von einem hohen Vertrauensniveauindikator (z. B. "Netscape" oder "WisdomPen") begleitet, als andere Befehle oder Eingaben. Um dies zu bewerkstelligen, kann der Schlüsselsatz von Befehlen in dem Vermittler70 gespeichert werden. - Auf diese Weise weist jede der Anwendungen
32 ,34 (und zusätzliche Anwendungen) bis hin zu dem Betriebssystem30 eine Anforderung für das Betriebssystem30 auf, im Vorzug gegenüber anderen Anwendungen, der Anwendung zu vermitteln und erlauben eingehende Sprache zu empfangen und daraufhin zu handeln. - Somit ist ein Prozessor
38 beschrieben worden, der folgendes umfasst: einen Eingang 60 zum Empfangen von Sprachbefehlen; ein Betriebssystem30 mit einem Vermittler70 ; und ein, zwei oder mehrere Anwendungsprogramme32 ,34 unter der Steuerung des Betriebssystems. Die Anwendungsprogramme sind modular von dem Betriebssystem getrennt. Die oder jede Anwendung weist eine Spracherkennungseinrichtung33 ,37 auf zum Erkennen von Sprachbefehlen und zum Anbieten von Erkennungsinformationen71 ,72 , welche die Fähigkeit der Spracherkennungseinrichtung zum Erkennen der Sprachbefehle anzeigen, an den Vermittler70 . - Vorzugsweise sind die Erkennungsinformationen von dem Vokabular
44 und dem Sprachmodell48 des Anwendungsprogramms abhängig. - Ein Betriebsverfahren eines Computers ist ebenfalls beschrieben worden. Das Verfahren umfasst: das Eingeben von Sprachbefehlen; das Vergleichen der eingegebenen Sprachbefehle mit Darstellungen der dem Anwendungsprogramm zugeordneten Sprachbefehle, um ein Erkennungsergebnis zur Verfügung zu stellen; das Liefern des Erkennungsergebnisses an das Betriebssystem; und selektives Zulassen des Anwendungsprogramms zum Handeln auf die Sprachbefehle hin abhängig von dem Erkennungsergebnis.
- Vorzugsweise umfasst das Verfahren weiterhin das Erzeugen, in Zusammenarbeit mit dem Betriebssystem, von Phonemnetzwerken, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das Anwendungsprogramm. Die Phonemnetzwerke sind vorzugsweise kontextabhängige Phonemnetzwerke.
- In der bevorzugten Ausführungsform werden die eingegebenen Sprachbefehle mit Darstellungen der den ersten und zweiten Erkennungsergebnissen zugeordneten Sprachbefehle verglichen, und der Schritt des selektiven Zulassens umfasst das Zulassen von entweder dem ersten oder dem zweiten Anwendungsprogramm, um in Abhängigkeit des Ergebnisses gegenüber dem anderen Anwendungsprogramm bevorzugt als eine Funktion eines aktuellen Betriebszustandes des ersten und zweiten Anwendungsprogramms zu handeln.
- Mit Bezug auf
3 wird nun eine Anordnung veranschaulicht zum Zulassen der Erkennung eines eingegebenen, für ein Anwendungsprogramm spezifischen Sprachbefehls, be vor das Anwendungsprogramm zum ersten Mal laufen gelassen worden ist. - Veranschaulicht werden das Betriebssystem
30 und die erste und zweite Anwendung32 und34 . Die Anwendungen sind durch eine Sprachanwendungs-Programmierschnittstelle (speech application programming interface ("SAPI")102 an eine Suchmaschine104 gekoppelt. Jedes der Anwendungsprogramme32 und34 verfügt über ein Vokabular110 ,120 (die äquivalent zu den oder Bereiche der Vokabularien44 und46 von2 sind). In dem Beispiel weist das Vokabular110 das Wort "Netscape" auf, und das Vokabular120 weist das Wort "Huibi" auf, welches das chinesische Äquivalent zu "WisdomPen" ist. - Die Suchmaschine
104 verfügt über ein aktives Vokabular106 , das viele gemeinsame Befehle, wie "Starten", "Öffnen", "Verlassen" enthält, sowie ebenfalls das Wort "Netscape" enthält, das entweder in das Suchmaschinenvokabular106 vorprogrammiert ist (da ein gemeinsam benutztes Wort) oder ist dem Vokabular106 von dem Vokabular110 im Rahmen einer früheren Operation des Anwendungsprogramms32 übermittelt worden. Im Gegensatz dazu ist das Wort "Huibi" kein sehr übliches Wort, und eine Präsenz in dem Vokabular106 durch normalen Betrieb ist unwahrscheinlich. - Zur Installierung der Anwendung B wird ein Installierungsprogramm
130 verwendet. Bei der Installierung registriert das Programm130 mit dem Betriebssystem30 die Anwendung B und extrahiert gleichzeitig Wörter und deren Phonemnetzwerk-Äquivalente von dem Vokabular120 und fügt diese Wörter und Phonemnetzwerk-Äquivalente in das Suchmaschinenvokabular106 ein. - Wenn der Befehl "Huibi starten" zum ersten Mal ausgesprochen wird, wird auf diese weise dieser Befehl durch die Suchmaschine
104 erkannt. Die Suchmaschine104 kann bewirken, dass die Anwendung34 durch das Betriebssystem30 gestartet wird. - Die Anwendungsprogramme
32 und34 sind modular voneinander getrennt. Dies hat den bedeutenden Vorteil, dass jede einzelne dieser Anwendungen entfernt oder ersetzt werden kann, ohne den Systembetrieb zu beeinträchtigen. Zusätzlich dazu können weitere Anwendungen hinzugefügt werden. Jedes Mal, wenn eine Anwendung hinzugefügt wird (oder eine ersetzt wird), verfügt die neue Anwendung über ihr eigenes Betriebssystemvokabular, das bei der Installierung an das Betriebssystem geliefert wird, um das Betriebssystem zur Suche nach Befehlen zu befähigen, die für diese Anwendung relevant sind. Dies ist eine bedeutende Verbesserung gegenüber früheren Anordnungen, da keine Notwendigkeit besteht, das Betriebssystem selbst mit neuen Sprachbefehlen etc. zu aktualisieren und keine Notwendigkeit besteht, das Betriebssystem zu schulen oder irgendwelches der Spracherkennungseinrichtung36 zugeordnetes Vokabular zu erweitern, um das System zu befähigen, zu expandieren und verbessert zu werden. Jede der ersten oder zweiten Anwendung kann entfernt werden, ohne die Leistung der anderen Anwendung zu verschlechtern. - Eine weitere Ausführungsform der Erfindung, die alternativ zu der Ausführungsform von
3 ist und ergänzend zu oder eine Verbesserung der Ausführungsform von2 ist, wird in den4 und5 veranschaulicht. - Mit Bezug auf
4 ermöglicht die alternative Anordnung der Software eine erste Erkennungseinrichtung200 (als "Erkenner A" bezeichnet) und eine zweite Erkennungseinrichtung202 (als "Erkenner B" bezeichnet). Diese Erkennungseinrichtungen sind Mini-Anwendungen, die während der Anlaufperiode ("Start-Up") des Mikroprozessors38 durch das Betriebssystem30 gestartet werden. Diese Erkennungseinrichtungen sind von den Anwendungen A und B unabhängig, werden aber von den Anwendungen A und B in einer nachstehend beschriebenen Weise verwendet. An den Erkenner A ist ein kleines Vokabular210 von Schlüsselwörtern angeschlossen, das dem Vokabular110 von3 ähnelt. An den Erkenner B ist ein zweites Vokabular220 von Schlüsselwörtern angeschlossen, das dem Vokabular120 von3 ähnelt. - Im Betrieb bewirkt das Betriebssystem
30 , dass die Erkenner A und B beim Start-Up des Mikroprozessors38 gestartet werden. Dies bedeutet, dass die Erkenner A und B von dem nicht flüchtigen Speicher, wie der Festplatte, zu dem Direktzugriffsspeicher in dem Computer10 transferiert werden. Die Anwendungen A und B werden nicht notwendigerweise zu diesem Zeitpunkt gestartet. Indem Sprache in das Mikrofon40 eingegeben wird, werden phonetische Darstellungen der Sprache (zum Beispiel triphonische Netzwerkdarstellungen) durch das Betriebssystem30 sowohl dem Erkenner A als auch dem Erkenner B angeboten. Diese Erkenner durchsuchen fortwährend die empfangenen phonetischen Darstellungen der eingegebenen Sprache nach Schlüsselwörtern, die als phonetische Darstellungen in dem Vokabular210 bzw. dem Vokabular220 gespeichert sind. Die Erkenner A und B bieten dem Betriebssystem30 fortwährend Einstufungen an, die den Grad der Korrelation zwischen der eingegebenen Sprache und den in den jeweiligen Vokabularien210 und220 gespeicherten Schlüsselwörtern anzeigen. Der Vermittler70 in dem Be triebssystem30 (siehe2 ) vergleicht die Einstufungen und führt eine Bestimmung durch, ob eine der Anwendungen A und B gestartet werden sollte. Wenn zum Beispiel die Wörter "Netscape öffnen" an dem Mikrofon40 empfangen werden, wird somit der Erkenner A eine hohe Einstufung liefern und der Erkenner B wird eine niedrige Einstufung liefern. Zudem wird die Einstufung für den durch den Erkenner A gelieferten Befehl "Netscape öffnen" für den Vermittler70 ausreichend hoch sein (zum Beispiel einen vorbestimmten Schwellwert übersteigend), um eine Bestimmung durchzuführen, dass die Wörter "Netscape öffnen" als Befehl zum Starten der Anwendung32 vorgesehen sind (und beispielsweise nicht irgendein, für irgendeine andere Anwendung vorgesehener Eingabetext). - Bei Durchführung dieser Bestimmung startet das Betriebssystem
30 die Anwendung A. Das Starten oder Einleiten der Anwendung A bewirkt, dass diese Anwendung von dem nicht flüchtigen Speicher in den Direktzugriffsspeicher transferiert wird und die Anwendung A voll funktionsfähig wird und Verarbeitungsleistung von dem Mikroprozessor38 zu verwenden beginnt. Währenddessen fährt die Anwendung B fort, ausschließlich in dem nicht flüchtigen Speicher zu residieren und verbraucht keinerlei Verarbeitungskapazität. - Sobald gestartet, fährt die Anwendung A mit der Verwendung des Erkenners A fort (über die Verbindung 202), um Erkennungsoperationen für Inhalt, der von dem Mikrofon
40 geliefert und an die Anwendung A gerichtet wird, auszuführen. Ferner kann die Anwendung A zu diesem Zeitpunkt sehr wesentlich das Vokabular ergänzen, das der Erkenner zu benutzen hat und kann Sprachmodellierungsmerkmale einführen, die vor dem Starten der Anwendung A nicht notwendigerweise erforderlich sind. Mit anderen Worten, wenn der Erkenner A nach Schlüsselwörtern sucht, benötigt der Erkenner A ein Minimum an Sprachmodellierungsfähigkeit, wohingegen die durch den Erkenner A verwendete Sprachmodellierungsfähigkeit bedeutend erhöht wird, wenn die Anwendung A gestartet wird. - Wenn der Erkenner B für einen in dem Vokabular
220 gespeicherten Befehl oder Satz von Wörtern an das Betriebssystem30 eine hohe Einstufung liefert, wird das Betriebssystem30 auf ähnliche Weise die Anwendung B starten. - Auf eine vollkommen analoge Weise können der Erkenner A und der Erkenner B für einen Befehl, wie "Netscape verlassen" oder "Huibi verlassen", eine hohe Einstufung an das Betriebssystem liefern, worauf das Betriebssystem
30 diese Befehle erkennen kann und das Schließen der jeweiligen Anwendung A oder B veranlassen kann. - Mit Bezug auf
5 werden die Anwendungen A und B, sowie die Erkenner A und B in ihrem Start-Up-Zustand in dem Computer10 illustriert.5 veranschaulicht einen Festplattenantrieb oder anderen nicht flüchtigen Speicher300 und sie veranschaulicht einen Direktzugriffsspeicher310 , die beide an den Prozessor38 gekoppelt sind. In dem nicht flüchtigen Speicher residieren die Anwendungen32 und34 , sowie die Mini-Erkenner200 und202 . Ferner wird in dem nicht flüchtigen Speicher300 ein Start-Up-Programm320 gezeigt. - Beim Start-Up des Prozessors
38 richtet sich der Prozessor durch Vorgabe für sein Start-Up-Programm an den nicht flüchtigen Speicher300 und findet das Start-Up-Programm320 vor. Das Start-Up-Programm320 bewirkt, dass die Erkenner200 und202 durch den Prozessor38 in den Di rektzugriffsspeicher310 geladen werden. Diese Erkenner werden als in dem Direktzugriffsspeicher310 residierende Erkenner200' und202' gezeigt. Die Anwendungen32 und34 sind noch nicht in den Direktzugriffsspeicher310 geladen worden und nehmen zu diesem Zeitpunkt keinen wertvollen Speicherplatz in Anspruch. Ebenso benutzen sie keine Prozessorleistung von dem Prozessor38 . Die Anwendungen A und B sind sehr viel größer als ihre jeweiligen Erkenner200 und202 , deshalb ist es zulässig, die Erkenner ohne Laden der vollständigen Anwendungen in den Direktzugriffsspeicher zu laden. Wenn einer der Erkenner200' und202' für einen Befehl, der für die entsprechende Anwendung des Erkenners relevant ist, eine hohe Einstufung bereitstellt, bewirkt der Prozessor38 , dass diese Anwendung von dem nicht flüchtigen Speicher300 in den Direktzugriffsspeicher310 transferiert wird. - Die obige Beschreibung der bevorzugten Ausführungsformen ist lediglich als Beispiel abgegeben worden, und Detailmodifikationen können von einem Fachmann durchgeführt werden, ohne von dem in den beigefügten Ansprüchen definierten Rahmen der Erfindung abzuweichen.
Claims (9)
- Verfahren zum Betreiben eines Computers mit einem Betriebssystem und wenigstens zwei Anwendungsprogrammen, umfassend: Eingeben von Sprachbefehlen; Vergleichen der eingegebenen Sprachbefehle mit Darstellungen der Sprachbefehle, die jedem Anwendungsprogramm zugeordnet sind, um ein Erkennungsergebnis entsprechend jedem Anwendungsprogramm zur Verfügung zu stellen; Liefern des Erkennungsergebnisses von jedem Anwendungsprogramm an das Betriebssystem; Identifizieren eines Anwendungsprogramms, welches sich im Vordergrund befindet, und wenigstens eines Anwendungsprogramms, welches sich im Hintergrund befindet, basierend auf den Erkennungsergebnissen; gekennzeichnet durch selektives Zulassen eines speziellen Anwendungsprogramms der wenigstens zwei Anwendungsprogramme, basierend darauf, ob sich das spezielle Anwendungsprogramm im Vordergrund oder im Hintergrund befindet, um auf die Sprachbefehle zu handeln.
- Verfahren nach Anspruch 1, das weiterhin das Erzeugen von Phonemnetzwerken umfasst, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das Anwendungsprogramm.
- Verfahren nach Anspruch 2, wobei die Phonemnetzwerke kontextabhängige Phonemnetzwerke sind.
- Verfahren nach Anspruch 1, wobei die eingegebenen Sprachbefehle mit Darstellungen der dem ersten und dem zweiten Anwendungsprogramm zugeordneten Sprachbefehle im Wesentlichen gleichzeitig verglichen werden, um erste und zweite Erkennungsergebnisse zu liefern.
- Verfahren nach Anspruch 4, wobei der Schritt des selektiven Zulassens das Zulassen von entweder dem ersten oder dem zweiten Anwendungsprogramm bevorzugt gegenüber dem anderen des ersten und zweiten Anwendungsprogramms umfasst.
- Verfahren nach Anspruch 5, wobei der Schritt des selektiven Zulassens das Vermitteln zwischen dem ersten und zweiten Anwendungsprogramm als eine Funktion eines aktuellen Betriebszustandes des ersten und zweiten Anwendungsprogramms umfasst.
- Verfahren nach Anspruch 4, das weiterhin das Erzeugen von Phonemnetzwerken umfasst, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das erste und zweite Anwendungsprogramm.
- Verfahren nach Anspruch 7, wobei die Phonemnetzwerke kontextabhängige Phonemnetzwerke sind.
- Verfahren nach einem der vorangehenden Ansprüche, wobei der Schritt des selektiven Zulassens den Schritt des Anweisens von wenigstens einem verbleibenden Anwendungsprogramm enthält, die Sprachbefehle zu ignorieren.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/053,432 US6233559B1 (en) | 1998-04-01 | 1998-04-01 | Speech control of multiple applications using applets |
PCT/US1999/005339 WO1999050831A1 (en) | 1998-04-01 | 1999-03-11 | Computer operating system with voice recognition |
US53432 | 2002-01-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69910928D1 DE69910928D1 (de) | 2003-10-09 |
DE69910928T2 true DE69910928T2 (de) | 2004-05-06 |
Family
ID=21984190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69910928T Expired - Fee Related DE69910928T2 (de) | 1998-04-01 | 1999-03-11 | Spracherkennungsverfahren mit mehreren anwendungsprogrammen |
Country Status (8)
Country | Link |
---|---|
US (1) | US6233559B1 (de) |
EP (1) | EP0986809B1 (de) |
CN (1) | CN1109328C (de) |
AU (1) | AU3080599A (de) |
CA (1) | CA2289836A1 (de) |
DE (1) | DE69910928T2 (de) |
HK (1) | HK1029208A1 (de) |
WO (1) | WO1999050831A1 (de) |
Families Citing this family (315)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020008751A1 (en) * | 1998-03-25 | 2002-01-24 | Stephen L. Spurgeon | Decorating system for edible items |
US7082397B2 (en) * | 1998-12-01 | 2006-07-25 | Nuance Communications, Inc. | System for and method of creating and browsing a voice web |
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
JP2000276482A (ja) * | 1999-03-25 | 2000-10-06 | Matsushita Electric Ind Co Ltd | 文書検索装置及び文書検索方法 |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
WO2001013255A2 (en) | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US7016835B2 (en) * | 1999-10-29 | 2006-03-21 | International Business Machines Corporation | Speech and signal digitization by using recognition metrics to select from multiple techniques |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
JP2003515778A (ja) * | 1999-12-02 | 2003-05-07 | トムソン ライセンシング ソシエテ アノニム | 別々の言語モデルによる音声認識方法及び装置 |
US7024363B1 (en) * | 1999-12-14 | 2006-04-04 | International Business Machines Corporation | Methods and apparatus for contingent transfer and execution of spoken language interfaces |
EP1215662A4 (de) * | 2000-02-28 | 2005-09-21 | Sony Corp | Spracherkennungseinrichtung sowie verfahren und aufzeichnungsmedium |
AU2001241966A1 (en) * | 2000-03-06 | 2001-10-15 | Conita Technologies, Inc. | Personal virtual assistant |
US6466654B1 (en) * | 2000-03-06 | 2002-10-15 | Avaya Technology Corp. | Personal virtual assistant with semantic tagging |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10021389A1 (de) | 2000-05-03 | 2001-11-08 | Nokia Mobile Phones Ltd | Verfahren zum Steuern eines Systems, insbesondere eines elektrischen und/oder elektronischen Systems mit zumindest einer Anwendungseinrichtung |
US7139709B2 (en) * | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
US6728676B1 (en) * | 2000-10-19 | 2004-04-27 | International Business Machines Corporation | Using speech recognition to improve efficiency of an inventory task |
US6950793B2 (en) * | 2001-01-12 | 2005-09-27 | International Business Machines Corporation | System and method for deriving natural language representation of formal belief structures |
US7257537B2 (en) * | 2001-01-12 | 2007-08-14 | International Business Machines Corporation | Method and apparatus for performing dialog management in a computer conversational interface |
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
US7127402B2 (en) * | 2001-01-12 | 2006-10-24 | International Business Machines Corporation | Method and apparatus for converting utterance representations into actions in a conversational system |
US7085723B2 (en) * | 2001-01-12 | 2006-08-01 | International Business Machines Corporation | System and method for determining utterance context in a multi-context speech application |
US7127401B2 (en) * | 2001-03-12 | 2006-10-24 | Ge Medical Systems Global Technology Company, Llc | Remote control of a medical device using speech recognition and foot controls |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7970648B2 (en) * | 2001-04-27 | 2011-06-28 | Accenture Global Services Limited | Advertising campaign and business listing management for a location-based services system |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7203645B2 (en) * | 2001-04-27 | 2007-04-10 | Intel Corporation | Speech recognition system loading different recognition engines for different applications |
US7698228B2 (en) | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US6944594B2 (en) * | 2001-05-30 | 2005-09-13 | Bellsouth Intellectual Property Corporation | Multi-context conversational environment system and method |
ITFI20010199A1 (it) * | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
ES2268366T3 (es) * | 2002-01-17 | 2007-03-16 | Siemens Aktiengesellschaft | Reconocedor de voz y procedimiento de funcionamiento para el mismo. |
US8374879B2 (en) * | 2002-02-04 | 2013-02-12 | Microsoft Corporation | Systems and methods for managing interactions from multiple speech-enabled applications |
US7139713B2 (en) * | 2002-02-04 | 2006-11-21 | Microsoft Corporation | Systems and methods for managing interactions from multiple speech-enabled applications |
US7188066B2 (en) * | 2002-02-04 | 2007-03-06 | Microsoft Corporation | Speech controls for use with a speech system |
US7167831B2 (en) * | 2002-02-04 | 2007-01-23 | Microsoft Corporation | Systems and methods for managing multiple grammars in a speech recognition system |
US7257776B2 (en) | 2002-02-05 | 2007-08-14 | Microsoft Corporation | Systems and methods for scaling a graphical user interface according to display dimensions and using a tiered sizing schema to define display objects |
US7603627B2 (en) * | 2002-02-05 | 2009-10-13 | Microsoft Corporation | Systems and methods for creating and managing graphical user interface lists |
US7587317B2 (en) * | 2002-02-15 | 2009-09-08 | Microsoft Corporation | Word training interface |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US8020114B2 (en) * | 2002-06-07 | 2011-09-13 | Sierra Wireless, Inc. | Enter-then-act input handling |
US6910911B2 (en) | 2002-06-27 | 2005-06-28 | Vocollect, Inc. | Break-away electrical connector |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7421390B2 (en) * | 2002-09-13 | 2008-09-02 | Sun Microsystems, Inc. | Method and system for voice control of software applications |
US7461352B2 (en) * | 2003-02-10 | 2008-12-02 | Ronald Mark Katsuranis | Voice activated system and methods to enable a computer user working in a first graphical application window to display and control on-screen help, internet, and other information content in a second graphical application window |
US7571102B2 (en) * | 2003-04-29 | 2009-08-04 | Ford Motor Company | Controller for use with a motor vehicle |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
EP1631899A4 (de) * | 2003-06-06 | 2007-07-18 | Univ Columbia | System und verfahren zur sprachaktivierung von web-seiten |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
US20050010418A1 (en) * | 2003-07-10 | 2005-01-13 | Vocollect, Inc. | Method and system for intelligent prompt control in a multimodal software application |
US20050010892A1 (en) * | 2003-07-11 | 2005-01-13 | Vocollect, Inc. | Method and system for integrating multi-modal data capture device inputs with multi-modal output capabilities |
US7307615B2 (en) * | 2003-08-08 | 2007-12-11 | Lucent Technologies Inc. | Method and apparatus for voice-controlled graphical user interface pointing device |
CN1303582C (zh) * | 2003-09-09 | 2007-03-07 | 摩托罗拉公司 | 自动语音归类方法 |
US7634720B2 (en) * | 2003-10-24 | 2009-12-15 | Microsoft Corporation | System and method for providing context to an input method |
US8001479B2 (en) * | 2004-02-03 | 2011-08-16 | Ronald Mark Katsuranis | System and methods to access computer files and position and control application window(s) on a graphical user interface |
JP3923513B2 (ja) * | 2004-06-08 | 2007-06-06 | 松下電器産業株式会社 | 音声認識装置および音声認識方法 |
FR2871978B1 (fr) * | 2004-06-16 | 2006-09-22 | Alcatel Sa | Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede |
US8942985B2 (en) * | 2004-11-16 | 2015-01-27 | Microsoft Corporation | Centralized method and system for clarifying voice commands |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
DE102005016853A1 (de) * | 2005-04-12 | 2006-10-19 | Siemens Ag | Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7848928B2 (en) * | 2005-08-10 | 2010-12-07 | Nuance Communications, Inc. | Overriding default speech processing behavior using a default focus receiver |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
EP1915677A2 (de) | 2005-08-11 | 2008-04-30 | Philips Intellectual Property & Standards GmbH | Verfahren zum ansteuern eines interaktiven systems und benutzerschnittstellensystem |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7634409B2 (en) * | 2005-08-31 | 2009-12-15 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US8620667B2 (en) * | 2005-10-17 | 2013-12-31 | Microsoft Corporation | Flexible speech-activated command and control |
US8577682B2 (en) * | 2005-10-27 | 2013-11-05 | Nuance Communications, Inc. | System and method to use text-to-speech to prompt whether text-to-speech output should be added during installation of a program on a computer system normally controlled through a user interactive display |
CN101326571B (zh) * | 2005-12-07 | 2012-05-23 | 三菱电机株式会社 | 声音识别装置 |
DE102005061365A1 (de) * | 2005-12-21 | 2007-06-28 | Siemens Ag | Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem |
US7899673B2 (en) * | 2006-08-09 | 2011-03-01 | Microsoft Corporation | Automatic pruning of grammars in a multi-application speech recognition interface |
US8346555B2 (en) | 2006-08-22 | 2013-01-01 | Nuance Communications, Inc. | Automatic grammar tuning using statistical language model generation |
US7949536B2 (en) * | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
TWI345218B (en) * | 2007-04-20 | 2011-07-11 | Asustek Comp Inc | Portable computer with function for identiying speech and processing method thereof |
US8150699B2 (en) * | 2007-05-17 | 2012-04-03 | Redstart Systems, Inc. | Systems and methods of a structured grammar for a speech recognition command system |
US8538757B2 (en) * | 2007-05-17 | 2013-09-17 | Redstart Systems, Inc. | System and method of a list commands utility for a speech recognition command system |
US9794348B2 (en) | 2007-06-04 | 2017-10-17 | Todd R. Smith | Using voice commands from a mobile device to remotely access and control a computer |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8688459B2 (en) * | 2007-10-08 | 2014-04-01 | The Regents Of The University Of California | Voice-controlled clinical information dashboard |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
USD626949S1 (en) | 2008-02-20 | 2010-11-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8010465B2 (en) | 2008-02-26 | 2011-08-30 | Microsoft Corporation | Predicting candidates using input scopes |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8849672B2 (en) * | 2008-05-22 | 2014-09-30 | Core Wireless Licensing S.A.R.L. | System and method for excerpt creation by designating a text segment using speech |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8386261B2 (en) | 2008-11-14 | 2013-02-26 | Vocollect Healthcare Systems, Inc. | Training/coaching system for a voice-enabled work environment |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20130219333A1 (en) * | 2009-06-12 | 2013-08-22 | Adobe Systems Incorporated | Extensible Framework for Facilitating Interaction with Devices |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8659397B2 (en) | 2010-07-22 | 2014-02-25 | Vocollect, Inc. | Method and system for correctly identifying specific RFID tags |
US8731939B1 (en) | 2010-08-06 | 2014-05-20 | Google Inc. | Routing queries based on carrier phrase registration |
USD643400S1 (en) | 2010-08-19 | 2011-08-16 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
USD643013S1 (en) | 2010-08-20 | 2011-08-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US9600135B2 (en) | 2010-09-10 | 2017-03-21 | Vocollect, Inc. | Multimodal user notification system to assist in data capture |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US9171551B2 (en) * | 2011-01-14 | 2015-10-27 | GM Global Technology Operations LLC | Unified microphone pre-processing system and method |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
WO2012169679A1 (ko) * | 2011-06-10 | 2012-12-13 | 엘지전자 주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템 |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
WO2013022135A1 (en) * | 2011-08-11 | 2013-02-14 | Lg Electronics Inc. | Electronic device and method of controlling the same |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US9183835B2 (en) * | 2011-10-18 | 2015-11-10 | GM Global Technology Operations LLC | Speech-based user interface for a mobile device |
US9159322B2 (en) * | 2011-10-18 | 2015-10-13 | GM Global Technology Operations LLC | Services identification and initiation for a speech-based interface to a mobile device |
US20130212478A1 (en) * | 2012-02-15 | 2013-08-15 | Tvg, Llc | Audio navigation of an electronic interface |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9734839B1 (en) * | 2012-06-20 | 2017-08-15 | Amazon Technologies, Inc. | Routing natural language commands to the appropriate applications |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9715879B2 (en) * | 2012-07-02 | 2017-07-25 | Salesforce.Com, Inc. | Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device |
US9106957B2 (en) * | 2012-08-16 | 2015-08-11 | Nuance Communications, Inc. | Method and apparatus for searching data sources for entertainment systems |
US9026448B2 (en) | 2012-08-16 | 2015-05-05 | Nuance Communications, Inc. | User interface for entertainment systems |
US9031848B2 (en) | 2012-08-16 | 2015-05-12 | Nuance Communications, Inc. | User interface for searching a bundled service content data source |
US8799959B2 (en) | 2012-08-16 | 2014-08-05 | Hoi L. Young | User interface for entertainment systems |
US9497515B2 (en) | 2012-08-16 | 2016-11-15 | Nuance Communications, Inc. | User interface for entertainment systems |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9570076B2 (en) * | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
US20140282272A1 (en) * | 2013-03-15 | 2014-09-18 | Qualcomm Incorporated | Interactive Inputs for a Background Task |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
US9431008B2 (en) * | 2013-05-29 | 2016-08-30 | Nuance Communications, Inc. | Multiple parallel dialogs in smart phone applications |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US9997160B2 (en) * | 2013-07-01 | 2018-06-12 | Toyota Motor Engineering & Manufacturing North America, Inc. | Systems and methods for dynamic download of embedded voice components |
US10186262B2 (en) | 2013-07-31 | 2019-01-22 | Microsoft Technology Licensing, Llc | System with multiple simultaneous speech recognizers |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
KR101537370B1 (ko) * | 2013-11-06 | 2015-07-16 | 주식회사 시스트란인터내셔널 | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
RU2654789C2 (ru) | 2014-05-30 | 2018-05-22 | Общество С Ограниченной Ответственностью "Яндекс" | Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9263042B1 (en) * | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
EP3195145A4 (de) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Sprachhandel |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10210003B2 (en) * | 2014-09-30 | 2019-02-19 | Nuance Communications, Inc. | Methods and apparatus for module arbitration |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US20160225369A1 (en) * | 2015-01-30 | 2016-08-04 | Google Technology Holdings LLC | Dynamic inference of voice command for software operation from user manipulation of electronic device |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
WO2017132660A1 (en) * | 2016-01-29 | 2017-08-03 | Liquid Analytics, Inc. | Systems and methods for dynamic prediction of workflows |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049670B2 (en) * | 2016-06-06 | 2018-08-14 | Google Llc | Providing voice action discoverability example for trigger term |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US10261752B2 (en) * | 2016-08-02 | 2019-04-16 | Google Llc | Component libraries for voice interaction services |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11423215B2 (en) | 2018-12-13 | 2022-08-23 | Zebra Technologies Corporation | Method and apparatus for providing multimodal input data to client applications |
CN112073777B (zh) * | 2019-06-10 | 2022-06-28 | 海信视像科技股份有限公司 | 一种语音交互方法及显示设备 |
US11978449B2 (en) * | 2021-03-02 | 2024-05-07 | Samsung Electronics Co., Ltd. | Electronic device for processing user utterance and operation method therefor |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
EP0607615B1 (de) * | 1992-12-28 | 1999-09-15 | Kabushiki Kaisha Toshiba | Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
US5689617A (en) * | 1995-03-14 | 1997-11-18 | Apple Computer, Inc. | Speech recognition system which returns recognition results as a reconstructed language model with attached data values |
US5677991A (en) * | 1995-06-30 | 1997-10-14 | Kurzweil Applied Intelligence, Inc. | Speech recognition system using arbitration between continuous speech and isolated word modules |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US5819220A (en) * | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
-
1998
- 1998-04-01 US US09/053,432 patent/US6233559B1/en not_active Expired - Lifetime
-
1999
- 1999-03-11 EP EP99912430A patent/EP0986809B1/de not_active Expired - Lifetime
- 1999-03-11 CA CA002289836A patent/CA2289836A1/en not_active Abandoned
- 1999-03-11 DE DE69910928T patent/DE69910928T2/de not_active Expired - Fee Related
- 1999-03-11 AU AU30805/99A patent/AU3080599A/en not_active Abandoned
- 1999-03-11 WO PCT/US1999/005339 patent/WO1999050831A1/en active IP Right Grant
- 1999-03-11 CN CN99800423A patent/CN1109328C/zh not_active Expired - Fee Related
-
2000
- 2000-12-28 HK HK00108456A patent/HK1029208A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP0986809A1 (de) | 2000-03-22 |
WO1999050831A1 (en) | 1999-10-07 |
EP0986809B1 (de) | 2003-09-03 |
HK1029208A1 (en) | 2001-03-23 |
CN1262762A (zh) | 2000-08-09 |
US6233559B1 (en) | 2001-05-15 |
CA2289836A1 (en) | 1999-10-07 |
CN1109328C (zh) | 2003-05-21 |
AU3080599A (en) | 1999-10-18 |
DE69910928D1 (de) | 2003-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69910928T2 (de) | Spracherkennungsverfahren mit mehreren anwendungsprogrammen | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE69922104T2 (de) | Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz | |
DE112014006542B4 (de) | Einrichtung und Verfahren zum Verständnis von einer Benutzerintention | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
DE60005326T2 (de) | Erkennungseinheiten mit komplementären sprachmodellen | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
DE60122352T2 (de) | Augenverfolgung für kontextabhängige spracherkennung | |
DE69629763T2 (de) | Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) | |
DE602005000308T2 (de) | Vorrichtung für sprachgesteuerte Anwendungen | |
EP1611568B1 (de) | Dreistufige einzelworterkennung | |
DE112009004313B4 (de) | Stimmerkennungseinrichtung | |
DE112014005354T5 (de) | Dialog-management-system und dialog-management-verfahren | |
EP1649450A1 (de) | Verfahren zur spracherkennung und kommunikationsger t | |
DE102017124264A1 (de) | Bestimmen phonetischer Beziehungen | |
DE60212725T2 (de) | Verfahren zur automatischen spracherkennung | |
DE60102993T2 (de) | Architektur einer Rechnergrundplatine | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
DE10311581A1 (de) | Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen | |
DE10011178A1 (de) | Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis | |
EP0814457B1 (de) | Verfahren zur automatischen Erkennung eines gesprochenen Textes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |