DE69910928T2

DE69910928T2 - Spracherkennungsverfahren mit mehreren anwendungsprogrammen

Info

Publication number: DE69910928T2
Application number: DE69910928T
Authority: DE
Inventors: Sreeram Balakrishnan
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1998-04-01
Filing date: 1999-03-11
Publication date: 2004-05-06
Anticipated expiration: 2019-03-12
Also published as: EP0986809A1; WO1999050831A1; EP0986809B1; HK1029208A1; CN1262762A; US6233559B1; CA2289836A1; CN1109328C; AU3080599A; DE69910928D1

Description

Gebiet der Erfindung
Die Erfindung betrifft ein Computer-Betriebssystem mit Spracherkennung.
Hintergrund der Erfindung
Mit der starken Verbreitung von Computern und Rechnergeräten in der gesamten Gesellschaft wird alternativen Verfahren der Dateneingabe zum Ersetzen traditioneller Tastaturen immer mehr Aufmerksamkeit geschenkt. Es sind zahlreiche Computerprogramme verfügbar, die Spracherkennung durchführen. Die meisten dieser Computerprogramme sind "Anwendungen", das heißt Computerprogramme, in denen die Funktionalität und der Betrieb eines Programms speziell für das Programm auf einen fest zugeordneten Zweck zugeschnitten sind. Folglich sind beispielsweise Diktieranwendungen bekannt, welche die Sprache eines Anwenders als Eingabe an nehmen und bewirken, dass entsprechend der Spracheingabe durch den Anwender auf eine dem Textprozessor ähnliche Weise Text in ein Dokument eingegeben wird. Ein weiteres Beispiel einer Spracherkennungsanwendung wäre ein Steuerungsprogramm zum Steuern eines Geräteelements, beispielsweise zum Wählen von Telefonnummern bei einem Freisprech ("handsfree")-Funktelefon. Bei einer derartigen Anwendung würde der Anwender die zu wählenden Stellen aussprechen und würde zum Beispiel den Befehl "Senden" aussprechen, was das zellulare Funktelefon zum Wählen der gesprochenen Nummer veranlassen würde. Dies sind Beispiele von fest zugeordneten Spracherkennungsanwendungen.
In der Veröffentlichung "Augmenting a Window System with Speech Input" von C. Schmandt, M. S. Acherman und D. Hindus in Computer, Ausgabe 23, Nr. 8, Seiten 50–60, August 1990, wird eine Spracherkennungsanwendung zum Steuern von Fensternavigationsaufgaben beschrieben. Die mit "X Speak" betitelte Anwendung ist eine Sprachschnittstelle zu einem X-Fenstersystem, in dem Wörter Fenstern zugeordnet sind. Das Aussprechen des Namens eines Fensters bewegt es an die Front des Computerbildschirms und bewegt den Cursor in dieses Fenster. Die X-Sprach-Anwendung übernimmt einige der Funktionen, die normalerweise einer Maus zugeordnet sind. Verschiedene Befehle werden beschrieben, wie "Erstellen" ("create"), zum Starten einer Anwendung, "Wiederaufruf" ("recall"), um ein Fenster auf dem Fensterstapel nach oben neu zu positionieren, und "Verbergen" ("hide"), um ein Fenster in dem Fensterstapel nach unten neu zu positionieren. Es existieren auch Befehle, um Fenster in der Größe anzupassen ("resizing") und neu zu positionieren etc. Die Verfasser der Veröffentlichung geben zu, das irgendein er gonomischer Wirkungsgrad von der Verwendung der Fensternavigationsaufgaben-Anwendung begrenzt oder nicht existent ist.
Ein Nachteil bei bestehenden Spracherkennungsanwendungen ist ihre fehlende Flexibilität. Bei einer typischen Spracherkennungsanwendung ist der Anwendung ein Vokabular erkennbarer Wörter zugeordnet. Die Erkennungseinrichtung versucht, in ihrem Vokabular befindliche Wörter zu erkennen. Es können Techniken bereitgestellt werden, um zu versuchen, nicht in dem Vokabular befindliche Wörter zu erkennen. Vokabularien können erweitert oder ersetzt werden, um die Leistung der Erkennungsoperation auf den Anwender zuzuschneiden.
Im Falle der X-Sprach-Anwendung, die ein, einem Betriebssystem zugeordnetes Hilfsprogramm ist, existiert ein zugehöriger Satz möglicher Befehle, die erkannt werden können. Der verfügbare Satz von Befehlen ist in die Anwendung einprogrammiert. Dies erzeugt ein Fehlen an Flexibilität und ist nicht besonders geeignet für fortschrittliche Personalcomputer mit Mehrfachanwendung und ähnliches Gerät, bei denen von Zeit zu Zeit neue Anwendungen in das Gerät geladen werden und bei denen viele Anwendungen aufeinander folgend laufen gelassen werden können.
Es besteht der Wunsch nach einer allgegenwärtigeren Spracherkennungsschnittstelle, das potentiell in der Lage ist, zumindest teilweise sowohl ein Keyboard für die Datenund Befehlseingabe als auch eine Maus für die Bildschirmnavigation zu ersetzen.
Das Dokument US-A-5677991 offenbart ein Spracherkennungssystem, wobei eine eingegebene Äußerung sowohl an ein Spracherkennungsmodul mit großem Einzelwortvokabular als auch ein Spracherkennungsmodul mit kleinem Verbundssprach-Vokabular übermittelt wird. Ein Vermittlungsalgorithmus trifft unter den durch die Erkennungsmodule identifizierten Kandidaten die Auswahl.
Größere Flexibilität für Anwendungsentwickler, die ihre Anwendungen sprachbefähigen möchten, wird durch eine Programmierschnittstelle für Sprachanwendung (speech application programming interface ("SAPI")) von der Microsoft Corporation bereitgestellt, die es einer Allzweck-Sprachsuchmaschine gestattet, Befehle von unterschiedlichen Anwendungen zu erkennen. Es wird keine Vorkehrung zum Richten von Sprache an irgendeine andere als die aktuell im Fokus befindliche Anwendung oder zur Handhabung mehrerer sprachbefähigter Anwendungen getroffen. Es wird keine Vorkehrung zum Erkennen von Befehlen für eine Anwendung getroffen, die noch nicht aktiviert und zum ersten Mal laufen gelassen worden ist.
Es besteht ein Bedarf, dass die Sprachschnittstelle Sprache an mehrere Anwendungen richtet oder an Anwendungen, die neu installiert sind und noch nicht betrieben worden sind.
Ferner ist es ein Problem, dass Sprache sowohl Betriebssystembefehle (z. B. "Fenster minimieren", "Fenster schließen") als auch an die Anwendung gerichtete Sprachbefehle (z. B. "Diktat beginnen") und an die Anwendung gerichteten Inhalt (z. B. "Memo an Herrn Jones") enthalten kann. Es besteht eine Notwendigkeit zum Bestimmen des angemessensten Bestimmungsortes für die Sprache, was nicht leicht getan werden kann, ohne Erkennung durchzuführen, die vorzugsweise auf die potentielle Aufgabe zugeschnitten sein muss, an welche die Sprache gerichtet werden kann. Hierfür ist ein für die Aufgabe spezifisches Vokabular- und Sprachmodell (oder dessen Äquivalent) wünschenswert. Gemäß der Erfindung wird ein Verfahren zum Betreiben eines Computers bereitgestellt, wie in Anspruch 1 dargelegt.
Kurze Beschreibung der Zeichnungen
1 zeigt einen typischen Personalcomputer mit mehreren auf einem Bildschirm angezeigten Anwendungspiktogrammen bzw. -ikons, der zur Implementierung der Erfindung geeignet ist.
2 ist ein Blockdiagramm eines Satzes von Computerprogrammen gemäß der Erfindung.
3 ist ein Prozess-Flussdiagramm, das eine alternative Ausführungsform der Erfindung veranschaulicht.
4 ist ein Prozess-Flussdiagramm, das eine Ausführungsform der Erfindung veranschaulicht, die alternativ zu der Ausführungsform von 3 ist.
5 ist ein Hardware-Blockdiagramm, das weiterhin die Ausführungsform von 4 veranschaulicht.
Beschreibung einer bevorzugten Ausführungsform
Nun wird eine Architektur beschrieben, in der mehrere Anwendungen mit Spracherkennungsfähigkeit die Möglichkeit haben, dem Betriebssystem anzuzeigen, ob eine vorgegebene Spracheingabe für die einzelnen Anwendungen nützlich ist. Ein Vorteil davon ist, dass eine Anwendung zum Treffen einer Feststellung der Relevanz einer gewissen Sprache für die Anwendung besser gelegen ist, als das Betriebssystem. Es kann besser entschieden werden, ob die Sprache an das Betriebssystem oder an eine bestimmte Anwendung gerichtet werden soll.
Es wird ein Computer 10 gezeigt, der einen Bildschirm 12 aufweist, auf dem verschiedene Ikons und Fenster gezeigt werden. Der Computer wird so gezeigt, dass er ein Ikon 14 aufweist, das einen in dem Computer 10 befindlichen Festplattenantrieb darstellt und ein erstes Anwendungsikon 16, das eine in dem Computer 10 gespeicherte erste Anwendung darstellt und ein zweites Anwendungsikon 18, das eine in dem Computer 10 gespeicherte zweite Anwendung darstellt. Die erste Anwendung hat den Namen "Anw A" und die zweite Anwendung hat den Namen "Anw B". Ferner werden auf dem Bildschirm 12 ein erstes Fenster 20 und eine zweites Fenster 22 gezeigt. Das erste Fenster 20 ist im Fokus in dem Sinne, dass es sich im Vordergrund befindet und das aktuell aktive Fenster ist. Das zweite Fenster 22 ist außerhalb des Fokus in dem Sinne, dass es sich im Hintergrund befindet. Zu Beschreibungszwecken wird das Beispiel herangezogen, wo das erste Fenster 20 ein Eingabe/Ausgabe-Schnittstellenfenster für die Anwendung A ist und das zweite Fenster 22 ein Eingabe/Ausgabe-Anwenderschnittstellenfenster für die Anwendung B ist.
Bei einem typischen Betrieb gemäß dem Stand der Technik wird das Fenster 20 durch Bewegen eines Mauscursors zu dem Ikon 16 und durch doppeltes Anklicken des Ikons 16 erzeugt. Auf ähnliche Weise wird das zweite Fenster 22 typischerweise durch Bewegen eines Mauscursors zu dem Ikon 18 und durch doppeltes Anklicken dieses Ikons erzeugt. Doppeltes Anklicken eines Ikons bewirkt, dass die durch das Ikon dargestellte Anwendung aufgerufen oder "gestartet" wird. Anschließend bewirkt ein Einzelklick des Mauscursors entwe der auf das Ikon oder sein entsprechendes Fenster, dass das Fenster in den Vordergrund kommt. Selbstverständlich können mehrere Fenster existieren, die einer einzigen Anwendung entsprechen.
In 1 wird ein Mikrofon 40 gezeigt, das Sprachbefehle als Spracheingabe empfangen kann. Die Sprachbefehle können bewirken, dass innerhalb der Anwendung A oder der Anwendung B Operationen ausgeführt werden. Die Spracheingabe kann bewirken, dass Text oder andere Informationen in durch die Anwendung A oder die Anwendung B angelegte Dateien eingegeben werden. Die vorliegende Erfindung spricht das Problem des Entscheidens an, an welche Anwendung Sprachbefehle oder Spracheingaben gerichtet werden sollten.
Mit Bezug auf 2 wird nun ein Satz von Computerprogrammen veranschaulicht, der ein Betriebssystem 30, eine erste Anwendung 32, eine zweite Anwendung 34 und einen Phonemnetzwerk-Generator 36 enthält. Dieser Satz von Computerprogrammen wird in einen Mikroprozessor 38 geladen, der in dem Computer 10 residiert. Mit dem Mikroprozessor 38 ist über einen Analog/Digital-Wandler 39 ein Mikrofon 40 verbunden. Mit dem Mikroprozessor 38 ist auch ein Speicher 42 verbunden, der ein Direktzugriffsspeicher sein kann, aber vorzugsweise ein Nur-Lese-Speicher ist. In dem Speicher 42 sind jeweils der ersten und der zweiten Anwendung 32 und 34 zugeordnete erste und zweite Vokabularien 44 und 46 und erste und zweite Sprachmodelle 48 und 50 gespeichert.
Der Phonemnetzwerk-Generator 36 ist vorzugsweise ein kontextabhängiger (context dependent ("CD")) Phonemnetzwerk-Generator, wie in der Patentveröffentlichung Nummer W099/28899 von Sreeram Balakrishnan et. al. unter dem Titel "Context Dependent Phoneme Networks for Encoding Speech In formation" beschrieben. Alternativ dazu ist der Phonemnetzwerk-Generator 36 kontextunabhängig.
Bezüglich der Einzelheiten der in den Mikroprozessor 38 implementierten Programme umfasst der Phonemnetzwerk-Generator 36 einen an den Analog/Digital-Wandler 39 gekoppelten Eingang 60. Ein Merkmalextraktionsprogrammmodul 62 ist an den Eingang 60 gekoppelt und ein (vorzugsweise ein Viterbi Decoder) Programmmodul 64 ist an das Merkmalextraktionsprogrammmodul 62 gekoppelt. Der Decoder 64 weist einen über eine Anwendungsprogrammierschnittstelle (application programming interface ("API")) 35 des Betriebssystems 30 an die erste und die zweite Anwendung 32 bzw. 34 gekoppelten Ausgang auf.
Die erste Anwendung 32 weist ein Such-Applet 33 auf, das in der Lage ist, das erste Vokabular 44 und das erste Sprachmodell 48 aufzurufen. Die zweite Anwendung 34 weist ein Such-Applet 37 auf, das in der Lage ist, das zweite Vokabular 46 und das zweite Sprachmodell 50 aufzurufen. Jedes Vokabular weist Wörter oder Zeichen auf, die potentiell durch die jeweilige Anwendung erkannt werden müssen. Jedes Sprachmodell weist Wörter oder Kombinationen von Wörtern, Buchstaben oder Zeichen auf, deren Gebrauch bei dieser Anwendung üblich ist. Es kann (und es wird tatsächlich) Wörter oder Zeichen geben, die beiden Anwendungen gemein sind.
Das Beispiel wird erwogen werden, wo die Anwendung A "Netscape" ^TM ist und die Anwendung B WisdomPen ^TM ist. In dem ersten Vokabular 44 gibt es Befehle, die für einen Browser nützlich sind, wie "Starten", "Öffnen, "Zurückgehen", "Suchen", "Ausgangsstellung" und "Netscape", und in dem zweiten Vokabular 46 gibt es Befehle, die für eine Handschriften-Erkennungseinrichtung nützlich sind, wie "Starten" "Öffnen" "nächstes Zeichen" "Phrase" "Redigieren", "WisdomPen" etc. Zu beachten ist, dass der Befehl "Starten" beiden Vokabularien gemein ist. Zu beachten ist, dass die Wortkombination "Netcape starten" nur das erste Vokabular 44 betrifft, während "WisdomPen starten" nur das zweite Vokabular 46 betrifft. Selbst wenn diese Wortkombinationen nicht einmalig sind, ist zu beachten, dass das erste Sprachmodell 48 der Wortkombination "Netscape starten" eine hohe Wahrscheinlichkeitseinstufung gibt und der Wortkombination "WisdomPen starten" eine niedrige Wahrscheinlichkeitseinstufung gibt. Zu beachten ist ferner, dass das zweite Sprachmodell 50 der Wortkombination "WisdomPen starten" eine hohe Wahrscheinlichkeitseinstufung gibt und der Kombination "Netscape starten" eine niedrige Wahrscheinlichkeitseinstufung gibt.
Im Betrieb spricht der Anwender einen Befehl in das Mikrofon 40, seine Sprache wird in dem A/D-Wandler 39 digitalisiert und Merkmale werden in dem Merkmalextraktionsprogrammmodul 62 extrahiert. Der Decoder 64 erzeugt von den extrahierten Merkmalen ein CD-Phonemnetzwerk und gibt (auf der API 35) Daten aus, die für ein vorgegebenes Phonem die Identitäten der vorherigen und nachfolgende Phoneme, die Identität des gegenwärtigen Phonems, die Dauer des gegenwärtigen Phonems und die Einstufung des gegenwärtigen Phonems (oder Einstufungen für eine kleine Anzahl von alternativen Phonemen) darstellen. Das so erzeugte CD-Netzwerk wird gleichzeitig an die Such-Applets 33 und 37 der Anwendungen 32 und 34 gesendet (oder von diesen aufgenommen). Unter Verwendung der Daten in den Vokabularien 44 und 46 und der Sprachmodelle 48 und 50 stellt jedes der Applets 33 und 37 ein Ergebnis ihrer Erkennungsoperation zur Verfü gung, das zumindest eine "Einstufung" oder ein "Vertrauensniveau" für die Erkennung enthält. Diese Einstufungen werden durch die Anwendungen 32 und 34 über die API-Ausgänge 71 bzw. 72 an einen Vermittler 70 in dem Betriebssystem 30 geliefert. Der Vermittler 70 bestimmt, welche der mehreren Anwendungen auf die eingegebene Sprache hin zu handeln hat.
In seiner einfachsten Form bestimmt der Vermittler 70, dass die, die höchste Erkennungseinstufung aufweisende Anwendung die eingegebene Sprache erhalten und daraufhin handeln wird.
Wenn beispielsweise die eingegebene Sprache "Zurückgehen" oder "Netscape starten" ist, wird folglich der Vermittler 70 über den Steuerungsausgang 73 die Anwendung A informieren, dass die Anwendung A auf die eingegebene Sprache hin zu handeln hat und wird über den Steuerungsausgang 74 die Anwendung B informieren, dass sie die eingegebene Sprache zu ignorieren hat. Wenn andererseits die eingegebene Sprache "WisdomPen starten" oder "Redigieren" ist, wird es die Anwendung B sein, die auf diese Eingabe hin handeln darf. Die in Erwiderung auf die Eingabe hin vorgenommene Handlung kann das Starten der Anwendung enthalten, das in den Vordergrund Bringen des Fensters der Anwendung, die Zustandsveränderung innerhalb der Anwendung, das Eingeben der Daten in eine Datei innerhalb der Anwendung oder andere Operationen.
In einer fortgeschritteneren Form ist der Vermittler 70 kontextabhängig, z. B. gibt er einer im Fokus befindlichen Anwendung eine höhere Priorität als einer Anwendung, außerhalb des Fokus. Ein höheres Schwellwertniveau an Vertrauen in die Erkennung muss überschritten werden, um eingegebene Sprache an eine Anwendung außerhalb des Fokus zu richten, und ein niedrigeres Schwellwertniveau an Vertrauen wird zulassen, dass eingegebene Sprache an die aktuelle Anwendung gerichtet wird. Alternativ oder zusätzlich dazu unterscheidet der Vermittler 70 zwischen Befehlen und eingegebenen Daten oder er unterscheidet zwischen unterschiedlichen Befehlstypen. Zum Beispiel wird ein Schlüsselsatz von Befehlen ("Starten", "Öffnen", "Verlassen") durch den Vermittler 70 leichter an eine Anwendung außerhalb des Fokus gerichtet (d. h. sogar bei niedrigeren Vertrauensniveau), wenn von einem hohen Vertrauensniveauindikator (z. B. "Netscape" oder "WisdomPen") begleitet, als andere Befehle oder Eingaben. Um dies zu bewerkstelligen, kann der Schlüsselsatz von Befehlen in dem Vermittler 70 gespeichert werden.
Auf diese Weise weist jede der Anwendungen 32, 34 (und zusätzliche Anwendungen) bis hin zu dem Betriebssystem 30 eine Anforderung für das Betriebssystem 30 auf, im Vorzug gegenüber anderen Anwendungen, der Anwendung zu vermitteln und erlauben eingehende Sprache zu empfangen und daraufhin zu handeln.
Somit ist ein Prozessor 38 beschrieben worden, der folgendes umfasst: einen Eingang 60 zum Empfangen von Sprachbefehlen; ein Betriebssystem 30 mit einem Vermittler 70; und ein, zwei oder mehrere Anwendungsprogramme 32, 34 unter der Steuerung des Betriebssystems. Die Anwendungsprogramme sind modular von dem Betriebssystem getrennt. Die oder jede Anwendung weist eine Spracherkennungseinrichtung 33, 37 auf zum Erkennen von Sprachbefehlen und zum Anbieten von Erkennungsinformationen 71, 72, welche die Fähigkeit der Spracherkennungseinrichtung zum Erkennen der Sprachbefehle anzeigen, an den Vermittler 70.
Vorzugsweise sind die Erkennungsinformationen von dem Vokabular 44 und dem Sprachmodell 48 des Anwendungsprogramms abhängig.
Ein Betriebsverfahren eines Computers ist ebenfalls beschrieben worden. Das Verfahren umfasst: das Eingeben von Sprachbefehlen; das Vergleichen der eingegebenen Sprachbefehle mit Darstellungen der dem Anwendungsprogramm zugeordneten Sprachbefehle, um ein Erkennungsergebnis zur Verfügung zu stellen; das Liefern des Erkennungsergebnisses an das Betriebssystem; und selektives Zulassen des Anwendungsprogramms zum Handeln auf die Sprachbefehle hin abhängig von dem Erkennungsergebnis.
Vorzugsweise umfasst das Verfahren weiterhin das Erzeugen, in Zusammenarbeit mit dem Betriebssystem, von Phonemnetzwerken, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das Anwendungsprogramm. Die Phonemnetzwerke sind vorzugsweise kontextabhängige Phonemnetzwerke.
In der bevorzugten Ausführungsform werden die eingegebenen Sprachbefehle mit Darstellungen der den ersten und zweiten Erkennungsergebnissen zugeordneten Sprachbefehle verglichen, und der Schritt des selektiven Zulassens umfasst das Zulassen von entweder dem ersten oder dem zweiten Anwendungsprogramm, um in Abhängigkeit des Ergebnisses gegenüber dem anderen Anwendungsprogramm bevorzugt als eine Funktion eines aktuellen Betriebszustandes des ersten und zweiten Anwendungsprogramms zu handeln.
Mit Bezug auf 3 wird nun eine Anordnung veranschaulicht zum Zulassen der Erkennung eines eingegebenen, für ein Anwendungsprogramm spezifischen Sprachbefehls, be vor das Anwendungsprogramm zum ersten Mal laufen gelassen worden ist.
Veranschaulicht werden das Betriebssystem 30 und die erste und zweite Anwendung 32 und 34. Die Anwendungen sind durch eine Sprachanwendungs-Programmierschnittstelle (speech application programming interface ("SAPI") 102 an eine Suchmaschine 104 gekoppelt. Jedes der Anwendungsprogramme 32 und 34 verfügt über ein Vokabular 110, 120 (die äquivalent zu den oder Bereiche der Vokabularien 44 und 46 von 2 sind). In dem Beispiel weist das Vokabular 110 das Wort "Netscape" auf, und das Vokabular 120 weist das Wort "Huibi" auf, welches das chinesische Äquivalent zu "WisdomPen" ist.
Die Suchmaschine 104 verfügt über ein aktives Vokabular 106, das viele gemeinsame Befehle, wie "Starten", "Öffnen", "Verlassen" enthält, sowie ebenfalls das Wort "Netscape" enthält, das entweder in das Suchmaschinenvokabular 106 vorprogrammiert ist (da ein gemeinsam benutztes Wort) oder ist dem Vokabular 106 von dem Vokabular 110 im Rahmen einer früheren Operation des Anwendungsprogramms 32 übermittelt worden. Im Gegensatz dazu ist das Wort "Huibi" kein sehr übliches Wort, und eine Präsenz in dem Vokabular 106 durch normalen Betrieb ist unwahrscheinlich.
Zur Installierung der Anwendung B wird ein Installierungsprogramm 130 verwendet. Bei der Installierung registriert das Programm 130 mit dem Betriebssystem 30 die Anwendung B und extrahiert gleichzeitig Wörter und deren Phonemnetzwerk-Äquivalente von dem Vokabular 120 und fügt diese Wörter und Phonemnetzwerk-Äquivalente in das Suchmaschinenvokabular 106 ein.
Wenn der Befehl "Huibi starten" zum ersten Mal ausgesprochen wird, wird auf diese weise dieser Befehl durch die Suchmaschine 104 erkannt. Die Suchmaschine 104 kann bewirken, dass die Anwendung 34 durch das Betriebssystem 30 gestartet wird.
Die Anwendungsprogramme 32 und 34 sind modular voneinander getrennt. Dies hat den bedeutenden Vorteil, dass jede einzelne dieser Anwendungen entfernt oder ersetzt werden kann, ohne den Systembetrieb zu beeinträchtigen. Zusätzlich dazu können weitere Anwendungen hinzugefügt werden. Jedes Mal, wenn eine Anwendung hinzugefügt wird (oder eine ersetzt wird), verfügt die neue Anwendung über ihr eigenes Betriebssystemvokabular, das bei der Installierung an das Betriebssystem geliefert wird, um das Betriebssystem zur Suche nach Befehlen zu befähigen, die für diese Anwendung relevant sind. Dies ist eine bedeutende Verbesserung gegenüber früheren Anordnungen, da keine Notwendigkeit besteht, das Betriebssystem selbst mit neuen Sprachbefehlen etc. zu aktualisieren und keine Notwendigkeit besteht, das Betriebssystem zu schulen oder irgendwelches der Spracherkennungseinrichtung 36 zugeordnetes Vokabular zu erweitern, um das System zu befähigen, zu expandieren und verbessert zu werden. Jede der ersten oder zweiten Anwendung kann entfernt werden, ohne die Leistung der anderen Anwendung zu verschlechtern.
Eine weitere Ausführungsform der Erfindung, die alternativ zu der Ausführungsform von 3 ist und ergänzend zu oder eine Verbesserung der Ausführungsform von 2 ist, wird in den 4 und 5 veranschaulicht.
Mit Bezug auf 4 ermöglicht die alternative Anordnung der Software eine erste Erkennungseinrichtung 200 (als "Erkenner A" bezeichnet) und eine zweite Erkennungseinrichtung 202 (als "Erkenner B" bezeichnet). Diese Erkennungseinrichtungen sind Mini-Anwendungen, die während der Anlaufperiode ("Start-Up") des Mikroprozessors 38 durch das Betriebssystem 30 gestartet werden. Diese Erkennungseinrichtungen sind von den Anwendungen A und B unabhängig, werden aber von den Anwendungen A und B in einer nachstehend beschriebenen Weise verwendet. An den Erkenner A ist ein kleines Vokabular 210 von Schlüsselwörtern angeschlossen, das dem Vokabular 110 von 3 ähnelt. An den Erkenner B ist ein zweites Vokabular 220 von Schlüsselwörtern angeschlossen, das dem Vokabular 120 von 3 ähnelt.
Im Betrieb bewirkt das Betriebssystem 30, dass die Erkenner A und B beim Start-Up des Mikroprozessors 38 gestartet werden. Dies bedeutet, dass die Erkenner A und B von dem nicht flüchtigen Speicher, wie der Festplatte, zu dem Direktzugriffsspeicher in dem Computer 10 transferiert werden. Die Anwendungen A und B werden nicht notwendigerweise zu diesem Zeitpunkt gestartet. Indem Sprache in das Mikrofon 40 eingegeben wird, werden phonetische Darstellungen der Sprache (zum Beispiel triphonische Netzwerkdarstellungen) durch das Betriebssystem 30 sowohl dem Erkenner A als auch dem Erkenner B angeboten. Diese Erkenner durchsuchen fortwährend die empfangenen phonetischen Darstellungen der eingegebenen Sprache nach Schlüsselwörtern, die als phonetische Darstellungen in dem Vokabular 210 bzw. dem Vokabular 220 gespeichert sind. Die Erkenner A und B bieten dem Betriebssystem 30 fortwährend Einstufungen an, die den Grad der Korrelation zwischen der eingegebenen Sprache und den in den jeweiligen Vokabularien 210 und 220 gespeicherten Schlüsselwörtern anzeigen. Der Vermittler 70 in dem Be triebssystem 30 (siehe 2) vergleicht die Einstufungen und führt eine Bestimmung durch, ob eine der Anwendungen A und B gestartet werden sollte. Wenn zum Beispiel die Wörter "Netscape öffnen" an dem Mikrofon 40 empfangen werden, wird somit der Erkenner A eine hohe Einstufung liefern und der Erkenner B wird eine niedrige Einstufung liefern. Zudem wird die Einstufung für den durch den Erkenner A gelieferten Befehl "Netscape öffnen" für den Vermittler 70 ausreichend hoch sein (zum Beispiel einen vorbestimmten Schwellwert übersteigend), um eine Bestimmung durchzuführen, dass die Wörter "Netscape öffnen" als Befehl zum Starten der Anwendung 32 vorgesehen sind (und beispielsweise nicht irgendein, für irgendeine andere Anwendung vorgesehener Eingabetext).
Bei Durchführung dieser Bestimmung startet das Betriebssystem 30 die Anwendung A. Das Starten oder Einleiten der Anwendung A bewirkt, dass diese Anwendung von dem nicht flüchtigen Speicher in den Direktzugriffsspeicher transferiert wird und die Anwendung A voll funktionsfähig wird und Verarbeitungsleistung von dem Mikroprozessor 38 zu verwenden beginnt. Währenddessen fährt die Anwendung B fort, ausschließlich in dem nicht flüchtigen Speicher zu residieren und verbraucht keinerlei Verarbeitungskapazität.
Sobald gestartet, fährt die Anwendung A mit der Verwendung des Erkenners A fort (über die Verbindung 202), um Erkennungsoperationen für Inhalt, der von dem Mikrofon 40 geliefert und an die Anwendung A gerichtet wird, auszuführen. Ferner kann die Anwendung A zu diesem Zeitpunkt sehr wesentlich das Vokabular ergänzen, das der Erkenner zu benutzen hat und kann Sprachmodellierungsmerkmale einführen, die vor dem Starten der Anwendung A nicht notwendigerweise erforderlich sind. Mit anderen Worten, wenn der Erkenner A nach Schlüsselwörtern sucht, benötigt der Erkenner A ein Minimum an Sprachmodellierungsfähigkeit, wohingegen die durch den Erkenner A verwendete Sprachmodellierungsfähigkeit bedeutend erhöht wird, wenn die Anwendung A gestartet wird.
Wenn der Erkenner B für einen in dem Vokabular 220 gespeicherten Befehl oder Satz von Wörtern an das Betriebssystem 30 eine hohe Einstufung liefert, wird das Betriebssystem 30 auf ähnliche Weise die Anwendung B starten.
Auf eine vollkommen analoge Weise können der Erkenner A und der Erkenner B für einen Befehl, wie "Netscape verlassen" oder "Huibi verlassen", eine hohe Einstufung an das Betriebssystem liefern, worauf das Betriebssystem 30 diese Befehle erkennen kann und das Schließen der jeweiligen Anwendung A oder B veranlassen kann.
Mit Bezug auf 5 werden die Anwendungen A und B, sowie die Erkenner A und B in ihrem Start-Up-Zustand in dem Computer 10 illustriert. 5 veranschaulicht einen Festplattenantrieb oder anderen nicht flüchtigen Speicher 300 und sie veranschaulicht einen Direktzugriffsspeicher 310, die beide an den Prozessor 38 gekoppelt sind. In dem nicht flüchtigen Speicher residieren die Anwendungen 32 und 34, sowie die Mini-Erkenner 200 und 202. Ferner wird in dem nicht flüchtigen Speicher 300 ein Start-Up-Programm 320 gezeigt.
Beim Start-Up des Prozessors 38 richtet sich der Prozessor durch Vorgabe für sein Start-Up-Programm an den nicht flüchtigen Speicher 300 und findet das Start-Up-Programm 320 vor. Das Start-Up-Programm 320 bewirkt, dass die Erkenner 200 und 202 durch den Prozessor 38 in den Di rektzugriffsspeicher 310 geladen werden. Diese Erkenner werden als in dem Direktzugriffsspeicher 310 residierende Erkenner 200' und 202' gezeigt. Die Anwendungen 32 und 34 sind noch nicht in den Direktzugriffsspeicher 310 geladen worden und nehmen zu diesem Zeitpunkt keinen wertvollen Speicherplatz in Anspruch. Ebenso benutzen sie keine Prozessorleistung von dem Prozessor 38. Die Anwendungen A und B sind sehr viel größer als ihre jeweiligen Erkenner 200 und 202, deshalb ist es zulässig, die Erkenner ohne Laden der vollständigen Anwendungen in den Direktzugriffsspeicher zu laden. Wenn einer der Erkenner 200' und 202' für einen Befehl, der für die entsprechende Anwendung des Erkenners relevant ist, eine hohe Einstufung bereitstellt, bewirkt der Prozessor 38, dass diese Anwendung von dem nicht flüchtigen Speicher 300 in den Direktzugriffsspeicher 310 transferiert wird.
Die obige Beschreibung der bevorzugten Ausführungsformen ist lediglich als Beispiel abgegeben worden, und Detailmodifikationen können von einem Fachmann durchgeführt werden, ohne von dem in den beigefügten Ansprüchen definierten Rahmen der Erfindung abzuweichen.

Claims

Verfahren zum Betreiben eines Computers mit einem Betriebssystem und wenigstens zwei Anwendungsprogrammen, umfassend: Eingeben von Sprachbefehlen; Vergleichen der eingegebenen Sprachbefehle mit Darstellungen der Sprachbefehle, die jedem Anwendungsprogramm zugeordnet sind, um ein Erkennungsergebnis entsprechend jedem Anwendungsprogramm zur Verfügung zu stellen; Liefern des Erkennungsergebnisses von jedem Anwendungsprogramm an das Betriebssystem; Identifizieren eines Anwendungsprogramms, welches sich im Vordergrund befindet, und wenigstens eines Anwendungsprogramms, welches sich im Hintergrund befindet, basierend auf den Erkennungsergebnissen; gekennzeichnet durch selektives Zulassen eines speziellen Anwendungsprogramms der wenigstens zwei Anwendungsprogramme, basierend darauf, ob sich das spezielle Anwendungsprogramm im Vordergrund oder im Hintergrund befindet, um auf die Sprachbefehle zu handeln.
Verfahren nach Anspruch 1, das weiterhin das Erzeugen von Phonemnetzwerken umfasst, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das Anwendungsprogramm.
Verfahren nach Anspruch 2, wobei die Phonemnetzwerke kontextabhängige Phonemnetzwerke sind.
Verfahren nach Anspruch 1, wobei die eingegebenen Sprachbefehle mit Darstellungen der dem ersten und dem zweiten Anwendungsprogramm zugeordneten Sprachbefehle im Wesentlichen gleichzeitig verglichen werden, um erste und zweite Erkennungsergebnisse zu liefern.
Verfahren nach Anspruch 4, wobei der Schritt des selektiven Zulassens das Zulassen von entweder dem ersten oder dem zweiten Anwendungsprogramm bevorzugt gegenüber dem anderen des ersten und zweiten Anwendungsprogramms umfasst.
Verfahren nach Anspruch 5, wobei der Schritt des selektiven Zulassens das Vermitteln zwischen dem ersten und zweiten Anwendungsprogramm als eine Funktion eines aktuellen Betriebszustandes des ersten und zweiten Anwendungsprogramms umfasst.
Verfahren nach Anspruch 4, das weiterhin das Erzeugen von Phonemnetzwerken umfasst, die stellvertretend für die Sprachbefehle sind, sowie das Liefern der Phonemnetzwerke an das erste und zweite Anwendungsprogramm.
Verfahren nach Anspruch 7, wobei die Phonemnetzwerke kontextabhängige Phonemnetzwerke sind.
Verfahren nach einem der vorangehenden Ansprüche, wobei der Schritt des selektiven Zulassens den Schritt des Anweisens von wenigstens einem verbleibenden Anwendungsprogramm enthält, die Sprachbefehle zu ignorieren.