EP1190413A2

EP1190413A2 - Verfahren und vorrichtung zur spracherkennung

Info

Publication number: EP1190413A2
Application number: EP00929282A
Authority: EP
Inventors: Andreas Kipp
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens AG; Siemens Corp
Priority date: 1999-06-24
Filing date: 2000-04-05
Publication date: 2002-03-27
Also published as: CN1365487A; HUP0201923A2; WO2001001389A2; WO2001001389A3

Abstract

Verfahren zur Spracherkennung, bei dem ein Abschnitt eines kontinuierlichen Sprachstromes von gesprochenen Wörtern durch Vergleich mit gespeicherten Mustern detektiert wird, wobei im Ansprechen auf die Erfassung eines ersten Schlüsselworts dieses gespeichert, ein erstes Spracherkennungssystem deaktiviert und ein zweites Spracherkennungssystem aktiviert und in einem zweiten Erfassungsschritt mittels des zweiten Spracherkennungssystems der Sprachstrom auf das Auftreten eines vorbestimmten zweiten Schlüsselworts oder einer zweiten Schlüsselwortsequenz geprüft wird.

Description

Beschreibung

Verfahren und Vorrichtung zur Spracherkennung

Die Entwicklung alltagstauglicher Spracherkennungs- und

Sprachsteuersysteme stellt seit Jahren eine der Hauptentwicklungslinien der Computertechnik dar. Im Zuge dieser Entwicklung wurden erhebliche Fortschritte erreicht und marktfähige Spracherkennungssysteme etabliert, die sich im praktischen Einsatz auch bewähren. Fortgeschrittene Systeme dieser Art sind auch grundsätzlich zur Sprachsteuerung eines Computers bzw. von angeschlossenen Peripheriegeräten geeignet. Einfache Spracherkennungssysteme, die allerdings nur ein relativ geringes Vokabular verarbeiten können, werden auch bereits in den Bereichen Konsumelektronik und KFZ-Ausrüstung sowie weiteren Bereichen eingesetzt, in denen eine akustische Steuerung von Geräten aufgrund eines begrenzten Vokabulars möglich und sinnvoll ist.

Gewisse Probleme bestehen noch hinsichtlich der Verarbeitungsgeschwindigkeit, d.h. des Schritthaltens mit schneller Sprache, sowie - bei den höher entwickelten Systemen - hinsichtlich der hohen Ansprüche an die Hardware-Basis sowie auch relativ hoher Anschaffungskosten.

Besondere Aufmerksamkeit bei der Weiterentwicklung der Spracherkennungssysteme verdient das Problem der Erkennung von Schlüsselwortsequenzen in einem kontinuierlichen Strom von gesprochenen Wörtern. Derartige Schlüsselwortsequenzen haben zumeist eine relativ streng festgelegte Informationsstruktur, die bei einer geeigneten Verarbeitung eine besonders einfache und zuverlässige Erkennung ermöglicht, und zudem stehen sie vielfach in Verbindung mit Sprachsteuerungs- aufgaben, etwa der Eingabe eines Zahlencodes, einer Telefon- nummer, einer Uhrzeit oder eines Datums. Die Verarbeitung derartiger Sequenzen geschieht nach dem Stand der Technik (und bis zu einem gewissen Grade durchaus erfolgreich) im Rahmen üblicher Spracherkennungssysteme, beispielsweise auf der Grundlage der bekannten Hidden-Markov-Modellierung, wobei auch eine schritthaltende Ausgabe des Erkennungsergebnisses möglich ist - beispielsweise durch das Verfahren der partiel- len Rückverfolgung ("Partial Traceback").

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren der gattungsgemäßen Art sowie eine Vorrichtung zur Durchführung des Verfahrens anzugeben, die eine zuverlässigere, einfachere und schnellere Erkennung von Schlüsselwortsequenzen ermöglichen.

Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes durch ein Verfahren mit den Merkmalen des Anspruchs 1 und hinsichtlich ihres Vorrichtungsaspektes durch eine Vorrichtung mit den Merkmalen des Anspruchs 9 gelöst.

Die Erfindung schließt den wesentlichen Gedanken ein, das Problem der Erkennung einer zusammenhängenden Schlüsselwort- sequenz durch Aufteilung des Erkennungsprozesses in zwei oder mehr Teilschritte, bei denen jeweils ein spezifisches Spracherkennungssystem zum Einsatz kommt, besser und sicherer zu lösen. Dieser Gedanke geht von der Erkenntnis aus, daß Spracherkennungssysteme mit einem relativ kleinen Vokabular entscheidend schneller und sicherer arbeiten können als

Spracherkennungssysteme mit einem großen Vokabular. Sie geht weiter von dem Gedanken aus, das bestimmte, im täglichen Sprachgebrauch häufig vorkommende und bedeutungsvolle Schlüsselwortsequenzen auch eine relativ klar festgelegte Informa- tionsstruktur haben, so daß eine bedingte Aktivierung mehrerer vorhandener Spracherkennungssysteme mit jeweils spezifischem Vokabular bei aufeinanderfolgenden Teilschritten in Abhängigkeit vom Erfassungsergebnis des jeweils vorangehenden Teilschrittes vorteilhaft anwendbar ist. Weiterhin beruht die Erfindung auf der Erkenntnis, daß insbesondere unter widrigen akustischen Bedingungen (bei lauten Umgebungsgeräuschen oder relativ starken Verzerrungen) Spracherkennungssysteme mit kleinem Vokabular eine wesentlich bessere Genauigkeit als solche mit großem Vokabular liefern. Der bedingte Einsatz von mehreren Systemen mit kleinem Vokabular erhöht daher die De- tektionsrate für Schlüsselwortsequenzen als solche und senkt auf der anderen Seite die Rate von Fehldetektionen.

Erfindungsgemäß ist vorgesehen, daß die miteinander verknüpften Spracherkennungssysteme sukzessive aktiviert und nach Lösung ihrer spezifischen Erfassungsaufgabe und Speicherung eines erfaßten Schlüsselwortes bzw. eines Teils einer Schlüsselwortsequenz wieder deaktiviert werden, woraufhin ein anderes System zur Lösung seiner zugeordneten Erfassungsaufgabe aktiviert, ein erfaßtes weiteres Schlüsselwort oder ein weiterer Teil einer Schlüsselwortsequenz gespeichert wird usw. usf.. Die jeweils erfaßten Schlüsselworte bzw. Teile von

Schlüsselwortsequenzen werden nach Abschluß des Erfassungsvorganges geordnet zusammengefügt und ausgegeben bzw. zur Realisierung einer Steuerungsaufgabe an eine entsprechende Steuereinheit übertragen.

In einer bevorzugten Ausgestaltung des Verfahrens wird in Abhängigkeit von der Art des ersten erfaßten Schlüsselwortes oder Teiles einer Schlüsselwortsequenz von mehreren gewissermaßen in Bereitschaft gehaltenen Spracherkennungssystemen das aufgrund des ersten Erfassungs-Teilergebnisses als geeignet erscheinende ausgewählt und aktiviert.

Gemäß einer weiteren bevorzugten Ausgestaltung wird nach Erfassung eines ersten Schlüsselwortes bzw. Teiles einer Schlüsselwortsequenz für die Erfassung eines zweiten Schlüsselwortes bzw. Teiles der Schlüsselwortsequenz (und analog für weitere Teile einer Sequenz) ein Zeitfenster im Sprachstrom vorbestimmt, innerhalb dessen ein zweites (bzw. weiteres) Erfassungsergebnis vorliegen muß. Dieses Zeitfenster kann, je nach konkreter Systemkonfiguration, eine absolute

Zeitspanne oder eine auf tatsächlich einlaufende Sprachsignale bezogene Zeitspanne sein. Nach Verstreichen des Fensters ohne Vorliegen eines Erfassungsergebnisses erfolgt insbesondere eine Reaktivierung des zuerst eingesetzten Systems.

In einer weiteren vorteilhaften Ausfuhrung, die eine verlust- lose Umschaltung zwischen den einzelnen eingesetzten

Spracherkennungssystemen ermöglicht, ist eine Pufferung der Sprachdaten vorgesehen. Es wird also wahrend des ersten Erfassungsschrittes in einem dem FIFO (First-In-First-Out) - Prinzip folgenden Vorgang laufend ein jeweils letzter Abschnitt des Sprachstroms mit vorbestimmter Lange als Pufferabschnitt zwischengespeichert. Die Lange des Pufferabschnitts richtet sich nach der Erfassungsgeschwindigkeit des ersten Spracherkennungssystems, den er muß so lang sein, daß der zwischen dem Aussprechen des Schlüsselwortes und dessen Erfassung liegende Zeitabschnitt (mit einem zusätzlichen Sicherheitsbetrag) gepuffert wird. Der Sprachstrom wird mit Verzögerung um diesen Pufferabschnitt im zweiten Erfassungs- schπtt, der durch das Vorliegen des Ergebnisses des ersten Erfassungsschrittes getriggert wird, verarbeitet.

Eine besonders wichtige Applikation der Erfindung stellen Schlusselwortsequenzen dar, bei denen das erste Schlüsselwort bzw. der erste Teil so geartet ist, daß darauf regelmäßig eine Ziffer oder ein Ziffern enthaltender Abschnitt des Sprachstromes folgt. In diesem Fall wird als zweites Spracherkennungssystem ein speziell an die Erkennung von Ziffern bzw. Ziffernkombinationen angepaßtes System verwendet. Beispielsweise können als erste Schlusselworte einer Schlussel- wortsequenz die Begriffe "Nummer", "Telefonnummer", "Datum", "Uhrzeit" o.a. auftreten, und auf diese Begriffe werden Ziffernketten oder bestimmte Ziffern/Wort-Kombinationen folgen, für deren Erkennung ein System mit entsprechend eingeschränktem Vokabular aktiviert werden kann.

Ein f r die Sprachsteuerung von Computern bzw. einer Computerperipherie wichtiges weiteres Anwendungsfeld sind Schlusselwortsequenzen, m denen das erste Schlüsselwort eine Klasse von Vorrichtungen (z.B. "Gerat") bezeichnet, wahrend in weiteren Teilen der Sequenz spezielle Vorrichtungen bzw. Gerate benannt werden, die in irgendeiner Weise aktiviert werden sollen. Auch hier ist, wie leicht einzusehen ist, der miteinander verknüpfte Einsatz von einfachen Spracherken- nungssystemen mit ausgesprochen reduziertem Vokabular und damit sehr hoher Erkennungssicherheit möglich.

Neben der erwähnten wichtigen Anwendung der Sprachsteuerung eines Computers bzw. von Computerperipherie ist auch die

Sprachsteuerung anderer technischer Gerate im professionellen oder privaten Bereich, beispielsweise von Geraten im Auto oder im Haushalt (etwa Navigationssystemen, Audio- oder Video-Systemen, Haushaltsgeraten, Telekommunikations-Endgera- ten, Spielzeug etc.), von großem wirtschaftlichem Interesse.

Die Vorrichtungsaspekte der vorgeschlagenen Losung ergeben sich im wesentlichen unmittelbar aus den Verfahrensaspekten; im übrigen ergeben sich Vorteile und Zweckmäßigkeiten der Erfindung aus den Unteranspruchen sowie der nachfolgenden Beschreibung bevorzugter Ausfuhrungsbeispiele anhand der Figuren. Von diesen zeigen:

Fig. 1 eine schematische Darstellung einer einfachen Ausfuh- rungsfor der Erfindung in Form eines Funktions-Block- schaltbildes,

Fig. 2 eine grafische Darstellung zur Verdeutlichung des

Prinzips der Sprachstrompufferung gemäß einer vorteil- haften Ausgestaltung der Erfindung und

Fig. 3 eine schematische Darstellung einer weiteren Ausfuhrungsform m Form eines Funktions-Blockschaltbildes.

In Fig. 1 ist schematisch eine Spracherkennungsvorrichtung 100 zur Detektion von Schlusselwortsequenzen m einem kontinuierlichen Sprachstrom S dargestellt. Der Sprachstrom S wird an einem Verzweigungspunkt 101 in zwei (informationsgleiche) Sprachströme Sl und S2 aufgeteilt. Der Teil-Sprachstrom Sl gelangt unmittelbar zum Eingang einer ersten Spracherken- nungseinheit 102, und zwar zu einem ersten Eingang einer ersten Erfassungsstufe 102a, mit deren zweitem Eingang ein erster Vokabularspeicher 102b verbunden ist. Die erste Erfas- sungsstufe 102a hat einen mit einer Spracherkennungs-Ablauf- steuerung 103 verbundenen Steuerausgang und einen mit einem ersten Schlüsselwortspeicher 104 verbundenen Datenausgang.

Der zweite Teil-Sprachstrom S2 gelangt zum Eingang eines Ring-Sprachpuffers 105, in dem der jeweils letzte Abschnitt des Sprachstromes zwischengespeichert wird und an dessen Ausgang somit ein um den Puffer-Sprachstromabschnitt verzögerter Teil-Sprachstrom S2 ' ausgegeben wird. Dieser gelangt zum

Eingang einer zweiten Spracherkennungseinheit 106, die - analog zur ersten Spracherkennungseinheit 102 - aus einer zweiten Erfassungsstufe 106a und einem zweiten Vokabularspeicher 106b besteht. Der Datenausgang der zweiten Erfassungsstufe 106a ist mit einem zweiten Schlüsselwortspeicher 107 verbunden. Die Ausgänge beider Schlüsselwortspeicher 104, 107 sind mit Eingängen eines Sequenzspeichers 108 verbunden, dessen Ausgang zugleich den Ausgang der Vorrichtung 100 darstellt. Die Spracherkennungs-AblaufSteuerung hat zwei Steuerausgänge, die mit Steuereingängen der ersten bzw. zweiten Spracherkennungseinheit 102 bzw. 106 verbunden sind.

Der Sprachstrom S wird (in Gestalt des den gesamten Informationsgehalt tragenden Teil-Sprachstrom Sl) in der ersten Spracherkennungseinheit 102, die durch die Spracherkennungs- AblaufSteuerung 103 zu Beginn des Erkennungsvorgangs aktiviert wird, daraufhin geprüft, ob ein im ersten Vokabularspeicher 102b gespeichertes Wort auftritt. Kommt ein solches Wort vor, wird dies in der ersten Erfassungseinheit 102a re- gistriert und das betreffende Wort in den ersten Schlüsselwortspeicher 104 übernommen und zugleich ein Steuersignal an die Spracherkennungs-AblaufSteuerung 103 ausgegeben. Diese deaktiviert daraufhin die erste Spracherkennungseinheit 102 und aktiviert die zweite - bis dahin nicht aktive - Spracherkennungseinheit 106.

Zu deren Eingang gelangt nach Durchlaufen des Ring-Sprachpuffers 105 der verzögerte Teil-Sprachstrom S2¹, und dieser wird (ebenso wie der Teil-Sprachstrom Sl in der ersten Erfassungs- einheit 102) in der zweiten Erfassungseinheit 106 auf das Auftreten eines zweiten Schlüsselwortes aus einer Menge von im zweiten Vokabularspeicher 106b gespeicherten Worten geprüft. Bei Erfassung eines solchen zweiten Schlüsselwortes durch die zweite Erfassungsstufe 106a wird dieses an den zweiten Schlüsselwortspeicher 107 ausgegeben. Zugleich wird ein Steuersignal an die Spracherkennungs-AblaufSteuerung 103 ausgegeben, die daraufhin die zweite Spracherkennungseinheit 106 wieder deaktiviert und statt ihrer wieder die erste Spracherkennungseinheit 102 aktiviert.

Weiterhin steuert die Spracherkennungs-AblaufSteuerung 103 eine Ausgabe der im ersten und zweiten Schlüsselwortspeicher 104, 107 gespeicherten Worte an den Sequenzspeicher 106, wo diese geordnet abgelegt und zur Ausgabe aus der Vorrichtung 100 bereitgestellt werden. Damit ist in diesem einfachen Beispiel die Erfassung einer Schlüsselwortsequenz unter abge- stuftem Einsatz zweier unterschiedlicher Spracherkennungsein- heiten mit differierendem, jeweils reduziertem Vokabular abgeschlossen .

Die konkrete Anwendung des vorgeschlagenen Verfahrens und der oben skizzierten Vorrichtung soll an einem praktisch relevanten Anwendungsbeispiel etwas näher skizziert werden:

Es sollen folgende Wortsequenzen erkannt werden

- Eingabe Telefonnummer <Ziffernkette> - Eingabe Datum <Datum>

- Eingabe Uhrzeit <Uhrzeit>

- Abfrage Gerät <Gerät>, wobei die in spitzen Klammern stehenden Ausdrücke folgende Bedeutung haben sollen:

<Ziffernkette>: kontinuierlich aufeinanderfolgende Ziffern <Datum>: ein Datumsausdruck, z.B. "2. November 99" <Uhrzeit>: ein Uhrzeitausdruck, z.B. "10 nach 9"

<Gerät>: ein Element aus einer endlichen Menge von Geräten, z.B. "Computer"

Es werden folgende Spracherkennungssysteme erstellt: 1. System: Detektion der Sequenzen: "Eingabe Telefonnummer", "Eingabe Datum", "Eingabe Uhrzeit", "Abfrage Gerät"

2. System: Ziffernkettenerkenner

3. System: Datumserkenner

4. System: Uhrzeiterkenner 5. System: Detektion der einzelnen Gerätenamen aus einem vorbestimmten Vorrat.

Abhängig vom Ergebnis des Systems 1 wird eines der Systeme 2 bis 5 aktiviert. Das System 1 muß zusätzlich noch die Infor- mation über den (zeitlichen) Endpunkt der erkannten Ξchlüs- selwortsequenz liefern. Bei der Aktivierung eines der Systeme 2 bis 5 wird dann die Erkennung an diesem Punkt fortgesetzt, deshalb ist eine Pufferung notwendig. Weiterhin müssen die Erkennungssysteme mindestens schritthaltend arbeiten.

In Fig. 2 ist die Funktion der Pufferung des letzten Abschnitts des Sprachstromes zur lückenlosen Verarbeitung durch die zweite Spracherkennungseinheit ("System 2") skizziert. Mit to ist der Zeitpunkt der Detektion einer ersten Schlüsselwortsequenz "Eingabe Telefonnummer" durch die erste Spracherkennungseinheit ("System 1") bezeichnet, mit t_E der zeitliche Endpunkt dieser ersten Schlüsselwortsequenz, mit P_h,ι eine Position im Puffer-System, zu der das System 1 zum Zeitpunkt t₀ aktuell die Sprachdaten liest, und mit P_h,2 die entsprechende Abtastposition des Systems 2 zum gleichen Zeitpunkt t₀ (zu dem es gerade aktiviert wird) . Durch die Pufferung wird also ersichtlich gewährleistet, daß die durch die Verarbeitungszeit des Systems 1 bis zur Detektion der ersten Schlüsselwortsequenz verstreichende Zeit, der natürlich ein Abschnitt des Sprachstromes entspricht, nicht zu einem Verlust an Sprachstromdaten führt. Ohne die Pufferungen wären im hier gezeigten Beispiel die beiden ersten Ziffern "4" und "6" für das System 2 prinzipiell verloren und damit insgesamt einer Detektion nicht mehr zugänglich.

In Fig. 3 ist eine gegenüber der Vorrichtung aus Fig. 1 modifizierte Sprachverarbeitungsvorrichtung 200 gezeigt, die sich durch eine zweifache Kaskadierung von Spracherkennungssyste- en sowie eine Auswahlmöglichkeit für verschiedene Systeme in der zweiten Stufe auszeichnet. Im übrigen sind die erste und zweite Stufe mit den Komponenten 201 bis 208 im wesentlichen dieselben wie bei der Vorrichtung nach Fig. 1 und mit einander entsprechenden Bezugsziffern bezeichnet, und diese Komponenten werden hier nicht nochmals erläutert.

Der Sequenzspeicher 208 ist hier - wie durch die Unterteilung mit zwei gestrichelten vertikalen Linien symbolisiert ist - zur Aufnahme einer dreiteiligen Schlüsselwortsequenz ausgebildet. Der Teil-Signalstrom S2 ' vom (hier: ersten) Sprachpuffer 205 wird in einem Verzweigungspunkt 209 einerseits zur zweiten Erfassungsstufe 206a und andererseits zu einem zweiten Sprachpuffer 210 verzweigt. Dort findet eine weitere Pufferung bzw. Verzögerung des am Ausgang bereitstehenden (somit zweifach verzögerten) Teil-Sprachstroms S2.2'' statt. Dieser wird dem Eingang einer dritten Spracherkennungseinheit 211, und zwar konkret einer dritten Erfassungsstufe 211a, zugeführt.

Die dritte Spracherkennungseinheit 211 enthält ebenso wie die erste und zweite Spracherkennungseinheit 202 und 206 zudem einen spezifischen Vokabularspeicher 211b, der mit einem weiteren Eingang der dritten Erfassungsstufe 211a verbunden ist. Ebenfalls analog zur Ausführung der ersten und zweiten Spracherkennungseinheit ist auch hier der (dritten) Erfassungsstufe ein (dritter) Schlüsselwortspeicher 212 nachgeschaltet, der seinerseits ausgangsseitig mit dem Sequenzspeicher 208 verbunden ist. Die Baugruppen 210 bis 212 realisie- ren, wie sich ohne weiteres aus den obigen Erläuterungen zu Fig. 1 ableiten läßt, einen dritten Schritt der Erkennung einer Schlüsselwortsequenz, der auch einer dritten hierarchischen Ebene des Verfahrens entspricht.

Es ist noch darauf hinzuweisen, daß mit dem Ausgang der ersten Erfassungsstufe (neben dem ersten Schlüsselwortspeicher 204) eine Selektorstufe 203S verbunden ist, welche in Form eines Lookup-Table organisiert ist und einzeln erfaßten ersten Schlüsselworten jeweils eine von mehreren verfügbaren zweiten Spracherkennungseinheiten zuordnet und ein entsprechendes Auswahlsignal an die Spracherkennungs-Ablaufsteuerung 203 ausgibt. Durch die von dieser nach oben ragenden strichpunktierten Pfeile ist angedeutet, daß außer der in der Figur gezeigten zweiten Spracherkennungseinheit 206 wahlweise andere Spracherkennungseinheiten der zweiten Ebene angesteuert werden können. Auch diesen können natürlich - wie der in der Figur gezeigten zweiten Spracherkennungseinheit 206 die dritte Spracherkennungseinheit 211 zugeordnet ist - wiederum Spracherkennungseinheiten der dritten Ebene zugeordnet sein. Weiterhin kann, wie sich leicht einsehen läßt, auch zwischen der zweiten und dritten Ebene eine ähnliche Selek- torstufe vorgesehen sein, so daß auch auf dieser Ebene in Abhängigkeit vom erkannten zweiten Schlüsselwort bzw. zweiten Teil einer Schlüsselwortsequenz eine ausgewählte von mehreren bereitstehenden dritten Spracherkennungseinheiten aktiviert werden könnte. Schließlich ist eine Kaskadierung auch mit einem einzigen Puffer möglich, dessen Verzögerungszeit dann variabel ist und zur Realisierung einer schritthaltenden Verarbeitung tendenziell verringert werden muß.

Auch in übrigen Einzelheiten ist die Ausführung der Erfindung nicht auf die obigen Beispiele beschränkt, sondern auch in einer Vielzahl von im fachmännischen Ermessen liegenden Abwandlungen möglich.

Claims

Patentansprüche

1. Verfahren zur Spracherkennung, bei dem ein Abschnitt eines kontinuierlichen Sprachstromes von gesprochenen Wörtern durch Vergleich mit gespeicherten Mustern detektiert wird, d a d u r c h g e k e n n z e i c h n e t, daß

- in einem ersten Erfassungsschritt mittels eines ersten Spracherkennungssystems der Sprachstrom auf das Auftreten eines vorbestimmten ersten Schlüsselworts oder einer ersten Schlüsselwortsequenz geprüft,

- im Ansprechen auf die Erfassung eines ersten Schlüsselworts oder einer ersten Schlüsselwortsequenz dieses bzw. diese gespeichert, das erste Spracherkennungssystem deaktiviert und ein zweites Spracherkennungssystem aktiviert, - in einem zweiten Erfassungsschritt mittels des zweiten

Spracherkennungssystems der Sprachstrom auf das Auftreten eines vorbestimmten zweiten Schlüsselworts oder einer zweiten Schlüsselwortsequenz geprüft,

- im Ansprechen auf die Erfassung des zweiten Schlüsselworts oder der zweiten Schlüsselwortsequenz dieses bzw. diese gespeichert, das zweite Spracherkennungssystem deaktiviert und das erste oder ein weiteres Spracherkennungssystem aktiviert und

- die gespeicherten ersten und zweiten Schlüsselworte bzw. Schlüsselwortsequenzen zusammengefügt und ausgegeben oder zur Ausgabe bereitgestellt werden.

2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß in Abhängigkeit von der Art des ersten erfaßten Schlüsselworts bzw. der ersten Schlüsselwortsequenz ein ausgewähltes von mehreren verfügbaren zweiten Spracherkennungssystemen aktiviert wird.

3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, daß für die Erfassung des zweiten Schlüsselworts bzw. der zweiten Schlüsselwortsequenz ein Zeitfenster im Sprachstrom vorbestimmt wird.

4. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß während des ersten Erfassungsschrittes in einem Speichervorgang laufend ein jeweils letzter Abschnitt des Sprachstromes als Pufferabschnitt zwischengespeichert und der zweite Erfassungsschritt mit dem um den Pufferabschnitt verzögerten Sprachstrom ausgeführt wird, wobei die zeitliche Länge des Pufferabschnitts in Abhängigkeit von der Erfassungszeitkonstanten des ersten Spracherkennungssystems bestimmt wird.

5. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß als erstes Schlüsselwort bzw. erste Schlüsselwortsequenz ein solches bzw. eine solche vorbestimmt ist, auf das/die regelmäßig eine Ziffer oder ein Ziffern enthaltender Abschnitt als zweites Schlüsselwort bzw. zweite Schlüsselwortsequenz folgt, und daß als zweites Spracherkennungssystem ein an die Ziffernerkennung angepaßtes Spracherkennungssystem eingesetzt wird.

6. Verfahren nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t, daß als erstes Schlüsselwort eines der Worte "Nummer", "Telefonnummer", "Datum" oder "Uhrzeit" vorbestimmt ist und die zweite Schlüsselwortsequenz eine Ziffernkette bzw. Datums- oder Uhrzeitangabe ist.

7. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß es mehr als zwei Erfassungsschritte unter Einsatz jeweils eines spezifischen Spracherkennungssystems aufweist.

8. Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch die Anwendung zur Sprachsteuerung eines Computers oder eines über einen Computer gesteuerten Gerätes oder eines Telekommu- nikations- oder eines Konsumelektronik-Gerätes.

9. Vorrichtung (100; 200) zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, mit einem ersten Spracherkennungssystem (102; 202) zur Erfas- sung des Auftretens eines vorbestimmten ersten Schlüsselwortes oder einer Schlüsselwortsequenz in einem kontinuierlichen Sprachstrom, einem zweiten Spracherkennungssystem (106; 206) zur Erfassung des Auftretens eines vorbestimmten zweiten, auf das erste Schlüsselwort oder die erste Schlüsselwortsequenz folgenden zweiten Schlüsselworts oder einer zweiten Schlüsselwortsequenz in dem kontinuierlichen Sprachstrom und einer Spracherkennungs-AblaufSteuerung (103; 203) zur initialen Aktivierung des ersten Spracherkennungssystems und zur bedingten späteren Aktivierung des zweiten Spracherkennungssystems in Abhängigkeit von einem Erfassungsergebnis des ersten Spracherkennungssystems, wobei das erste und zweite Spracherkennungssystem einen ersten bzw. zweiten Vokabularspeicher (102b, 106b; 202b, 206b) mit unterschiedlichem Wortschatz aufweisen.

10. Vorrichtung nach Anspruch 9, gekennzeichnet durch einen Pufferspeicher, insbesondere Ringpuffer, (105; 205, 210) zur Pufferung des kontinuierlichen Sprachstroms zur Überbrückung einer Verarbeitungszeit des ersten Spracherkennungssystems (102; 202) zur Erfassung des ersten Schlüsselworts oder der ersten Schlüsselwortsequenz.

11 . Vorrichtung nach Anspruch 9 oder 10 , d a d u r c h g e k e n n z e i c h n e t , daß mehr als zwei Spracherkennungssysteme (202, 206, 211) zur abgestuften bedingten Erfassung von mehr als zwei miteinander verknüpften Schlüsselworten oder Schlüsselwortsequenzen vorgesehen sind.

12. Vorrichtung nach einem der Ansprüche 9 bis 11, gekennzeichnet durch je einen jedem Spracherkennungssystem zugeordneten Schlüsselwortspeicher (104, 107; 204, 207, 212) und einen mit den Schlüsselwortspeichern verbundenen Sequenzspeicher (108; 208) zur geordneten Speicherung einer aus den Speicherinhalten der Schlüsselwortspeicher zusammengesetzten Sequenz.