DE602005000308T2 - Vorrichtung für sprachgesteuerte Anwendungen - Google Patents

Vorrichtung für sprachgesteuerte Anwendungen Download PDF

Info

Publication number
DE602005000308T2
DE602005000308T2 DE602005000308T DE602005000308T DE602005000308T2 DE 602005000308 T2 DE602005000308 T2 DE 602005000308T2 DE 602005000308 T DE602005000308 T DE 602005000308T DE 602005000308 T DE602005000308 T DE 602005000308T DE 602005000308 T2 DE602005000308 T2 DE 602005000308T2
Authority
DE
Germany
Prior art keywords
keywords
rule
keyword
action
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005000308T
Other languages
English (en)
Other versions
DE602005000308D1 (de
Inventor
Eric Paillet
Dominique Dubois
Danielle Larreur
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of DE602005000308D1 publication Critical patent/DE602005000308D1/de
Application granted granted Critical
Publication of DE602005000308T2 publication Critical patent/DE602005000308T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Description

  • Die vorliegende Erfindung betrifft die automatischen Spracherkennungssysteme, die in der Lage sind, in Abhängigkeit von einem von einem Benutzer gesprochenen Satz eine Aktion auszulösen.
  • Solche Systeme werden insbesondere bei den Sprachservern der Telekommunikationsnetze verwendet.
  • Diese Sprachserver werden in interaktiven Sprachanwendungen verwendet, bei denen ein Dialog zwischen einem Benutzer und einem Automaten eingeleitet wird, um die Erwartung des Benutzers zu bestimmen.
  • Sie bestehen aus einem Spracherkennungssystem, das einen unbearbeiteten Satz liefert, der vom Benutzer gesprochen wurde, und einem System der semantischen Analyse, das diesen Satz in eine Folge von Schlüsselwörtern zerlegt. Außerdem weist dieses eine Einheit von Regeln auf, die einer Einheit von Schlüsselwörtern eine auszuführende Aktion zuordnen. Der semantische Analysator sucht dann die Regel oder die Regeln, deren erwartete Schlüsselwörter sich in den vom Benutzer gesprochenen Satz befinden.
  • Wenn so mehrere Regeln ausgewählt werden, wählt der semantische Analysator unter Verwendung von Kriterien wie einer Wahrscheinlichkeits-Gewichtung, dem Kontext, in dem der Satz gesprochen wurde,... die relevanteste Regel aus.
  • Dies wurde in dem Dokument von Tsuboi et al.: "A real-time task-oriented speech understanding system using keyword spotting", ICASSP 1992, Seiten 197–200, offenbart.
  • Wenn die Regel gewählt wurde, wird die von ihr definierte Aktion von einem Dialogverwaltungssystem ausgeführt. Bei den Sprachservern entspricht die Aktion oft der Erzeugung eines vorab aufgezeichneten Satzes, der die vom Benutzer erwartete Antwort gibt, oder der eine Frage stellt, die es ermöglicht, dessen Erwartung besser zu umgrenzen.
  • Die derzeit von den semantischen Analysatoren verwendeten Techniken funktionieren nach dem Prinzip einer strikten Entsprechung zwischen den im Wortlaut angetroffenen Wörtern und den in der Regel erwarteten Wörtern.
  • Wenn ein Schlüsselwort im Wortlaut vorhanden ist, selbst wenn es nicht für den allgemeinen Sinn bestimmend ist, muss es sich in der Regel wiederfinden, damit diese akzeptiert wird.
  • Diese Art Betrieb ist aber wenig an die üblicherweise beim Sprechen angetroffenen Sätze angepasst, insbesondere weil diese Sätze verrauscht, grammatikalisch unkorrekt, schlecht aufgebaut sind, und oft Zögern oder redundante Informationen enthalten, die beim Schreiben der Regeln nicht vorgesehen wurden.
  • Diese extreme Empfindlichkeit zwingt dann den Entwerfer, alle möglichen Regeln unter Berücksichtigung aller vorstellbaren Syntaxfehler zu schreiben.
  • Dieser Nachteil schränkt die Verwendung solcher Systeme also stark ein.
  • Es ist also das Ziel der Erfindung, ein Sprachanwendungssystem vorzuschlagen, das die anwendbaren Regeln trotz der Geräusche und Unvollkommenheiten des gesprochenen Satzes problemlos erkennt.
  • Erfindungsgemäß wird ein System, wie es im Anspruch 1 ausgedrückt ist, ein Verfahren wie im Anspruch 5, und ein Programm wie im Anspruch 9 beansprucht.
  • Gegenstand der Erfindung ist also ein Sprachanwendungssystem, das Mittel zur Erfassung mindestens eines von mindestens einem Benutzer ausgesprochenen Satzes aufweist, die mit Mitteln zur semantischen Analyse verbunden sind, die Mittel zur Erkennung von zum gesprochenen Satz gehörenden Schlüsselwörtern, die ausgelegt sind, um eine geordnete Liste der Schlüsselwörter, Wortlaut genannt, des gesprochenen Satzes zu erzeugen, wobei die Erkennungsmittel mit Mitteln zur Zuordnung, in Form von Regeln, zwischen mindestens einem vorbestimmten Schlüsselwort und einer bestimmten Aktion verbunden sind, und Mittel zur Auswahl mindestens einer bestimmten Aktion aufweisen, wenn eine Einheit von in der entsprechenden Regel enthaltenen Schlüsselwörtern in dem ausgesprochenen Satz vorhanden ist, dadurch gekennzeichnet, dass die Auswahlmittel zur Identifikation die Gesamtheit der Regeln durchlaufen und für jede gegebene Regel das Vorhandensein einer Einheit von Schlüsselwörtern dieser Regel im gesprochenen Satz suchen, um die entsprechende bestimmte Aktion bezüglich der so gelösten und identifizierten Regel auszuwählen.
  • Gemäß weiteren Merkmalen der Erfindung:
    • – wird die Einheit der Schlüsselwörter einer Regel aus geordneten Untereinheiten von Schlüsselwörtern, Ausdrücke genannt, gebildet, wobei jedes Schlüsselwort oder jeder Ausdruck mit anderen Schlüsselwörtern oder Ausdrücken so kombiniert wird, dass mindestens zwei Schlüsselwörter oder Ausdrücke entweder untereinander austauschbar oder in einer bestimmten Reihenfolge des Auftretens oder auch in einer beliebigen Reihenfolge vorhanden sind;
    • – wählen für eine gegebene Regel, die eine Einheit von Ausdrücken aufweist, die Auswahlmittel die entsprechende Aktion aus, wenn die Regel vollständig gelöst wurde, ansonsten suchen sie im laufenden Ausdruck das erste Schlüsselwort des Wortlauts, und wenn das erste Schlüsselwort gefunden ist, suchen sie den Rest der Schlüsselwörter des Ausdrucks im Wortlaut, und wenn diese letzte Suche erfolglos ist, wird der laufende Ausdruck für dieses erste Schlüsselwort invalidiert und die Suche wieder aufgenommen, ansonsten ist die Regel gelöst und die entsprechende Aktion wird ausgewählt, und wenn das erste Schlüsselwort nicht gefunden wird, wird die Suche im Rest der Schlüsselwörter wieder aufgenommen;
    • – weisen die Mittel zur semantischen Analyse außerdem Verzweigungsmittel auf, die ausgelegt sind, um unter der Gesamtheit der ausgewählten Aktionen die auszuführende Aktion zu bestimmen.
  • Die Erfindung wird besser verstanden anhand der nachfolgenden Beschreibung, die nur als Beispiel dient und sich auf die beiliegenden Zeichnungen bezieht. Es zeigen:
  • 1 ein Gesamtschema der Erfindung;
  • 2 ein Flussdiagramm eines die Erfindung verwendenden Sprachservers;
  • 3 ein allgemeines erfindungsgemäßes Flussdiagramm; und
  • 4 ein detailliertes erfindungsgemäßes Flussdiagramm für eine Regel.
  • Ein erfindungsgemäßes Sprachanwendungssystem weist gemäß 1 Mittel zur Erfassung von Sätzen auf, die von einem Benutzer gesprochen werden.
  • In üblicher Weise bestehen diese Erfassungsmittel aus einem Mikrofon, zum Beispiel demjenigen eines Telefonhörers, das mit einer Elektronikkarte verbunden ist, die das vom Mikrofon erzeugte analoge Signal in eine Folge von digitalen Daten umwandelt, die für das empfangene Signal repräsentativ ist.
  • Diese Erfassungsmittel 1 sind mit Spracherkennungsmitteln 2 verbunden.
  • Diese Erkennungsmittel 2 verwenden in üblicher Weise allgemein bekannte Technologien vom Typ N-gram. Firmen wie Nuance und Scansoft schlagen kommerziell solche besonders gut an durchgehendes Sprechen angepasste Technologien vor. Andere Spracherkennungstechnologien sind ebenfalls vorsehbar, ohne dass dies die Erfindung verändert.
  • Die Spracherkennungsmittel 2 wandeln so die von den Erfassungsmitteln 1 empfangene Folge von digitalen Daten in einen unbearbeiteten Satz um.
  • Die Mittel 3 zur semantischen Analyse oder semantischer Analysator weisen Mittel 8 zur Erkennung von Schlüsselwörtern auf, die den unbearbeiteten Satz in eine geordnete Einheit von erkannten Schlüsselwörtern oder Wortlaut umwandeln.
  • Sie weisen außerdem Zuordnungsmittel 4 zwischen Schlüsselwörtern und Aktionen auf. Diese Zuordnungsmittel liegen vorzugsweise in Form von Regeln des Typs: <Schlüsselwort 1> <Schlüsselwort 2> ... <Schlüsselwort N> → Aktion vor.
  • Die Mittel 3 zur semantischen Analyse weisen ebenfalls Auswahlmittel 5 auf, die die geordnete Einheit von im gesprochenen Satz erkannten Schlüsselwörtern mit den verschiedenen Regeln 4 vergleichen. Die der Einheit von Schlüsselwörtern entsprechenden Regeln 4 definieren so die Gesamtheit der möglicherweise auszuführenden Aktionen.
  • Der semantische Analysator 3 weist ebenfalls Verzweigungsmittel 6 auf. Diese Verzweigungsmittel 6 werden verwendet, wenn mehrere Regeln ausgewählt wurden, um diejenige zu bestimmen, deren Aktion ausgeführt werden soll.
  • Wenn die Aktion ausgewählt ist, wird sie von Dialogmitteln 9 ausgeführt, die einen entsprechenden Satz erzeugen und ihn an den Benutzer als Antwort auf den von ihm gesendeten Satz übertragen.
  • Dieser Satz kann eine Antwort oder auch eine Frage sein, die es ermöglicht, die Erwartung des Kunden zu präzisieren und so einen Dialog zwischen dem Benutzer und dem Server erzeugt.
  • Die erzeugten Aktionen können ebenfalls Steuerungen eines Automaten entsprechen. Zum Beispiel kann ein System der Prüfung/Steuerung eines Prozesses ein erfindungsgemäßes Sprachanwendungssystem verwenden, um die Befehle von einem Operator anstelle von oder zusätzlich zu üblicheren Schnittstellen zu empfangen, wie die Tastatur und der Bildschirm.
  • Der Betriebsmodus des semantischen Analysators 3 wird nun genauer beschrieben.
  • Wie oben erwähnt, ist jede Aktion einer Reihe von geordneten Schlüsselwörtern zugeordnet, wobei das Ganze einer Regel entspricht.
  • Die Gesamtheit der Regeln, 2, ist im semantischen Analysator zum Beispiel in Form einer Datei gespeichert. Eine bevorzugte Ausführungsform besteht darin, die Regeln in einer Textdatei zu sammeln, die eine Regel pro Zeile enthält.
  • Die Schlüsselwörter werden dann geordnet, indem drei Operatoren verwendet werden.
  • Der erste Operator, mit & bezeichnet, entspricht dem geordneten Operator UND. So zeigt A & B an, dass die Schlüsselwörter A und B vorhanden sein müssen und dass B in der Reihenfolge des Wortlauts auf A folgt.
  • Der zweite Operator, mit # bezeichnet, entspricht dem nicht geordneten Operator UND. A # B zeigt an, dass die Schlüsselwörter A und B vorhanden sein müssen und dass die Reihenfolge des Auftretens von A und B im Satz bedeutungslos ist: AB und BA werden als zu dieser Regel gehörend erkannt.
  • Der dritte Operator, mit | bezeichnet, entspricht dem Operator ODER. A|B zeigt an, dass der Wortlaut alternativ A oder B enthalten muss. Die Schlüsselwörter A und B sind also austauschbar.
  • Diese drei Operatoren können miteinander kombiniert werden, und Klammern ermöglichen es, Gruppen von Schlüsselwörtern zu definieren.
  • Zum Beispiel zeigt (A|B) & (C#D) an, dass die Regel gültig ist für einen Wortlaut, der mit den Schlüsselwörtern A oder B beginnt, gefolgt von CD oder von DC.
  • In der bevorzugten Ausführungsform der Erfindung wird die der Regel entsprechende durchzuführende Aktion am Ende der Zeile nach den Schlüsselwörtern geschrieben und mit geschweiften Klammern umrahmt.
  • Der semantische Analysator 3 empfängt in 3, Schritt 10 am Eingang einen Satz in Form einer geordneten Folge von Schlüsselwörtern, oder Wortlaut, und besitzt einen Satz von Regeln in Form einer Datei.
  • Er liest eine erste Regel in 11 und sucht das von dieser erwartete Schlüsselwort. Eine Regel wird in 12 als gültig markiert, wenn die Folge von Schlüsselwörtern, die sie definiert, sich im Wortlaut wiederfindet.
  • Es kann aber vorkommen, dass in der Regel erwartete Wörter im Wortlaut durch andere, nicht vorgesehene Wörter getrennt sind. Diese werden dann gelöscht und als nicht relevantes Geräusch betrachtet.
  • Der semantische Analysator versucht aber systematisch, die Konformität des Satzes mit der Regel zu überprüfen.
  • Wenn er alle Möglichkeiten der Übereinstimmung erschöpft hat oder entdeckt hat, dass die Regel anwendbar ist, sucht der Analysator die folgende Regel in 13. Wenn sie existiert, wird sie wie vorher analysiert, ansonsten überträgt der semantische Analysator in 14 an die Verzweigungsmittel 6 die Gesamtheit der gültigen Regeln.
  • So ermöglicht der semantische Analysator 3 in besonders vorteilhafter Weise, bestimmte Schlüsselwörter des Wortlauts zu ignorieren und alles, was sich zwischen zwei erwarteten Wörtern befindet, als nicht bestimmende Information, d.h. als Geräusch, zu betrachten.
  • Um eine vollständige Erforschung der Möglichkeiten des Wortlauts gegenüber der Liste der Schlüsselwörter der Regel zu ermöglichen, verwendet der semantische Analysator die folgende rekursive Strecke der 4:
    • 1. Wenn der Ausdruck in 20 vollständig gelöst wurde, hat man in 21 eine korrekte Regel, selbst wenn nicht getestete Schlüsselwörter übrig sind;
    • 2. ansonsten Suche in 22 im Ausdruck nach dem ersten Wort der Liste der Schlüsselwörter;
    • 3. wenn das Wort in 23 gefunden wurde, wird in 24 in gleicher Weise die Suche mit dem Rest der Schlüsselwörter gestartet: a. Wenn die Suche mit dem Rest der Schlüsselwörter in 25 gescheitert ist, wird in 27 der Subausdruck, der es ermöglicht hat, das erste Wort zu finden, für dieses erste Wort und nur für dieses invalidiert (es wird als Geräusch betrachtet), und die Suche wird erneut gestartet. Das Endergebnis ist dann das Ergebnis dieser neuen Suche. b. Wenn die Suche mit dem Rest der Wörter in 25 erfolgreich war, hat man in 26 eine korrekte Regel gefunden.
    • 4. Wenn das Wort in 23 nicht gefunden wurde, wird es in 28 als Geräusch betrachtet, und die Suche wird in 22 über den Rest der Schlüsselwörter gestartet. Das Endergebnis ist dann das Ergebnis dieser neuen Suche.
  • Dies ermöglicht einen Rückwärtsschritt, wenn ein begonnener Subausdruck gescheitert ist und wenn es noch Alternativen in der Regel gibt, die nicht erforscht wurden.
  • Um diesen Betrieb besser verständlich zu machen, wird als Beispiel angenommen, dass der Wortlaut ist
    [Mobiltelefon][Begrenzen][Betrag][Zahlen][Reduktion] [Zahlen][Dings][Teuer]
    und dass die Regel den Ausdruck
    ((Reduktion # (Begrenzen & Betrag) # (Zahlen & Teuer))# Mobiltelefon) definiert.
  • Der Ablauf des Algorithmus ist folgendermaßen:
    • 1 – Suche des Worts [Mobiltelefon] im Ausdruck, Erfolg der Suche.
    • 2 – Erfolgreiche Suche von [Begrenzen], der Subausdruck (Begrenzen & Betrag) wird begonnen.
    • 3 – Suche nach [Betrag] im begonnenen Subausdruck, Erfolg. Der Subausdruck (Begrenzen & Betrag) ist gelöst.
    • 4 – Suche nach [Zahlen], Erfolg und Subausdruck (Zahlen & Teuer) wird begonnen.
    • 5 – Suche nach [Reduktion] im begonnenen Subausdruck. Scheitern der Suche. [Reduktion] wird als Geräusch betrachtet und es wird fortgefahren.
    • 6 – Suche des zweiten [Zahlen] im begonnenen Ausdruck. Erneutes Scheitern der Suche. Das zweite [Zahlen] wird als Geräusch betrachtet und es wird fortgefahren.
    • 7 – [Dings] wird auch nicht im begonnenen Ausdruck gefunden. [Dings] wird als Geräusch betrachtet.
    • 8 – Das Schlüsselwort [Teuer] wird im begonnenen Ausdruck gesucht. Erfolg der Suche des Worts [Teuer], aber es sind keine Schlüsselwörter mehr übrig und der Ausdruck wurde nicht ganz gelöst. Rückkehr zum Punkt 7 mit einem Scheitern des Lösens der Regel.
    • 7.1 – Da [Dings] nicht gefunden wurde, Rückkehr zum Punkt 6.
    • 6.1 – Da [Zahlen] als Geräusch betrachtet wird, Rückkehr zum Punkt 5.
    • 5.1 – Gleiches mit [Reduktion], Rückkehr zum Punkt 4.
    • 4.1 – Da [Zahlen] gefunden wurde, wird der Subausdruck (Zahlen & Teuer) für die Suche dieses ersten [Zahlen] invalidiert, bleibt aber für die Suche des zweiten [Zahlen] zugänglich. Dieser Subausdruck wird nicht mehr als begonnen angesehen. Man sucht erneut das erste [Zahlen]. Dieses Mal scheitert die Suche, da der Subausdruck (Zahlen & Teuer) nicht zugänglich ist. Das erste [Zahlen] wird als Geräusch betrachtet und es wird fortgefahren.
    • 5.2 – Suche nach [Reduktion], das gefunden wird, da dieses Mal kein Subausdruck begonnen wurde.
    • 6.2 – Suche des zweiten [Zahlen], das gefunden wird, der Subausdruck (Zahlen & Teuer) wird erneut begonnen.
    • 7.2 – Suche nach [Dings], Scheitern der Suche, es wird also als Geräusch betrachtet und es wird fortgefahren.
    • 8.1 – Suche nach [Teuer] mit Erfolg. Der Ausdruck ist ganz gelöst, und es ist also gelungen, eine korrekte Regel zu finden.
  • So ermöglicht es die Erfindung auf besonders vorteilhafte Weise dem Spracherkennungssystem, die anwendbaren Regeln zu erkennen, trotz der Geräusche und Unvollkommenheiten des gesprochenen Satzes.

Claims (10)

  1. Sprachanwendungssystem, das Mittel (1, 2) zur Erfassung mindestens eines von mindestens einem Benutzer ausgesprochenen Satzes aufweist, die mit Mitteln (3) zur semantischen Analyse verbunden sind, die Mittel (8) zur Erkennung von zum gesprochenen Satz gehörenden Schlüsselwörtern, die ausgelegt sind, um eine geordnete Liste der Schlüsselwörter, Wortlaut genannt, des gesprochenen Satzes zu erzeugen, wobei die Erkennungsmittel mit Mitteln (4) zur Zuordnung, in Form von Regeln, zwischen mindestens einem vorbestimmten Schlüsselwort und einer bestimmten Aktion verbunden sind, und Mittel (5) zur Auswahl mindestens einer bestimmten Aktion aufweisen, wenn eine Einheit von in der entsprechenden Regel enthaltenen Schlüsselwörtern in dem ausgesprochenen Satz vorhanden ist, dadurch gekennzeichnet, dass die Auswahlmittel (5) zur Identifikation die Gesamtheit der Regeln durchlaufen und für jede gegebene Regel das Vorhandensein einer Einheit von Schlüsselwörtern dieser Regel im gesprochenen Satz suchen, um die entsprechende bestimmte Aktion bezüglich der so gelösten und identifizierten Regel auszuwählen.
  2. Sprachanwendungssystem nach Anspruch 1, dadurch gekennzeichnet, dass die Einheit der Schlüsselwörter einer Regel aus geordneten Untereinheiten von Schlüsselwörtern, Ausdrücke genannt, gebildet wird, wobei jedes Schlüsselwort oder jeder Ausdruck mit anderen Schlüsselwörtern oder Ausdrücken so kombiniert wird, dass mindestens zwei Schlüsselwörter oder Ausdrücke entweder untereinander austauschbar oder in einer bestimmten Reihenfolge des Auftretens oder auch in einer beliebigen Reihenfolge vorhanden sind.
  3. Sprachanwendungssystem nach Anspruch 2, dadurch gekennzeichnet, dass für eine gegebene Regel, die eine Einheit von Ausdrücken aufweist, die Auswahlmittel die entsprechende Aktion auswählen, wenn die Regel vollständig gelöst wurde, sie ansonsten im laufenden Ausdruck das erste Schlüsselwort des Wortlauts suchen, und wenn das erste Schlüsselwort gefunden ist, sie den Rest der Schlüsselwörter des Ausdrucks im Wortlaut suchen, und wenn diese letzte Suche erfolglos ist, der laufende Ausdruck für dieses erste Schlüsselwort invalidiert und die Suche wieder aufgenommen wird, ansonsten die Regel gelöst ist und die entsprechende Aktion ausgewählt wird, und wenn das erste Schlüsselwort nicht gefunden wird, die Suche im Rest der Schlüsselwörter wieder aufgenommen wird.
  4. Sprachanwendungssystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Mittel (3) zur semantischen Analyse außerdem Verzweigungsmittel (6) aufweisen, die ausgelegt sind, um unter der Gesamtheit der ausgewählten Aktionen die auszuführende Aktion zu bestimmen.
  5. Spracherkennungsverfahren, das einen vorhergehenden Schritt der Zuordnung, in Form von Regeln, zwischen mindestens einem vorbestimmten Schlüsselwort und einer bestimmten Aktion aufweist, und das außerdem folgende Schritte aufweist: – Erfassung mindestens eines von mindestens einem Benutzer gesprochenen Satzes, – die semantische Analyse, die einen Unterschritt der Erkennung von zum gesprochenen Satz gehörenden Schlüsselwörtern und einen Unterschritt der Erzeugung einer geordneten Liste von Schlüsselwörtern, Wortlaut genannt, des gesprochenen Satzes aufweist, und – Auswahl mindestens einer bestimmten Aktion, wenn eine Einheit von in der entsprechenden Regel enthaltenen Schlüsselwörtern im gesprochenen Satz vorhanden sind, dadurch gekennzeichnet, dass im Auswahlschritt zur Identifikation die Gesamtheit der Regeln durchlaufen und für jede gegebene Regel nach dem Vorhandensein einer Einheit von Schlüsselwörtern dieser Regel im gesprochenen Satz gesucht wird, um die entsprechende bestimmte Aktion bezüglich der so gelösten und identifizierten Regel auszuwählen.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Einheit der Schlüsselwörter einer Regel aus geordneten Untereinheiten von Schlüsselwörtern, Ausdrücke genannt, besteht, wobei jedes Schlüsselwort oder jeder Ausdruck mit anderen Schlüsselwörtern oder Ausdrücken kombiniert wird, so dass mindestens zwei Schlüsselwörter oder Ausdrücke entweder austauschbar oder in einer bestimmten Reihenfolge des Auftretens oder auch in einer beliebigen Reihenfolge vorhanden sind.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass für eine gegebene Regel, die eine Einheit von Ausdrücken enthält, im Auswahlschritt die entsprechende Aktion ausgewählt wird, wenn die Regel vollständig gelöst wurde, sonst im laufenden Ausdruck das erste Schlüsselwort des Wortlauts gesucht wird, und wenn das erste Schlüsselwort gefunden wird, der Rest der Schlüsselwörter des Ausdrucks im Wortlaut gesucht wird, und wenn diese letzte Suche erfolglos ist, der laufende Ausdruck für dieses erste Schlüsselwort invalidiert und die Suche wieder aufgenommen wird, ansonsten die Regel gelöst ist und die entsprechende Aktion ausgewählt wird, und wenn das erste Schlüsselwort nicht gefunden wird, die Suche unter dem Rest der Schlüsselwörter wieder aufgenommen wird.
  8. Verfahren nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, dass der Schritt der semantischen Analyse außerdem einen Unterschritt der Bestimmung der auszuführenden Aktion unter der Gesamtheit der ausgewählten Aktionen aufweist.
  9. Computerprogramm, das Programmbefehle aufweist, die ausgelegt sind, um ein Spracherkennungsverfahren nach einem der Ansprüche 5 bis 8 anzuwenden, wenn das Programm von einem Datenverarbeitungssystem ausgeführt wird.
  10. Computerlesbarer Datenträger, in dem ein Computerprogramm nach Anspruch 9 gespeichert ist.
DE602005000308T 2004-04-02 2005-04-01 Vorrichtung für sprachgesteuerte Anwendungen Active DE602005000308T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0403511A FR2868588A1 (fr) 2004-04-02 2004-04-02 Systeme d'application vocale
FR0403511 2004-04-02

Publications (2)

Publication Number Publication Date
DE602005000308D1 DE602005000308D1 (de) 2007-01-18
DE602005000308T2 true DE602005000308T2 (de) 2007-07-12

Family

ID=34896708

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005000308T Active DE602005000308T2 (de) 2004-04-02 2005-04-01 Vorrichtung für sprachgesteuerte Anwendungen

Country Status (6)

Country Link
US (1) US20050234720A1 (de)
EP (1) EP1585110B1 (de)
AT (1) ATE347728T1 (de)
DE (1) DE602005000308T2 (de)
ES (1) ES2279489T3 (de)
FR (1) FR2868588A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013019208A1 (de) * 2013-11-15 2015-05-21 Audi Ag Kraftfahrzeug-Sprachbedienung

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9253301B2 (en) * 2005-09-01 2016-02-02 Xtone Networks, Inc. System and method for announcing and routing incoming telephone calls using a distributed voice application execution system architecture
US9799039B2 (en) 2005-09-01 2017-10-24 Xtone, Inc. System and method for providing television programming recommendations and for automated tuning and recordation of television programs
US9456068B2 (en) 2005-09-01 2016-09-27 Xtone, Inc. System and method for connecting a user to business services
US20100158217A1 (en) 2005-09-01 2010-06-24 Vishal Dhawan System and method for placing telephone calls using a distributed voice application execution system architecture
US9426269B2 (en) 2005-09-01 2016-08-23 Xtone Networks, Inc. System and method for performing certain actions based upon a dialed telephone number
US11153425B2 (en) * 2005-09-01 2021-10-19 Xtone, Inc. System and method for providing interactive services
US20100166161A1 (en) * 2005-09-01 2010-07-01 Vishal Dhawan System and methods for providing voice messaging services
AU2006287156A1 (en) 2005-09-01 2007-03-08 Vishal Dhawan Voice application network platform
US9313307B2 (en) * 2005-09-01 2016-04-12 Xtone Networks, Inc. System and method for verifying the identity of a user by voiceprint analysis
US8964960B2 (en) * 2005-09-01 2015-02-24 Xtone Networks, Inc. System and method for interacting with a user via a variable volume and variable tone audio prompt
US11102342B2 (en) 2005-09-01 2021-08-24 Xtone, Inc. System and method for displaying the history of a user's interaction with a voice application
US8229745B2 (en) * 2005-10-21 2012-07-24 Nuance Communications, Inc. Creating a mixed-initiative grammar from directed dialog grammars

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
US5652897A (en) * 1993-05-24 1997-07-29 Unisys Corporation Robust language processor for segmenting and parsing-language containing multiple instructions
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
AU6225199A (en) * 1998-10-05 2000-04-26 Scansoft, Inc. Speech controlled computer user interface
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
US7263517B2 (en) * 2002-10-31 2007-08-28 Biomedical Objects, Inc. Structured natural language query and knowledge system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013019208A1 (de) * 2013-11-15 2015-05-21 Audi Ag Kraftfahrzeug-Sprachbedienung

Also Published As

Publication number Publication date
ATE347728T1 (de) 2006-12-15
US20050234720A1 (en) 2005-10-20
ES2279489T3 (es) 2007-08-16
EP1585110A1 (de) 2005-10-12
FR2868588A1 (fr) 2005-10-07
DE602005000308D1 (de) 2007-01-18
EP1585110B1 (de) 2006-12-06

Similar Documents

Publication Publication Date Title
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE60318544T2 (de) Sprachmodell für die Spracherkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE69818161T2 (de) Automatisierte Gruppierung von sinnvollen Sätzen
DE602004011753T2 (de) Verfahren und Vorrichtung zum Verbessern der Transkriptionsgenauigkeit bei der Spracherkennung
DE60201262T2 (de) Hierarchische sprachmodelle
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition