DE69823644T2 - Auswahl von superwörtern auf der basis von kriterien aus spracherkennung sowie sprachverständnis - Google Patents

Auswahl von superwörtern auf der basis von kriterien aus spracherkennung sowie sprachverständnis Download PDF

Info

Publication number
DE69823644T2
DE69823644T2 DE69823644T DE69823644T DE69823644T2 DE 69823644 T2 DE69823644 T2 DE 69823644T2 DE 69823644 T DE69823644 T DE 69823644T DE 69823644 T DE69823644 T DE 69823644T DE 69823644 T2 DE69823644 T2 DE 69823644T2
Authority
DE
Germany
Prior art keywords
lexicon
phrases
superwords
meaningful
selector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69823644T
Other languages
English (en)
Other versions
DE69823644D1 (de
Inventor
Louis Allen GORIN
Giuseppe Riccardi
Huntley Jeremy WRIGHT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69823644D1 publication Critical patent/DE69823644D1/de
Publication of DE69823644T2 publication Critical patent/DE69823644T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft die Auswahl von Superwörtern und bedeutungstragenden Phrasen auf der Grundlage eines Kriteriums, das sowohl für Spracherkennung als auch für Sprachverständnis relevant ist.
  • 2. BESCHREIBUNG DES STANDES DER TECHNIK
  • Gegenwärtig gibt es Anwendungen für Spracherkennungen, die eine Methodologie für eine automatisierte Auftragswahl aufweisen, wobei der Ziel-Auftrag in der natürlichen Sprache eines Anwenders erkannt wird, der eine solche Wahl trifft. Ein fundamentaler Aspekt dieses Verfahrens ist eine Bestimmung einer Gruppe von bedeutungstragenden Phrasen. Solche bedeutungstragende Phrasen werden durch einen grammatischen Interferenzalgorithmus bestimmt, der einen vorbestimmten Korpus von Sprachäußerungen verarbeitet, wobei jede Äußerung einem spezifischen Auftragsziel zugeordnet ist und wobei jede Äußerung mit ihrem zugeordneten Auftragsziel markiert ist.
  • Die oben beschriebenen Merkmale sind in US-A-5 794 193 und US-A-5 675 707 behandelt.
  • Die Bestimmung der bedeutungstragenden Phrasen, die in der oben beschriebenen Anwendung verwendet werden, gründet sich auf das Konzept der Kombination eines Maßes der Gemeinsamkeit der Wörter und/oder der Struktur in der Sprache – nämlich wie oft Gruppierungen von Dingen miteinander auftreten – mit einem Maß der Signifikanz für einen definieren Auftrag für eine solche Gruppierung. Das Gemeinsamkeitsmaß in der Sprache kann als die gemeinsame Information in n-Grammen manifestiert werden, die von einer Datenbasis von Trainingssprachäußerungen abgeleitet sind, und das Maß der Brauchbarkeit für einen Auftrag wird als Salienzmaß manifestiert.
  • Die gemeinsame Information ("MI"), die die Wahrscheinlichkeit der Kookkurenz (gemeinsames Auftreten) für zwei oder mehr Wörter mißt, bezieht sich nur auf die Sprache selbst. Beispielsweise könnte man, wenn man 'Krieg' und 'Frieden' in russischer Originalsprache annimmt, die gemeinsame Information für alle möglichen Paarungen von Wörtern in diesem Text berechnen, ohne überhaupt ein Wort der Sprache zu verstehen, in der dies geschrieben ist. Im Gegensatz dazu erfordert die Berechnung der Salienz sowohl die Sprache als auch ihre außerlinguistischen Assoziationen mit der Umgebung einer Vorrichtung. Durch die Verwendung einer solchen Kombination aus MI und einem Salienzfaktor werden bedeutungstragende Phrasen ausgewählt, die sowohl eine positive MI (die eine relativ starke Assoziation zwischen den Wörtern anzeigt, die die Phrasen umfassen) als auch einen hohen Salienzwert haben.
  • Solche Verfahren beruhen auf der Wahrscheinlichkeit, daß getrennte Gruppen von salienten Wörtern in der bestimmten eingegebenen Äußerung auftreten. Beispielsweise würden die salienten Phrasen "eine lange Strecke gefahren" von diesem grammatischen Interferenzalgorithmus aufgrund ihrer individuellen gemeinsamen Information und ihrer Salienzwerte als bedeutungstragende Phrasen bestimmt werden.
  • Das Dokument 'Phrase bigrams for continuous speech recognition' (Giachin E.P., Proc. of ICASSP 1995, IEEE) offenbart eine Prozedur zum automatischen Bestimmen häufiger Phrasen in einer nichtbezeichneten Trainingsgruppe von geschriebenen Sätzen.
  • Obwohl das Auftragsziel die Erkennung bedeutungstragender Wörter und Phrasen erfordert, wird dies normalerweise über eine große Vokabularerkennungseinrichtung erreicht, die durch stochastische Sprachmodelle eingeschränkt ist, zum Beispiel ein n-Gramm-Modell. Eine Methode für eine solche Modellierung zur Einschränkung der Erkennungseinrichtung besteht darin, eine stochastische Grammatik der finiten Zustände zu trainieren, die durch einen variablen stochastischen n-Gramm-Automaten (VNSA) dargestellt ist. Ein VNSA ist ein nichtdeterministischer Automat, der die Syntaxanalyse jeder möglichen Sequenz von Wörtern ermöglicht, die aus einem gegebenen Vokabular stammen.
  • Traditionell nehmen solche n-Gramm-Sprachmodelle zur Spracherkennung Wörter als die grundlegende lexikalische Einheit an. Die Größenordnung eines VNSA-Netzwerks ist die maximale Anzahl von Wörtern, von denen vorhergesagt werden kann, daß sie nach dem Auftreten eines bestimmten Wortes in einer Äußerung auftreten. Unter Verwendung bedingter Wahrscheinlichkeiten sind also bisher VNSAs verwendet worden, um standardisierte n-Gramm-Sprachmodelle zu approximieren, die ein ähnliches Verhalten zeigen wie standardisierte Bi-Gramm- und Tri-Gramm-Modelle. Wenn das "n" im n-Gramm jedoch zu groß wird, wird eine Datenbasis zur Vorhersage des Auftretens von Wörtern als Antwort auf das Auftreten eines Wortes in einer Äußerung zu groß und nicht mehr handhabbar. Außerdem kann das Auftreten von Wörtern, die in der Sprache nur mit geringer Wiederholung auftreten, fälschlicherweise hohen Wahrscheinlichkeiten zugeordnet werden, und es kann somit eine Anzahl von Falsch-Ermittlungen in der erkannten Sprache erfolgen.
  • Ein Verfahren zur Erzeugung längerer Einheiten zur Sprachmodellierung ist also notwendig, um die effiziente Anwendung von n-Gramm-Sprachmodellen zur Erkennung der gesprochenen Sprache und zur Verwendung dieser längeren Einheiten zusammen mit bedeutungstragenden Wörtern und Phrasen zur Spracherkennung und zum Sprachverständnis zu fördern.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung wird ein Verfahren und eine Vorrichtung zur Bestimmung von Superwörtern und bedeutungstragenden Phrasen bereitgestellt, wie in den beigefügten Ansprüchen ausgeführt.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Die Erfindung wird nachstehend ausführlich mit Bezug auf die folgenden Zeichnungen beschrieben, in denen gleiche Bezugszeichen gleiche Elemente bezeichnen und in denen folgendes gezeigt wird:
  • 1A und 1B sind Floßdiagramme zur Erzeugung und Auswahl von Superwörtern und bedeutungstragenden Phrasen;
  • 2 ist ein Diagramm, das die Falschzurückweisungsrate für entropiebasierte und salienzbasierte Phrasen zeigt;
  • 3 ist ein Blockschaltbild einer Spracherkennungseinrichtung; und
  • 4 ist ein Funktionsblockschaltbild eines Systems, in dem das Verfahren zur Auswahl von Superwörtern angewendet werden kann.
  • AUSFÜHRLICHE BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • n-Gramm-Sprachmodelle zur Spracherkennung werden gegenwärtig unter Verwendung von Wörtern als die grundlegende lexikalische Einheit implementiert. Es gibt jedoch verschiedene Motivationen zur Auswahl längerer Einheiten für eine Sprachmodellierung. Erstens haben nicht alle Sprachen eine vordefinierte Worteinheit (zum Beispiel das Chinesische). Zweitens können Wortgruppen oder Phrasen in der Sprache mit großen Wiederholungen auftreten und können als ein einziger lexikalischer Eintrag angesehen werden, zum Beispiel 'area code', 'I would like to' oder 'New Jersey'. Drittens können wir für jedes Modell mit einer festen Ordnung die bedingten Wahrscheinlichkeiten unter Verwendung variabel langer Einheiten selektiv verbessern, um weitreichende Abhängigkeiten zu erfassen. Die Verwendung dieser längeren lexikalischen Einheiten ist die Grundlage für die Erzeugung von Superwörtern.
  • Das Verfahren zur automatischen Erzeugung und Auswahl solcher variabel langer Einheiten oder Superwörter beruht auf der Minimierung der Sprachperplexität PP(T) anhand eines Trainingskorpus T.
  • Perplexität kann folgendermaßen beschrieben werden. Natürliche Sprache kann als eine Informationsquelle W angesehen werden, deren Erzeugnis eine Wortsequenz ist. Wir können also W der Entropie H(W) zuordnen, nämlich:
    Figure 00030001
    wobei w1, w2,..., wn der tatsächliche Textkorpus ist.
  • Perplexität (PP) wird in der Spracherkennung verwendet, um die Schwierigkeit eines Erkennungsauftrags in bezug auf ein gegebenes Sprachmodell zu messen. Im einzelnen mißt die Perplexität den "durchschnittlichen Verzweigungsfaktor" (das heißt, die durchschnittliche Anzahl von Wörtern, Symbolen oder Tönen, die irgendeinem gegebenen Wort, Symbol oder Ton folgen können). Je größer die Anzahl der Wörter ist, die möglicherweise einem oder mehreren Wörtern, Symbolen oder Tönen folgen könnten, um so höher ist der Perplexitätswert. Es gibt beispielsweise viel mehr Wörter, die dem Wort "to" folgen könnten (höherer Perplexitätswert), als solche, die der Phrase "I would like to" folgen können (niedrigerer Perplexitätswert).
  • Die Perplexität eines Sprachmodells ist folgendermaßen definiert:
    PP = 2LP
    wobei LP die 'logprob' ist:
    Figure 00030002
    wobei n die Größe des Korpus W = w1, w2,..., wn ist, der verwendet wird, um PP zu schätzen, und P ^ (w1, w2,..., wn) der Wahrscheinlichkeitsschätzwert des Korpus W ist. Es hat bisher zwar auch andere Forschungen in bezug auf automatische Erfassung von entropiereduzierenden Phrasen gegeben, aber diese Arbeit unterscheidet sich deutlich in den Sprachmodellkomponenten und den Optimierungsparametern.
  • Dagegen gründet sich die Bestimmung von verwendeten bedeutungstragenden Phrasen in dem Konzept der Kombination eines Maßes der Gemeinsamkeit von Wörtern und/oder einer Struktur in der Sprache – das heißt, wie oft Gruppierungen von Dingen gemeinsam auftreten – mit einem Maß der Signifikanz für einen definierten Auftrag bei einer solchen Gruppierung. Dieses Gemeinsamkeitsmaß innerhalb der Sprache kann als gemeinsame Information in n-Grammen manifestiert werden, die von einer Datenbasis von Trainingssprachäußerungen abgeleitet werden, und das Maß der Brauchbarkeit für einen Auftrag wird als Salienzmaß manifestiert.
  • Wie in 1A und 1B gezeigt, ist das Phrasenerfassungsverfahren ein iterativer Prozeß, der eine Gruppe von entropiebasierten Superwörtern (Ephr) und eine Gruppe von salienzbasierten bedeutungstragenden Wörtern und Phrasen (Sphr) erzeugt. Insbesondere wenn eine feste Modellgrößenordnung n und ein Trainingskorpus T gegeben sind, läuft das Verfahren folgendermaßen ab.
  • In einem Schritt S100 werden die Anfangsparameter festgelegt, so daß K der Anzahl von in Betracht kommenden Superwörtern entspricht, die bei jeder Iteration erzeugt werden, und M der Anzahl der Iterationen entspricht, TII wird als Anfangstrainingskorpus festgelegt, und λII wird als das Sprachmodell der Größenordnung n festgelegt, das einem stochastischen n-Gramm-Modell bei den trainierten Wörtern aus diesem Korpus entspricht. Im Schritt S105 wird ein Zähler m von 1 bis M schrittweise erhöht, wobei M die Anzahl der Iterationen ist, die in den Parametern im Schritt S100 festgelegt sind.
  • Im Schritt S110 werden in Frage kommende Symbolpaare (x, y) bei jeder Iteration auf der Grundlage eines Korrelationskoeffizienten mit einer Rangordnung versehen und erzeugt.
  • p(x,y) = P(x,y)/[P(x) + P(Y)] (3)wobei P(x) die Wahrscheinlichkeit des Ereignisses x bezeichnet und P(x,y) die Wahrscheinlichkeit, mit der die Symbole x und y nacheinander auftreten. Bei der ersten Iteration sind x und y zwei Wörter, in nachfolgenden Iterationen sind es potentiell größere Einheiten. Man beachte, daß 0 ≤ p(x,y) ≤ 0,5. Dieses Korrelationsmaß hat Vorteile in bezog auf die Einfachheit und Skalierung und Schwellwertbildung.
  • Im Schritt S115 wird ein Zähler bei jeder in Betracht kommenden Phrase schrittweise erhöht, so daß k = 1 bis K, wobei K die Gruppe der in Betracht kommenden Superwörter ist. Im Schritt S120 wird der aktuelle Trainingskorpus Tm,k–1 gefiltert, indem jedes Auftreten eines Superwortes durch die Superworteinheit (x_y)k ersetzt wird. Die neu gefilterte Superwort-Gruppe wird mit Tmk bezeichnet.
  • Im Schritt S125 wird ein neues Sprachmodell (immer noch mit der Größenordnung n) aus Tmk trainiert. Das neu trainierte Modell wird mit λmk bezeichnet. Im Schritt S130 wird ein Test durchgeführt, um zu bestimmen, ob das Hinzufügen des in Betracht kommenden Superwortes die Perplexität verringert (das heißt, ob PP(λmk, Tmk) < PP(λm,k–1, Tm,k–1)). Wenn die Perplexität verringert wird, geht der Prozeß weiter. Wenn die Perplexität nicht verringert wird, wird das in Betracht kommende Superwort im Schritt S135 zurückgewiesen, indem Tmk = Tm,k–1 gesetzt wird. Eine Phrase x_y wird nur gewählt, wenn P(x,y) ≅ P(x) ≅ P(y) (das heißt, wenn P(y|x)≅I)I und die Trainingsgruppenperplexität verringert wird, indem diese größere lexikalische Einheit in das Modell aufgenommen wird.
  • Im Schritt S140 testet das Verfahren, ob zusätzliche in Betracht kommende Superwörter k geprüft werden müssen. Im Schritt S145 wird, nachdem alle in Betracht kommende Superwörter geprüft worden sind, die nächste Iteration durchgeführt, nämlich m bis m = M. Die resultierende Gruppe von erzeugten Superwörtern wird als Ephr bezeichnet.
  • Als nächstes wird im Schritt S150 eine Gruppe von salienzbasierten Phrasen Sphr als in Betracht kommende Phrasen gewählt. Im Schritt S155 wird der Trainingskorpus T1 initialisiert und als Tmk festgelegt. Im Schritt S160 wird ein Zähler m von 1 bis M schrittweise erhöht, wobei M die Anzahl der Iterationen ist, die für jede in Frage kommende Phrase in Sphr durchzuführen ist.
  • Im Schritt S165 wird der aktuelle Trainingskorpus Tm gefiltert, indem jedes Auftreten der Phrase durch die Phraseneinheit (x_y)m ersetzt wird. Diese neue gefilterte Menge wird mit Tm+1 bezeichnet. Im Schritt S170 wird die nächste in Betracht kommende Phrase aufgerufen, bis m = M. Die resultierende Menge von salzienzbasierten bedeutungstragenden Phrasen wird mit Sphr bezeichnet.
  • Schließlich wird im Schritt S175 ein letztes Sprachmodell aus dem gefilterten Korpus TM plus dem ursprünglichen T trainiert, wobei das Lexikon alle ursprünglichen Wörter plus die Phrasen in den Gruppen Ephr und Sphr umfaßt. Dadurch bleibt die Granularität des ursprünglichen Lexikons erhalten, wobei alternative Wege entstehen, die die neuen Phrasen plus deren ursprünglichen Wortsequenzen umfassen. Das heißt, wenn die Wörter "long" und "distance" im Korpus nur zusammen auftreten, was zur Erfassung der Phrase "long distance" führt, dann bleibt in diesem letzten Schritt die Möglichkeit erhalten, daß die erkannten Wörter in einer bestimmten Testäußerung getrennt auftreten können.
  • Es wird dann eine Entscheidung getroffen, wie eine Äußerung auf eine besonders einfache Art und Weise klassifiziert werden kann. Eine Spracherkennungseinrichtung wird auf eine Äußerung angewendet, wobei eine Erkennungsergebnis erzeugt wird, nämlich ein einzelnes bestes Wort. Diese ASR-Ergebnis wird dann nach Fällen des Auftretens der salienten Phrasenfragmente durchsucht. Bei Fragmentüberlappung ist eine bestimmte Syntaxanalyse erforderlich. Das Verfahren zur Syntaxanalyse ist insofern ein einfaches Verfahren, als längere Fragmente gegenüber kürzeren gewählt werden, die in der Äußerung von links nach rechts laufen. Dies führt zu einer Umwandlung der Äußerung s in eine Sequenz von zugeordneten Ruf-Typen. Jedem dieser Fragmente f, ist der Spitzenwert und die Lage einer a-posteriori-Verteilung zugeordnet. P1 = maxk P(Ck|f1) (4) k1 = arg maxk P(Ck|fi) (5)
  • Für jede Äußerung s haben wir also eine Sequenz {fi, k1, pi}. Die Entscheidungsregel besteht darin, den Ruf-Typ des Fragments mit maximalem pi zu wählen, das heißt CK(s) zu wählen, wobei gilt: i(s) = arg maxip1 (6) K(s) = ki(s) (7)
  • Wenn diese Gesamtspitze kleiner ist als eine bestimmte Schwelle Pτ, dann wird die Äußerung zurückgewiesen und anders klassifiziert, das heißt, wenn pi(s) < Pτ.
  • 2 zeigt den Unterschied bei der "Falschzurückweisungsrate" (die Anzahl von Transaktionen, die fehlgeleitet oder von einer Maschine auf der Grundlage von Eingaben von einem Anwender mißverstanden worden sind) für Spracherkennungseinrichtungen unter Verwendung eines Lexikons mit erzeugten Superwörtern im Vergleich zu einem Lexikon unter Verwendung erzeugter Superwörter und bedeutungstragender Phrasen. Das Lexikon, das die erzeugten Superwörter plus bedeutungstragende Phrasen enthält, erzeugt weniger Falschzurückweisung als das Lexikon nur mit erzeugten Superwörtern und führt daher zu einem besseren Verständnis von Sprachmustern eines Anwenders.
  • 3 zeigt eine Konfiguration für eine Spracherkennungseinrichtung 315, die sowohl Superwörter als auch bedeutungstragende Phrasen empfängt. Sowohl der bedeutungstragende Phrasenselektor 300 als auch der Superwortselektor 305 werden unter Verwendung von Testsprachäußerungen trainiert und wählen bedeutungstragende Phrasen und Superwörter entsprechend den oben ausgeführten Verfahren aus. Wenn die bedeutungstragenden Phrasen und Superwörter gewählt worden sind, werden sie in ein Lexikon 310 eingegeben. Das Lexikon 310 ist im wesentlichen eine normale Datenbasis und kann in jeder bekannten internen oder externen Speichervorrichtung gespeichert sein. Das Lexikon 310 dient als Quelle von bedeutungstragenden Phrasen und Superwörtern, die die Spracherkennungseinrichtung 315 in der eingegebenen Sprache sucht. Die Spracherkennungseinrichtung 315 kann jede normale Spracherkennungseinrichtung sein, die dem Fachmann bekannt ist.
  • 4 zeigt eine Struktur, bei der das resultierende Lexikon der bedeutungstragenden Phrasen und Superwörter implementiert sein kann. Wie man anhand der Zeichnungen sehen kann, umfaßt die Struktur zwei verwandte Teilsysteme: das Teilsystem zur Erzeugung von Superwörtern und bedeutungstragenden Phrasen 400 und das Teilsystem zur Klassifikation der eingegebenen Sprache 410.
  • Das Teilsystem zur Erzeugung von Superwörtern und bedeutungstragenden Phrasen 400 arbeitet auf der Grundlage einer Datenbasis oder eines Lexikons mit einer großen Anzahl von Äußerungen, wobei jede solche Äußerung mit einem zugehörigen Vermittlungsziel gekennzeichnet ist. Der Betrieb dieses Teilsystems wird im wesentlichen vom Selektor für bedeutungstragende Phrasen 300 und vom Superwortselektor 305 durchgeführt, die als Ergebnis eine Gruppe von bedeutungstragenden Phrasen und Superwörtern mit einer Wahrscheinlichkeitsbeziehung zu einer oder mehreren Gruppen von vorbestimmten Vermittlungszielen wählen, denen die eingegebenen Sprachäußerungen zugeordnet sind. Die gewählten bedeutungstragenden Phrasen und Superwörter werden dann in das Lexikon 310 eingegeben, das die bedeutungstragenden Phrasen und Superwörter zur Verwendung durch das Teilsystem zur Klassifikation der eingegebenen Sprache 410 speichert. Der Betrieb des Selektors für bedeutungstragende Phrasen 300 und des Superwortselektors 305 wird allgemein durch irgendeinen bekannten Algorithmus zum Auswählen bedeutungstragender Phrasen und Superwörter bestimmt, einschließlich der hier offenbarten Verfahren.
  • Der Betrieb des Teilsystems zur Klassifikation der eingegebenen Sprache 410 beginnt mit dem Eingeben einer Auftragszielanfrage des Anwenders in die Eingabespracherkennungseinrichtung 315 in der natürlichen Sprache eines rufenden Teilnehmers. Die Eingabespracherkennungseinrichtung 315 kann jeden bekannten Aufbau haben und erfüllt die Funktion der Erkennung oder Erfassung des Vorhandenseins einer oder mehrerer bedeutungstragender Phrasen in der eingegebenen Sprache. Wie man in der Figur sehen kann, werden die bedeutungstragenden Phrasen und Superwörter, die vom Teilsystem zur Erzeugung von Superwörtern und bedeutungstragenden Phrasen 400 entwickelt werden, als Eingabe in die Eingabespracherkennungseinrichtung 315 bereitgestellt, um die Vermittlungsziele, die sich auf die bedeutungstragenden Phrasen und Superwörter beziehen, zu definieren und um die Wahrscheinlichkeitswerte für eine Beziehung solcher eingegebenen bedeutungstragenden Phrasen und Superwörter für ein bestimmtes Vermittlungsziel festzulegen.
  • Das Ergebnis der Eingabespracherkennungseinrichtung 315, das die bedeutungstragenden Phrasen und Superwörter aufweist, die in der Auftragszielanfrage des rufenden Teilnehmers erscheinen, werden an ein Interpretationsmodul 420 übergeben. Das Interpretationsmodul 420 kompiliert eine Liste von wahrscheinlichen Vermittlungszielen auf der Grundlage der Wahrscheinlichkeitsbeziehung zwischen den erkannten bedeutungstragenden Phrasen und Superwörtern und den gewählten Vermittlungszielen. Das Interpretationsmodul 420 gibt dann eine Liste von möglichen Vermittlungsaufträgen in die Dialogverwaltungseinrichtung 430 ein. In der Dialogverwaltungseinrichtung 430 wird eine Entscheidung getroffen, entweder das gewählte Vermittlungsziel mit einer Ansage an den rufenden Teilnehmer, daß ein solches Ziel implementiert wird (wenn nur ein Ziel möglich ist), zu implementieren oder zusätzliche Information und/oder eine Bestätigung vom rufenden Teilnehmer zu erbitten (wenn kein Ziel oder mehr als ein Ziel möglich ist). Der Dialog geht weiter, bis entweder eine eindeutige Entscheidung getroffen werden kann, ein bestimmtes Vermittlungsziel zu implementieren, oder eine Festlegung erfolgt, daß keine solche Entscheidung wahrscheinlich ist, wobei der anrufende Teilnehmer dann im Zuge einer Standardvorgabe zu einem Telefonistenplatz weitergeleitet wird.
  • Obwohl die Erfindung in Verbindung mit ihren spezifischen Ausführungsformen beschrieben worden ist, ist es deutlich geworden, daß viele Alternativen, Modifikationen und Variationen für den Fachmann möglich sind. Demzufolge tragen die bevorzugten Ausführungsformen der Erfindung, die hier ausgeführt sind, lediglich darstellenden, aber keinen einschränkenden Charakter. Verschiedene Änderungen sind möglich, ohne den Schutzbereich der Erfindung zu verlassen, wie er in den beigefügten Ansprüchen definiert ist.

Claims (16)

  1. Verfahren zur Bestimmung von Superwörtern und bedeutungstragenden Phrasen mit den folgenden Schritten: Bestimmen von Superwörtern aus einer Gruppe von in Betracht kommenden Phrasen, die in einem Trainingskorpus von Sequenzen von Wörtern, Symbolen und/oder Tönen vorhanden sind, auf der Grundlage der Minimierung einer Perplexität eines Lexikons, gekennzeichnet durch den Schritt: Bestimmen von bedeutungstragenden Phrasen aus dem Trainingskorpus auf der Grundlage eines Gemeinsamkeitsmaßes und eines Maßes der Signifikanz für einen Auftrag; und Aufnehmen der bestimmten Superwörter und der bedeutungstragenden Phrasen in das Lexikon.
  2. Verfahren nach Anspruch 1, wobei der Schritt zur Bestimmung von Superwörtern bestimmt, wie jede in Betracht kommende Phrase den Perplexitätswert des Lexikons beeinflußt, so daß, wenn der Perplexitätswert abnimmt, die in Betracht kommende Phrase dem Lexikon als Superwort hinzugefügt wird, und wenn der Perplexitätswert nicht abnimmt, die in Betracht kommende Phrase dem Lexikon nicht hinzugefügt wird.
  3. Verfahren nach Anspruch 1, wobei der Schritt zur Bestimmung von bedeutungstragenden Phrasen bedeutungstragende Phrasen auf der Grundlage von Salienz- und gemeinsamen Informationsmessungen bestimmt.
  4. Verfahren nach Anspruch 1, ferner gekennzeichnet durch den Schritt: Trainieren einer Spracherkennungseinrichtung unter Verwendung des Lexikons.
  5. Verfahren nach Anspruch 1, ferner gekennzeichnet durch den Schritt: Interpretieren einer Eingabe eines Anwenders unter Verwendung des Lexikons.
  6. Verfahren nach Anspruch 5, ferner dadurch gekennzeichnet, daß: das Implementieren einer oder mehrerer Gruppen von Auftragszielen auf der Eingabe eines Anwenders beruht.
  7. Vorrichtung, die Superwörter und bedeutungstragende Phrasen bestimmt, mit: einem Trainingskorpus von Sequenzen von Wörtern, Symbolen und/oder Tönen; einem Superwortselektor (305), der Superwörter aus einer Gruppe von in Betracht kommenden Phrasen, die im Trainingskorpus enthalten sind, auf der Grundlage der Minimierung einer Perplexität eines Lexikons (310) wählt, wobei der Superwortselektor (305) die selektierten Superwörter in das Lexikon (310) aufnimmt, gekennzeichnet durch einen Selektor für bedeutungstragende Phrasen (300), der bedeutungstragende Phrasen auf der Grundlage eines Gemeinsamkeitsmaßes und eines Maßes der Signifikanz für einen Auftrag wählt, wobei der Selektor für bedeutungstragende Phrasen (300) die gewählten bedeutungstragenden Phrasen in das Lexikon (310) aufnimmt.
  8. Vorrichtung nach Anspruch 7, wobei der Superwortselektor eine geordnete Gruppe von in Betracht kommenden Phrasen aus dem Trainingskorpus erzeugt.
  9. Vorrichtung nach Anspruch 8, wobei der Superwortselektor jede getrennte, in Betracht kommende rase in das Lexikon einfügt und bestimmt, ob die eingefügte, in Betracht kommende Phrase den Perplexitätswert des Lexikons verringert.
  10. Vorrichtung nach Anspruch 9, wobei der Superwortselektor bestimmt, daß, wenn sich der Perplexitätswert verringert, die in Betracht kommende Phrase dem Lexikon als Superwort hinzugefügt wird, und wenn sich der Perplexitätswert nicht verringert, die in Betracht kommende Phrase dem Lexikon nicht hinzugefügt wird.
  11. Vorrichtung nach Anspruch 7, wobei der Selektor für bedeutungstragende Phrasen eine Gruppe von bedeutungstragenden Phrasen auf der Grundlage von Salienz- und gemeinsamen Informationsmessungen wählt.
  12. Vorrichtung nach Anspruch 7, ferner dadurch gekennzeichnet, daß: eine Erkennungseinrichtung, die anhand einer Eingabe eines Anwenders zumindest eines) der gewählten bedeutungstragenden Phrasen und Superwörter erkennt, die in dem Lexikon enthalten sind.
  13. Vorrichtung nach Anspruch 12, wobei das Lexikon die Erkennungseinrichtung trainiert.
  14. Vorrichtung nach Anspruch 12, ferner dadurch gekennzeichnet, daß ein Interpretationsmodul eine Klassifikationsentscheidung auf der Grundlage der erkannten bedeutungstragenden Phrasen und Superwörter trifft.
  15. Vorrichtung nach Anspruch 14, wobei das Interpretationsmodul eine oder mehrere Auftragsziele auf der Grundlage der Eingabe eines Anwenders implementiert.
  16. Vorrichtung nach Anspruch 15, wobei eine Dialogverwaltungseinrichtung eine zusätzliche Eingabe vom Anwender erlangt, um einen oder mehrere der Aufträge zu implementieren.
DE69823644T 1997-10-29 1998-10-23 Auswahl von superwörtern auf der basis von kriterien aus spracherkennung sowie sprachverständnis Expired - Lifetime DE69823644T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/960,289 US6044337A (en) 1997-10-29 1997-10-29 Selection of superwords based on criteria relevant to both speech recognition and understanding
US960289 1997-10-29
PCT/US1998/022399 WO1999022363A1 (en) 1997-10-29 1998-10-23 Selection of superwords based on criteria relevant to both speech recognition and understanding

Publications (2)

Publication Number Publication Date
DE69823644D1 DE69823644D1 (de) 2004-06-09
DE69823644T2 true DE69823644T2 (de) 2005-04-28

Family

ID=25503011

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69823644T Expired - Lifetime DE69823644T2 (de) 1997-10-29 1998-10-23 Auswahl von superwörtern auf der basis von kriterien aus spracherkennung sowie sprachverständnis

Country Status (5)

Country Link
US (1) US6044337A (de)
EP (1) EP0950240B1 (de)
CA (1) CA2275774C (de)
DE (1) DE69823644T2 (de)
WO (1) WO1999022363A1 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173261B1 (en) 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
EP1051841B1 (de) * 1998-02-02 2006-08-16 Pulsepoint Communications Dynamisch ladbare satzbuchbibliotheken für gesprochene sprachgrammatik in einem interaktiven system
WO2000073936A1 (en) 1999-05-28 2000-12-07 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US20020032564A1 (en) 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US7085720B1 (en) 1999-11-05 2006-08-01 At & T Corp. Method for task classification using morphemes
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US6681206B1 (en) 1999-11-05 2004-01-20 At&T Corporation Method for generating morphemes
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6606597B1 (en) * 2000-09-08 2003-08-12 Microsoft Corporation Augmented-word language model
JP4517260B2 (ja) * 2000-09-11 2010-08-04 日本電気株式会社 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
US6941266B1 (en) 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US6751591B1 (en) 2001-01-22 2004-06-15 At&T Corp. Method and system for predicting understanding errors in a task classification system
US7729918B2 (en) * 2001-03-14 2010-06-01 At&T Intellectual Property Ii, Lp Trainable sentence planning system
WO2002073449A1 (en) * 2001-03-14 2002-09-19 At & T Corp. Automated sentence planning in a task classification system
US7574362B2 (en) * 2001-03-14 2009-08-11 At&T Intellectual Property Ii, L.P. Method for automated sentence planning in a task classification system
US7058575B2 (en) * 2001-06-27 2006-06-06 Intel Corporation Integrating keyword spotting with graph decoder to improve the robustness of speech recognition
EP1497751A4 (de) * 2002-04-05 2009-10-21 At & T Corp Verfahren und system zum erkennen und extrahieren benannter entitäten aus spontanen übermittlungen
US20030115062A1 (en) * 2002-10-29 2003-06-19 Walker Marilyn A. Method for automated sentence planning
US20040193557A1 (en) * 2003-03-25 2004-09-30 Olsen Jesse Dale Systems and methods for reducing ambiguity of communications
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US8185399B2 (en) 2005-01-05 2012-05-22 At&T Intellectual Property Ii, L.P. System and method of providing an automated data-collection in spoken dialog systems
US8478589B2 (en) 2005-01-05 2013-07-02 At&T Intellectual Property Ii, L.P. Library of existing spoken dialog data for use in generating new natural language spoken dialog systems
US7912707B2 (en) * 2006-12-19 2011-03-22 Microsoft Corporation Adapting a language model to accommodate inputs not found in a directory assistance listing
US7912503B2 (en) * 2007-07-16 2011-03-22 Microsoft Corporation Smart interface system for mobile communications devices
US8165633B2 (en) * 2007-07-16 2012-04-24 Microsoft Corporation Passive interface and software configuration for portable devices
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US9237224B2 (en) * 2011-05-03 2016-01-12 Padmanabhan Mahalingam Text interface device and method in voice communication

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69330427T2 (de) * 1992-03-06 2002-05-23 Dragon Systems Inc., Newton Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
DE69333762T2 (de) * 1992-12-31 2006-03-23 Apple Computer, Inc., Cupertino Spracherkennungssystem
US5675707A (en) * 1995-09-15 1997-10-07 At&T Automated call router system and method
US5794193A (en) * 1995-09-15 1998-08-11 Lucent Technologies Inc. Automated phrase generation
US5839106A (en) * 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model
US5860063A (en) * 1997-07-11 1999-01-12 At&T Corp Automated meaningful phrase clustering

Also Published As

Publication number Publication date
CA2275774A1 (en) 1999-05-06
WO1999022363A1 (en) 1999-05-06
EP0950240B1 (de) 2004-05-06
EP0950240A1 (de) 1999-10-20
US6044337A (en) 2000-03-28
CA2275774C (en) 2003-09-30
DE69823644D1 (de) 2004-06-09

Similar Documents

Publication Publication Date Title
DE69823644T2 (de) Auswahl von superwörtern auf der basis von kriterien aus spracherkennung sowie sprachverständnis
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69028430T2 (de) Effektiver Einschränkungsalgorithmus für Spracherkennung nach dem Hidden-Markov-Modell
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69818161T2 (de) Automatisierte Gruppierung von sinnvollen Sätzen
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE69908254T2 (de) System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung
DE69814114T2 (de) Natürliche sprache verstehendes verfahren und verstehende vorrichung zur sprachsteuerung einer anwendung
DE69009522T2 (de) Diagrammanalysator für stochastische Unifikationsgrammatik.
DE69816676T2 (de) System und verfahren zur bestimmung und minimalisierung eines endlichen transducers zur spracherkennung
DE69330427T2 (de) Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
DE3852608T2 (de) Design und Konstruktion eines binären Entscheidungsbaumsystems zur Sprachmodellierung.
DE69607601T2 (de) System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax
DE69717899T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60315947T2 (de) Verfahren zur Sprachmodellierung
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE102008017993B4 (de) Sprachsuchvorrichtung
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE60109999T2 (de) Spracherkennung mittels lexikalischer Bäumen
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP1085499A2 (de) Erkennung einer in buchstabierter Form vorliegenden Sprachäusserungseingabe
DE19639844A1 (de) Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition