DE60014743T2

DE60014743T2 - Verfahren und Vorrichtung zur Analyse natürlicher Sprache

Info

Publication number: DE60014743T2
Application number: DE60014743T
Authority: DE
Inventors: Murat Santa Barbara Karaorman; Jean-Claude Santa Barbara Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-04-07
Filing date: 2000-03-08
Publication date: 2005-10-13
Anticipated expiration: 2020-03-09
Also published as: DE60014743D1; ES2228408T3; EP1043711A2; US6631346B1; EP1043711A3; EP1043711B1

Description

Hintergrund und Zusammenfassung der Erfindung
Die vorliegende Erfindung bezieht sich auf Sprachanalyse und insbesondere auf einen computerimplementierten Parser für natürliche Sprache.
Das Verständnis der Bedeutung eines Satzes natürlicher Sprache ist der Grundstein vieler Gebiete der Wissenschaft und hat weitreichende Implikationen – von der Art, wie Menschen mit Computern oder Maschinen interagieren, bis zur Art, wie sie mit anderen intelligenten Mitteln, ob Mensch oder Maschine, über Übersetzungssysteme interagieren können. Die Aufgabe wird komplizierter, wenn der Satz mit einem automatischen Spracherkennungssystem (ASR) beschafft wird, wobei Erkennungsfehler wie Einfügungen, Auslassungen oder Substitutionen den Satz weniger verständlich machen können, selbst für einen Menschen. Zusätzliche, mit der Benutzeroberfläche zusammenhängende Faktoren, können außerdem der eigenen Äußerung des Sprechers ein Element der Unnatürlichkeit verleihen, so dass der erkannte Satz die Auswirkungen von Zögerungen, Pausen, Wiederholungen und bruchstückhaften Phrasen oder Sätzen enthalten kann.
Infolge dieser Faktoren, spielt das Parsing von Sätzen natürlicher Sprache bei computerimplementierten sprachverwandten Systemen eine wichtige Rolle. Aktuelle Ansätze für Parser für natürliche Sprache weisen jedoch typischerweise eine relativ suboptimale Robustheit bei der Handhabung der zuvor erwähnten Fehler eines automatischen Spracherkennungssystems auf.
In "A modular approach to spoken language translation for large domains", M. Woszczyna. et al. Proceedings of AMTA-1998 18–31 Oktober 1998 Seiten 1 – 10 wird ein Maschinenübersetzungssystem offenbart, das speziell für gesprochenen Dialog geeignet ist, wobei Sprache durch hochgradig unflüssige Äußerungen gekennzeichnet ist, die fragmentiert und ungrammatisch sein können und wobei ein Gitter aus Parsebäumen erzeugt wird, die alle möglichen gebietspezifischen Handlungen enthalten, wobei eine gebietspezifische Handlung eine Tätigkeit wie das Anfordern von Informationen oder das Erteilen von Informationen umfassen kann und aus drei symbolischen Ebenen besteht: Konsistenz einer Sprachhandlung, Begriffe und Argumente.
Die vorliegende Erfindung bewältigt die zuvor erwähnten Nachteile sowie andere Nachteile.
Gemäß der Lehre der vorliegenden Erfindung werden ein Verfahren und eine Vorrichtung zur computerimplementierten Sprachanalyse zum Verarbeiten einer Eingabephrase bereitgestellt. Das Verfahren und die Vorrichtung umfassen das Bereitstellen einer Vielzahl von Grammatiken, die für vorbestimmte Themen indikativ sind. Es wird eine Vielzahl von Parsewäldern unter Verwendung der Grammatiken generiert und unter Verwendung der generierten Parsewälder werden Etiketten mit Wörtern in der Eingabephrase assoziiert. Für die Etiketten werden basierend auf Attributen der Parsewälder Bewertungen generiert und Etiketten werden basierend auf den generierten Bewertungen als geparste Darstellung der Eingabephrase ausgewählt.
Für ein vollständigeres Verständnis der Erfindung, ihrer Aufgaben und Vorteile wird auf die nachfolgende Beschreibung und die beiliegenden Zeichnungen verwiesen.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm, das die computerimplementierten Komponenten zeigt, die zum Bewirken eines Dialogs zwischen mindestens zwei Personen mit unterschiedlichen Sprachen eingesetzt werden.
2 ist ein Blockdiagramm, das die Komponenten des Systems in 1 detaillierter zeigt;
3 ist ein Etikettengenerierungsdiagramm, das die Anwendung des semantischen Etikettengenerierungsprozesses auf einen Eingabesatz zeigt;
4 ist ein Blockdiagramm, das die Komponenten des lokalen Parsers der vorliegenden Erfindung zeigt;
5 ist ein Etikettengenerierungsdiagramm, das die Anwendung des semantischen Etikettengenerierungsprozesses auf einen Eingabesatz zeigt;
6 ist ein Parsebaumdiagramm, das ein Modell für einen Parsebaum für einen Eingabesatz zeigt;
7 ist ein Parsebaumdiagramm, das mehrere Etiketten zeigt, die während Zwischenstufen des lokalen Parsing als Kandidaten generiert werden;
8 ist ein Prozessdiagramm, das die Ausgabe bei verschiedenen Intervallen für die vorliegende Erfindung zeigt;
9 ist eine Computer-Bildschirmanzeige einer beispielhaften Kosten-Grammatik;
10 ist eine Computer-Bildschirmanzeige eines für einen Eingabesatz generierten Parsewalds;
11 ist ein grafischer Parsewald, der eine teilweise Darstellung in einem grafischen Format des Parsewalds in 10 zeigt;
12 ist ein Flussdiagramm, das die mit der vorliegenden Erfindung, eingesetzt in einer beispielhaften Anwendung, assoziierten Ablaufschritte zeigt; und
13 ist ein Flussdiagramm, das die mit der Verarbeitung eines Eingabesatzes, unter Verwendung des lokalen Parsers der vorliegenden Erfindung, assoziierten Ablaufschritte zeigt.
Beschreibung der bevorzugten Ausführungsform
1 zeigt ein computerimplementiertes Verarbeitungssystem für die kontinuierliche Sprache eines Dialogs, das es zwei Personen, die verschiedene Sprachen sprechen, ermöglicht, effektiv zu kommunizieren. Im nicht einschränkenden Beispiel in 1 möchte ein Käufer 20 mit einem Verkäufer 22 kommunizieren, um eine Ware zu kaufen. Es tritt die Schwierigkeit auf, dass der Käufer 20 nur Englisch spricht während der Verkäufer 22 nur Japanisch spricht.
Das Dialogsprache-Verarbeitungssystem 24 der vorliegenden Erfindung nutzt einen Spracherkenner 26, um die englische Sprache des Käufers 20 in eine Folge von Wörtern umzuwandeln. Die Folge von Wörtern wird von einem Sprache verstehenden Modul 28 als Text gelesen, das die semantischen Komponenten der Folge auszieht.
Ein Dialogmanager 30 bestimmt, basierend auf den vom Sprache verstehenden Modul 28 bestimmten semantischen Komponenten, ob vom Käufer 20 eine ausreichende Menge an Informationen geliefert wurde. Wenn eine ausreichende Menge an Informationen bereitgestellt wurde, erlaubt der Dialogmanager 30 dem Übersetzungsmodul 32, die Sprache des Käufers aus den bestimmten semantischen Komponenten ins Japanische zu übersetzen. Das Übersetzungsmodul 32 übersetzt die semantischen Komponenten ins Japanische und führt über das Computerantwortmodul 42 eine Sprachsynthese durch, um die japanische Übersetzung zu sprechen, so dass der Verkäufer 22 sie hören kann.
Der Verkäufer 22 nutzt dann das Dialogsprache-Verarbeitungssystem 24, um dem Käufer zu antworten. Entsprechend führen ein japanischer Spracherkenner 36 und ein japanische Sprache verstehendes Modul 38 jeweils eine Spracherkennung der Sprache des Verkäufers durch, wenn keine ausreichenden Informationen vom Verkäufer 22 geliefert wurden.
Wenn der Dialogmanager 30 feststellt, dass vom Käufer 20 eine ungenügende Menge an Informationen geliefert wurde, um ein vorbestimmtes Ziel zu erreichen (beispielsweise das Kaufen einer Ware), weist der Dialogmanager 30 ein Computerantwortmodul 34 an, eine Antwort zu sprechen, die den Käufer 20 auffordert, die fehlende(n) Informationen) zu liefern.
Die bevorzugte Ausführungsform ist geeignet für die Implementierung in einem Handheld-Computergerät 43, wobei es sich bei dem Gerät um ein Werkzeug handelt, das es dem/der Benutzer/in ermöglicht, seinen bzw. ihren Wunsch in der Zielsprache zu formulieren. Ein solches tragbares, Handheld-Gerät eignet sich gut, um in einem fremden Land eine Ticket-/Hotelreservierung zu machen, eine Ware zu kaufen, einen örtlichen Auskunftsdienst zu nutzen oder Geld zu wechseln. Die bevorzugte Ausführungsform ermöglicht es dem Benutzer, von einer Aufgabe zur anderen zu wechseln, indem er am Handheld-Gerät wählt, welche Aufgabe er ausführen möchte. In einer alternativen Ausführungsform kann eine für jede Aufgabe einzigartige Flash-Speicherkarte bereitgestellt werden, so dass ein Benutzer von einer Aufgabe zur anderen wechseln kann.
2 zeigt Komponenten des Dialogsprache-Verarbeitungssystems 24 in detaillierterer Darstellung. Insbesondere umfasst das Sprache verstehende Modul 28 einen lokalen Parser 60, um vorbestimmte, aufgabenbezogene Fragmente zu identifizieren. Das Sprache verstehende Modul 28 umfasst außerdem einen globalen Parser 62, um die allgemeine Semantik des Wunschs des Käufers auszuziehen.
Der neuartige örtliche Parser 60 nutzt in der bevorzugten Ausführungsform mehrere kleine Grammatiken sowie mehrere Durchgänge und einen einzigartigen Bewertungsmechanismus, um Parsehypothesen aufzustellen. Gemäß diesem Ansatz erkennt der neuartige lokale Parser beispielsweise Phrasen wie Daten, Städtenamen und Preise. Wenn ein Sprecher äußert "besorge mir einen Flug nach Boston am 23. Januar, auf dem Mittagessen serviert wird", erkennt der lokale Parser: "Boston" als Städtenamen; "23. Januar" als Datum; und "Mittagessen" als mit einer Mahlzeit zusammenhängend. Der globale Parser fügt diese Artikel (Städtename, Datum usw.) zusammen und erkennt, dass der Sprecher unter gewissen Randbedingungen in einem Flugzeug fliegen möchte.
Das Sprache verstehende Modul 28 umfasst die Wissensdatenbank 63, die die Semantik eines Gebiets (d.h. des zu erreichenden Ziels) codiert. In diesem Sinn ist die Wissensdatenbank 63 vorzugsweise eine gebietsspezifische Datenbank, wie unter Bezugszeichen 65 dargestellt, und wird vom Dialogmanager 30 verwendet, um zu bestimmen, ob eine bestimmte, mit dem Erreichen eines vorbestimmten Ziels zusammenhängende Handlung möglich ist.
Die bevorzugte Ausführungsform codiert die Semantik über eine Rahmendatenstruktur 64. Die Rahmendatenstruktur 64 enthält leere Schlitze 66, die gefüllt werden, wenn die semantische Interpretation des globalen Parsers 62 dem Rahmen entspricht. Beispielsweise umfasst eine Rahmendatenstruktur (deren Gebiet das Kaufen von Ware ist) einen leeren Schlitz, um den vom Käufer gewünschten Preis für die Ware anzugeben. Wenn der Käufer 20 den Preis geliefert hat, wird dieser leere Schlitz mit dieser Information gefüllt. Wenn dieser bestimmte Rahmen jedoch gefüllt werden muss, nachdem der Käufer seinen Wunsch erstmals genannt hat, weist der Dialogmanager 30 das Computerantwortmodul 34 an, den Käufer 20 aufzufordern, einen gewünschten Preis zu nennen.
Vorzugsweise ist das Computerantwortmodul 34 mehrmodal, insofern als es in der Lage ist, einem Benutzer eine Antwort über Sprachsynthese, Text oder grafisch zu liefern. Wenn der Benutzer beispielsweise um eine Wegbeschreibung zu einem bestimmten Ort gebeten hat, könnte die Computerantwort eine grafische Landkarte anzeigen, wobei die Begriffe auf der Landkarte vom Übersetzungsmodul 40 übersetzt wurden. Darüber hinaus kann das Computerantwortmodul 40 die Wegbeschreibung für den Benutzer über den Audioteil 68 sprechen. Es ist jedoch zu beachten, dass die vorliegende Erfindung nicht darauf beschränkt ist, dass alle drei Modi vorhanden sind, da sie eine oder mehrere der Modi des Computerantwortmoduls 34 umfassen kann.
Der Audioteil 68 nutzt die Semantik, die erkannt wurde, um basierend auf dem semantischen Konzept, einen Satz in der Zielsprache des Käufers zu generieren. Dieses Generieren nutzt vorzugsweise ein Lexikon mit gepaarten Sätzen in der Ausgangs- und der Zielsprache. In einer alternativen Ausführungsform werden Sätze automatisch basierend auf pro Typ-Sätzen generiert, die aus den in einem semantischen Rahmen verfügbaren Schlitzen aufgebaut wurden.
Die Rahmendatenstruktur 64 umfasst vorzugsweise mehrere Rahmen, die jeweils mehrere Schlitze haben. Ein Rahmen kann Schlitze haben, die auf Attribute eines Hemds wie Farbe, Größe und Preise gerichtet sind. Ein anderer Rahmen kann Schlitze haben, die auf zu dem Ort, an den das Hemd geschickt werden soll, gehörende Attribute wie Name, Adresse, Telefonnummer gerichtet sind.
In der folgenden Bezugsquelle werden globale Parser und Rahmen diskutiert: R. Kuhn and R. D. Mori, Spoken Dialogues with Computers (Kapitel 14: Sentence Interpretation), Academic Press, Boston (1998).
Der Dialogmanager 30 nutzt die Dialoghistoriendatei 67, um beim Füllen von leeren Schlitzen zu helfen, bevor er den Sprecher um die Information bittet. Die Dialoghistoriendatei 67 enthält ein Protokoll des Gesprächs, das über das Gerät der vorliegenden Erfindung stattgefunden hat. Wenn ein Sprecher beispielsweise äußert "besorge mir einen Flug nach Boston am 23. Januar, auf dem Mittagessen serviert wird", untersucht der Dialogmanager 30 die Dialoghistorien-Datendatei 67, um zu prüfen, welche Städtenamen der Sprecher in einem früheren Dialogaustausch möglicherweise geäußert hat. Wenn der Sprecher erwähnt hat, dass er aus Detroit anruft, füllt der Dialogmanager 30 den leeren Schlitz der Ausgangsstadt mit dem Städtenamen "Detroit". Wenn eine ausreichende Anzahl Schlitze gefüllt wurde, fordert die vorliegende Erfindung den Sprecher auf, den Flugplan zu überprüfen und zu bestätigen. Wenn sich also herausstellt, dass Annahmen, die der Dialogmanager 30 durch die Verwendung der Dialoghistorien-Datendatei 67 gemacht hat, falsch sind, kann der Sprecher die Annahme korrigieren.
In einer weiteren alternativen Ausführungsform wird das Computerantwortmodul 34 vom Dialogmanager 30 angewiesen, eine Suche in der entfernten Datenbank 70 durchzuführen, um dem Käufer 20 Informationen über diese Ware zu liefern. In diesem nicht einschränkenden Beispiel kann der Dialogmanager 30 das Computerantwortmodul 34 anweisen, die entfernte Datenbank 70 des Ladens nach dem Preisbereich der Ware zu durchsuchen, an der der Käufer 20 interessiert ist. Die alternative Ausführungsform verbessert die Qualität des Dialogs zwischen dem Käufer 20 und dem Verkäufer 22 erheblich, indem sie dem Käufer 20 Informationen liefert, so dass der Käufer 20 eine besser informierte Anfrage an den Verkäufer 22 formulieren kann.
Der Dialogmanager 30 nimmt im Dialog eine integrierende Rolle ein, indem er einen Hin- und Her-Dialog mit dem Käufer 20 führt, bevor der Käufer 20 mit dem Verkäufer 22 kommuniziert. In einer derartigen Rolle ist der Dialogmanager 30, indem er die Lehren der vorliegenden Erfindung nutzt, in der Lage, den abwechselnden Aspekt eines menschenähnlichen Hin- und Her-Dialogs effektiv zu verwalten. Der Dialogmanager 30 ist in der Lage, selbst zu entscheiden, welche Richtung der Dialog mit dem Käufer 20 als nächstes einschlagen wird und wann das Einschlagen einer neuen Richtung initiiert werden soll.
Wenn der Käufer 20 beispielsweise eine bestimmte Art von Hemd in einem vorgegebenen Preisbereich gewünscht hat, bestimmt der Dialogmanager 30, ob ein solches Hemd in diesem Preisbereich verfügbar ist. Eine solche Bestimmung erfolgt über die entfernte Datenbank 70. In diesem Beispiel bestimmt der Dialogmanager 30, dass ein solches Hemd nicht im Preisbereich des Käufers erhältlich ist, jedoch ein Hemd eines anderen Typs in dem Preisbereich erhältlich ist. So kann der Dialogmanager 30 bestimmen, ob eine bestimmte Handlung oder ein bestimmtes Ziel des Käufers realisierbar ist und kann dem Käufer helfen, dieses Ziel zu erreichen.
Die vorliegende Erfindung analysiert und extrahiert semantisch wichtige und aussagekräftige Themen aus einem lose strukturierten Text in natürlicher Sprache, der als Ausgabe eines automatischen Spracherkennungssystems (ASR), das von einem Dialog oder Sprache verstehenden System genutzt wird, generiert worden sein kann. Die vorliegende Erfindung übersetzt den Text in natürlicher Sprache in eine neue Darstellung, indem sie gut strukturierte Etiketten generiert, die Themeninformationen und Daten enthalten und jedes Etikett mit den Segmenten des Eingabetexts assoziiert, die die etikettierten Informationen enthalten. In einer alternativen Ausführungsform werden Etiketten als getrennte Liste oder als semantischer Rahmen generiert.
3 zeigt ein nicht einschränkendes Beispiel der Rolle des lokalen Parsers der vorliegenden Erfindung in einem Sprache verstehenden System wie beispielsweise bei einem automatischen online Reisebuchungsspezialisten mit Sprachschnittstelle. Bei den folgenden Themen kann es sich um potenzielle Ziele für die vorliegende Erfindung handeln: Flugankunfts- und -abflugzeiten und -daten, möglicherweise mit Bereichen und Einschränkungen; mit dem Flug zusammenhängende Städtenamen; Preisinformationen mit Geldbeträgen; Sitzklasse; Informationen zu Mahlzeiten; Flugnummern; Namen von Fluggesellschaften; Zwischenlandungen usw.
Das Beispiel umfasst einen möglichen Eingabesatz 100, wie er von einem Spracherkennungssystem für kontinuierliche Sprache generiert wurde und der Erkennungsfehler enthält. Die entsprechende Ausgabe 102 ist eine mögliche Interpretation durch die vorliegende Erfindung, wobei drei Etiketten generiert wurden, eines das Städtenamen entspricht 104, eines das Zeit entspricht 106 und eines das Daten entspricht 108.
Ein Merkmal der vorliegenden Erfindung ist Robustheit, da die Eingabe grammatisch inkorrekte englische Sätze, wie im obigen Beispiel enthalten kann, die aus den folgenden Gründen grammatisch falsch sind: Die Eingabe an den Erkenner erfolgt in natürlicher Sprache in saloppem Dialogstil und kann bruchstückhafte Sätze und unvollständige Phrasen enthalten; die Spracherkennung kann Einfügungen, Auslassungen oder Erkennungsfehler einführen, selbst wenn die Spracheingabe als korrekt betrachtet wird. Die vorliegende Erfindung handhabt auf robuste Weise alle Arten von Eingabe und zieht so viele Informationen aus wie möglich.
4 zeigt die verschiedenen Komponenten des neuartigen lokalen Parsers 60 der vorliegenden Erfindung. Die vorliegende Erfindung nutzt vorzugsweise verallgemeinerte Parsing-Techniken in einem Ansatz mit mehreren Durchgängen als eine Festkommaberechnung. Jedes Thema wird als eine kontextsensitive LR- (links-rechts und mit rechtester Ableitung (rightmost derivation)) Grammatik bei Zulassung von Mehrdeutigkeiten beschrieben. Die folgenden sind Bezugsquellen zum Thema kontextsensitive LR-Grammatiken: A. Aho und J. D. Ullman, Principles of Compiler Design, Addison Wesley Publishing Co., Reading, Massachusetts (1977); und N. Tomita, Generalized LR Parsing, Kluwer Academic Publishers, Boston, Massachusetts (1991).
Bei jedem Durchgang der Berechnung wird ein verallgemeinerter Parsing-Algorithmus verwendet, um vorzugsweise alle möglichen (sowohl vollständigen als auch teilweisen) Parsebäume für jedes als Ziel gesetzte Thema unabhängig zu generieren. Jeder Durchgang generiert potenziell mehrere alternative Parsebäume, wobei jeder Parsebaum eine möglicherweise verschiedene Interpretation eines bestimmten Themas darstellt. Die mehreren Durchgänge durch vorzugsweise parallele und unabhängige Pfade führen zu einer erheblichen Eliminierung von Mehrdeutigkeiten und Überlappungen zwischen verschiedenen Themen. Die vorliegende Erfindung ist eine systematische Weise, alle möglichen Parsebäume zu bewerten, so dass unter Nutzung der im System vorhandenen kontextuellen Informationen die (N) besten Kandidaten ausgewählt werden.
Das lokale Parsing-System 60 wird in drei Stufen ausgeführt: lexikalische Analyse 120; parallele Parsewaldgenerierung für jedes Thema (zum Beispiel, Generatoren 130 und 132); und Analyse und Synthese geparster Komponenten, wie allgemein unter Bezugszeichen 134 gezeigt. Die bevorzugte Ausführungsform zeigt die Struktur für die Eingaben und Ausgaben des lokalen Parsers in Anlage A nachfolgend.
Lexikalische Analyse:
Ein Sprecher äußert eine Phrase, die von einem automatischen Spracherkenner 117 erkannt wird, der den Eingabesatz 118 generiert. Die lexikalische Analysestufe 120 identifiziert und generiert unter Verwendung von lexikalischen Filtern 126 und 128 Etiketten für die Themen (die keine umfangreichen Grammatiken erfordern) im Eingabesatz 118. Diese umfassen beispielsweise Städtenamen; Sitzklassen; Informationen zu Mahlzeiten; Namen von Fluggesellschaften; und Informationen zu Zwischenlandungen. Ein Scan des Eingabesatzes 118 auf reguläre Ausdrücke unter Verwendung der mit den erwähnten beispielhaften Etiketten zusammenhängenden Schlüsselwörtern ist auf dieser Ebene typischerweise ausreichend. Außerdem wird in dieser Stufe das Etikettieren von Wörtern im Eingabesatz durchgeführt, die nicht Teil des Lexikons der bestimmten Grammatik sind. Diese Wörter werden durch ein X-Etikett gekennzeichnet, so dass solche Störwörter durch den Buchstaben "X" ersetzt werden.
Generieren paralleler Parsewälder:
Die vorliegende Erfindung verwendet eine anspruchsvolle Parsing-Strategie, um jedes Thema getrennt zu beschreiben und zu parsen und generiert Etiketten und bildet sie auf dem Eingabestrom ab. Aufgrund der Eigenschaften des unstrukturierten Eingabetexts 118 akzeptiert jeder einzelne Themenparser vorzugsweise eine möglichst große Sprache, wobei er alle außer den wichtigen Wörtern ignoriert und Einfüge- und Auslassfehler handhabt. Das Parsing jedes Themas beinhaltet das Entwickeln kontextsensitiver Grammatikregeln unter Verwendung einer Metaebenen-Spezifizierungssprache, ähnlich wie die beim LR-Parsing verwendeten. Beispiele von Grammatiken umfassen Grammatik A 140 und Grammatik B 142. Bei Anwendung des Ansatzes der vorliegenden Erfindung werden die Themengrammatiken 140 und 142 beschrieben, als wären sie eine LR-Grammatik, die Redundanzen enthält und ohne Verschiebungen zu eliminieren und Konflikte zu reduzieren. Das Ergebnis des Parsing eines Eingabesatzes sind alle möglichen, auf den Grammatikspezifikationen basierenden Parsen.
Die Generatoren 130 und 132 generieren die Parsewälder 150 und 152 für ihre Themen. Die Etikettengenerierung erfolgt durch Synthetisierung von tatsächlichen Informationen, die im beim Parsing gewonnenen Parsebaum gefunden wurden.
4 zeigt die Etikettengenerierung über Etiketten- und Bewertungsgeneratoren 160 und 162, die jeweils die Etiketten 164 bzw. 166 generieren. Jedes identifizierte Etikett trägt außerdem Informationen dazu, welche Menge von Eingabewörtern im Eingabesatz durch das Etikett abgedeckt werden. Anschließend ersetzt das Etikett seine Deckungsmenge. In der bevorzugten Ausführungsform werden Kontextinformationen 167 für die Etiketten- und Bewertungsgenerierung verwendet, beispielsweise durch die Generatoren 160 und 162. Die Kontextinformationen 167 werden in der Bewertungsheuristik zum Anpassen von Gewichten verwendet, die mit einer nachfolgend diskutierten heuristischen Bewertungsfaktortechnik assoziiert sind. Die Kontextinformationen 167 enthalten vorzugsweise den Wortvertrauensvektor 168 und Dialogkontextgewichte 169. Es ist jedoch zu beachten, dass die vorliegende Erfindung nicht auf die Verwendung von sowohl dem Wortvertrauensvektor 168 als auch den Dialogkontextgewichten 169 beschränkt ist, sondern auch die Verwendung von einem unter Ausschluss des anderen sowie die Nicht-Nutzung von Kontextinformationen 167 in der vorliegenden Erfindung umfasst.
Der automatische Spracherkennungs-Prozessblock 117 generiert den Wortvertrauensvektor 168, der angibt, wie gut die Wörter im Eingabesatz 118 erkannt wurden. Der Dialogmanager 30 generiert Dialogkontextgewichte 169, indem er den Zustand des Dialogs bestimmt. Beispielsweise fragt der Dialogmanager 30 einen Benutzer zu einem bestimmten Thema, z.B. welche Abflugszeit er vorzieht. Aufgrund dieser Anfrage bestimmt der Dialogmanager 30, dass der Zustand des Dialogs zeitorientiert ist. Der Dialogmanager 30 liefert Dialogkontextgewichte 169, um den entsprechenden Prozessen mitzuteilen, dass sie die erfassten zeitorientierten Wörter stärker gewichten sollen.
Synthese von Etikettenkomponenten:
Der Themen erkennende Parser der vorangegangenen Stufe generiert eine erhebliche Menge an Informationen, die analysiert und zusammengefügt werden müssen, um die endgültige Ausgabe des lokalen Parsers zu bilden. Die vorliegende Erfindung ist vorzugsweise so "aggressiv" wie möglich beim Erkennen jedes Themas, was zum Generieren mehrerer Etikettenkandidaten führt. Außerdem ist es bei Vorhandensein bestimmter Schlüsselwörter wie "zwischen", "vor", "und", "oder", "ungefähr" usw. und insbesondere wenn diese Wörter aufgrund von Erkennungsfehlern eingeführt oder weggelassen wurden möglich, viele alternative Etikettenkandidaten zu konstruieren. Beispielsweise könnte der Eingabesatz 220 in 5 das Ergebnis von Einfüge- oder Auslassungsfehlern sein. Die kombinierende Phase der vorliegenden Erfindung bestimmt, welche Etiketten eine aussagekräftigere Interpretation der Eingabe bilden. Die vorliegende Erfindung definiert Heuristiken und trifft unter Anwendung eines N-besten Kandidatenauswahlprozesses basierend darauf eine Auswahl. Jedes generierte Etikett entspricht einer Menge von Wörtern in der Eingabewortfolge, die als Deckungsmenge des Etiketts bezeichnet wird.
Es wird eine Heuristik verwendet, die die zum Generieren einer Bewertung verwendeten Deckungsmengen der Etiketten verwendet. Die Bewertung hängt grob gesehen ab von der Größe der Deckungsmenge, den Größen der Lücken (ausgedrückt in der Anzahl Wörter) in den abgedeckten Objekten und den Gewichten, die dem Vorhandensein gewisser Schlüsselwörter zugewiesen wurden. In der bevorzugten Ausführungsform werden der aus ASR gewonnene Vertrauensvektor und die Dialogkontextinformationen genutzt, um den Etiketten Prioritäten zuzuweisen. Wenn beispielsweise Kostenetiketten-Parsing zuerst angewandt wird, werden mit Kosten zusammenhängende Zahlen, die sich aus dem Eingabestrom leichter eindeutig identifizieren lassen, potenziell entfernt, so dass weniger Zahlen zurückbleiben, die Mehrdeutigkeiten mit anderen Etiketten erzeugen können. Vorzugsweise werden Dialogkontextinformationen verwendet, um die Prioritäten anzupassen.
Auswahl der N-besten Kandidaten
In 4 wählt am Ende jedes Durchgangs ein N-bester Prozessor 170 basierend auf den mit den Etiketten assoziierten Bewertungen die N-besten Kandidaten und generiert die Themenetiketten, die jeweils die im entsprechenden Parsebaum gefundenen Informationen repräsentieren. Nachdem die Themen auf diese Weise erkannt wurden, können die entsprechenden Wörter in der Eingabe durch die Etiketteninformationen ersetzt werden. Diese Substitution eliminiert die entsprechenden Wörter aus dem aktuellen Eingabetext. Die Ausgabe 180 jedes Durchgangs wird als neue Eingabe an den nächsten Durchgang zurückgeleitet, da die Substitutionen beim Eliminieren gewisser Mehrdeutigkeiten zwischen konkurrierenden Grammatiken helfen können oder helfen können, bessere Parsebäume zu generieren, indem sie überlappende Symbole herausfiltern.
Die Berechnung endet, wenn im letzten Durchgang keine zusätzlichen Etiketten generiert werden. Die Ausgabe des letzten Durchgangs wird zur Ausgabe des lokalen Parsers an den globalen Parser 62. Da jede Phase nur die Anzahl Wörter in ihrer Eingabe reduzieren kann und die Länge des Eingabetexts endlich ist, ist die Anzahl von Durchgängen in der Festkommaberechnung durch die Größe ihrer Eingabe linear begrenzt.
Die folgenden neuartigen Bewertungsfaktoren werden verwendet, um die alternativen Parsebäume basierend auf den folgenden Attributen eines Parsebaums in einer Rangfolge zu ordnen:

– Anzahl von Endstellensymbolen
– Anzahl von Nicht-Endstellensymbolen
– Tiefe des Parsebaums
– Größe der Lücken in den Endstellensymbolen
– Mit jedem Endstellensymbol assoziierte ASR-Vertrauensmaße
– Mit jedem Endstellensymbol und Nicht-Endstellensymbol assoziierte kontextanpassbare Gewichte.

Jeder Pfad entspricht vorzugsweise einem getrennten Thema, das unabhängig entwickelt werden kann, wobei mit einer kleinen Datenmenge auf rechnerisch günstige Weise vorgegangen werden kann. Die Architektur der vorliegenden Erfindung ist flexibel und modular, und integriert so zusätzliche Pfade und Grammatiken für neue Themen, außerdem ist das Ändern von Heuristiken für bestimmte Themen einfach, so dass wiederverwendbare Komponenten entwickelt werden können, die leicht von verschiedenen Systemen gemeinsam genutzt werden können.
6 zeigt eine nicht einschränkende Darstellung eines Baums bezüglich einer Diskussion zur Etikettenbewertungsheuristik. 6 zeigt eine Eingabefolge 250 und einen Muster-Parsebaum 252. Der Parsebaum mit der Wurzel St 254 identifiziert die Unterfolge {w3, w4, w7, w8, w10} als mögliche Parse. Diese Parse hat 5 Endstellensymbole {w3, w4, w7, w8, w10} mit Lücken zwischen w4 u. w7 (Größe = 2) und zwischen w8 und w10 (Größe = 1) bzw. eine Gesamtlückengröße von 3. Der Parsebaum 252 hat vier Nicht-Endstellen: St 254, NT_a 256, NT_b 258, und NT_c 260. Die Tiefe des Parsebaums 252 ist drei, aufgrund der Transversalen von St 254 zu NT_f 258 zu NT_a 256 zu w3.
Eine mögliche Bewertung für diese Parse ist: #Terminals*10 – (GapSize*1.5) – Depth + #Non-terminals = 50–4.5–3+4 = 46.5
Die vorliegende Erfindung umfasst außerdem die Nutzung von nicht einheitlichen Gewichten, die den Nicht-End- und den Endstellenknoten zugewiesen werden können. Außerdem werden vorzugsweise Vertrauensmaße genutzt, um die Gewichte eines oder mehrerer der Bewertungsfaktoren anzupassen. Beispielsweise kann ein Wahrscheinlichkeitsverhältnisalgorithmus genutzt werden, um Vertrauensbewertungen zu berechnen (siehe z.B. folgende Bezugsquelle: R. Sukkar und Chin-Hui Lee, Vocabulary Independenf Discriminative Utterance Verification for Non-Key Word Rejection in Sub-Word Based Speech Recognition, IEEE Transactions on Speech and Audio Processing, Vol. 4, No. 6, Seiten 420–29 (1996)).
7 zeigt eine weitere nicht einschränkende Darstellung eines Baums bezüglich einer Diskussion zur Bewertungsheuristik. Unter Bezugszeichen 270, 272, 274, 276 und 278 sind fünf Parsebäume abgebildet.
Bezüglich den in 7 gezeigten fünf möglichen Parsebäumen und den entsprechenden Etiketten wird der folgende Bewertungsansatz verwendet:
Das bewertungsbasierte System führt dazu, dass Etikett Nr. 5 als bester Kandidat für Datums- (Date) ziele gewählt wird. Diese Auswahl eliminiert Etikett Nr. 2 und Etikett Nr. 4 aufgrund der Überlappung mit dem Lexikon von Etikett Nr. 1 aus der weiteren Betrachtung. So verbleibt die Parse für Etikett Nr. 1 als nächstbeste Parse und Etikett Nr. 5 und Nr. 1 werden ausgewählt.
Die vorliegende Erfindung verwendet mehrere Durchgänge, wie in 8 veranschaulicht. Unter Bezugszeichen 290 werden Ausgaben der vorliegenden Erfindung für verschiedene Durchgänge beim Verarbeiten des Eingabesatzes 294 gezeigt. Der Parsebaumwald 296 wird beim ersten Durchgang generiert und hilft, die Ausgabe des ersten Durchgangs 298 zu generieren. Die Ausgabe des ersten Durchgangs 298 hat das Zeitetikett 300 mit den Wörten "Five thirty pm" des Eingabesatzes 294 assoziiert.
Die Ausgabe des ersten Durchgangs 298 wird als Eingabe für eine Verarbeitung des Eingabesatzes 294 in einem zweiten Durchgang verwendet. Der Parsewald 302 wird während der Verarbeitung des zweiten Durchgangs generiert und führt dazu, dass ein Kostenetikett 304 generiert wird. In einer Ausführungsform der vorliegenden Erfindung besteht der Grund dafür, dass die Verarbeitung im ersten Durchgang die hundert Dollar des Eingabesatzes 294 nicht geparst hat, in der Auswahl des N-besten Etiketts und dem Kombinieren von Block 170 aus 4. Während der ersten Phase ist die beste Kostenparse aufgrund von lexikalischem Filtern und aggressivem Parsing "five hundred dollars" und die beste Zeitparse ist der Parsebaumwald 296 für "alter five thirty p-m". Da das Wort "five" gemeinsam genutzt wird, macht der Auswahlvorgang die beste Kostenparse ungültig und generiert das Zeitetikett für "five thirty p-m". Das Ende des zweiten Durchgangs ergibt jedoch eine gefilterte Folge 308, die das Kostenetikett 304 erfolgreich generiert.
Grammatik
In der bevorzugten Ausführungsform wird jedes Thema als verallgemeinerte LR(0)-Grammatik mit der folgenden Syntax ausgedrückt:
Die Grammatiksyntax sagt informell aus, dass die Grammatik als Folge von Grammatikregeln ausgedrückt wird, wobei jede Grammatikregel entweder eine kontextsensitive Substitutionsregel für ein Endstellen- oder Nicht-Endstellen-Grammatiksymbol beschreibt.
9 zeigt eine beispielhafte Grammatik für das Parsing der Kosten in Dollar- und Yen-Beträgen. Die erste Regel <* COST.> 320 erklärt COST zum Wurzel-Nicht-Endstellensymbol.
Jede darauf folgende Regel der Form <A = X Y Z.> spezifiziert ein Nicht-Endstellensymbol A und eine Substitutionsregel, nach der das Symbol A in einer rechtesten Ableitung (rightmost derivation) durch die drei rechten Grammatiksymbole X Y Z ersetzt werden kann, von denen jedes entweder ein Endstellen- oder ein Nicht-Endstellensymbol ist. Beispielsweise definiert die Regel 324:

C_Gen = C_Num I C_Num C_Currency.
C_Gen als eine Nicht-Endstelle, die mit entweder einer Zahl (C_Num) oder einer Zahl, auf die ein Währungssymbol (C_Currency) folgt, reduziert werden kann. Endstellensymbole werden unter Verwendung von <t: s1 s2.> definiert. Beispielsweise definiert die Regel 328:
c_yen: yen yens.
c_yen als ein Endstellensymbol, das "yen" oder "yens" als ein nächstes Token im Eingabestrom zuordnet.
Die Kostengrammatik ordnet alle Wörter, die nicht als Endstellen definiert sind, der X-Regel zu. Es wird ein lexikalischer Filter verwendet, um alle Eingabewörter, die nach COST-Regeln nicht relevant sind, in das Wort "x" zu konvertieren. Dementsprechend ordnet die X-Regel eines oder mehrere aufeinander folgende "x" zu.
10 zeigt ein nicht einschränkendes Beispiel des Parsings des Satzes 400: "flights under five hundred dollars." Jede Zeile steht für die Anwendung einer Grammatikregel. Beispielsweise steht unter Bezugszeichen 404:
C_Tens_2_3=c_num_2_3.
für einen Knoten im Parsewald, wobei das Grammatiksymbol C_tens den Bereich [2-3] abdeckt; d.h. das Wort "five". Ebenso steht Zeile 408:
c_qualifier_1_2: "under".
für das Endstellensymbol c_qualifier, das dem Bereich [1-2] zugeordnet ist, d.h. dem Wort "under". Die Wurzelsymbolregel 412, COST_0_5 deckt den gesamten Bereich ab, was eine erfolgreiche Parse meldet, die eine eindeutige Parse für die gesamte Eingabe ergeben hat. Es sind weitere Wurzelsymbolregeln dargestellt, mit eigenen Parsebäumen, die in 10 gezeigt sind. Beispielsweise zeigt 10 einen Parsebaum für das Wurzelsymbol 437. Wenn mehrere Parsen verwendet werden, enthält eine Regel die mit "I"s gezeigten Alternativen. Außerdem ist als nicht einschränkend zu beachten, wie das erste Wort "flights" von der X-Regel übersprungen wird.
11 zeigt eine teilweise grafische Baumdarstellung der Daten aus 10. Beispielsweise ist die Wurzelsymbolregel durch das Bezugszeichen 412 in 11 dargestellt.
Etikettengenerierung:
Das bevorzugte Etikettengenerierungsverfahren nutzt einen Parsewald und generiert die Etiketten, wie von den Ausgabespezifikationen vorgegeben. Der Etikettengenerierungsalgorithmus ("reduzieren" genannt) nutzt einen Synthese- und Vererbungsansatz, um jedes Etikett unter Nutzung der im Parsebaum gefundenen Informationen aufzubauen (beachte: die Verwendung der Bezeichnung "reduzieren" hierin ist getrennt und verschieden vom Begriff "reduzieren" (wie in Verschiebungs-/Reduktionshandlungen), der in der Literatur zu LR-Parsing verwendet wird). Der vom Etikettengenerierungsverfahren verwendete Reduzierungsalgorithmus funktioniert wie folgt:
Eingabe: Knoten: α_i_j(beliebiger Knoten im Parsewald.)

1. Wenn α_i_j eine Endstellenregel ist, gebe die rechte Seite (bei der es sich um ein Token im Eingabestrom in Position / handelt) entweder unverändert aus oder indem ihr eine Bedeutung zugewiesen wird – beispielsweise durch Anwendung einer Konvertierung von Ascii zu numerisch für eine Ziffer usw.)
2. Entferne alle X-Regeln von der rechten Seite, was eine Regel der Form α_i_j = β_o_i_o_j_o β_l_i_l_j_l β_k_i_k_j_k liefert, wobei β≠X.
3. Evaluiere das neue Attribut α für α_i_j durch Verketten der Ergebnisse des Reduzierens der Glieder auf der rechten Seite, d.h.: α_i_j.α = Σi=o..k reduziere (βi_ii_ji)wobei Σ ein Verkettungsoperator ist.
4. Vererbe alle Attribute von jedem reduzierten Glied auf der rechten Seite. für jedes Glied β_{i_}i_{i_}j_i in der rechten Seite addiere für jedes Attribut, Φ ∈ β_{i_}i_{i_}j_i.AttrList Φ zur Attributliste des Knotens: α_i_j.AttrList ∪ = φvererbe den Attributwert: α_i_j.ϕ = βi_ii_ji.ϕ
5. Wenn nötig, generiere neue Attribute für α_i_j, möglicherweise unter Nutzung der vererbten und berechneten Attribute. Alle neuen Attribute werden von den Vorgängerattributen vererbt, bis hoch zum Wurzelknoten. Dies ist der allgemeine Mechanismus, mit dem wir die Etikettenstrukturen konstruieren und initialisieren können.

12 zeigt die Funktion der vorliegenden Erfindung in einer beispielhaften Anwendung, in der ein Käufer versucht, ein bestimmtes Hemd zu kaufen, wobei er in einer ersten Sprache mit einem Verkäufer spricht, der in einer zweiten Sprache spricht. Der Startanzeigeblock 500 zeigt an, dass der Prozessblock 504 verarbeitet werden soll. Im Prozessblock 504 spricht der Käufer in einer ersten Sprache über ein bestimmtes Hemd. Im Prozessblock 508 wird die Sprache des Käufers erkannt und vorbestimmte Teile der Sprache des Käufers werden über den lokalen Parser der vorliegenden Erfindung im Prozessblock 512 bestimmt.
Im Prozessblock 516 werden die semantischen Anteile der Sprache des Käufers über einen globalen Parser bestimmt. Der Prozessblock 520 übersetzt die bestimmten semantischen Teile in eine zweite Sprache, die dann im Prozessblock 524 gesprochen wird. Im Prozessblock 528 wird die Antwort des Verkäufers bzw. Käufers gemäß der vorliegenden Erfindung verarbeitet. Die Verarbeitung endet mit dem Prozessblock 532.
13 zeigt die Ablaufschritte, die mit der Mehrdurchgangs-Architektur des lokalen Parsers der vorliegenden Erfindung assoziiert sind. Der Startanzeigeblock 550 zeigt an, dass der Prozessblock 554 ausgeführt werden soll, in dem ein Eingabesatz empfangen wird. Der Prozessblock 567 führt die automatische Spracherkennung für den Eingabesatz aus.
Der Iterationsblock 566 führt für jede Grammatik die folgenden Schritte aus. Vorzugsweise wird die Verarbeitung für jede Grammatik im Wesentlichen gleichzeitig mit der Verarbeitung für eine zweite Grammatik durchgeführt. Der Prozessblock 570 wendet unter Verwendung der Grammatik gemäß der Auswahl durch Iterationsblock 566 einen lexikalischen Filter auf den Eingabesatz an.
Der Prozessblock 574 generiert unter Verwendung der ausgewählten Grammatik einen Parsewald und der Prozessblock 578 generiert unter Verwendung von Vertrauensvektoren aus Prozessblock 557 und Dialogkontextgewichten aus Prozessblock 599 (sofern von früherer Verarbeitung des Dialogmanagers vorhanden) Etiketten für den Eingabesatz. Es ist jedoch zu beachten, dass die vorliegende Erfindung nicht darauf beschränkt ist, in dieser Stufe der Verarbeitung kontextverwandte Daten zu verwenden, sondern auch die Verwendung keiner Kontextinformationen in dieser Stufe umfasst.
Der Prozessblock 582 generiert eine Bewertung für die Etiketten, die im Prozessblock 578 generiert wurden. Der Prozessblock 586 wählt basierend auf der vom Prozessblock 582 generierten Bewertung die N-besten Etiketten aus. Der Prozessblock 590 generiert die Etikettenausgabe und der Iterationsabbruchblock 594 wiederholt den Prozess, bis jede Grammatik genutzt wurde.
Wenn jede Grammatik für einen bestimmten Durchgang genutzt wurde, fragt der Entscheidungsblock 598, ob zusätzliche Etiketten generiert wurden. Wenn zusätzliche Etiketten generiert wurden, fährt die Verarbeitung mit dem Iterationsblock 566 fort. Wenn keine zusätzlichen Etiketten generiert wurden, fährt die Verarbeitung mit dem Prozessblock 599 fort. Im Prozessblock 599 wird das globale Parsing durchgeführt und dann wird die Dialogmanager-Verarbeitung ausgeführt, wobei Kontextgewichte bestimmt werden, die bei Bedarf in der nächsten Verarbeitung eines Eingabesatzes verwendet werden könnten. Die Verarbeitung endet mit dem Endblock 602.
Obwohl die Erfindung in ihrer derzeit bevorzugten Form beschrieben wurde, ist zu beachten, dass es zahlreiche Anwendungen und Implementierungen für die vorliegende Erfindung gibt. Dementsprechend kann die Erfindung abgewandelt und verändert werden, ohne vom Erfindungsgedanken, wie er in den angehängten Patentansprüchen dargelegt ist, abzuweichen.
ANLAGE A
Eingabe: Ascii-Textfolge s, die eine Folge von durch weiße Leerzeichen getrennte Wörter w_j ohne Satzzeichen enthält. Die Wörter bestehen aus Kleinbuchstaben des englischen Alphabets und dem einfachen Anführungszeichen [Beachte: keine Ziffern], wobei s = w0 w1 ... wn w = [a–z'] +
Ausgabe: Ascü-Textfolge, out, die eine Folge von durch weiße Leerzeichen getrennten Wörtern oder Etiketten ohne Satzzeichen enthält, wobei:

Claims

Computerimplementiertes Sprachanalyseverfahren zum Verarbeiten einer Eingangsphrase (118), das folgende Schritte umfasst: (a) Bereitstellen einer Vielzahl von Grammatiken (140, 142), die für vorbestimmte Themen indikativ sind; (b) Generieren einer Vielzahl von mit der Eingangsphrase (118) verwandten Parsewäldern (150, 152) unter Verwendung der Grammatiken; (c) Assoziieren von Etiketten (164, 166) mit Wörtern in der Eingangsphrase (118) unter Verwendung der generierten Parsewälder (150, 152); (d) Generieren von Bewertungen für die Etiketten (164, 166), basierend auf Attributen der Parsewälder (150, 152); und (e) Auswählen von Etiketten (164, 166) zur Verwendung als geparste Darstellung (180) der Eingangsphrase(118), basierend auf den generierten Bewertungen.
Sprachanalyseverfahren nach Anspruch 1, das weiterfolgenden Schritt umfasst: Ausführen des Schritts (b) über eine Vielzahl von Iterationen, so dass jede Iteration andere Parsewälder produziert.
Sprachanalyseverfahren nach Anspruch 1, wobei der Schritt (b) im Wesentlichen gleichzeitig für jede der Grammatiken ausgeführt wird.
Sprachanalyseverfahren nach Anspruch 3, das weiter folgenden Schritt umfasst: Ausführen des Schritts (b) für eine Vielzahl von Iterationen, wobei jede Iteration andere Parsewälder bezüglich jeder der Grammatiken produziert.
Sprachanalyseverfahren nach Anspruch 1, das weiter folgenden Schritt umfasst: Generieren von Bewertungen für die Etiketten, basierend auf bewertungsbasierten Faktoren, die aus der Anzahl von Endstellen, Lückengröße, Tiefe, Anzahl von Nicht-Endstellen und Kombinationen derselben bestehenden Gruppe ausgewählt werden.
Sprachanalyseverfahren nach Anspruch 5, das weiter folgenden Schritt umfasst: unterschiedliches Gewichten von mindestens zwei der Faktoren.
Sprachanalyseverfahren nach Anspruch 6, das weiter folgenden Schritt umfasst: Verwenden von Kontextinformationen zum unterschiedlichen Gewichten von mindestens zwei der Faktoren.
Sprachanalyseverfahren nach Anspruch 7, das weiter folgende Schritte umfasst: Generieren eines Wortvertrauensvektors für die Eingangsphrase, im Wesentlichen während der Spracherkennung der Eingangsphrase; und unterschiedliches Gewichten von mindestens zwei der Faktoren, basierend auf dem generierten Wortvertrauensvektor.
Sprachanalyseverfahren nach Anspruch 7 oder 8, das weiter folgende Schritte umfasst: Generieren einer Anforderung nach Informationen, zusammenhängend mit einem vorbestimmten Thema; Generieren von Dialogkontextgewichten, basierend auf der generierten Anforderung nach Informationen; und unterschiedliches Gewichten von mindestens zwei der Faktoren, basierend auf den generierten Dialogkontextgewichten.
Sprachanalyseverfahren nach Anspruch 7, das weiter folgende Schritte umfasst: Verwenden des Kontextinformationsprozessors, im Wesentlichen parallel, um den Schritt (b) auszuführen.
Sprachanalyseverfahren nach Anspruch 1, das weiter folgende Schritte umfasst: Generieren von Bewertungen für die Etiketten; und Auswählen von N-besten Etiketten für die Verwendung in der geparsten Darstellung, basierend auf den generierten Bewertungen.
Sprachanalyseverfahren nach Anspruch 11, das weiter folgende Schritte umfasst: Ausführen der Schritte (b) und (c) über eine Vielzahl von Iterationen; und Verwenden der ausgewählten N-besten Etiketten einer ersten Iteration als Eingabe, zusammenhängend mit der Verarbeitung der Schritte (b) und (c) einer zweiten Iteration.
Sprachanalyseverfahren nach Anspruch 1, wobei die Etiketten indikativ für die Themen der Grammatiken sind.
Sprachanalyseverfahren nach Anspruch 1, wobei die Eingangsphrase bezüglich mindestens eines Teils der Eingangsphrase grammatikalisch inkorrekt ist, wobei das Verfahren weiter folgende Schritte umfasst: Generieren, unter Verwendung der Grammatiken, einer Vielzahl von Parsewäldern, zusammenhängend mit der grammatikalisch inkorrekten Eingangsphrase; Assoziieren von Etiketten mit Wörtern in der grammatikalisch inkorrekten Phrase unter Verwendung der generierten Parsewälder; und Verwenden der mit den Wörtern assoziierten Etiketten als analysierte Darstellung der grammatikalisch inkorrekten Eingangsphrase.
Sprachanalyseverfahren nach Anspruch 1, wobei die Grammatiken auf links-rechts kontextsensitiven Grammatiken basieren.
Sprachanalyseverfahren nach Anspruch 1, wobei die Grammatiken auf links-rechts kontextsensitiven Grammatiken basieren und Mehrdeutigkeiten enthalten.
Sprachanalyseverfahren nach Anspruch 1, das weiter folgende Schritte umfasst: Filtern der Eingangsphrase über lexikalische Filter; und Generieren der Vielzahl von Parsewäldern, basierend auf der gefilterten Eingangsphrase.
Sprachanalyseverfahren nach Anspruch 1, das weiter folgenden Schritt umfasst: Ausziehen semantischer Komponenten der Eingangsphrase, basierend auf den Etiketten, die mit den Wörtern assoziiert sind.
Sprachanalyseverfahren nach Anspruch 1, das weiter folgenden Schritt umfasst: Bereitstellen eines globalen Parsers zum Ausziehen der semantischen Komponenten aus der Eingangsphrase, basierend auf den Etiketten, die mit den Wörtern assoziiert sind.
Sprachanalyseverfahren nach Anspruch 19, das weiter folgenden Schritt umfasst: Verwalten, basierend auf den ausgezogenen semantischen Komponenten, des Austauschs von Dialog zwischen einer Spracherkennungsvorrichtung und einem Anwender.
Sprachanalyseverfahren nach Anspruch 19, das weiter folgenden Schritt umfasst: Verwalten, basierend auf den ausgezogenen semantischen Komponenten, des Austauschs von Dialog zwischen zwei Anwendern, die verschiedene Sprachen sprechen.
Computerimplementierte Sprachanalysevorrichtung zum Verarbeiten einer Eingangsphrase, die folgendes umfasst: Mittel zum Bereitstellen einer Vielzahl von Grammatiken (140, 142), die für vorbestimmte Themen indikativ sind; einen Parsewaldgenerator zum Generieren einer Vielzahl von Parsewäldern (150, 152), zusammenhängend mit der Eingangsphrase (118) unter Verwendung der Grammatiken; einen Etikettengenerator zum Assoziieren von Etiketten (164, 166) mit Wörtern in der Eingangsphrase (118), unter Verwendung der generierten Parsewälder (150, 152); einen Etikettenbewertungsgenerator zum Generieren von Bewertungen für die Etiketten (164, 166), basierend auf Attributen der Parsewälder; und einen Etikettenauswähler zum Auswählen von Etiketten zur Verwendung als geparste Darstellung (180) der Eingangsphrase (118), basierend auf den generierten Bewertungen.
Sprachanalysevorrichtung nach Anspruch 22, wobei der Parsewaldgenerator über eine Vielzahl von Iterationen ausgeführt wird, so dass jede Iteration andere Parsewälder produziert.
Sprachanalysevorrichtung nach Anspruch 22, wobei der Parsewaldgenerator über eine Vielzahl von Iterationen ausgeführt wird, so dass jede Iteration andere Parsewälder bezüglich jeder der Grammatiken produziert.
Sprachanalysevorrichtung nach Anspruch 22, wobei der Etikettenbewertungsgenerator, basierend auf bewertungsbasierten Faktoren, die aus der Anzahl von Endstellen, Lückengröße, Tiefe, Anzahl von Nicht-Endstellen und Kombinationen derselben bestehenden Gruppe ausgewählt werden, Bewertungen für die Etiketten generiert.
Sprachanalysevorrichtung nach Anspruch 25, wobei der Etikettenbewertungsgenerator mindestens zwei der Faktoren unterschiedlich gewichtet.
Sprachanalysevorrichtung nach Anspruch 26, wobei der Etikettenbewertungsgenerator Kontextinformationen nutzt, um mindestens zwei der Faktoren unterschiedlich zu gewichten.
Sprachanalysevorrichtung nach Anspruch 27, der weiter folgendes umfasst: ein Spracherkennungsmodul zum Ausführen von Spracherkennung der Eingabephrase und zum Generieren eines Wortvertrauensvektors für die Eingangsphrase, wobei im Wesentlichen der Etikettenbewertungsgenerator mindestens zwei der Faktoren, basierend auf dem generierten Wortvertrauensvektor unterschiedlich gewichtet.
Sprachanalysevorrichtung nach Anspruch 27 oder 28, der weiter folgendes umfasst: einen Dialogverwalter zum Generieren einer Anforderung nach Informationen, zusammenhängend mit einem vorbestimmten Thema, wobei der Dialogverwalter Dialogkontextgewichte, basierend auf der generierten Anforderung nach Informationen generiert, wobei der Etikettenbewertungsgenerator mindestens zwei der Faktoren, basierend auf den generierten Dialogkontextgewichten unterschiedlich gewichtet.
Sprachanalysevorrichtung nach Anspruch 22, der weiter folgendes umfasst: einen Etikettenbewertungsgenerator zum Generieren von Bewertungen für die Etiketten; und einen Etikettenauswähler zum Auswählen von N-besten Etiketten für die Verwendung in der geparsten Darstellung, basierend auf den generierten Bewertungen.
Sprachanalysevorrichtung nach Anspruch 30, wobei der Parsewaldgenerator und der Etikettengenerator über eine Vielzahl von Iterationen ausgeführt werden, wobei die ausgewählten N-besten Etiketten einer ersten Iteration als Eingabe für den Parsewaldgenerator und den Etikettengenerator während einer zweiten Iteration verwendet werden.
Sprachanalysevorrichtung nach Anspruch 22, wobei die Etiketten indikativ für die Themen der Grammatiken sind.
Sprachanalysevorrichtung nach Anspruch 22, wobei die Eingangsphrase bezüglich mindestens eines Teils der Eingangsphrase grammatikalisch inkorrekt ist, wobei die Parsewaldgeneratoren unter Verwendung der Grammatiken eine Vielzahl von Parsewäldern, zusammenhängend mit der grammatikalisch inkorrekten Eingangsphrase generieren, wobei der Etikettengenerator unter Verwendung der generierten Parsewälder Etiketten mit Wörtern in der grammatikalisch inkorrekten Phrase assoziiert, wobei die Etiketten als geparste Darstellung der grammatikalisch inkorrekten Eingangsphrase mit den Wörtern assoziiert werden.
Sprachanalysevorrichtung nach Anspruch 22, wobei die Grammatiken auf links-rechts kontextsensitiven Grammatiken basieren.
Sprachanalysevorrichtung nach Anspruch 22, wobei die Grammatiken auf links-rechts kontextsensitiven Grammatiken basieren und Mehrdeutigkeiten enthalten.
Sprachanalysevorrichtung nach Anspruch 22, die weiter folgendes umfasst: einen lexikalischen Filter zum Filtern der Eingangsphrase, wobei der Parsewaldgenerator die Vielzahl von Parsewäldern, basierend auf der gefilterten Eingangsphrase generiert.
Sprachanalysevorrichtung nach Anspruch 22, die weiter folgendes umfasst: einen semantischen Extraktor zum Ausziehen semantischer Komponenten aus der Eingangsphrase, basierend auf den Etiketten, die mit den Wörtern assoziiert sind.
Sprachanalysevorrichtung nach Anspruch 37, die weiter folgendes umfasst: einen globalen Parser zum Ausziehen der semantischen Komponenten aus der Eingangsphrase, basierend auf den Etiketten, die mit den Wörtern assoziiert sind.
Sprachanalysevorrichtung nach Anspruch 38, die weiter folgendes umfasst: einen Dialogverwalter zum Verwalten, basierend auf den ausgezogenen semantischen Komponenten, des Austauschs von Dialog zwischen einer Spracherkennungsvorrichtung und einem Anwender.
Sprachanalysevorrichtung nach Anspruch 39, die weiter folgendes umfasst: einen Dialogverwalter zum Verwalten, basierend auf den ausgezogenen semantischen Komponenten, des Austauschs von Dialog zwischen zwei Anwendern, die verschiedene Sprachen sprechen.