DE602006000090T2 - Konfidenzmaß für ein Sprachdialogsystem - Google Patents

Konfidenzmaß für ein Sprachdialogsystem Download PDF

Info

Publication number
DE602006000090T2
DE602006000090T2 DE602006000090T DE602006000090T DE602006000090T2 DE 602006000090 T2 DE602006000090 T2 DE 602006000090T2 DE 602006000090 T DE602006000090 T DE 602006000090T DE 602006000090 T DE602006000090 T DE 602006000090T DE 602006000090 T2 DE602006000090 T2 DE 602006000090T2
Authority
DE
Germany
Prior art keywords
measure
confidence
combined
confidence measure
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602006000090T
Other languages
English (en)
Other versions
DE602006000090D1 (de
Inventor
Dilek Z. Castro Valley Hakkani-Tur
Giuseppe Hoboken Riccardi
Gokhan Denville Tur
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of DE602006000090D1 publication Critical patent/DE602006000090D1/de
Application granted granted Critical
Publication of DE602006000090T2 publication Critical patent/DE602006000090T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Description

  • HINTERGRUND DER ERFINDUNG
  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf Sprachdialogsysteme und insbesondere auf Verbesserung der Fehlervorhersage in Sprachdialogsystemen.
  • EINLEITUNG
  • Ein Ziel von Sprachdialogsystemen ist, Absichten eines Sprechen, die in natürlicher Sprache ausgedrückt sind, zu identifizieren und Aktionen entsprechend vorzunehmen, um Anforderungen zufrieden zustellen. Typisch wird in einem natürlichen Sprachdialogsystem, die Äußerung des Sprechers mithilfe eines automatischen Spracherkennen (ASR) erkannt. Danach wird die Absicht des Sprechers anhand der erkannten Äußerung, mithilfe einer Sprachverständniskomponente (SLU), identifiziert. Dieser Schritt könnte als ein Klassifikationsproblem für Rufweglenksysteme formuliert werden. Wenn der User beispielsweise sagt: „I would like to know my account balance" (Ich möchte gerne meinen Kontostand wissen), dann wäre die entsprechende Absicht oder das semantische Etikett (Ruftyp) „Request(Balance)" (Erbitte(Kontostand) und die Aktion wäre, nach Erhalt der Kontonummer, den Kontostand des Users zu prompten oder den User zur Rechnungsabteilung zu transferieren.
  • Für jede Äußerung im Dialog bringt die SLU-Komponente einen Ruftyp zurück, der mit einem Konfidenzmaß assoziiert ist. Wenn das Konfidenzmaß der SLU-Komponente mehr als ein Bestätigungsschwellwert ist, nimmt ein Dialogmanager, wie im obigen Beispiel, die geeignete Aktion vor. Wenn die Absicht vage ist, präsentiert der Dialogmanager dem User einen Klarstellungsprompt. Wenn die SLU-Komponente über die Absicht, abhängig von ihrem Konfidenzmaß, nicht zuversichtlich ist, wird die Äußerung entweder durch erneutes Prompten des Users einfach zurückgewiesen (d. h., das Konfidenzmaß ist geringer als Zurückweisungsschwellwert) oder es wird ein Bestätigungsprompt gespielt (d. h., das Konfidenzmaß der die SLU-Komponente liegt zwischen Bestätigungs- und Zurückweisungsschwellwerten).
  • Es ist klar, dass das Konfidenzmaß der SLU-Komponente für das Management des Sprachdialogs äußerst wichtig ist. Aber Verlassen allein auf die Konfidenzmaße der SLU-Komponente zur Bestimmung einer Dialogstrategie könnte aus mehreren Granden weniger als optimal sein. Erstens beträgt die typische Wortfehlerrate (WER), bei spontaner Telefonsprache, für ASR-Ausgabe ca. 30%; mit anderen Worten, eins in jeweils drei Wörtern wird falsch erkannt. Fehlerkennung eines Worts könnte zum Missverständnis einer ganzen Äußerung führen, selbst wenn alle anderen Wörter vielleicht korrekt sind. Zum Beispiel könnte Fehlerkennen des Worts „balance" (Kontostand) in einer obigen Äußerung das Konfidenzmaß der SLU-Komponente negativ beeinflussen. Zweitens könnten die Konfidenzmaße der SLU-Komponente von einem geschätzten Ruftyp und anderen Äußerungsmerkmalen, wie Länge einer Äußerung in Wörtern oder Kontextmerkmalen, wie einem früher gespielten Prompt, anhängen.
  • Der Artikel „Causes and strategies for requesting clarification in dialogue" (Gründe und Strategien für Anforderung von Klarstellung in einem Dialog), Schlangen D, 5. Sigdial-Workshop über Diskurs und Dialog, 2004, offenbart die Kombination von Spracherkennungskonfidenz und semantischer/pragmatischer Konfidenz.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Erfindungsgemäß werden ein Verfahren, wie in Anspruch 1 dargelegt, ein Sprachdialogsystem, wie in Anspruch 10 dargelegt und ein maschinenlesbares Medium, wie in Anspruch 18 dargelegt, bereitgestellt.
  • Bevorzugte Ausführungsformen sind in den Unteransprüchen dargelegt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Um die Art und Weise zu beschreiben, in der die oben erwähnten und andere Vorteile und Merkmale der Erfindung erhalten werden können, wird eine ausführlichere Beschreibung der oben kurz beschriebenen Erfindung unter Bezugnahme auf spezifische Ausführungsformen davon gemacht, die in den angehängten Zeichnungen dargestellt sind. Indem vorausgesetzt wird, dass diese Zeichnungen nur typische Ausführungsformen zeigen und, daher nicht als ihren Umfang einschränkend zu betrachten sind, wird die Erfindung mit zusätzlicher Spezifität und Einzelheit durch die Verwendung der zugehörigen Zeichnungen beschrieben und erläutert, in denen:
  • 1 ein beispielhaftes Sprachdialogsystem darstellt, das den Prinzipien der Erfindung entspricht;
  • 2 ein Funktionsblockdiagram ist, das ein beispielhaftes Verarbeitungssystem darstellt, das verwendet werden könnte eine oder mehrere Komponenten des Sprachdialogsystems der 1 zu implementieren;
  • 3 ein Flussdiagramm ist, das eine beispielhafte Verfahrensweise darstellt, die in Implementierungen verwendet werden könnte, die den Prinzipien der Erfindung entsprechen;
  • 4 eine Tabelle zeigt, die Eigenschaften von Training, Entwicklung und Testdaten anzeigt, die in Versuchen verwendet werden;
  • 5 Sprachverständnisgenauigkeit für automatische Spracherkennung und Konfidenzmaße für Sprachverständnis in einer Implementierung anzeigt, die den Prinzipien der Erfindung entspricht; und
  • 6 eine grafische Darstellung ist, die Genauigkeit von Ergebnissen in Implementierungen darstellt, die den Prinzipien der Erfindung entsprechen.
  • AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
  • Verschiedene Ausführungsformen der Erfindung werden unten im Detail erörtert. Obwohl spezifische Implementierungen erörtert werden, wird vorausgesetzt, dass dies nur für Darstellungszwecke geschieht. Ein Fachmann der relevanten Technik wird erkennen, dass andere Komponenten und Konfigurationen verwendet werden könnten, ohne vom Umfang der Erfindung abzuweichen, der in den Patentansprüchen definiert ist.
  • Sprachdialogsysteme
  • Die 1 ist ein Funktionsblockdiagramm eines beispielhaften natürlichen Sprachdialogsystems 100, das den Prinzipien der Erfindung entspricht. Das natürliche Sprachdialogsystem 100 könnte ein automatisches Spracherkennungsmodul ((ASR-Modul) 102, ein Sprachverständnismodul (SLU-Modul) 104, ein Dialogmanagementmodul (DM-Modul) 106, ein Sprachgenerierungsmodul (SLG-Modul) 108 und ein TTS-Modul 110 (Umwandlung von Textdateien in gesprochene Sprache) umfassen.
  • Das ASR-Modul 102 könnte Spracheingabe analysieren und könne eine Transkription der Spracheingabe als Ausgabe bereitstellen. Das SLU-Modul 104 könnte die überschriebene Eingabe empfangen und könnte ein Modell für natürliches Sprachverständnis verwenden, um die Gruppe von Wörtern zu analysieren, die in der überschriebenen Eingabe inbegriffen sind, um von der Eingabe eine Bedeutung abzuleiten. Das DM-Modul 106 könnte die Bedeutung oder Absicht der Spracheingabe vom SLU-Module 104 empfangen und könnte eine Aktion, wie beispielsweise Bereitstellen einer gesprochenen Antwort, auf Basis der Eingabe, bestimmen. Das SLG-Modul 108 könnte eine Transkription eines oder mehrerer Wörter als Reaktion auf die vom DM-Modul 106 bereitgestellte Aktion generieren. Das TTS-Modul 110 könnte die Transkription als Eingabe empfangen und könnte generierte hörbare Sprache als Ausgabe beruhend auf der überschriebenen Sprache bereitstellen.
  • Somit könnten die Module des Systems 100 Spracheingabe, wie beispielsweise Sprachäußerungen erkennen, könnten die Spracheingabe überschreiben, könnten die Bedeutung der überschriebenen Sprache identifizieren (oder verstehen), könnten eine geeignete Reaktion auf die Spracheingabe bestimmen, könnten Text der geeigneten Reaktion generieren und von diesem Text hörbare „Sprache" vom System 100 generieren, die der User dann hören kann. Auf diese Weise kann der User einen natürlichen Sprachdialog mit dem System 100 führen. Leute mit durchschnittlichem Fachwissen werden die Programmsprachen und Mittel zum Generieren und Training des ASR-Moduls 102 oder irgendwelcher der anderen Module im Sprachdialogsystem verstehen. Außerdem könnten die Module des Systems 100 unabhängig von einem vollen Dialogsystem arbeiten. Zum Beispiel könnte ein Rechengerät wie ein Smartphone (oder irgendein Verarbeitungsgerät mit einer Telefonmöglichkeit) ein ASR-Modul aufweisen, wobei ein User sagt „call mom" und das Smartphone könnte auf die Instruktion ohne einen „Sprachdialog" reagieren.
  • 1 ist ein beispielhaftes Sprachdialogsystem. Andere Sprachdialogsysteme könnten andere Modultypen umfassen und könnten unterschiedliche Mengen verschiedener Module aufweisen.
  • 2 veranschaulicht ein beispielhaftes Verarbeitungssystem 200, in dem ein oder mehrere Module des Systems 100 implementiert sein könnten. Somit könnte das System 100 mindestens ein Verarbeitungssystem, wie, zum Beispiel, das beispielhafte Verarbeitungssystem 200 umfassen. Das System 200 könnte einen Bus 210, einen Prozessor 220, einen Speicher 230, einen Nur-Lese-Speicher (ROM) 240, ein Speichergerät 250, ein Eingabegerät 260, ein Ausgabegerät 270 und eine Kommunikationsschnittstelle 280 umfassen. Der Bus 210 könnte Kommunikation unter den Komponenten des Systems 200 zulassen.
  • Der Prozessor 220 könnte mindestens einen konventionellen Prozessor oder Mikroprozessor umfassen, der Instruktionen interpretiert und ausführt. Der Speicher 230 könnte ein Direktzugriffsspeicher (RAM) oder ein anderer Typ eines dynamischen Speichergeräts sein, das Informationen und Instruktionen zur Ausführung durch den Prozessor 220 speichert. Der Speicher 230 könnte außerdem temporäre Variablen oder andere Zwischeninformation speichern, die bei der Ausführung von Instruktionen durch den Prozessor 220 verwendet werden. Der Nur-Lese-Speicher (ROM) 240 könnte ein konventionelles ROM-Gerät oder einen anderen Typ eines statischen Speichergeräts umfassen, das statische Informationen und Instruktionen für den Prozessor 220 speichert. Das Speichergerät 250 könnte irgendeinen Mediumtyp wie beispielsweise magnetische oder optische Aufzeichnungsmedien und ihr entsprechendes Laufwerk umfassen.
  • Das Eingabegerät 260 könnte einen oder mehrere konventionelle Mechanismen, die einem User erlauben Information in das System 200 einzugeben, wie beispielsweise eine Tastatur, eine Maus, einen Stift, ein Spracherkennungsgerät usw. umfassen. Das Ausgabegerät 270 könnte einen oder mehrere konventionelle Mechanismen, die Information an den User ausgeben, einschließlich eines Displays, eines Druckers, eines oder mehrerer Lautsprecher oder eines Mediums, wie einem Speicher oder einer magnetischen oder optischen Platte und einem entsprechenden Plattenlaufwerk umfassen. Die Kommunikationsschnittstelle 280 könnte einen Mechanismus umfassen, der einem Transceiver ähnlich ist, der dem System 200 ermöglicht über ein Netzwerk zu kommunizieren. Zum Beispiel könnte die Kommunikationsschnittstelle 180 ein Modem oder eine Ethernet-Schnittstelle zum Kommunizieren über ein Ortsnetz (LAN) umfassen. Als andere Möglichkeit könnte die Kommunikationsschnittstelle 180 andere Mechanismen zum Kommunizieren mit anderen Geräten und/oder Systemen über verdrahtete, drahtlose oder optische Anschlüsse umfassen.
  • Das System 200 könnte Funktionen als Reaktion auf den Prozessor 220 durchführen, der Instruktionsfolgen ausführt, die in einem maschinenlesbaren Medium, wie beispielsweise einem Speicher 230, einer magnetischen Platte oder einer optischen Platte enthalten sind. Derartige Instruktionen könnten aus einem anderen maschinenlesbaren Medium, wie dem Speichermedium 250 oder aus einem separaten Gerät über die Kommunikationsschnittstelle 280 in den Speicher 230 gelesen werden.
  • Übersicht
  • In bestehenden Sprachdialogsystemen könnte, sobald eine Äußerung erkannt wird, eine Komponente, wie beispielsweise eine Sprachverständniskomponente (SLU), jede Äußerung, ŵ = w1, w2, ... wn, untersuchen und der Äußerung eine Absicht (oder einen Ruftyp), ĉ(ŵ), sowie ein Konfidenzmaß, e(ĉ), zuordnen, das von einem semantischen Klassierer erhalten wird. Dies Maß könnte verwendet werden die Dialogstrategien zu lenken. Wenn die Absicht nicht vage ist und das Maß höher als ein Schwellwert t1, (das heißt, e(ĉ) > t1) ist, dann könnte die Ruftypzuordnung vom Dialogmanager akzeptiert werden und es könnte eine geeignete Aktion vorgenommen werden. Wenn das Konfidenzmaß geringer als ein weiterer Schwellwert t2 (das heißt, e(ĉ) ≤ t2) ist, dann könnte die Äußerung zurückgewiesen und der User erneut gepromptet werden. Wenn das Maß zwischen den zwei Schwellwerten (das heißt, t2 < e(c) ≤ t1) liegt, dann könnte dem User eine Bestätigungsfrage gestellt werden, um die geschätzte Absicht zu verifizieren. Diese Schwellwerte könnten, durch Verwendung eines Entwicklungstestsatzes und Einstellen der Schwellwerte auf die optimalen Schwellwerte für diesen Satz, zum Optimieren der Sprachdialog-Performance selektiert werden.
  • ASR- und SLU-Konfidenzmaße könnten zur Bildung eines kombinierten Maßes kombiniert werden, um eine den Prinzipien der Erfindung entsprechende Implementierung bereitzustellen, die in Bezug auf ASR-Fehler robuster ist und die Akzeptanz-, Bestätigungs- und Zurückweisungsstrategien, während Sprachdialogverarbeitung, verbessert. In anderen, den Prinzipien der Erfindung entsprechenden, Implementierungen könnte andere Äußerungsinformation und Information auf Dialogebene ebenso mit ASR- und SLU-Konfidenzmaßen kombiniert werden. Zum Beispiel könnte eine Länge der Äußerung (in Wörtern) oder ein Ruftyp, der vom semantischen Klassierer zugeordnet ist, mit ASR- und SLU-Konfidenzmaßen kombiniert werden, um ein kombiniertes Maß bereitzustellen.
  • ASR-Konfidenzmaße
  • ASR-Konfidenzmaße für jede Äußerung könnten mittels der Konfidenzmaße der Wörter in einer Äußerung berechnet werden. Beispielsweise könnte das ASR-Modul 102 spätere Wortwahrscheinlichkeiten für jedes Wort wj, jeder Äußerung von einer Gitterausgabe eines ASR berechnen, wobei j = 1, ..., n ist. Die späteren Wahrscheinlichkeiten könnten als Wortkonfidenzmaße csj, für jedes Wort wj verwendet werden. Die Wortkonfidenzmaße, csj, könnten verwendet werden ein ASR-Maß, e(ŵ), einer Äußerung zuzuordnen: e(ŵ) = f(cs1 ..., csn)wobei f, beispielsweise, eine arithmetische Mittelfunktion sein könnte.
  • Ein Verfahren, dass verwendet werden könnte Wortkonfidenzmaße zu berechnen, könnte auf der Achsausrichtung für Zeichenfolgen (Strings) in einem Wortgitter beruhen. Eine detaillierte Erklärung dieses Algorithmus und ein Vergleich seiner Performance mit anderen Ansätzen ist in "A General Algorithm for Word Graph Matrix Decomposition," Proceedings of ICASSP, 2003, von Dilek Hakkani-Tür und Giuseppe Riccardi dargelegt.
  • SLU-Konfidenzmaße
  • In einem kommerziellen Sprachdialogsystem ist ein Ziel einer SLU-Komponente, die Absicht des Users zu verstehen. Dieses Ziel könnte als ein Klassierungsproblem formuliert werden. Semantische Klassierung könnte als die Aufgabe von Mapping einer ASR-Ausgabe einer Äußerung in einem oder mehreren Ruftypen sein. Unter Voraussetzung eines Satzes von Beispielen S = {(W1, c1, ..., (Wm, Cm)}, könnte das Problem sein, jeden Fall Wi, ∊ X in ein Targetetikett ci, ∊ C zu assoziieren, wobei C ein finiter Satz semantischer Etiketten ist, die automatisch oder halbautomatisch aus den Daten erstellt werden. Es könnte häufig nützlich sein, ein Konfidenzmaß mit jeder der Klassen zu assoziieren. Zum Beispiel ist, in einem Bayes'schen Klassierer ein Konfidenzmaß einer Klasse, cj, nichts anderes als
    Figure 00050001
  • Ein diskriminierender Klassierer, beispielsweise „Boostexter", könnte in Implementierungen verwendet werden, die den Prinzipien der Erfindung entsprechen. „Boostexter" ist beschrieben in „Boostexter: Ein System auf Boost-Basis für Textkategorisierung," Machine Learning (Maschinenlernen), Band 39, Nr. 2/3, Seiten 135–168, 2000, von R. E. Schapire und Y. Singer. Der obige diskriminierende Klassierer könnte eine Implementierung des „AdaBoost" Algorithmus sein, der iterativ einfache Klassierer schwacher Basis lernt. Ein Verfahren zum Umsetzen der Ausgabe von „AdaBoost" in Konfidenzmaße verwendet eine logistische Funktion:
    Figure 00050002
    wobei f(W) ein gewichteter Durchschnitt der Basisklassierer ist, die von „AdaBoost" produziert werden. Somit könnte das SLU-Konfidenzmaß sein:
    Figure 00050003
  • Kombinieren von Maßen
  • Das Problem der Schätzung eines besseren Konfidenzmaßes für jede Äußerung, könnte durch Kombinieren verschiedener Informationsquellen, um die beste Funktion, g, zu finden, um mehrfache Merkmale zu kombinieren und ein neues Maß zu schätzen, ein Klassierungsproblem werden, ns: ns = g(ŵ, e(ĉ), |ŵ|, ĉ(ŵ))
  • Generischer Prozess
  • 3 ein Flussdiagramm ist, das einen generischen Prozess erläutert, der in einer Implementierung verwendet werden könnte, die den Prinzipien der Erfindung entspricht. Der Prozess könnte durch ein Modul, wie beispielsweise dem DM-Modul 106, beginnen, das Daten vom ASR-Modul 102 (Aktion 302) erhält oder von diesem damit versehen wird. Die Daten könnten ein Äußerungskonfidenzmaß, sowie andere Daten umfassen. Als nächstes könnte das DM-Modul 106 ein SLU-Konfidenzmaß, beispielsweise, vom SLU-Modul 104 (Aktion 304) erhalten oder von diesem bereitgestellt bekommen. Andere Daten vom SLU-Modul 104 könnten ebenso erhalten oder bereitgestellt werden. Die Daten vom ASR-Modul 102 und SLU-Modul 104 könnten durch eine Kombinierungskomponente kombiniert werden, um ein neues kombiniertes Konfidenzmaß (Aktion 306) zu bilden. In Implementierungen, die den Prinzipien der Erfindung entsprechen, könnte die Kombinierungskomponente im DM-Modul 106 oder im SLU-Modul 104 inbegriffen sein.
  • Als nächstes könnte das DM-Modul 106 das kombinierte Maß analysieren. Beispielsweise könnte das neue kombinierte Maß mit einem Schwellwert, t1 (Aktion 308) verglichen werden. Die Schwellwerte könnten echte Zahlen im Bereich der Konfidenzmaße sein. Wenn, beispielsweise, die kombinierte Konfidenz eine reelle Zahl zwischen 0 und 1 ist, dann sollte der Schwellwert ebenso zwischen 0 und 1 liegen. Wenn das kombinierte Maß größer als t1, ist, dann könnte das Maß einen höheren Konfidenzgrad anzeigen und das DM-Modul 106 könnte den durch den semantischen Klassierer (Aktion 310) zugeordneten Ruftyp akzeptieren und könnte dann eine geeignete Aktion (Aktion 312) vornehmen, wie beispielsweise einen User, der eine Frage über gewisse Gebühren auf seiner Rechnung hat, mit der Rechnungsabteilung zu verbinden.
  • Wenn das neue kombinierte Maß geringer als t1 ist, dann könnte das DM-Modul 106 bestimmen, ob das neue Maß geringer oder gleich einem zweiten Schwellwert, t2 ist, der niedriger als t1 ist (Aktion 314). Wenn das neue Maß geringer als oder gleich t2 ist, dann könnte das neue Maß inakzeptabel niedrig sein und das DM-Modul 106 könnte die Äußerung zurückweisen und den User erneut um eine neue Äußerung (Aktion 318) prompten. Wenn das neue Maß größer als t2, aber geringer oder gleich t1 ist, dann könnte das DM-Modul 106 den User bitten die Äußerung zu bestätigen und Absicht schätzen (Aktion 314).
  • Maßfaktorenzerlegung
  • In einer Implementierung könnte das kombinierte Maß (Aktion 306: 3), durch die Kombinierungskomponente gebildet werden, indem einfach ASR- und SLU-Konfidenzmaße folgendermaßen multipliziert werden: ns = e(ŵ)α1 × e(ĉ)α2 wobei α1 und α2 Skalierungsfaktoren sind. Die obige Formel nimmt an, dass die ASR- und SLU-Konfidenzmaße voneinander unabhängig sind. Die Skalierungsfaktoren können so bestimmt werden, dass sie die Genauigkeit an einem Entwicklungssatz maximieren.
  • Lineare Regression
  • In einer weiteren Implementierung, die den Prinzipien der Erfindung entspricht, könnte die Kombinierungskomponente lineare Regression verwenden, um eine Linie einem Satz Punkten im d-dimensionalen Raum anzupassen. In dieser Implementierung könne jedes Merkmal eine andere Dimension bilden. Separate Regressionsparameter, βi für jedes Merkmal, i, könnten mithilfe von Fehlerquadratschätzung gelernt werden. Die Kombinierungskomponente konnte dann lineare Regression verwenden, um ein kombiniertes Konfidenzmaß für Äußerungen, wie in der Formel unten berechnen: ns = β1 + β2·e(ŵ) + β3·e(ĉ) + β4·|ŵ|wobei die Länge |ŵ| die Zahl von Wörtern in einer vorausgesetzten Äußerung ist. Bei Aktion 302 (3) könnte somit das ASR-Modul 102 der Kombinierungskomponente die Zahl von Wörtern in der vorausgesetzten Äußerung sowie ein ASR-Konfidenzmaß für die Äußerung bereitstellen. Bei Aktion 306 könnte die obige Formel in der Kombinierungskomponente implementiert werden, um das kombinierte Maß zu berechnen.
  • Logistische Regression
  • In noch einer weiteren Implementierung, die den Prinzipien der Erfindung entspricht, könnte logistische Regression von der Kombinierungskomponente verwendet werden, um ein kombiniertes Konfidenzmaß zu berechnen. Logistische Regression ist linearer Regression ähnlich, aber passt einem Satz von Punkten eine Kurve statt einer Linie an. Wie bei der linearen Regressionsimplementierung könnte, bei Aktion 302, das ASR-Modul 102 der Kombinierungskomponente die Zahl von Wörtern in der vorausgesetzten Äußerung sowie ein ASR-Konfidenzmaß für die Äußerung bereitstellen. Somit könnte die Kombinierungskomponente ein kombiniertes Maß gemäß der folgenden Formel berechnen:
    Figure 00070001
  • Die logistischen Regressionsparameter, γ1, γ2, γ3, γ4 könnten mithilfe des gut bekannten Newton-Raphson-Verfahrens gelernt werden.
  • Entscheidungsbäume
  • In einer weiteren Implementierung, die den Prinzipien der Erfindung entspricht, könnte die Kombinierungskomponente Entscheidungsbäume (DTs) verwenden, um einen Fall einer Äußerung durch Abwärtssortieren des Baums von einer Wurzel zu einem Astknoten, unter Befolgen eines Wenn-dann-sonst-Regelsatzes, mithilfe vordefinierter Merkmale zu klassieren. In dieser Implementierung könnten kontinuierliche Merkmale (beispielsweise die Konfidenzmaße vom ASR-Modul 102 und SLU-Modul 104), während Entscheidungsbaumtraining automatisch quantifiziert werden. Zusätzliche Merkmale, wie beispielsweise eine Länge (in Wörtern) einer zu klassierenden Äußerung, könnten verwendet werden, um die Entscheidungsbäume zu vergrößern. In Versuchen sind verschiedene Merkmalsätze, wie die Länge der Äußerung, der vorhergehende, dem User vorgespielte Prompt, usw., verwendet worden und die Wahrscheinlichkeit, dass eine Äußerung am entsprechenden Astknoten des Entscheidungsbaums korrekt klassiert wird, wurde als das neue kombinierte Maß (Aktion 306: 3) verwendet. Diese Wahrscheinlichkeiten könnten anhand des Trainingssatzes oder eines Entwicklungssatzes berechnet werden. Eine Art der Berechnung der Wahrscheinlichkeit, dass eine Äußerung am entsprechenden Astknoten des Entscheidungsbaums korrekt klassiert ist, ist Teilen der Zahl von Äußerungen, die korrekt klassiert sind und an jenem Astknoten des Entscheidungsbaums endeten durch die Zahl aller Äußerungen, die an jenem Astknoten des Baums für den Trainings- oder Entwicklungssatz endeten.
  • Versuche und Ergebnisse
  • Für eine automatisierte Kundenbetreuungsanwendung wurde ein kommerzielles Sprachdialogsystem zum Prüfen des Ansatzes benutzt. In der Anwendung gab es 84 unverwechselbare Ruftypen und die Testsatz-Ruftypkomplexität, die mithilfe vorheriger Ruftypverteilung berechnet wurde, die aus Trainingsdaten geschätzt wurde, betrug 32,64. Die Daten waren in drei Sätze aufgeteilt: Einem Trainingssatz, einem Entwicklungssatz und einem Testsatz. Der erste Satz wurde zum Training eines ASR-Sprachmodells und eines SLU-Modells benutzt, die dann verwendet wurden, die anderen zwei Sätze zu erkennen und zu klassieren. Es wurde ein akustisches Standardmodell verwendet. Der Entwicklungssatz wurde zum Schätzen von Parametern einer Maßkombinationsfunktion verwendet. Einige Eigenschaften der Datensets sind in 4 angegeben. SLU-Genauigkeit (SLU Acc.) ist der Prozentsatz von Äußerungen, deren höchster Ruftypwert sich unter den echten Ruftypen befindet. Der höchste Ruftypwert einer Äußerung ist der Ruftyp, dem die höchste Wertung durch den semantischen Klassierer gegeben wird. Die echten Ruftypen sind Ruftypen, die jeder Äußerung von humanen „Labelers" zugeordnet wurden.
  • Um den Effekt dieses Ansatzes in einer eingesetzten Anwendung zu simulieren, wurde der Testsatz aus den letzten Tagen der Datensammlung selektiert. Daher liegt eine Fehlanpassung in der Performance des ASR-Moduls und des SLU-Moduls an den zwei Testsätzen vor. Ein Unterschied in der Verteilung der Ruftypen wurde, aufgrund Veränderungen im Kundenverkehr, beobachtet.
  • Um die Möglichkeit zu prüfen die Genauigkeit akzeptierter Äußerungen zu verbessern, wurde die SLU-Genauigkeit für verschiedene ASR- und SLU-Konfidenzmaßmagazine aufgezeichnet. Die 5 zeigt eine 4-dimensionale Aufzeichnung für diese Magazine, wo die x-Achse das ASR-Konfidenzmagazin und die y-Achse ist das SLU-Konfidenzmagazin. Die Schattierung jedes Rechtecks, die diesen Magazinen entspricht, zeigt die SLU-Genauigkeit im jeweiligen Magazin und die Größe jedes Rechtecks ist proportional zur Anzahl von Beispielen im jeweiligen Magazin. Wie aus dieser 5 ersichtlich, ist die SLU-Genauigkeit auch hoch wenn die zwei Maße hoch sind. Wenn beide Maße niedrig sind, ist die SLU-Genauigkeit auch niedrig. Aber wenn das ASR-Konfidenzmaß niedrig ist, ist die SLU-Genauigkeit auch niedrig, selbst wenn das SLU-Konfidenzmaß hoch ist. Die 5 bestätigt, dass das SLU-Maß allein nicht ausreichend ist, um die Genauigkeit einer geschätzten Absicht zu bestimmen.
  • Die 6 ist eine grafische Darstellung, die Ergebnisse der Versuche für das Kombinieren mehrfacher Informationsquellen veranschaulicht. Die x-Achse ist der Prozentsatz akzeptierter Äußerungen und die y-Achse ist der Prozentsatz von Äußerungen, die korrekt klassiert sind. Die Grundlinie benutzte nur die SLU-Maße für diesen Zweck (Plot 602). Eine Obergrenze war ein Versuch, bei dem alle falschlicherweise klassierten Äußerungen, durch Vergleichen mit ihren echten Ruftypen, zurückgewiesen wurden. Dies war ein betrügerischer Versuch. Die Obergrenze wurde durch Vergleichen der Ruftypen mit den echten Ruftypen berechnet, die nach manueller Etikettierung verfügbar sind. Der Zweck der Obergrenze ist, zu sehen wie viel Verbesserung erreichbar ist, wenn man perfekt kombinierte Konfidenzmaße hat, was x1 für alle falsch klassierten Äußerungen und x2 für alle korrekt klassierten Äußerungen ist und x1 kleiner als x2 ist (Plot 606). Als eine weitere Obergrenze wurde eine manuelle Transkription jeder Äußerung benutzt und das SLU-Konfidenzmaß wurde ohne das ASR-Konfidenzmaß (Plot 608) verwendet. Der Plot 604 zeigt Ergebnisse unter Verwendung der Entscheidungsbaum-Implementierung (DT-). Der Plot 610 zeigt Ergebnisse unter Verwendung der Faktorisierungs- Implementierung. Der Plot 612 zeigt Ergebnisse der Implementierung für lineare Regression. Der Plot 614 zeigt Ergebnisse der Implementierung für logistische Regression. Wie die 6 zeigt, haben alle Verfahren für das Kombinieren von Merkmalen mit SLU-Konfidenzmaßen geholfen die Genauigkeit der akzeptierten Äußerungen zu verbessern. Multiplikations- und Regressionsverfahren haben sehr ähnlich abgeschnitten und beide ergaben eine 4%-ige Verbesserung an Genauigkeit, wenn ca. 20% der Äußerungen ohne einen Bestätigungsprompt akzeptiert wurden. Die Entscheidungsbaum-Implementierung stachen andere Kombinationsverfahren für höhere Akzeptanraten aus.
  • Schlussfolgerung
  • Ausführungsformen im Umfang der vorliegenden Erfindung könnten außerdem maschinenlesbare Medien zum Tragen oder Besitzen maschinenausführbarer Instruktionen oder darauf gespeicherter Datenstrukturen umfassen. Derartige maschinenlesbare Medien können beliebige verfügbare Medien sein, auf die durch einen Universal- oder Spezialcomputer Zugriff möglich ist. Zum Beispiel und nicht zur Begrenzung können derartige maschinenlesbare Medien RAM-, ROM-, EEPROM-, CD-ROM- oder andere optische Plattenspeicherung, magnetische Plattenspeicherung oder andere magnetische Speichergeräte oder irgendein anderes Medium umfassen, das sich zum Tragen oder Speichern erwünschter Programmcodemittel in Form von maschinenausführbaren Instruktionen oder Datenstrukturen verwenden lässt. Wenn Information über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder festverdrahtet, drahtlos oder Kombination davon) einem Computer übermittelt oder bereitgestellt wird, betrachtet der Computer die Verbindung richtig als ein maschinenlesbares Medium. Daher wird jede derartige Verbindung als ein maschinenlesbares Medium bezeichnet. Kombinationen des Obigen sollten ebenso im Umfang der maschinenlesbaren Medien inbegriffen sein.
  • Maschinenausführbare Instruktionen umfassen, beispielsweise, Instruktionen und Daten, die bewirken, dass ein Universalcomputer, Spezialcomputer oder spezielles Verarbeitungsgerät eine gewisse Funktion oder Gruppe von Funktionen ausführt. Maschinenausführbare Instruktionen umfassen außerdem Programmmodule, die von Computern in autonomen oder Netzwerkumgebungen ausgeführt werden. Im Allgemeinen umfassen Programmmodule Routinen, Programme, Gegenstände, Komponenten und Datenstrukturen, usw., die spezielle Aufgaben ausführen oder spezielle abstrakte Datentypen implementieren. Maschinenlesbare Instruktionen, assoziierte Datenstrukturen und Programmmodule repräsentieren Beispiele der Programmcodemittel zur Ausführung von Schritten der darin offenbarten Verfahren. Die spezielle Reihenfolge derartiger ausführbarer Instruktionen oder assoziierter Datenstrukturen repräsentiert Beispiele entsprechender Aktionen zur Implementierung der in derartigen Schritten beschriebenen Funktionen.
  • Fachmänner werden erkennen, dass andere Ausführungsformen der Erfindung in Netzwerkcomputerumgebungen mit vielen Typen von Computersystemkonfigurationen, einschließlich Personalcomputern, handgehaltenen Geräten, Multiprozessorsystemen, Mikroprozessor- oder programmierbarer Konsumelektronik, Netzwerk-PCs, Minicomputer, Großrechnern und dergleichen praktiziert werden könnten. Ausführungsformen könnten ebenso in dezentralen Computerumgebungen praktiziert werden, wo Aufgaben von lokalen und fernen Verarbeitungsgeräten ausgeführt werden, die (entweder durch festverdrahtete Verbindungen, drahtlose Verbindungen oder durch eine Kombination davon) durch ein Kommunikationsnetzwerk verbunden sind. In einer dezentralen Computerumgebung könnten sich Programmmodule sowohl in lokalen als auch fernen Speichergeräten befinden.
  • Obwohl die obige Beschreibung spezifische Details enthalten könnte, sollten sie nicht auf irgendeine Weise als die Patentansprüche begrenzend ausgelegt werden. Andere Konfigurationen der beschriebenen Ausführungsformen der Erfindung sind Teil des Umfangs dieser Erfindung. Zum Beispiel wurden in den offenbarten Implementierungen die Merkmale auf die ASR- und SLU-Konfidenzmaße, Äußerungslänge, |ŵ|, und die mit den besten Ruftypwerten assoziierten Äußerungen, ĉ(ŵ), begrenzt. Doch können viele andere Merkmale genutzt werden dabei zu helfen ein kombiniertes Konfidenzmaß zu berechnen. Die Erfindung ist in den Patentansprüchen definiert.

Claims (24)

  1. Verfahren für ein Sprachdialogsystem, wobei das Verfahren umfasst: Bereitstellen eines ersten Konfidenzmaßes, das einen Konfidenzgrad im Spracherkennungsergebnis der Erkennung einer Äußerung (302) anzeigt; Bereitstellen eines zweiten Konfidenzmaßes, das einen Konfidenzgrad des Mappings des Spracherkennungsergebnisses auf eine Absicht (304) anzeigt; Kombinieren des ersten Konfidenzmaßes mit dem zweiten Konfidenzmaß, um ein kombiniertes Konfidenzmaß (306) zu bilden, dadurch gekennzeichnet, dass das kombinierte Konfidenzmaß, beruhend auf der Anzahl von Wörtern in einer vorausgesetzten Äußerung vom Spracherkennungsergebnis, berechnet wird; und Bestimmen, ob die auf dem kombinierten Konfidenzmaß (308, 310, 314) beruhende Absicht akzeptiert werden soll.
  2. Verfahren nach Anspruch 1, wobei das Bestimmen, ob die Absicht, die auf dem kombinierten Konfidenzmaß beruht, akzeptiert werden soll, weiter umfasst: Vergleichen des kombinierten Konfidenzmaßes mit einem ersten Schwellwert (308); und Akzeptieren der Absicht, wenn das kombinierte Konfidenzmaß größer als der erste Schwellwert (310) ist.
  3. Verfahren nach Anspruch 1 oder 2, wobei das Bestimmen, ob die auf dem kombinierten Konfidenzmaß beruhende Absicht akzeptiert werden soll, weiter umfasst: Vergleichen des kombinierten Konfidenzmaßes mit einem zweiten Schwellwert (314); und Zurückweisen der Absicht, wenn das kombinierte Konfidenzmaß geringer als oder gleich dem zweiten Schwellwert (318) ist und optional das Bestimmen, ob die auf dem kombinierten Konfidenzmaß beruhende Absicht akzeptiert werden soll, weiter umfasst: Erneutes Prompten eines Users, wenn das kombinierte Konfidenzmaß geringer als oder gleich dem zweiten Schwellwert (316) ist.
  4. Verfahren nach einem beliebigen vorhergehenden Anspruch, wobei das Bestimmen, ob die auf dem kombinierten Konfidenzmaß beruhende Absicht akzeptiert werden soll, weiter umfasst: Vergleichen des kombinierten Konfidenzmaßes mit einem ersten Schwellwert und einem zweiten Schwellwert (308, 314); und einen User zu bitten eine vorausgesetzte Äußerung vom Spracherkennungsergebnis und eine geschätzte Absicht vom Mapping des Spracherkennungsergebnisses zu einer Absicht zu bestätigen, wenn der zweite Schwellwert geringer als das kombinierte Konfidenzmaß ist, das geringer als oder gleich dem ersten Schwellwert (316) ist.
  5. Verfahren nach einem beliebigen der vorhergehenden Ansprüche, wobei das Kombinieren des ersten Konfidenzmaßes mit dem zweiten Konfidenzmaß, um ein kombiniertes Konfidenzmaß zu bilden, weiter umfasst: Verwenden einer linearen Regressionsverfahrensweise, um das kombinierte Maß zu berechnen.
  6. Verfahren nach einem beliebigen vorhergehenden Anspruch, wobei: das Kombinieren des ersten Konfidenzmaßes mit dem zweiten Konfidenzmaß, um ein kombiniertes Konfidenzmaß zu bilden, weiter umfasst: Berechnen des kombinierten Maßes nach: ns = β1 + β2 × e(ŵ) + β3 × e(ĉ) + β4 × |ŵ|, wobei ns das kombinierte Konfidenzmaß ist, β1, β2, β3 und β4 Regressionsparameter sind, e(ŵ) das erste Konfidenzmaß ist, e(ĉ) das zweite Konfidenzmaß ist und |ŵ| die Anzahl von Wörtern in der vorausgesetzten Äußerung ist.
  7. Verfahren nach einem beliebigen vorhergehenden Anspruch, wobei das Kombinieren des ersten Konfidenzmaßes mit dem zweiten Konfidenzmaß, um ein kombiniertes Konfidenzmaß zu bilden, weiter umfasst: Verwenden einer logistischen Regressionsverfahrensweise, um das kombinierte Maß zu berechnen.
  8. Verfahren nach einem beliebigen der Ansprüche 1 bis 4 und 7, wobei: das Kombinieren des ersten Konfidenzmaßes mit dem zweiten Konfidenzmaß, um ein kombiniertes Konfidenzmaß zu bilden, weiter umfasst: Berechnen des kombinierten Konfidenzmaßes nach
    Figure 00120001
    wobei ns der kombinierte Konfidenzgrad ist, γ1, γ2, γ3 und γ4 Regressionsparameter sind, e(ŵ) das erste Konfidenzmaß ist, e(ĉ) das zweite Konfidenzmaß ist und |ŵ| die Anzahl von Wörtern in der vorausgesetzten Äußerung ist.
  9. Verfahren nach einem beliebigen vorhergehenden Anspruch, wobei das Kombinieren des ersten Konfidenzmaßes mit dem zweiten Konfidenzmaß, um ein kombiniertes Konfidenzmaß zu bilden, weiter umfasst: Verwenden einer Entscheidungsbaum-Verfahrensweise, um das kombinierte Konfidenzmaß zu bestimmen, wobei die Entscheidungsbaum-Verfahrensweise vorzugsweise umfasst: Befolgen eines Regelsatzes zum Abwärtssortieren eines Baums von einer Wurzel zu einem Astknoten; und Berechnen des kombinierten Konfidenzmaßes auf der Basis einer Wahrscheinlichkeit, dass die Absicht der Äußerung am Astknoten korrekt klassifiziert ist.
  10. Sprachdialogsystem (200) umfassend: eine erste Komponente (302), die konfiguriert ist, ein erstes Konfidenzmaß bereitzustellen, das einen Konfidenzgrad in einem Spracherkennungsergebnis der Erkennung einer Äußerung anzeigt; eine zweite Komponente (304), die konfiguriert ist ein zweites Konfidenzmaß bereitzustellen, das einen Konfidenzgrad des Mappings des Spracherkennungsergebnisses zu einer Absicht anzeigt; eine dritte Komponente (306), die konfiguriert ist das erste Konfidenzmaß mit dem zweiten Konfidenzmaß zu kombinieren, um ein kombiniertes Konfidenzmaß zu bilden, dadurch gekennzeichnet, dass das kombinierte Konfidenzmaß auf der Basis der Anzahl von Wörtern in einer Hypothese aus dem Spracherkennungsergebnis berechnet wird; und eine vierte Komponente, die konfiguriert ist, zu bestimmen, ob die auf dem kombinierten Konfidenzmaß (308, 310, 314) beruhende Absicht akzeptiert werden soll.
  11. Sprachdialogsystem des Anspruchs 10, wobei die dritte Komponente in entweder der zweiten Komponente oder der vierten Komponente inbegriffen ist.
  12. Sprachdialogsystem des Anspruchs 10 oder 11, wobei die vierte Komponente weiter konfiguriert ist: das kombinierte Konfidenzmaß mit einem ersten Schwellwert (308) zu vergleichen; und die Absicht zu akzeptieren, wenn das kombinierte Konfidenzmaß größer als der erste Schwellwert (310) ist.
  13. Sprachdialogsystem nach einem beliebigen der Ansprüche 10 bis 12, wobei die vierte Komponente weiter konfiguriert ist: das kombinierte Konfidenzmaß mit einem zweiten Schwellwert (314) zu vergleichen; und die Absicht zurückzuweisen, wenn das kombinierte Konfidenzmaß geringer als oder gleich dem zweiten Schwellwert (318) ist und die vierte Komponente optional weiter konfiguriert ist: einen User erneut zu prompten, wenn das kombinierte Konfidenzmaß geringer als oder gleich dem zweiten Schwellwert (316) ist.
  14. Sprachdialogsystem nach einem beliebigen der Ansprüche 10 bis 13, wobei die vierte Komponente weiter konfiguriert ist: Das kombinierte Konfidenzmaß mit einem ersten Schwellwert und einem zweiten Schwellwert (308, 314) zu vergleichen; und einen User zu bitten eine vorausgesetzte Äußerung vom Spracherkennungsergebnis und eine geschätzte Absicht vom Mapping des Spracherkennungsergebnisses zu einer Absicht zu bestätigen, wenn der zweite Schwellwert geringer als das kombinierte Konfidenzmaß ist, das geringer als oder gleich dem ersten Schwellwert ist.
  15. Sprachdialogsystem nach einem beliebigen der Ansprüche 10 bis 14, wobei: die erste Komponente weiter konfiguriert ist, die Anzahl von Wörtern in der vorausgesetzten Äußerung vom Spracherkennungsergebnis bereitzustellen; und die dritte Komponente weiter konfiguriert ist, das kombinierte Konfidenzmaß zu berechnen nach: ns = β1 + β2 × e(ŵ) + β3 × e(ĉ) + β4 × |ŵ|, wobei ns das kombinierte Konfidenzmaß ist, β1, β2, β3 und β4 Regressionsparameter sind, e(ŵ) das erste Konfidenzmaß ist, e(ĉ) das zweite Konfidenzmaß ist und |ŵ| die Anzahl von Wörtern in der vorausgesetzten Äußerung ist.
  16. Sprachdialogsystem nach einem beliebigen der Ansprüche 10 bis 14, wobei: die erste Komponente weiter konfiguriert ist, die Anzahl von Wörtern in der vorausgesetzten Äußerung vom Spracherkennungsergebnis bereitzustellen; und die dritte Komponente weiter konfiguriert ist, das kombinierte Konfidenzmaß zu berechnen nach:
    Figure 00130001
    wobei ns das kombinierte Konfidenzmaß ist, γ1, γ2, γ3 and γ4 Regressionsparameter sind, e(ŵ) das erste Konfidenzmaß ist, e(ĉ) das zweite Konfidenzmaß ist und |ŵ| die Anzahl von Wörtern in der vorausgesetzten Äußerung ist.
  17. Sprachdialogsystem nach einem beliebigen der Ansprüche 10 bis 16, wobei die dritte Komponente weiter konfiguriert ist: eine Entscheidungsbaum-Verfahrensweise zu verwenden, um das kombinierte Konfidenzmaß zu bestimmen.
  18. Maschinenlesbares Medium mit einer Mehrheit von darin inbegriffenen maschinenausführbaren Instruktionen, wobei die Mehrheit von Instruktionen umfasst: Instruktionen zum Bereitstellen eines ersten Konfidenzmaßes, das einen Konfidenzgrad in einem Spracherkennungsergebnis der Erkennung einer Äußerung (302) anzeigt; Instruktionen zum Bereitstellen eines zweiten Konfidenzmaßes, das einen Konfidenzgrad des Mappings des Spracherkennungsergebnisses auf eine Absicht (304) anzeigt; Instruktionen zum Kombinieren des ersten Konfidenzmaßes mit dem zweiten Konfidenzmaß, um ein kombiniertes Konfidenzmaß (306) zu bilden, dadurch gekennzeichnet, dass das kombinierte Konfidenzmaß, beruhend auf der Anzahl von Wörtern in einer vorausgesetzten Äußerung vom Spracherkennungsergebnis, berechnet wird; Instruktionen zum Bestimmen, ob die auf dem kombinierten Konfidenzmaß (308, 310, 314) beruhende Absicht akzeptiert werden soll.
  19. Das maschinenlesbare Medium des Anspruchs 18, weiter umfassend: Instruktionen zum Vergleichen des kombinierten Konfidenzmaßes mit einem ersten Schwellwert (308); und Instruktionen für das Akzeptieren der Absicht, wenn das kombinierte Konfidenzmaß größer als der erste Schwellwert (310) ist.
  20. Das maschinenlesbare Medium des Anspruchs 18 oder 19, weiter umfassend: Instruktionen zum Vergleichen des kombinierten Konfidenzmaßes mit einem zweiten Schwellwert (314); und Instruktionen für das Zurückweisen der Absicht, wenn das kombinierte Konfidenzmaß geringer als oder gleich dem zweiten Schwellwert (318) ist und optional weiter umfassend: Instruktionen für erneutes Prompten eines Users, wenn das kombinierte Konfidenzmaß geringer als oder gleich dem zweiten Schwellwert (316) ist.
  21. Das maschinenlesbare Medium eines beliebigen der Ansprüche 18 bis 20, weiter umfassend: Instruktionen zum Vergleichen des kombinierten Konfidenzmaßes mit einem ersten Schwellwert und einem zweiten Schwellwert (308, 314); und Instruktionen einen User zu bitten eine vorausgesetzte Äußerung vom Spracherkennungsergebnis und eine geschätzte Absicht vom Mapping des Spracherkennungsergebnisses zu einer Absicht zu bestätigen, wenn der zweite Schwellwert geringer als das kombinierte Konfidenzmaß ist, das geringer als oder gleich dem ersten Schwellwert (316) ist.
  22. Das maschinenlesbare Medium des Anspruchs 21, weiter umfassend: Instruktionen zum Bereitstellen der Anzahl von Wörtern in der vorausgesetzten Äußerung vom Spracherkennungsergebnis; und Instruktionen zum Berechnen des kombinierten Konfidenzmaßes nach: ns = β1 + β2 × e(ŵ) + β3 × e(ĉ) + β4 × |ŵ|, wobei ns das kombinierte Konfidenzmaß ist, β1, β2, β3 und β4 Regressionsparameter sind, e(ŵ) das erste Konfidenzmaß ist, e(ĉ) das zweite Konfidenzmaß ist und |ŵ| die Anzahl von Wörtern in der vorausgesetzten Äußerung ist.
  23. Das maschinenlesbare Medium des Anspruchs 21, weiter umfassend: Instruktionen zum Bereitstellen der Anzahl von Wörtern in der vorausgesetzten Äußerung vom Spracherkennungsergebnis; und Instruktionen zum Berechnen des kombinierten Konfidenzmaßes nach:
    Figure 00150001
    wobei ns das kombinierte Konfidenzmaß ist, γ1, γ2, γ3 und γ4 Regressionsparameter sind, e(ŵ) das erste Konfidenzmaß ist, e(ĉ) das zweite Konfidenzmaß ist und |ŵ| die Anzahl von Wörtern in der vorausgesetzten Äußerung ist.
  24. Das maschinenlesbare Medium eines beliebigen der Ansprüche 18 bis 23, weiter umfassend: Instruktionen zur Verwendung einer Entscheidungsbaum-Verfahrensweise, um das kombinierte Konfidenzmaß zu bestimmen.
DE602006000090T 2005-01-05 2006-01-04 Konfidenzmaß für ein Sprachdialogsystem Active DE602006000090T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/029,278 US20060149544A1 (en) 2005-01-05 2005-01-05 Error prediction in spoken dialog systems
US29278 2005-01-05

Publications (2)

Publication Number Publication Date
DE602006000090D1 DE602006000090D1 (de) 2007-10-18
DE602006000090T2 true DE602006000090T2 (de) 2008-09-11

Family

ID=36168383

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602006000090T Active DE602006000090T2 (de) 2005-01-05 2006-01-04 Konfidenzmaß für ein Sprachdialogsystem

Country Status (4)

Country Link
US (1) US20060149544A1 (de)
EP (1) EP1679694B1 (de)
CA (1) CA2531455A1 (de)
DE (1) DE602006000090T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10991365B2 (en) * 2019-04-08 2021-04-27 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
ITRE20050077A1 (it) * 2005-07-08 2007-01-09 Sacmi Dispositivo per il controllo della qualita' dei vegetali
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US7962441B2 (en) * 2006-09-22 2011-06-14 Denso Corporation Air conditioner for vehicle and controlling method thereof
JP5240456B2 (ja) * 2006-12-08 2013-07-17 日本電気株式会社 音声認識装置および音声認識方法
JP4360409B2 (ja) * 2007-02-13 2009-11-11 株式会社デンソー 車両用空調装置、車両用空調装置の制御方法および制御装置
US8725512B2 (en) * 2007-03-13 2014-05-13 Nuance Communications, Inc. Method and system having hypothesis type variable thresholds
KR100919225B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법
DE102008046431A1 (de) * 2008-09-09 2010-03-11 Deutsche Telekom Ag Sprachdialogsystem mit Reject-Vermeidungsverfahren
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8509396B2 (en) * 2009-09-24 2013-08-13 International Business Machines Corporation Automatic creation of complex conversational natural language call routing system for call centers
KR101211796B1 (ko) * 2009-12-16 2012-12-13 포항공과대학교 산학협력단 외국어 학습 장치 및 그 제공 방법
US8515736B1 (en) * 2010-09-30 2013-08-20 Nuance Communications, Inc. Training call routing applications by reusing semantically-labeled data collected for prior applications
US8886532B2 (en) 2010-10-27 2014-11-11 Microsoft Corporation Leveraging interaction context to improve recognition confidence scores
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US9269349B2 (en) * 2012-05-24 2016-02-23 Nuance Communications, Inc. Automatic methods to predict error rates and detect performance degradation
US9679568B1 (en) 2012-06-01 2017-06-13 Google Inc. Training a dialog system using user feedback
US9123338B1 (en) 2012-06-01 2015-09-01 Google Inc. Background audio identification for speech disambiguation
US9424840B1 (en) * 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US9123333B2 (en) * 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9256269B2 (en) * 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US10354677B2 (en) * 2013-02-28 2019-07-16 Nuance Communications, Inc. System and method for identification of intent segment(s) in caller-agent conversations
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9318109B2 (en) 2013-10-02 2016-04-19 Microsoft Technology Licensing, Llc Techniques for updating a partial dialog state
CN103677729B (zh) * 2013-12-18 2017-02-08 北京搜狗科技发展有限公司 一种语音输入方法和系统
US9653071B2 (en) * 2014-02-08 2017-05-16 Honda Motor Co., Ltd. Method and system for the correction-centric detection of critical speech recognition errors in spoken short messages
CN104978965B (zh) * 2014-04-07 2019-04-26 三星电子株式会社 电子装置及利用电子装置和服务器的语音识别执行方法
US10108608B2 (en) 2014-06-12 2018-10-23 Microsoft Technology Licensing, Llc Dialog state tracking using web-style ranking and multiple language understanding engines
FR3026542B1 (fr) * 2014-09-30 2017-12-29 Xbrainsoft Reconnaissance vocale perfectionnee
US11093988B2 (en) * 2015-02-03 2021-08-17 Fair Isaac Corporation Biometric measures profiling analytics
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
WO2017091883A1 (en) * 2015-12-01 2017-06-08 Tandemlaunch Inc. System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
US10474946B2 (en) * 2016-06-24 2019-11-12 Microsoft Technology Licensing, Llc Situation aware personal assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10216832B2 (en) 2016-12-19 2019-02-26 Interactions Llc Underspecification of intents in a natural language processing system
US10373515B2 (en) 2017-01-04 2019-08-06 International Business Machines Corporation System and method for cognitive intervention on human interactions
US10235990B2 (en) 2017-01-04 2019-03-19 International Business Machines Corporation System and method for cognitive intervention on human interactions
US10318639B2 (en) 2017-02-03 2019-06-11 International Business Machines Corporation Intelligent action recommendation
US20180288230A1 (en) * 2017-03-29 2018-10-04 International Business Machines Corporation Intention detection and handling of incoming calls
CN106971749A (zh) * 2017-03-30 2017-07-21 联想(北京)有限公司 音频处理方法及电子设备
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10529322B2 (en) * 2017-06-15 2020-01-07 Google Llc Semantic model for tagging of word lattices
US10565986B2 (en) * 2017-07-20 2020-02-18 Intuit Inc. Extracting domain-specific actions and entities in natural language commands
WO2019026716A1 (ja) * 2017-08-04 2019-02-07 ソニー株式会社 情報処理装置、及び情報処理方法
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
US10885919B2 (en) * 2018-01-05 2021-01-05 Nuance Communications, Inc. Routing system and method
US10733375B2 (en) * 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
JP6984474B2 (ja) * 2018-02-14 2021-12-22 トヨタ自動車株式会社 情報処理装置および情報処理方法
US10777203B1 (en) * 2018-03-23 2020-09-15 Amazon Technologies, Inc. Speech interface device with caching component
US10665228B2 (en) * 2018-05-23 2020-05-26 Bank of America Corporaiton Quantum technology for use with extracting intents from linguistics
US11170770B2 (en) * 2018-08-03 2021-11-09 International Business Machines Corporation Dynamic adjustment of response thresholds in a dialogue system
US11682416B2 (en) 2018-08-03 2023-06-20 International Business Machines Corporation Voice interactions in noisy environments
US20220013119A1 (en) * 2019-02-13 2022-01-13 Sony Group Corporation Information processing device and information processing method
US11289086B2 (en) * 2019-11-01 2022-03-29 Microsoft Technology Licensing, Llc Selective response rendering for virtual assistants
US11676586B2 (en) * 2019-12-10 2023-06-13 Rovi Guides, Inc. Systems and methods for providing voice command recommendations
CN112489639A (zh) * 2020-11-26 2021-03-12 北京百度网讯科技有限公司 音频信号处理方法及装置、系统、电子设备、可读介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
DE19842405A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Spracherkennungsverfahren mit Konfidenzmaßbewertung
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US7203652B1 (en) * 2002-02-21 2007-04-10 Nuance Communications Method and system for improving robustness in a speech system
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10991365B2 (en) * 2019-04-08 2021-04-27 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier
US20210272557A1 (en) * 2019-04-08 2021-09-02 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier
US11620992B2 (en) * 2019-04-08 2023-04-04 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier

Also Published As

Publication number Publication date
CA2531455A1 (en) 2006-07-05
US20060149544A1 (en) 2006-07-06
DE602006000090D1 (de) 2007-10-18
EP1679694A1 (de) 2006-07-12
EP1679694B1 (de) 2007-09-05

Similar Documents

Publication Publication Date Title
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE112017001830B4 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60009583T2 (de) Sprecheradaptation auf der Basis von Stimm-Eigenvektoren
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69636057T2 (de) Sprecherverifizierungssystem
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE60124842T2 (de) Rauschrobuste Mustererkennung
EP2028647B1 (de) Verfahren und Vorrichtung zur Sprecherklassifizierung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60128270T2 (de) Verfahren und System zur Erzeugung von Sprechererkennungsdaten, und Verfahren und System zur Sprechererkennung
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE69819438T2 (de) Verfahren zur Spracherkennung
DE102014107028B4 (de) Verbesserte biometrische Passwortsicherheit
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP1926081A1 (de) Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung
EP1191517A2 (de) Dialogsystem
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication of lapse of patent is to be deleted
8364 No opposition during term of opposition