DE102004029873B3

DE102004029873B3 - Method for intelligent input correction for automatic voice dialog system, involves subjecting user answer to confirmation dialog to recognition process

Info

Publication number: DE102004029873B3
Application number: DE200410029873
Authority: DE
Inventors: Volkmar Dr. Naumburger
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2004-06-16
Filing date: 2004-06-16
Publication date: 2005-12-29
Anticipated expiration: 2024-06-17

Abstract

The method involves inputting the speech into a recognition process and storing the obtained hypotheses in a temporary store. The response of the user to the confirmation dialog is then subjected to a recognition process in order to establish if the user answers in the negative during simultaneous naming of the correcting commands. The recognition process is started with respect to the corrected commands and the new hypotheses are filed in the temporary store. During a negative comparison, the first hypothesis of the t-th recognition step in the storage zone (st) is output as a recognition result for the confirmation dialog. With a positive comparison, the second probability hypothesis of the m-th recognition step in the memory zone (sn) is output for the confirmation dialog. Independent claims are included for : (1) software for a computer; (2) a data carrier; and (3) a computer system.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur intelligenten Eingabekorrektur für Sprachdialogsysteme.The The invention relates to a method and a device for intelligent Input correction for speech dialogue systems.

Gebiet der Erfindung:Field of the invention:

Derartige Vorrichtungen dienen vorwiegend zur Analyse von Spracheingaben und zur Steuerung von Systemen durch die Sprache. Technische Spracherkennungseinrichtungen arbeiten aus verschiedenen Gründen nicht absolut fehlerfrei. Somit kann es notwendig sein, in einem nachfolgenden Dialogschritt das gewonnene Erkennungsergebnis durch den Nutzer verifizieren zu lassen. Eine besondere Rolle spielt hierbei der so genannte Confidence-Wert des Erkennungsergebnisses. Liegt dieser Wert hoch, kann u. U. ganz auf eine Verifizierung verzichtet werden, was die Dialoggeschwindigkeit erhöht. Liegt dieser Wert hingegen niedrig, muss davon ausgegangen werden, dass das Erkennungsergebnis auch falsch sein kann. Dann wird in einer Bestätigungsfrage an den Nutzer das Erkennungsergebnis akustisch wiederholt und der Nutzer durch eine Ja/Nein-Entscheidung gezwungen, das Erkennungsergebnis zu bestätigen oder zu verwerfen.such Devices are used primarily for the analysis of voice input and for controlling systems through the language. Technical speech recognition devices work for different reasons not absolutely faultless. Thus, it may be necessary in one following dialogue step the obtained recognition result by the To have users verified. A special role plays here the so-called confidence value of the recognition result. Lies this value can be high, u. U. completely waived verification which increases the dialogue speed. If this value is on the other hand low, it must be assumed that the recognition result can also be wrong. Then in a confirmation question to the user the recognition result acoustically repeated and the user through a yes / no decision forced to confirm or reject the recognition result.

Besonders kritisch sind solche Erkennungssituationen, in denen Sprachkommandos großer Ähnlichkeit, für die auch keine Umschreibungen (sog. Alias) existieren, erkannt werden müssen. Städtenamen wie Dillingen und Illingen sind hierfür ein treffendes Beispiel. Zur Lösung dieses Konfliktes wird beim Stand der Technik das N-Best-Verfahren eingesetzt: Spracherkenner geben meist nicht nur ein Erkennungsergebnis (1. Hypothese) sondern nach der Erkennungswahrscheinlichkeit sortiert weitere Erkennungsergebnisse aus. Die Tiefe des Angebotes ist dabei über einen Parameter frei wählbar. Wird nun in einer Erkennungssession der nicht zutreffende Ortsname erkannt, kann der Reihe nach jede Erkennerhypothese dem Nutzer vorgelegt und durch eine Ja/Nein-Frage entschieden werden. Ohne N-Best besteht die Gefahr, dass der Nutzer auch bei einer erneuten Eingabe immer wieder auf das falsche Erkennungsergebnis stößt. In der Regel wird insbesondere bei ähnlich lautenden Namen schon die zweite Hypothese zutreffend sein, sodass mit einem hohen Gesamterfolg gerechnet werden kann.Especially Critical are those recognition situations in which voice commands great similarity, for the also no paraphrases (so-called alias) exist, be recognized have to. city names like Dillingen and Illingen are an apt example. To the solution This conflict becomes the N-Best method in the prior art used: Speech recognizers usually give not only a recognition result (1st hypothesis) but sorted by the recognition probability further recognition results. The depth of the offer is about one Parameter freely selectable. Now, in a recognition session, the non-correct place name becomes recognized, each Erkennerhypothese can be presented to the user in turn and be decided by a yes / no question. Without N-Best exists the danger that the user always with a re-entry again encounters the wrong recognition result. In general, in particular, will be similar Name already the second hypothesis be true, so with one high overall success can be expected.

Nachteilig bei der Anwendung des N-Best-Verfahrens ist, dass das Dialogverhalten menschlicher Nutzer anders ist als für das Verfahren notwendig. Im Regelfall beschränkt sich der Nutzer nicht einfach auf eine Ja/Nein-Antwort, wenn z.B. der falsche Ortsname vom Spracherkenner zur Bestätigung vorgelegt wird, sondern er verbindet die Verneinung automatisch mit der Nennung des richtigen Ortsnamens: „Sie haben Dillingen gesagt?" – „Nein, Illingen". Aus der Sicht des Spracherkenners liegt hier eine Neueingabe des Ortsnamens vor, die wiederum die erste Hypothese zur Bestätigung liefert. Damit kann eine frustrierende Endlosschleife, wie bereits oben beschrieben, gestartet werden. Das im technischen Sinne richtige Verhalten wäre, dass der Nutzer nur „Nein" antwortet, dann wird das nach dem Ausschließungsprinzip arbeitende N-Best-Verfahren aktiv, weil die N-Best-Liste nicht durch neue Erkennungsergebnisse überschrieben wird.adversely In applying the N-Best method, the dialogue behavior is more human User is different than for the procedure necessary. As a rule, the user is not simply limited to a yes / no answer, if e.g. the wrong place name of the speech recognizer for confirmation but it connects the negation automatically with the name of the correct place name: "You said Dillingen?" - "No, Illingen". From the perspective of Speech recognizer here is a new input of the place name, the again provides the first hypothesis for confirmation. So that can a frustrating infinite loop, as described above, to be started. That in the technical sense correct behavior would be that the user only answers "no", then This will be the exclusion principle working N-Best procedure active because the N-Best list is not through overwrite new recognition results becomes.

Eine andere Quelle für Fehlerkennungen, die korrekturbedürftig sind, ist der Nutzer selbst, nämlich dann, wenn er versehentlich ein falsches Kommando eingegeben hat und dieses berichtigen möchte. Im Beispiel der Ortsnamen könnte der Dialog unter Benutzung des N-Best-Verfahrens wie folgt ablaufen: „Sie haben Dillingen gesagt?" – „Nein", „Haben Sie Illingen gesagt?" – „Nein" usw.. Richtig wäre die Antwort in diesem Fall gewesen: „Nein, Bexbach". Denn mit der Nein-Antwort wird das N-Best-Verfahren aktiviert und es werden alle Hypothesen abgearbeitet. Hier hätte mit der ergänzenden Eingabe des wirklich gewollten Ortsnamens der Erkennungsvorgang neu gestartet werden müssen, damit sich die Erkenner-Hypothesen am Wollen des Nutzers orientieren können.A another source for Error detections that need correction are the user itself, then, if he accidentally entered a wrong command and corrected it would like to. In the example of the place names could the dialog using the N-Best method proceeds as follows: "You have Dillingen said? "-" No, "" Did You illingen said? "-" No "etc .. Right would be the answer in this case, "No, Bexbach "because with the no answer the N-Best method is activated and all hypotheses are processed. Would have here with the supplementary Enter the really wanted place name of the recognition process need to be restarted, so that the Erkenner hypotheses at the user's will.

Noch komplizierter gestaltet sich der Korrekturprozess, wenn mehrere zu erkennende Einheiten (sog. Slots) je Nutzeräußerung erkannt bzw. korrigiert werden müssen. Dann verwirft ein ohne Zusatz ausgesprochenes „Nein" die gesamte Satzhypothese, weil nicht erkennbar ist, welcher Slot zu korrigieren ist. So wird die 3-Slot-Erkennerhypothese "Sie möchten die Rufnummer des Bürgeramtes von Dillingen wissen?" erst durch die eindeutige Antwort „Nein, die Fax-Nummer" korrigierbar. Das N-Best-Verfahren ist klassisch gar nicht anwendbar, weil im ersten Fall nicht klar ist, für welchen Slot die Hypothese zu korrigieren ist und im zweiten Fall, weil die alternativen Slot-Hypothesen durch den korrigierenden Nachsatz überschrieben werden.Yet The correction process is more complicated if several recognized units (so-called slots) per user statement recognized or corrected Need to become. Then a "no" pronounced without an addition rejects the entire sentence hypothesis, because not it can be seen which slot is to be corrected. So is the 3-slot recognizer hypothesis "You want the Telephone number of the Bürgeramt from Dillingen? " by the clear answer "No, the fax number "correctable. The N-Best procedure is not applicable classically, because in the first case not clear is for which slot the hypothesis is to be corrected and in the second case, because the alternative slot hypotheses are overwritten by the correcting last sentence become.

Es zeigt sich also, dass die Anwendung des N-Best-Verfahrens auf das Nutzerverhalten Einfluss nehmen muss, um richtig wirken zu können. Dies ist aber insbesondere bei Anwendungen mit einer hohen Nutzerfrequenz eine nicht durchsetzbare Anforderung. Weiterhin versagt das N-Best-Verfahren bei komplexen Satzstrukturen.It Thus it turns out that the application of the N-Best method to the User behavior must take influence in order to be able to work properly. This but is especially in applications with a high user frequency an unenforceable requirement. Furthermore, the N-Best method fails in complex sentence structures.

Aus der US 5,241,619 ist ein Verfahren bekannt, bei dem das N-Best-Verfahren dazu benutzt wird, um einer Sequenz von Worten, die durch eine Grammatik beschrieben werden, die wahrscheinlichste Kette von Worten zu einer Satzhypothese zuzuordnen. Dazu wird die Verbindungswahrscheinlichkeit der Worte untereinander (und zwar immer zum vorhergehenden Wort) genutzt. Das Ergebnis des Verfahrens ist eine Liste von Satzhypothesen, die nach einem N-Best-Verfahren abgearbeitet werden kann. Das vorliegende Patent bezieht das Nutzerverhalten nicht ein.From the US 5,241,619 For example, a method is known in which the N-best method is used to assign the most likely string of words to a sentence hypothesis to a sequence of words described by a grammar. For this the connection becomes probable use of the words among each other (and always to the preceding word). The result of the method is a list of sentence hypotheses that can be processed according to an N-Best method. The present patent does not include user behavior.

Aus der US 6,272,462 ist eine Lösung bekannt, die der iterativen Verbesserung des Sprachmodells eines Spracherkenners dient, indem die erkannten Word- oder Satzalternativen durch einen Experimentator als falsch oder richtig eingestuft werden. Auf diese Weise werden Gewichte generiert, die zukünftige Erkennungsprozeduren bewerten, um so zu besseren Erkennungsresultaten zu kommen.From the US 6,272,462 A solution is known which serves to iteratively improve the speech model of a speech recognizer by classifying the recognized word or sentence alternatives as false or correct by an experimenter. This will generate weights that will evaluate future recognition procedures for better recognition results.

Die Druckschrift US 2002/0055841 betrifft eine Lösung zur Entscheidungsfindung, ob ein Erkennungsergebnis akzeptiert, zurückgewiesen oder durch ein N-Best-Verfahren verifiziert werden muss. In der Schrift werden allgemein Bedingungen zur Klassifizierung genannt, aber nicht ausgeführt. Die Lösung bezieht sich ausschließlich auf den primären Erkennungsprozess und nimmt nicht Bezug auf einen Nutzerdialog.The US 2002/0055841 relates to a solution for decision-making, whether a recognition result is accepted, rejected or by an N-Best method must be verified. The scriptures generally become conditions called for classification, but not executed. The solution refers exclusively to the primary recognition process and does not refer to a user dialog.

Die DE 100 08 502 A1 stellt ein Verfahren zur semantischen Analyse vor. Eine Anapher ist in der Sprachwissenschaft die Wiederholung wichtiger Worte an Vers-/Satzanfängen. Das Verfahren bezieht sich auf die semantische Analyse von Sätzen, auch gesprochenen Sätzen. Ziel ist es, die grammatikalisch eindeutige Erkennung von Satzteilen oder Satzelementen zum Zwecke der semantischen Erkennung der Bedeutung sprachlicher Äußerungen. Das Verfahren ist nicht an die Verwendung der N-Best-Strategien gebunden.The DE 100 08 502 A1 presents a method for semantic analysis. An anaphora in linguistics is the repetition of important words in verse / sentence beginnings. The method refers to the semantic analysis of sentences, also spoken sentences. The goal is the grammatically clear recognition of phrases or sentence elements for the purpose of semantically recognizing the meaning of linguistic utterances. The method is not tied to the use of the N-Best strategies.

Das Verfahren aus der US 5,712,957 ist eher für ein Diktiersystem geeignet, denn es verlangt eine Kennzeichnung des von einem Spracherkenner falsch erkannten Wortes oder Satzteils. Mit dieser Kennzeichnung ist es möglich, zusätzlich zu der N-Best-Liste für die Satzhypothesen eine zweite N-Best-Liste für das falsch erkannte Wort zu generieren, indem dieses Wort noch einmal gesprochen werden muss. Aus der Kombination beider N-Best-Listen ergibt sich dann die korrekte Satzhypothese.The procedure from the US 5,712,957 is more suitable for a dictation system because it requires labeling of the word or phrase incorrectly recognized by a speech recognizer. With this tag, it is possible to generate a second N-Best list for the misrecognized word in addition to the N-Best list for the sentence hypotheses by re-speaking that word. The combination of both N-Best lists then yields the correct sentence hypothesis.

Das Verfahren DE 69229124 T2 beschreibt eine Verbesserung des Trainings von Spracherkennern für komplexe Eingaben auf der Basis von Einzelworterkennern. Dieses Verfahren kann aus heutiger Sicht als veraltet bezeichnet werden. Moderne Erkenner benutzen Phoneme als kleinste zu erkennende Einheit. Im angegebenen Verfahren wird die Verbundwahrscheinlichkeit der Worte untereinander (HMM) genutzt. Das vorliegende Verfahren betrifft nur die elementare Spracherkennung und zwar das Training für die spätere konkrete Anwendung.The procedure DE 69229124 T2 describes an improvement in the training of speech recognizers for complex inputs based on single-word connoisseurs. From today's perspective, this process can be described as obsolete. Modern recognizers use phonemes as the smallest recognizable unit. In the given method, the compound probability of the words among each other (HMM) is used. The present method concerns only the elementary speech recognition and that training for the later concrete application.

Das in der US 5,799,465 beschriebene Verfahren benutzt das klassische N-Best-Verfahren in einer Anrufervermittlung (call routing). Routing-Kriterium ist der Name der Zielperson. Es handelt sich hierbei um die einfachste Form einer N-Best-Anwendung.That in the US 5,799,465 described method uses the classic N-Best method in a call routing (call routing). Routing criterion is the name of the target person. It is the simplest form of N-Best application.

Das Ziel der Erfindung aus der US 6,233,553 B1 besteht in der Erweiterung eines Lexikons im laufenden Betrieb eines Spracherkenners. Unbekannte Worte müssen durch den Nutzer buchstabiert werden. Die einzelnen Buchstaben werden nach ihrer Erkennungssicherheit sortiert (N-Best), zu einem Wort kombiniert und als neue lexikalische Einheit abgespeichert.The aim of the invention from the US 6,233,553 B1 consists in the extension of a lexicon during operation of a speech recognizer. Unknown words must be spelled out by the user. The individual letters are sorted according to their recognition certainty (N-Best), combined into a word and stored as a new lexical unit.

Das Verfahren aus der US 6,374,220 B1 befasst sich mit der Befüllung eines Resultatspeichers eines Spracherkenners, geeignet für eine spätere N-Best-Auswertung. Die Erfindung betrifft die elementare Spracherkennung.The procedure from the US 6,374,220 B1 deals with the filling of a result memory of a speech recognizer, suitable for a later N-Best evaluation. The invention relates to elementary speech recognition.

In der US 2002/0052742 A1 wird ebenfalls auf eine N-Best-Liste zurückgegriffen, allerdings erfolgt die Kennzeichnung inkorrekter Teile der Erkennungssequenz per Maus durch den User (z. B. bei Diktiersystemen). Die Korrektur des so als fehlerhaft gekennzeichneten Abschnittes erfolgt durch die nächst wahrscheinliche Hypothese, die nach dem N-Best-Verfahren gefunden wird. Es wird aber nicht die sprachliche Korrekturmöglichkeit erwähnt. Der Fall, dass die Unterscheidung zwischen Maschinenfehler und Nutzerirrtum erforderlich ist, wird nicht behandelt. Eine Historie von Erkennungsresultaten wird ebenfalls nicht berücksichtigt, was bei einer Mauseingabe auch nicht erforderlich ist.In US 2002/0052742 A1 also uses an N-Best list, however, the labeling of incorrect parts of the recognition sequence occurs per mouse by the user (eg in dictation systems). The correction of the so marked as defective section is made by the next probable hypothesis found by the N-Best method. It will, however not the language correction option mentioned. The case that the distinction between machine error and user error is required is not treated. A history of recognition results is also not taken into account which is not necessary for a mouse input.

Die Schrift DE 60000134 T2 bezieht sich auf eine Lösung zur Verbesserung der Spracherkennerleistung durch Adaption an einen unbekannten Sprecher. Dazu wird das N-Best-Verfahren benutzt, um die ursprünglichen Sprachmodelle des Spracherkenners zu optimieren.The font DE 60000134 T2 refers to a solution for improving speech recognition performance by adapting to an unknown speaker. For this purpose, the N-Best method is used to optimize the original speech models of the speech recognizer.

Die Druckschrift EP 01070135 A1 betrifft eine Einrichtung zur Ziffernerkennung. Die Hypothesen werden in einer N-Best-Liste zur Verfügung gestellt. Mit Hilfe eines Checksummen-Algorithmus wird die richtige Hypothese ausgesucht.The publication EP 01070135 A1 relates to a device for digit recognition. The hypotheses are provided in an N-Best list. The correct hypothesis is selected using a checksum algorithm.

Aufgabe der Erfindung ist es, ein Verfahren und eine Einrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme unter Vermeidung der Nachteile des Standes der Technik bereitzustellen.task The invention is a method and a device for intelligent Input correction for automatic speech dialogue systems while avoiding the disadvantages of the prior art.

Diese Aufgabe wird durch die Erfindungen mit den Merkmalen der unabhängigen Ansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindungen sind in den Unteransprüchen gekennzeichnet.This object is achieved by the inventions having the features of the independent claims solves. Advantageous developments of the inventions are characterized in the subclaims.

Nach dem Stand der Technik erfolgt die Modellierung der zu erkennenden Sprachkommandos, insbesondere für Systeme mit natürlichem Sprachverstehen (natural language understanding – NLU), in sog. Grammatiken (Grammar). Diese bestehen neben den bedeutungstragenden Slots auch aus Fillern (z. B. ich hätte gern ...), die in der menschlichen Kommunikation unerlässlich sind, aber an sich keine Informationen beinhalten. Nach Abschluss eines jeden Erkennungsschrittes liefert der Spracherkenner Slot bezogene Erkennungsergebnisse geordnet nach den zugehörigen Erkennungswahrscheinlichkeiten. Dies wird für jede einzelne Hypothese ausgeführt.To In the prior art, the modeling of the to be recognized Speech commands, especially for Systems with natural Natural language understanding (NLU), in so-called grammars (Grammar). These exist beside the meaningful Slots also from fillers (eg I would have like ...), which are essential in human communication, but in itself contain no information. After completing a Each recognition step, the speech recognizer provides slot-related Recognition results ordered according to the associated detection probabilities. This will be for every single hypothesis is executed.

Ein erfindungsgemäßer Gedanke beruht auf der Zwischenspeicherung aller Slot-Hypothesen in der bevorzugten Ausführungsform in einem virtuellen Speicherwürfel. Die Dimensionen des Würfels werden bestimmt durch:

• Historie t (wie viele Korrekturschritte werden in die Vergangenheit zurückverfolgt)
• Slot-Anzahl n und
• Anzahl der maximal möglichen Hypothesen je Slot m.

wobei in Anspruch 1 lediglich das Verfahren mit einem Slot (Einzelworterkennung) berücksichtigt wurde.An inventive concept is based on the caching of all slot hypotheses in the preferred embodiment in a virtual memory cube. The dimensions of the cube are determined by:

• History t (how many correction steps are traced back to the past)
• Slot number n and
• Number of maximum possible hypotheses per slot m.

wherein in claim 1, only the method with a slot (single word recognition) was taken into account.

Weiterhin benutzt die erfindungsgemäße Lösung einen Vergleicher, der Slot bezogen die Hypothesen auf gleiche Einträge unabhängig von ihrer Position zwischen verschiedenen Zeitpunkten (d. h. Erkennungsschritten) prüft und als ähnlich (true) oder unähnlich (false) kennzeichnet.Farther uses the solution of the invention a Comparator, the slot related the hypotheses to the same entries regardless of their position between different points in time (that is, recognition steps) checks and as similar (true) or dissimilar (false).

Der hier betrachtete Dialogschritt beginnt mit einer situationsgerechten Nutzeräußerung. Das Spracherkennungsergebnis wird einerseits für die Konfirmation an den Dialog (Sprachausgabe) geleitet, andererseits aber im Zwischenspeicher unter t = 1 zu späterer Verwendung abgelegt. In der Konfirmationsphase werden alle im aktuellen Dialogschritt gefundenen ersten Hypothesen (m = 1) dem Nutzer zur Bestätigung angeboten. Folgend sind drei Situationen denkbar:

1. der Nutzer bestätigt die Satzhypothese mit „Ja" (oder die Erkennungswahrscheinlichkeiten sind so hoch, dass eine Rückfrage entfallen kann.). Dann ist der aktuelle Dialogschritt erfolgreich beendet worden.
2. der Nutzer verneint die gesamte Satzhypothese. Dann muss in weiteren Dialogschritten das Füllen der offenen Slots vorgenommen werden. Diese Situation wird von der erfindungsgemäßen Lösung nicht betroffen.
3. der Nutzer verneint bei gleichzeitiger Nennung des korrigierenden Kommandos. Das ist die Situation, die vorzugsweise erfindungsgemäß gelöst werden soll.

The dialogue step considered here begins with a situation-appropriate user statement. The speech recognition result is passed on the one hand to the dialogue (speech output) for the confirmation, but on the other hand stored in the buffer at t = 1 for later use. In the confirmation phase, all first hypotheses (m = 1) found in the current dialog step are offered to the user for confirmation. Following are three situations conceivable:

1. the user confirms the sentence hypothesis with "yes" (or the recognition probabilities are so high that a query can be omitted.) Then the current dialog step has been successfully completed.
2. the user negates the entire sentence hypothesis. Then in further dialog steps, the filling of the open slots must be made. This situation is not affected by the solution according to the invention.
3. the user denies with simultaneous mention of the corrective command. This is the situation that is preferably to be solved according to the invention.

Erfindungsgemäß wird in Situation 3 ein neuer Erkennungsprozess bezüglich des korrigierten Kommandos gestartet. Slot bezogen wird bzw. werden nun die neue(n) Hypothese(n) in den Zwischenspeicher unter t = 2 abgelegt. Jetzt erfolgen Vergleiche der 2. und folgenden Hypothesen aus dem ersten Erkennungsschritt (t = 1) mit allen Hypothesen des zweiten Erkennungsschrittes (t = 2). Die erste Hypothese aus dem ersten Erkennungsschritt nimmt am Vergleich nicht mehr teil, weil sie bereits durch die Nutzerentscheidung ausgeschieden ist. In Abhängigkeit vom Ausgang des Vergleichs sind zwei weitere Pfade möglich:

1. Der Vergleich war nicht erfolgreich. D. h., es liegt keinerlei Ähnlichkeit zwischen der ersten und der zweiten Nutzereingabe vor. Es ist zu vermuten, dass sich der Nutzer selbst korrigiert hat. Es wird die erste Hypothese des zweiten Erkennungsschrittes als Erkennungsergebnis ausgegeben.
2. Der Vergleich war erfolgreich. Es ist zu vermuten, dass der Nutzer ähnlich klingende Kommandos korrigieren will (klassisches N-Best). Es wird die zweitwahrscheinliche Hypothese des ersten Erkennungsschrittes als Erkennungsergebnis ausgegeben.

According to the invention, a new recognition process with respect to the corrected command is started in situation 3. Slot is / are now the new (n) hypothesis (s) stored in the cache under t = 2. Now comparisons of the 2nd and following hypotheses are made from the first recognition step (t = 1) with all hypotheses of the second recognition step (t = 2). The first hypothesis from the first recognition step no longer participates in the comparison because it has already been eliminated by the user decision. Depending on the outcome of the comparison, two more paths are possible:

1. The comparison was unsuccessful. That is, there is no similarity between the first and second user input. It can be assumed that the user has corrected himself. The first hypothesis of the second recognition step is output as the recognition result.
2. The comparison was successful. It can be assumed that the user wants to correct similar sounding commands (classic N-Best). The second probable hypothesis of the first recognition step is output as the recognition result.

Nun können in beiden Fällen immer noch falsche Resultate vorliegen, sodass die Prozedur wiederholt werden muss. Dann verneint der Nutzer wieder das angebotene Erkennungsergebnis und eine neue Hypothese wird aufgestellt. Diese wird dann unter t = 3 abgespeichert. Für den Vergleich wird nun auch die zweite Hypothese des ersten Erkennungsschrittes gestrichen:

1. Im positiven Fall (Ähnlichkeit vorhanden) wird dem Nutzer die dritte Hypothese des ersten Erkennungsschrittes zur Beurteilung angeboten.
2. Im Negativfall (keine Ähnlichkeit zu einer der Hypothesen des ersten Erkennungsschrittes vorhanden) wird nunmehr die erste Hypothese des zweiten Erkennungsschrittes gestrichen und mit den Hypothesen des dritten Erkennungsschrittes verglichen. Wird eine Ähnlichkeit festgestellt, so kann wieder im N-Best-Verfahren die zutreffende Alternative ermittelt werden. Tritt erneut eine Nichtähnlichkeit auf, ist davon auszugehen, dass der Nutzer erneut seinen Willen geändert hat.

Now in both cases there may still be wrong results, so the procedure has to be repeated. Then the user again denies the offered recognition result and a new hypothesis is set up. This is then stored under t = 3. For the comparison, the second hypothesis of the first recognition step is now also deleted:

1. In the affirmative case (similarity exists), the user is offered the third hypothesis of the first recognition step for evaluation.
2. In the negative case (no similarity to one of the hypotheses of the first recognition step), the first hypothesis of the second recognition step is now deleted and compared with the hypotheses of the third recognition step. If a similarity is established, the appropriate alternative can be determined again in the N-Best method. If a non-similarity occurs again, it can be assumed that the user has changed his will again.

Wie zu sehen ist, arbeitet dieses Verfahren rekursiv. Aus praktischen Erwägungen ist es jedoch sinnvoll, die Anzahl möglicher Schritte geeignet zu begrenzen.As can be seen, this procedure works recursively. From practical considerations However, it makes sense to limit the number of possible steps suitable.

Zu Beginn des Dialoges, nach Abschluss jeder erfolgreichen Erkennungsprozedur und nach Dialog-Resets werden alle Speicherinhalte zurückgesetzt (Löschen der Historie).At the beginning of the dialogue, after completing each successful recognition procedure and after Tue alog-resets resets all memory contents (deleting the history).

Im Folgenden wird die Erfindung anhand von Ausführungsbeispielen näher erläutert, die in den Figuren schematisch dargestellt sind. Gleiche Bezugsziffern in den einzelnen Figuren bezeichnen dabei gleiche Elemente. Im Einzelnen zeigt:in the The invention will be explained in more detail below with reference to exemplary embodiments which are shown schematically in the figures. Same reference numbers in the individual figures designate the same elements. In detail shows:

1 ein mehrdimensionales Speicherabbild, bei dem die Hypothesen pro Slot und Historie abgespeichert sind, 1 a multi-dimensional memory image in which the hypotheses are stored per slot and history,

2 die Darstellung des Verfahrens bei einer Fehlerkorrektur mittels N-Best, 2 the representation of the method in an error correction by means of N-Best,

3 die Darstellung des Verfahrens bei einer Fehlerkorrektur mittels N-Best, wobei sich der Benutzer selber korrigiert. 3 the representation of the method in an error correction by means of N-Best, whereby the user corrects himself.

Im Rahmen der Erfindung sind zahlreiche Abwandlungen und Weiterbildungen der beschriebenen Ausführungsbeispiele verwirklichbar.in the The scope of the invention are numerous modifications and developments the described embodiments realizable.

Ein erfindungsgemäßer Gedanke beruht gemäß 1 auf der Zwischenspeicherung aller Slot-Hypothesen in einem Speicherwürfel. Die Dimensionen des Würfels werden bestimmt durch:

An inventive idea is based according to 1 on the caching of all slot hypotheses in a memory cube. The dimensions of the cube are determined by:

Weiterhin benutzt die erfindungsgemäße Lösung einen Vergleicher, der Slot bezogen die Hypothesen auf Gleichheit zwischen verschiedenen Zeitpunkten (d. h. Erkennungsschritten) prüft und als ähnlich (true) oder unähnlich (false) kennzeichnet (1).Furthermore, the solution according to the invention uses a comparator, which tests the hypotheses for equality between different times (ie recognition steps) and identifies them as similar (true) or dissimilar (false) ( 1 ).

Es versteht sich jedoch, dass die Erfindung auch nur mit einem Slot für die Einzelworterkennung genutzt werden kann.It it is understood, however, that the invention also only with a slot for the Single word recognition can be used.

2 zeigt die Wirkung der erfindungsgemäßen Lösung im Falle einer hohen Verwechslungsähnlichkeit der Sprachkommandos (im Beispiel Slot 3, Ortsname). Der Nutzer verlangt den Ort Illingen, bekommt aber in der ersten Hypothese den Ort Dillingen angeboten. Dem gemäß verneint der Nutzer die entsprechende Rückfrage und verbindet dies mit der erneuten Eingabe seines Wunsch-Ortes. Aufgrund sprachlicher oder anderer Besonderheiten steht wieder der Ortsname Dillingen an erster Stelle der Hypothesen, da aber Dillingen bereits abgelehnt wurde und der Name Illingen in beiden Erkennungsschritten zu finden ist, wird nun entsprechend des N-Best-Verfahrens der nächst wahrscheinliche Name, nämlich korrekter Weise Illingen ausgegeben. 2 shows the effect of the solution according to the invention in the case of a high confusion similarity of the voice commands (in the example, slot 3, place name). The user requests the place Illingen, but gets in the first hypothesis the place Dillingen offered. Accordingly, the user denies the corresponding inquiry and combines this with the re-entry of his desired location. Due to linguistic or other peculiarities, the place name Dillingen again comes first in the hypotheses, but since Dillingen has already been rejected and the name Illingen can be found in both recognition steps, now according to the N-Best procedure, the next probable name, namely correct way Illingen spent.

3 zeigt die Wirkung der erfindungsgemäßen Lösung im Falle eines Wechsels der Nutzerabsicht. Der Nutzer verlangt den Ort Illingen, bekommt in der ersten Hypothese korrekt auch Illingen angeboten. Aber der Nutzer hat sich geirrt und verneint aus diesem Grund die entsprechende Rückfrage. Er verbindet dies mit der geänderten Eingabe seines Wunsch-Ortes, nämlich Bexbach. Ein Vergleich der Speicherinhalte geht erfolglos aus. Folglich werden alle Hypothesen des ersten Erkennungsschrittes verworfen und es wird der Ortsname Bexbach als Alternative ausgegeben. 3 shows the effect of the solution according to the invention in the case of a change in user intention. The user requests the place Illingen, gets in the first hypothesis correctly Illingen offered. But the user was wrong and denied for this reason the appropriate consultation. He connects this with the changed input of his desired place, namely Bexbach. A comparison of the memory contents is unsuccessful. Consequently, all hypotheses of the first recognition step are discarded and the place name Bexbach is output as an alternative.

Claims

Method for recognizing a speech input by an automatic speech recognizer, a) in which the voice input subjected to a recognition process and the resulting (s) Hypothesis (s) are stored in a cache under sm, being initially m = 1 and t = 2, then for a confirmation dialog to be played with a user, b) where the answer the user on the confirmation dialog is subjected to a recognition process to determine whether the User denies with simultaneous mention of the corrective command, if so, proceed to step c) c) in which the recognition process with respect to the corrected command started and the new (n) hypothesis (s) in the cache below st be deposited, d) where all the hypotheses from the mth Detection step in the memory area sm with all the hypotheses of the t th detection step in the memory area st, except for the under Step b) are compared with each other negatively, e) at in negative comparison under d) the first hypothesis of the tth Detection step in memory area st as a recognition result for the confirmation dialog under step b) is output and t = t + 1 and m = t is set to continue with step b), in the case of positive comparison the second most probable hypothesis of the mth recognition step in the memory area sm for the confirmation dialog under step b) is output and t = t + 1 is set to step b) continue.

The method for recognizing a speech input by an automatic speech recognizer according to the preceding claim, characterized in that when comparing the similarity under step d) the N-Best method is used.

The method for recognizing a speech input by an automatic speech recognizer, after one or more of the previous claims, characterized in that the method is applied to slots and thus slot hypotheses are generated.

The method for recognizing a speech input by an automatic speech recognizer after one or more of the previous claims, characterized, that if in the confirmation dialog in step b) the user confirms with "Yes" and / or the recognition probabilities are so high that a confirmation dialog can be omitted, the recognized command is executed, or that if in the confirmation dialog in step b) the user with "No" answers another one less probable hypothesis is provided and / or in a further dialogue step, the filling of the open slots made becomes.

The method for recognizing a speech input by an automatic speech recognizer after one or more of the previous claims, characterized in that at least two history levels in Form of caching levels are present.

The method for recognizing a speech input by an automatic speech recognizer after one or more of the previous claims, characterized in that a multi-dimensional data structure used to store the levels.

The method for recognizing a speech input by An automatic speech recognizer according to claim 6, characterized that a 3D matrix used to store the levels.

Software for a computer, characterized in that a method according to one or more of the preceding claims is implemented.

disk for one Computer, characterized by storing a software the previous software claim.

Computer system, characterized by a device, the procedure of a method according to one or more of the preceding method claims allowed.