DE102008024974A1 - A method for conveying a confidence to a user of an automatic speech dialogue system - Google Patents
A method for conveying a confidence to a user of an automatic speech dialogue system Download PDFInfo
- Publication number
- DE102008024974A1 DE102008024974A1 DE200810024974 DE102008024974A DE102008024974A1 DE 102008024974 A1 DE102008024974 A1 DE 102008024974A1 DE 200810024974 DE200810024974 DE 200810024974 DE 102008024974 A DE102008024974 A DE 102008024974A DE 102008024974 A1 DE102008024974 A1 DE 102008024974A1
- Authority
- DE
- Germany
- Prior art keywords
- confidence
- user
- date
- low
- automatic speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Abstract
Es wird ein Verfahren beschrieben zur Vermittlung einer Konfidenz (K1, K2, ...Kn) an einen Benutzer (B) eines automatischen Sprachdialogsystems, mit welcher Konfidenz (K1, K2, ...Kn) ein Datum (D1, D2, ..., Dn) einer Benutzeräußerung (BA) erkannt wurde, wobei die Konfidenz (K1, K2, ...Kn) eines Datums (D1, D2, ..., Dn) niedrig ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers hoch ist, und die Konfidenz (K1, K2, ...Kn) hoch ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers gering ist. Das Verfahren zeichnet sich erfindungsgemäß dadurch aus, dass die Konfidenz (K1, K2, ...Kn) dazu genutzt wird, vorab aufgezeichnete oder synthetisierte Systemprompts (SP) prosodisch zu manipulieren.A method is described for conveying a confidence (K1, K2,... Kn) to a user (B) of an automatic speech dialogue system, with which confidence (K1, K2,... Kn) a date (D1, D2,. .., Dn) of a user utterance (BA), the confidence (K1, K2, ... Kn) of a datum (D1, D2, ..., Dn) being low, if the probability of a recognition error is high, and the confidence (K1, K2, ... Kn) is high when the probability of a recognition error is small. According to the invention, the method is characterized in that the confidence (K1, K2,... Kn) is used to prosodically manipulate pre-recorded or synthesized system prompts (SP).
Description
Die Erfindung betrifft ein Verfahren zur Vermittlung einer Konfidenz an einen Benutzer eines automatischen Sprachdialogsystems gemäß dem Oberbegriff des Anspruchs 1.The The invention relates to a method for imparting a confidence to a user of an automatic speech dialogue system according to the preamble of claim 1.
In automatischen Sprachdialogsystemen werden erkannte Benutzeräußerungen einer Spracherkennungskomponente mit so genannten Konfidenzen bewertet. Die Konfidenz nähert die Wahrscheinlichkeit, mit der ein Spracherkennungsergebnis korrekt ist, derart, dass die Konfidenz eines erkannten Wortes Idealerweise genau dann sehr niedrig ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers sehr hoch ist.In automatic speech dialog systems become recognized user utterances a speech recognition component with so-called Confidences. The confidence is approaching the probability with which a speech recognition result is correct is, in such a way that the confidence of a recognized word ideally very low if and only if the probability of a recognition error is very high.
Sprachdialogsysteme nutzen diese Konfidenzwerte und passen den Dialog entsprechend an, zum Beispiel indem sie beispielsweise nach einer Benutzerbestätigung mittels so genannter Prompts beziehungsweise Systemprompts fragen, wenn ein erkanntes Wort eine zu niedrige Konfidenz aufweist. So kann etwa bei einer Banküberweisung, bei der die Höhe des Überweisungsbetrages schlecht verstanden und deshalb mit einer geringen Konfidenz belegt wurde, automatisch nachgefragt werden, ob der verstandene Betrag korrekt ist, oder nicht. Eine solche Frage kann beispielsweise lauten: „Sie wollen 1000 Euro überweisen, ist das richtig?”IVR Systems use these confidence values and adjust the dialogue accordingly, for Example by, for example, after a user confirmation using ask so-called prompts or system prompts if a recognized word has too low a confidence. So can for example with a bank transfer, at the height the transfer amount poorly understood and therefore given low confidence, be asked automatically if the understood amount correctly is or not. For example, such a question may be: "You want Transfer 1000 euros, Is that correct?"
Zu häufige Bestätigungsanfragen hemmen jedoch den Dialogablauf, weshalb häufig Bestätigungsanfragen für mehrere Daten zusammengefasst oder auch mit einer weiteren Abfrage kombiniert werden, wie beispielsweise „1000 Euro auf das Konto der Fa. Müller, möchten Sie eine kostenpflichtige Buchungsbestätigung?”.To frequent confirmation requests but inhibit the dialog flow, which is why confirmation requests for multiple Data summarized or combined with another query such as "1000 Euro to the account of the company Müller, would like Do you have a paid booking confirmation? ".
Wie bereits erwähnt nutzen Sprachdialogsysteme Konfidenzwerte und passen den Dialog entsprechend an. Allerdings findet eine solche Anpassung des Dialogs nur auf rein textueller Ebene statt, das heißt durch Umformulierungen des Textes der Prompts und Änderung des Dialogverlaufs. Dem Umformulieren von Prompts sind jedoch oft enge Grenzen gesetzt, da diese, wenn keine Sprachsynthese verwendet werden soll, vorab mit einem professionellen Sprecher aufgezeichnet werden müssen. Ebenso können Umformulierungen sowie Änderungen des Dialogverlaufs nur sehr grobe Abstufungen der Konfidenz, wie etwa niedrig, mittel, hoch, berücksichtigen.As already mentioned use language dialogue systems confidence values and adjust the dialogue accordingly. However, such an adaptation of the dialogue takes place only on a purely textual level, that is, by reformulations of the Text of the prompts and change of the dialogue history. However, reformulating prompts is often set narrow limits, since these, if no speech synthesis used should be recorded in advance with a professional speaker Need to become. Likewise Reformulations and changes of the course of the dialogue only very rough gradations of confidence, such as about low, medium, high, consider.
Als eine Aufgabe der Erfindung kann es daher angesehen werden, ein Verfahren zu entwickeln, welches es ermöglicht, eine Konfidenz an einen Benutzer eines automatischen Sprachdialogsystems zu vermitteln.When An object of the invention can therefore be considered a method to develop, which makes it possible a confidence to a user of an automatic speech dialogue system to convey.
Die Aufgabe wird gelöst durch ein Verfahren zur Vermittlung einer Konfidenz an einen Benutzer eines automatischen Sprachdialogsystems, mit welcher Konfidenz ein so genanntes Datum beziehungsweise ein Teil einer Benutzeräußerung während eines Sprachdialogs im Rahmen einer automatischen Spracherkennung erkannt wurde und in ein Spracherkennungsergebnis einfließt beziehungsweise eingeflossen ist, wobei die Konfidenz eines Datums beziehungsweise eines erkannten Wortes niedrig ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers des Datums hoch ist, und die Konfidenz hoch ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers des Datums niedrig beziehungsweise gering ist. Dabei ist vorgesehen, dass die Konfidenz dazu genutzt wird, vorab aufgezeichnete oder synthetisierte Systemprompts prosodisch zu manipulieren.The Task is solved by a method of conveying a confidence to a user an automatic speech dialogue system, with which confidence a so-called date or part of a user statement during one Speech dialogs detected as part of an automatic speech recognition was and flows into a speech recognition result is where the confidence of a date or a recognized Word is low if the probability of a recognition error the date is high, and the confidence is high if the probability a recognition error of the date low or low is. It is envisaged that the confidence will be used pre-recorded or synthesized system prompts prosodic to manipulate.
Die Erfindung ermöglicht es auf einfache Weise, feinere Zwischenstufen zuzulassen, die dem Nutzer ohne eine weitere Verkomplizierung des Dialogs implizit klarmachen, dass ein bestimmter, im Rahmen der Spracherkennung häufig auch als Datum bezeichneter Teil einer Benutzeräußerung, beispielsweise eine Ziffer, ein Wort, ein Begriff etc., zum Beispiel „Fa. Müller”, mit besonders geringer Konfidenz erkannt wurde.The Invention allows It easily allows for finer intermediates to the user implicitly make clear without further complicating the dialogue, that a specific, in the context of speech recognition often too designated as a date part of a user utterance, for example a Number, a word, a term etc., for example "Fa. Müller ", with special low confidence was detected.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die prosodische Manipulation derart erfolgt, dass ein Datum mit einer geringen Konfidenz mit einer kurzen vorzugsweise einleitenden Pause und besonderer Betonung des Datums ausgegeben beziehungsweise abgespielt wird. Die prosodische Manipulation dient somit zum akustischen Unterstreichen und kann auf sehr feingranulare Weise auch kleine Variationen der Konfidenz einbeziehen.A advantageous embodiment of the invention provides that the prosodic Manipulation is done in such a way that a date with a low confidence with a short preferably introductory break and special Emphasis of the date spent or played. The prosodic manipulation thus serves as acoustic underlining and can in very fine granular way also small variations of the Include confidence.
Eine besonders vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die prosodische Manipulation Eigenschaften wie beispielsweise Rhythmus, Energie, Grundfrequenz umfasst.A Particularly advantageous embodiment of the invention provides that the prosodic manipulation properties such as rhythm, Energy, fundamental frequency includes.
Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass nur Konfidenzen unterhalb eines vorgegebenen beziehungsweise vorgebbaren Schwellenwerts an den Benutzer vermittelt werden.A Another advantageous embodiment of the invention provides that only confidences below a predefined or specifiable threshold value be conveyed to the user.
Die
Erfindung wird nachfolgend anhand eines in der einzigen Zeichnung
Bei
einem in seinem Ablauf in
Diese Benutzeräußerung BA wird von einer Spracherkennungskomponente SK erfasst. Die Spracherkennungskomponente erkennt einzelne Daten D1, D2..., Dn der Benutzeräußerung BA, die in ein Spracherkennungsergebnis SE einfließen. Die Daten D1, D2, ..., Dn umfassen jeweils Teile, vorzugsweise einzelne Worte der Benutzeräußerung BA. Jedes Datum D1, D2, ..., Dn wird von der Spracherkennungskomponente SK mit einer Konfidenz K1, K2, ..., Kn bewertet.These User statement BA is detected by a speech recognition component SK. The speech recognition component recognizes individual data D1, D2 ..., Dn of the user statement BA, which flow into a speech recognition result SE. The data D1, D2, ..., Dn each comprise parts, preferably individual words of the user utterance BA. Each date D1, D2, ..., Dn is from the speech recognition component SK with a confidence K1, K2, ..., Kn.
Die Konfidenz K1, K2, ..., Kn eines Datums D1, D2, ..., Dn ist niedrig, wenn die Wahrscheinlichkeit eines Erkennungsfehlers des Datums D1, D2, ..., Dn hoch ist. Die Konfidenz K1, K2, ..., Kn eines Datums D1, D2, ..., Dn ist hoch, wenn die Wahrscheinlichkeit eines Erkennungsfehlers des Datums D1, D2, ..., Dn niedrig ist.The Confidence K1, K2, ..., Kn of a date D1, D2, ..., Dn is low, if the probability of a recognition error of the date D1, D2, ..., Dn is high. The confidence K1, K2, ..., Kn of a date D1, D2, ..., Dn is high if the probability of a recognition error of the date D1, D2, ..., Dn is low.
Ordnet die Spracherkennungskomponente SK einem Datum D1, D2, ..., Dn eine geringe Konfidenz K1, K2, ..., Kn zu, so wird diese geringe Konfidenz K1, K2, ..., Kn im Rahmen eines an den Benutzer B gerichteten, auch als Bestätigungsanfrage bezeichneten, vorab aufgezeichneten oder synthetisierten Systemprompts SP dazu verwendet, das vorzugsweise in dem Systemprompt SP enthaltene jeweilige Datum D1, D2, ..., Dn in dem Systemprompt SP prosodisch zu manipulieren.assigns the voice recognition component SK a date D1, D2, ..., Dn a low confidence K1, K2, ..., Kn, so does this low confidence K1, K2, ..., Kn in the context of a user B, too as a confirmation request designated, pre-recorded or synthesized system prompts SP is used, which is preferably included in the system prompt SP respective date D1, D2, ..., Dn in the system Prompt SP prosodic to manipulate.
Die Erfindung ermöglicht es so auf einfache Weise, feinere Zwischenstufen zuzulassen, die dem Benutzer B ohne eine weitere Verkomplizierung des die Benutzeräußerung BA und den Systemprompt SP umfassenden Dialogs implizit klarmachen, dass ein Datum D1, D2, ..., Dn mit besonders geringer Konfidenz K1, K2, ..., Kn erkannt wurde.The Invention allows It is thus easy to admit finer intermediates the user B without further complicating the user utterance BA and implicitly clarify the system prompt SP-comprehensive dialogue, that a date D1, D2, ..., Dn with particularly low confidence K1, K2, ..., Kn was detected.
Das aus dem Stand der Technik bekannte Problem wird somit erfindungsgemäß gelöst, indem die Konfidenz dazu genutzt wird, die vorab aufgezeichneten oder synthetisierten Systemprompts prosodisch zu manipulieren. Beispielsweise kann innerhalb eines Systemprompts „1000 EUR auf das Konto der – Fa. Müller, möchten Sie eine kostenpflichtige Buchungsbestätigung?” das Datum „Fa. Müller” mit einer kurzen Pause und besonderer Betonung abgespielt werden. Die prosodische Manipulation dient somit zum akustischen Unterstreichen und kann auf sehr feingranulare Weise auch kleine Variationen der Konfidenz einbeziehen. Algorithmen für die prosodische Manipulation von Sprache sind seit langem aus dem Bereich der Sprachsynthese bekannt.The known from the prior art problem is thus solved according to the invention by the Confidence is used to pre-recorded or synthesized To manipulate system prompts prosodically. For example, within a system prompt "1000 EUR to the account of - Fa. Miller, would like Do you have a paid booking confirmation? "The date" Fa. Müller "with one short break and special emphasis will be played. The prosodic Manipulation thus serves as an acoustic underlining and can in very fine granular way also small variations of the confidence include. Algorithms for the prosodic manipulation of language has long been out of the Area of speech synthesis known.
Die Erfindung nutzt somit die technische Möglichkeit, prosodische Eigenschaften, wie beispielsweise Rhythmus, Energie, Grundfrequenz, abgespielter, synthetisierter oder vorab aufgezeichneter Prompts zu manipulieren, für den Ausdruck der Konfidenz in bestimmten Daten in einem automatischen Sprachdialog.The Invention thus exploits the technical possibility of prosodic properties, such as rhythm, energy, fundamental, played, to manipulate synthesized or pre-recorded prompts, for the Expression of confidence in certain data in an automatic language dialogue.
Claims (4)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200810024974 DE102008024974A1 (en) | 2008-05-23 | 2008-05-23 | A method for conveying a confidence to a user of an automatic speech dialogue system |
PCT/CH2009/000158 WO2009140780A1 (en) | 2008-05-23 | 2009-05-14 | Method for conveying a confidence to a user of an automatic voice dialogue system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200810024974 DE102008024974A1 (en) | 2008-05-23 | 2008-05-23 | A method for conveying a confidence to a user of an automatic speech dialogue system |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102008024974A1 true DE102008024974A1 (en) | 2009-12-03 |
Family
ID=40834457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE200810024974 Withdrawn DE102008024974A1 (en) | 2008-05-23 | 2008-05-23 | A method for conveying a confidence to a user of an automatic speech dialogue system |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE102008024974A1 (en) |
WO (1) | WO2009140780A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102011013755B4 (en) * | 2010-12-31 | 2021-07-08 | Volkswagen Aktiengesellschaft | Method and device for alphanumeric voice input in motor vehicles |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6751591B1 (en) * | 2001-01-22 | 2004-06-15 | At&T Corp. | Method and system for predicting understanding errors in a task classification system |
US20050027523A1 (en) * | 2003-07-31 | 2005-02-03 | Prakairut Tarlton | Spoken language system |
-
2008
- 2008-05-23 DE DE200810024974 patent/DE102008024974A1/en not_active Withdrawn
-
2009
- 2009-05-14 WO PCT/CH2009/000158 patent/WO2009140780A1/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102011013755B4 (en) * | 2010-12-31 | 2021-07-08 | Volkswagen Aktiengesellschaft | Method and device for alphanumeric voice input in motor vehicles |
Also Published As
Publication number | Publication date |
---|---|
WO2009140780A1 (en) | 2009-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10042944C2 (en) | Grapheme-phoneme conversion | |
DE2953262C2 (en) | ||
EP1927980B1 (en) | Method for classifying spoken language in spoken dialogue systems | |
EP1892700A1 (en) | Method for speech recognition and speech reproduction | |
EP1264301B1 (en) | Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system | |
EP3430615B1 (en) | Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input | |
DE112015003382T5 (en) | Speech recognition device and speech recognition method | |
DE102014107028B4 (en) | Improved biometric password security | |
EP0633559B1 (en) | Method and device for speech recognition | |
EP1456837B1 (en) | Method and device for voice recognition | |
EP1058235A2 (en) | Reproduction method for voice controlled systems with text based speech synthesis | |
EP1282897A1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
DE102010040553A1 (en) | Speech recognition method | |
DE112010005706B4 (en) | Voice recognition device | |
DE102008024974A1 (en) | A method for conveying a confidence to a user of an automatic speech dialogue system | |
DE2021126A1 (en) | Speech recognition device | |
DE102008024257A1 (en) | Speaker identification method for use during speech recognition in infotainment system in car, involves assigning user model to associated entry, extracting characteristics from linguistic expression of user and selecting one entry | |
EP0834859B1 (en) | Method for determining an acoustic model for a word | |
EP1457966A1 (en) | Method for determining the risk of confusability of vocabulary entries for phoneme-based speech recognition | |
DE102006045719B4 (en) | Medical system with a voice input device | |
DE102020119980B3 (en) | Language assistance system, method and computer program for language-based support | |
EP1184838A2 (en) | Phonetic transcription for speech synthesis | |
DE1547002A1 (en) | Apparatus responsive to spoken information, particularly a phonetic typewriter | |
EP1659572A1 (en) | Dialogue control method and system operating according thereto | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8139 | Disposal/non-payment of the annual fee |