DE102008024974A1 - A method for conveying a confidence to a user of an automatic speech dialogue system - Google Patents

A method for conveying a confidence to a user of an automatic speech dialogue system Download PDF

Info

Publication number
DE102008024974A1
DE102008024974A1 DE200810024974 DE102008024974A DE102008024974A1 DE 102008024974 A1 DE102008024974 A1 DE 102008024974A1 DE 200810024974 DE200810024974 DE 200810024974 DE 102008024974 A DE102008024974 A DE 102008024974A DE 102008024974 A1 DE102008024974 A1 DE 102008024974A1
Authority
DE
Germany
Prior art keywords
confidence
user
date
low
automatic speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE200810024974
Other languages
German (de)
Inventor
Georg Dr. Stemmer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE200810024974 priority Critical patent/DE102008024974A1/en
Priority to PCT/CH2009/000158 priority patent/WO2009140780A1/en
Publication of DE102008024974A1 publication Critical patent/DE102008024974A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

Es wird ein Verfahren beschrieben zur Vermittlung einer Konfidenz (K1, K2, ...Kn) an einen Benutzer (B) eines automatischen Sprachdialogsystems, mit welcher Konfidenz (K1, K2, ...Kn) ein Datum (D1, D2, ..., Dn) einer Benutzeräußerung (BA) erkannt wurde, wobei die Konfidenz (K1, K2, ...Kn) eines Datums (D1, D2, ..., Dn) niedrig ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers hoch ist, und die Konfidenz (K1, K2, ...Kn) hoch ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers gering ist. Das Verfahren zeichnet sich erfindungsgemäß dadurch aus, dass die Konfidenz (K1, K2, ...Kn) dazu genutzt wird, vorab aufgezeichnete oder synthetisierte Systemprompts (SP) prosodisch zu manipulieren.A method is described for conveying a confidence (K1, K2,... Kn) to a user (B) of an automatic speech dialogue system, with which confidence (K1, K2,... Kn) a date (D1, D2,. .., Dn) of a user utterance (BA), the confidence (K1, K2, ... Kn) of a datum (D1, D2, ..., Dn) being low, if the probability of a recognition error is high, and the confidence (K1, K2, ... Kn) is high when the probability of a recognition error is small. According to the invention, the method is characterized in that the confidence (K1, K2,... Kn) is used to prosodically manipulate pre-recorded or synthesized system prompts (SP).

Description

Die Erfindung betrifft ein Verfahren zur Vermittlung einer Konfidenz an einen Benutzer eines automatischen Sprachdialogsystems gemäß dem Oberbegriff des Anspruchs 1.The The invention relates to a method for imparting a confidence to a user of an automatic speech dialogue system according to the preamble of claim 1.

In automatischen Sprachdialogsystemen werden erkannte Benutzeräußerungen einer Spracherkennungskomponente mit so genannten Konfidenzen bewertet. Die Konfidenz nähert die Wahrscheinlichkeit, mit der ein Spracherkennungsergebnis korrekt ist, derart, dass die Konfidenz eines erkannten Wortes Idealerweise genau dann sehr niedrig ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers sehr hoch ist.In automatic speech dialog systems become recognized user utterances a speech recognition component with so-called Confidences. The confidence is approaching the probability with which a speech recognition result is correct is, in such a way that the confidence of a recognized word ideally very low if and only if the probability of a recognition error is very high.

Sprachdialogsysteme nutzen diese Konfidenzwerte und passen den Dialog entsprechend an, zum Beispiel indem sie beispielsweise nach einer Benutzerbestätigung mittels so genannter Prompts beziehungsweise Systemprompts fragen, wenn ein erkanntes Wort eine zu niedrige Konfidenz aufweist. So kann etwa bei einer Banküberweisung, bei der die Höhe des Überweisungsbetrages schlecht verstanden und deshalb mit einer geringen Konfidenz belegt wurde, automatisch nachgefragt werden, ob der verstandene Betrag korrekt ist, oder nicht. Eine solche Frage kann beispielsweise lauten: „Sie wollen 1000 Euro überweisen, ist das richtig?”IVR Systems use these confidence values and adjust the dialogue accordingly, for Example by, for example, after a user confirmation using ask so-called prompts or system prompts if a recognized word has too low a confidence. So can for example with a bank transfer, at the height the transfer amount poorly understood and therefore given low confidence, be asked automatically if the understood amount correctly is or not. For example, such a question may be: "You want Transfer 1000 euros, Is that correct?"

Zu häufige Bestätigungsanfragen hemmen jedoch den Dialogablauf, weshalb häufig Bestätigungsanfragen für mehrere Daten zusammengefasst oder auch mit einer weiteren Abfrage kombiniert werden, wie beispielsweise „1000 Euro auf das Konto der Fa. Müller, möchten Sie eine kostenpflichtige Buchungsbestätigung?”.To frequent confirmation requests but inhibit the dialog flow, which is why confirmation requests for multiple Data summarized or combined with another query such as "1000 Euro to the account of the company Müller, would like Do you have a paid booking confirmation? ".

Wie bereits erwähnt nutzen Sprachdialogsysteme Konfidenzwerte und passen den Dialog entsprechend an. Allerdings findet eine solche Anpassung des Dialogs nur auf rein textueller Ebene statt, das heißt durch Umformulierungen des Textes der Prompts und Änderung des Dialogverlaufs. Dem Umformulieren von Prompts sind jedoch oft enge Grenzen gesetzt, da diese, wenn keine Sprachsynthese verwendet werden soll, vorab mit einem professionellen Sprecher aufgezeichnet werden müssen. Ebenso können Umformulierungen sowie Änderungen des Dialogverlaufs nur sehr grobe Abstufungen der Konfidenz, wie etwa niedrig, mittel, hoch, berücksichtigen.As already mentioned use language dialogue systems confidence values and adjust the dialogue accordingly. However, such an adaptation of the dialogue takes place only on a purely textual level, that is, by reformulations of the Text of the prompts and change of the dialogue history. However, reformulating prompts is often set narrow limits, since these, if no speech synthesis used should be recorded in advance with a professional speaker Need to become. Likewise Reformulations and changes of the course of the dialogue only very rough gradations of confidence, such as about low, medium, high, consider.

Als eine Aufgabe der Erfindung kann es daher angesehen werden, ein Verfahren zu entwickeln, welches es ermöglicht, eine Konfidenz an einen Benutzer eines automatischen Sprachdialogsystems zu vermitteln.When An object of the invention can therefore be considered a method to develop, which makes it possible a confidence to a user of an automatic speech dialogue system to convey.

Die Aufgabe wird gelöst durch ein Verfahren zur Vermittlung einer Konfidenz an einen Benutzer eines automatischen Sprachdialogsystems, mit welcher Konfidenz ein so genanntes Datum beziehungsweise ein Teil einer Benutzeräußerung während eines Sprachdialogs im Rahmen einer automatischen Spracherkennung erkannt wurde und in ein Spracherkennungsergebnis einfließt beziehungsweise eingeflossen ist, wobei die Konfidenz eines Datums beziehungsweise eines erkannten Wortes niedrig ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers des Datums hoch ist, und die Konfidenz hoch ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers des Datums niedrig beziehungsweise gering ist. Dabei ist vorgesehen, dass die Konfidenz dazu genutzt wird, vorab aufgezeichnete oder synthetisierte Systemprompts prosodisch zu manipulieren.The Task is solved by a method of conveying a confidence to a user an automatic speech dialogue system, with which confidence a so-called date or part of a user statement during one Speech dialogs detected as part of an automatic speech recognition was and flows into a speech recognition result is where the confidence of a date or a recognized Word is low if the probability of a recognition error the date is high, and the confidence is high if the probability a recognition error of the date low or low is. It is envisaged that the confidence will be used pre-recorded or synthesized system prompts prosodic to manipulate.

Die Erfindung ermöglicht es auf einfache Weise, feinere Zwischenstufen zuzulassen, die dem Nutzer ohne eine weitere Verkomplizierung des Dialogs implizit klarmachen, dass ein bestimmter, im Rahmen der Spracherkennung häufig auch als Datum bezeichneter Teil einer Benutzeräußerung, beispielsweise eine Ziffer, ein Wort, ein Begriff etc., zum Beispiel „Fa. Müller”, mit besonders geringer Konfidenz erkannt wurde.The Invention allows It easily allows for finer intermediates to the user implicitly make clear without further complicating the dialogue, that a specific, in the context of speech recognition often too designated as a date part of a user utterance, for example a Number, a word, a term etc., for example "Fa. Müller ", with special low confidence was detected.

Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die prosodische Manipulation derart erfolgt, dass ein Datum mit einer geringen Konfidenz mit einer kurzen vorzugsweise einleitenden Pause und besonderer Betonung des Datums ausgegeben beziehungsweise abgespielt wird. Die prosodische Manipulation dient somit zum akustischen Unterstreichen und kann auf sehr feingranulare Weise auch kleine Variationen der Konfidenz einbeziehen.A advantageous embodiment of the invention provides that the prosodic Manipulation is done in such a way that a date with a low confidence with a short preferably introductory break and special Emphasis of the date spent or played. The prosodic manipulation thus serves as acoustic underlining and can in very fine granular way also small variations of the Include confidence.

Eine besonders vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die prosodische Manipulation Eigenschaften wie beispielsweise Rhythmus, Energie, Grundfrequenz umfasst.A Particularly advantageous embodiment of the invention provides that the prosodic manipulation properties such as rhythm, Energy, fundamental frequency includes.

Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass nur Konfidenzen unterhalb eines vorgegebenen beziehungsweise vorgebbaren Schwellenwerts an den Benutzer vermittelt werden.A Another advantageous embodiment of the invention provides that only confidences below a predefined or specifiable threshold value be conveyed to the user.

Die Erfindung wird nachfolgend anhand eines in der einzigen Zeichnung 1 dargestellten Ausführungsbeispiels näher erläutert. Es zeigtThe invention will be described below with reference to a single drawing 1 illustrated embodiment illustrated. It shows

1 eine schematische Darstellung eines Ablaufs eines erfindungsgemäßen Verfahrens zur Vermittlung einer Konfidenz an einen Benutzer eines automatischen Sprachdialogsystems. 1 a schematic representation of a flow of a method according to the invention for conveying a confidence to a user of an automatic speech dialogue system.

Bei einem in seinem Ablauf in 1 schematisch dargestellten erfindungsgemäßen Verfahren zur Vermittlung einer Konfidenz K an einen Benutzer B eines automatischen Sprachdialogsystems, mit der ein so genanntes Datum beziehungsweise ein Teil einer Benutzeräußerung BA während eines Sprachdialogs im Rahmen einer automatischen Spracherkennung erkannt wurde und in ein Spracherkennungsergebnis SE einfließt beziehungsweise eingeflossen ist, tätigt ein Benutzer B eine sprachliche Benutzeräußerung BA.At one in its expiration in 1 schematically illustrated inventive method to convey a confidence K to a user B of an automatic speech dialogue system, with which a so-called date or part of a user statement BA was recognized during a speech dialogue in the context of automatic speech recognition and flows into a speech recognition result SE, a user B makes a linguistic user statement BA.

Diese Benutzeräußerung BA wird von einer Spracherkennungskomponente SK erfasst. Die Spracherkennungskomponente erkennt einzelne Daten D1, D2..., Dn der Benutzeräußerung BA, die in ein Spracherkennungsergebnis SE einfließen. Die Daten D1, D2, ..., Dn umfassen jeweils Teile, vorzugsweise einzelne Worte der Benutzeräußerung BA. Jedes Datum D1, D2, ..., Dn wird von der Spracherkennungskomponente SK mit einer Konfidenz K1, K2, ..., Kn bewertet.These User statement BA is detected by a speech recognition component SK. The speech recognition component recognizes individual data D1, D2 ..., Dn of the user statement BA, which flow into a speech recognition result SE. The data D1, D2, ..., Dn each comprise parts, preferably individual words of the user utterance BA. Each date D1, D2, ..., Dn is from the speech recognition component SK with a confidence K1, K2, ..., Kn.

Die Konfidenz K1, K2, ..., Kn eines Datums D1, D2, ..., Dn ist niedrig, wenn die Wahrscheinlichkeit eines Erkennungsfehlers des Datums D1, D2, ..., Dn hoch ist. Die Konfidenz K1, K2, ..., Kn eines Datums D1, D2, ..., Dn ist hoch, wenn die Wahrscheinlichkeit eines Erkennungsfehlers des Datums D1, D2, ..., Dn niedrig ist.The Confidence K1, K2, ..., Kn of a date D1, D2, ..., Dn is low, if the probability of a recognition error of the date D1, D2, ..., Dn is high. The confidence K1, K2, ..., Kn of a date D1, D2, ..., Dn is high if the probability of a recognition error of the date D1, D2, ..., Dn is low.

Ordnet die Spracherkennungskomponente SK einem Datum D1, D2, ..., Dn eine geringe Konfidenz K1, K2, ..., Kn zu, so wird diese geringe Konfidenz K1, K2, ..., Kn im Rahmen eines an den Benutzer B gerichteten, auch als Bestätigungsanfrage bezeichneten, vorab aufgezeichneten oder synthetisierten Systemprompts SP dazu verwendet, das vorzugsweise in dem Systemprompt SP enthaltene jeweilige Datum D1, D2, ..., Dn in dem Systemprompt SP prosodisch zu manipulieren.assigns the voice recognition component SK a date D1, D2, ..., Dn a low confidence K1, K2, ..., Kn, so does this low confidence K1, K2, ..., Kn in the context of a user B, too as a confirmation request designated, pre-recorded or synthesized system prompts SP is used, which is preferably included in the system prompt SP respective date D1, D2, ..., Dn in the system Prompt SP prosodic to manipulate.

Die Erfindung ermöglicht es so auf einfache Weise, feinere Zwischenstufen zuzulassen, die dem Benutzer B ohne eine weitere Verkomplizierung des die Benutzeräußerung BA und den Systemprompt SP umfassenden Dialogs implizit klarmachen, dass ein Datum D1, D2, ..., Dn mit besonders geringer Konfidenz K1, K2, ..., Kn erkannt wurde.The Invention allows It is thus easy to admit finer intermediates the user B without further complicating the user utterance BA and implicitly clarify the system prompt SP-comprehensive dialogue, that a date D1, D2, ..., Dn with particularly low confidence K1, K2, ..., Kn was detected.

Das aus dem Stand der Technik bekannte Problem wird somit erfindungsgemäß gelöst, indem die Konfidenz dazu genutzt wird, die vorab aufgezeichneten oder synthetisierten Systemprompts prosodisch zu manipulieren. Beispielsweise kann innerhalb eines Systemprompts „1000 EUR auf das Konto der – Fa. Müller, möchten Sie eine kostenpflichtige Buchungsbestätigung?” das Datum „Fa. Müller” mit einer kurzen Pause und besonderer Betonung abgespielt werden. Die prosodische Manipulation dient somit zum akustischen Unterstreichen und kann auf sehr feingranulare Weise auch kleine Variationen der Konfidenz einbeziehen. Algorithmen für die prosodische Manipulation von Sprache sind seit langem aus dem Bereich der Sprachsynthese bekannt.The known from the prior art problem is thus solved according to the invention by the Confidence is used to pre-recorded or synthesized To manipulate system prompts prosodically. For example, within a system prompt "1000 EUR to the account of - Fa. Miller, would like Do you have a paid booking confirmation? "The date" Fa. Müller "with one short break and special emphasis will be played. The prosodic Manipulation thus serves as an acoustic underlining and can in very fine granular way also small variations of the confidence include. Algorithms for the prosodic manipulation of language has long been out of the Area of speech synthesis known.

Die Erfindung nutzt somit die technische Möglichkeit, prosodische Eigenschaften, wie beispielsweise Rhythmus, Energie, Grundfrequenz, abgespielter, synthetisierter oder vorab aufgezeichneter Prompts zu manipulieren, für den Ausdruck der Konfidenz in bestimmten Daten in einem automatischen Sprachdialog.The Invention thus exploits the technical possibility of prosodic properties, such as rhythm, energy, fundamental, played, to manipulate synthesized or pre-recorded prompts, for the Expression of confidence in certain data in an automatic language dialogue.

Claims (4)

Verfahren zur Vermittlung einer Konfidenz (K1, K2, ... Kn) an einen Benutzer (B) eines automatischen Sprachdialogsystems, mit welcher Konfidenz (K1, K2, ... Kn) ein Datum (D1, D2, ..., Dn) einer Benutzeräußerung (BA) erkannt wurde, wobei die Konfidenz (K1, K2, ...Kn) eines Datums (D1, D2, ..., Dn) niedrig ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers hoch ist, und die Konfidenz (K1, K2, ... Kn) hoch ist, wenn die Wahrscheinlichkeit eines Erkennungsfehlers gering ist, dadurch gekennzeichnet, dass die Konfidenz (K1, K2, ... Kn) dazu genutzt wird, vorab aufgezeichnete oder synthetisierte Systemprompts (SP) prosodisch zu manipulieren.A method for conveying a confidence (K1, K2, ... Kn) to a user (B) of an automatic speech dialogue system, with which confidence (K1, K2, ... Kn) a date (D1, D2, ..., Dn ) of a user's utterance (BA), wherein the confidence (K1, K2, ... Kn) of a date (D1, D2, ..., Dn) is low when the probability of a recognition error is high, and the confidence ( K1, K2, ... Kn) is high when the probability of a recognition error is low, characterized in that the confidence (K1, K2, ... Kn) is used to prosodically pre-record or synthesize system prompts (SP) manipulate. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die prosodische Manipulation derart erfolgt, dass ein Datum (D1, D2, ..., Dn) mit einer geringen Konfidenz (K1, K2, ... Kn) mit einer kurzen Pause und besonderer Betonung abgespielt wird.Method according to claim 1, characterized in that that the prosodic manipulation takes place such that a date (D1, D2, ..., Dn) with a low confidence (K1, K2, ... Kn) is played with a short break and special emphasis. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die prosodische Manipulation Eigenschaften wie beispielsweise Rhythmus, Energie, Grundfrequenz umfasst.Method according to claim 1 or 2, characterized that the prosodic manipulation features such as Rhythm, energy, fundamental frequency includes. Verfahren nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, dass nur Konfidenzen (K1, K2, ... Kn) unterhalb eines vorgegebenen beziehungsweise vorgebbaren Schwellenwerts an den Benutzer (B) vermittelt werden.Method according to claim 1, 2 or 3, characterized that only confidences (K1, K2, ... Kn) are below a given one or predetermined threshold value to the user (B) mediates become.
DE200810024974 2008-05-23 2008-05-23 A method for conveying a confidence to a user of an automatic speech dialogue system Withdrawn DE102008024974A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE200810024974 DE102008024974A1 (en) 2008-05-23 2008-05-23 A method for conveying a confidence to a user of an automatic speech dialogue system
PCT/CH2009/000158 WO2009140780A1 (en) 2008-05-23 2009-05-14 Method for conveying a confidence to a user of an automatic voice dialogue system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200810024974 DE102008024974A1 (en) 2008-05-23 2008-05-23 A method for conveying a confidence to a user of an automatic speech dialogue system

Publications (1)

Publication Number Publication Date
DE102008024974A1 true DE102008024974A1 (en) 2009-12-03

Family

ID=40834457

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200810024974 Withdrawn DE102008024974A1 (en) 2008-05-23 2008-05-23 A method for conveying a confidence to a user of an automatic speech dialogue system

Country Status (2)

Country Link
DE (1) DE102008024974A1 (en)
WO (1) WO2009140780A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011013755B4 (en) * 2010-12-31 2021-07-08 Volkswagen Aktiengesellschaft Method and device for alphanumeric voice input in motor vehicles

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751591B1 (en) * 2001-01-22 2004-06-15 At&T Corp. Method and system for predicting understanding errors in a task classification system
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011013755B4 (en) * 2010-12-31 2021-07-08 Volkswagen Aktiengesellschaft Method and device for alphanumeric voice input in motor vehicles

Also Published As

Publication number Publication date
WO2009140780A1 (en) 2009-11-26

Similar Documents

Publication Publication Date Title
DE10042944C2 (en) Grapheme-phoneme conversion
DE2953262C2 (en)
EP1927980B1 (en) Method for classifying spoken language in spoken dialogue systems
EP1892700A1 (en) Method for speech recognition and speech reproduction
EP1264301B1 (en) Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system
EP3430615B1 (en) Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input
DE112015003382T5 (en) Speech recognition device and speech recognition method
DE102014107028B4 (en) Improved biometric password security
EP0633559B1 (en) Method and device for speech recognition
EP1456837B1 (en) Method and device for voice recognition
EP1058235A2 (en) Reproduction method for voice controlled systems with text based speech synthesis
EP1282897A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
DE102010040553A1 (en) Speech recognition method
DE112010005706B4 (en) Voice recognition device
DE102008024974A1 (en) A method for conveying a confidence to a user of an automatic speech dialogue system
DE2021126A1 (en) Speech recognition device
DE102008024257A1 (en) Speaker identification method for use during speech recognition in infotainment system in car, involves assigning user model to associated entry, extracting characteristics from linguistic expression of user and selecting one entry
EP0834859B1 (en) Method for determining an acoustic model for a word
EP1457966A1 (en) Method for determining the risk of confusability of vocabulary entries for phoneme-based speech recognition
DE102006045719B4 (en) Medical system with a voice input device
DE102020119980B3 (en) Language assistance system, method and computer program for language-based support
EP1184838A2 (en) Phonetic transcription for speech synthesis
DE1547002A1 (en) Apparatus responsive to spoken information, particularly a phonetic typewriter
EP1659572A1 (en) Dialogue control method and system operating according thereto
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee