DE102014109122A1 - Systems and methods for result-based arbitration in speech dialogue systems - Google Patents
Systems and methods for result-based arbitration in speech dialogue systems Download PDFInfo
- Publication number
- DE102014109122A1 DE102014109122A1 DE102014109122.1A DE102014109122A DE102014109122A1 DE 102014109122 A1 DE102014109122 A1 DE 102014109122A1 DE 102014109122 A DE102014109122 A DE 102014109122A DE 102014109122 A1 DE102014109122 A1 DE 102014109122A1
- Authority
- DE
- Germany
- Prior art keywords
- recognition results
- confidence level
- results
- utterance
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004904 shortening Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen, das ein Empfangen einer Sprachäußerung von einem Nutzer innerhalb einer Umgebung einschließt; Empfangen erster Erkennungsergebnisse und eines ersten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle; Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle; Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist; Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.A method for arbitrating speech dialog results that includes receiving a utterance from a user within an environment; Receiving first recognition results and a first confidence level associated with the utterance from a first source; Receiving second recognition results and a second confidence level associated with the utterance from a second source; Receiving human-machine interface (HMI) information associated with the user; Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information.
Description
Querverweis auf verwandte AnmeldungenCross-reference to related applications
Diese Anmeldung beansprucht die Priorität der U. S. Provisional-Patent-Application No. 61/845,798, die am 12. Juli 2013 eingereicht wurde, deren Inhalte durch Bezugnahme hierin aufgenommen sind.This application claims the benefit of U.S. Provisional Patent Application no. No. 61 / 845,798, filed Jul. 12, 2013, the contents of which are incorporated herein by reference.
Technisches GebietTechnical area
Das technische Gebiet bezieht sich im Allgemeinen auf Sprachsysteme und insbesondere bezieht es sich auf Verfahren und Systeme zum Auswählen zwischen verfügbaren Spracherkennungsergebnissen.The technical field generally relates to speech systems, and more particularly relates to methods and systems for selecting between available speech recognition results.
Hintergrundbackground
Fahrzeugsysteme für Sprachdialoge (oder ”Sprachsysteme”) führen unter anderem eine Spracherkennung durch, die auf einer Sprache basiert, welche durch Besitzer eines Fahrzeugs geäußert werden. Die Sprachäußerungsweisen schließen typischerweise Kommandos ein, die mit einem oder mehreren Merkmalen des Fahrzeugs sowie andere(n) Systeme(n), die durch das Fahrzeug zugänglich sind, kommunizieren oder diese steuern. Ein Sprachsystem erzeugt Sprachbefehle in Reaktion auf die Sprachäußerung, und in einigen Fällen werden Sprachbefehle in Reaktion auf die Spracherkennung erzeugt, die weitere Informationen benötigt, um die Spracherkennung durchzuführen.Vehicle systems for voice dialogues (or "voice systems") perform inter alia speech recognition based on a language voiced by owners of a vehicle. The utterances typically include commands that communicate with or control one or more features of the vehicle as well as other system (s) accessible by the vehicle. A voice system generates voice commands in response to the utterance, and in some cases, voice commands are generated in response to the voice recognition requiring further information to perform the voice recognition.
Zunehmend kann eine Spracherkennungsfunktionalität durch multiple Geräte innerhalb der Umgebung des Nutzers sowie auch extern verfügbare Server zur Verfügung gestellt werden. Im Kontext eines Fahrzeugsystems für Sprachdialoge ist es zum Beispiel nicht ungewöhnlich, dass Spracherkennungsergebnisse simultan von dem mobilen Gerät des Nutzers (über eine oder mehrere Applikationen, die auf dem mobilen Gerät vorhanden sind), von dem Sprachsystem an Bord des Fahrzeugs und von externen Servern Dritter (welche über ein Netzwerk mit dem an Bord befindlichen Kommunikationsnetzwerk gekoppelt sind) verfügbar sind. Weiterhin kann die Zeit, die notwendig ist, damit die Systeme Spracherkennungsergebnisse erzeugen, sowie der Konfidenzwert bzw. Vertrauenslevel, der mit derartigen Ergebnissen assoziiert ist, stark variieren.Increasingly, voice recognition functionality can be provided by multiple devices within the user's environment as well as externally available servers. For example, in the context of a speech system vehicle system, it is not uncommon for speech recognition results to be simultaneous from the user's mobile device (via one or more applications residing on the mobile device), from the on-vehicle voice system, and from external third-party servers (which are coupled via a network to the on-board communication network) are available. Furthermore, the time required for the systems to generate speech recognition results, as well as the confidence level associated with such results, can vary widely.
Demgemäß ist es wünschenswert, verbesserte Verfahren und Systeme für das Auswählen oder ”Arbitrieren” von Spracherkennungsergebnissen in einem Sprachsystem bereitzustellen. Überdies werden andere wünschenswerte Merkmale und Kennzeichen der vorliegenden Erfindung durch die nachfolgende detaillierte Beschreibung und die anhängenden Ansprüche in Verbindung mit den begleitenden Zeichnungen und dem vorhergehenden technischen Gebiet und dem Hintergrund verständlich.Accordingly, it is desirable to provide improved methods and systems for selecting or "arbitrating" speech recognition results in a speech system. Moreover, other desirable features and characteristics of the present invention will be understood from the ensuing detailed description and the appended claims, taken in conjunction with the accompanying drawings and the foregoing technical field and background.
Beschreibung der ZeichnungenDescription of the drawings
Die beispielhaften Ausführungsformen werden hiernach in Zusammenhang mit den nachfolgenden Zeichnungsfiguren beschrieben, wobei gleiche Nummern gleiche Elemente bezeichnen, und wobei:The exemplary embodiments will hereinafter be described in conjunction with the following drawing figures, wherein like numerals denote like elements, and wherein:
Kurze ZusammenfassungShort Summary
Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen gemäß einer Ausführungsform umfasst ein Empfangen einer Sprachäußerung von einem Nutzer innerhalb einer Umgebung; Empfangen erster Erkennungsergebnisse und eines ersten Konfidenzwertes bzw. Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle; Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle; Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist; Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.A method for arbitrating speech dialog results according to an embodiment comprises receiving a speech utterance from a user within an environment; Receiving first recognition results and a first confidence value associated with the utterance from a first source; Receiving second recognition results and a second confidence level associated with the utterance from a second source; Receiving human-machine interface (HMI) information associated with the user; Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information.
Ein System für ein Arbitrieren von Sprachdialogergebnissen in einem Fahrzeug gemäß einer Ausführungsform umfasst ein semantisches Interpretationsmodul, ein Shortcut- bzw. Verkürzungsmodul und ein Ergebnisauswahlmodul. Das semantische Interpretationsmodul ist konfiguriert, um eine Sprachäußerung von einem Nutzer innerhalb der Umgebung zu empfangen, um erste Erkennungsergebnisse und einen ersten Konfidenzwert bzw. Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer ersten Quelle zu empfangen und um zweite Erkennungsergebnisse und einen zweiten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer zweiten Quelle zu empfangen. Das Verkürzungsmodul ist konfiguriert, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel über einem Schwellenwert liegt. Das Ergebnisauswahlmodul ist konfiguriert, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel und der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt.A system for arbitrating speech dialog results in a vehicle according to an embodiment includes a semantic interpretation module, a shortcut module and a result selection module. The semantic interpretation module is configured to receive a voice utterance from a user within the environment to receive first recognition results and a first confidence level associated with the utterance from a first source, and second recognition results and a second confidence level that is associated with the utterance, to receive from a second source. The truncation module is configured to select the first recognition results when the first confidence level is above a threshold. The The result selection module is configured to select the first recognition results if the first confidence level is greater than the second confidence level and the first confidence level is not above the threshold.
Detaillierte BeschreibungDetailed description
Die nachfolgende detaillierte Beschreibung ist in ihrer Art nur beispielhaft und es ist nicht beabsichtigt, die Applikation oder den Gebrauch zu limitieren. Ferner besteht keine Absicht, durch irgendeine ausgedrückte oder verwendete Theorie, die in dem vorhergehenden technischen Gebiet, dem Hintergrund, der kurzen Zusammenfassung oder der nachfolgenden detaillierten Beschreibung präsentiert wird, gebunden zu sein. Der hierin verwendete Ausdruck ”Modul” bezieht sich auf eine anwendungsspezifische integrierte Schaltung (ASIC, application specific integrated circuit), einen elektronischen Schaltkreis, einen Prozessor (anteilig, speziell zur Verfügung gestellt, oder als Gruppe) und einen Speicher, der eine oder mehrere Software- oder Firmware-Programme durchführt, eine kombinierte logische Schaltung und/oder andere geeignete Komponenten, welche die beschriebene Funktionalität bereitstellen.The following detailed description is merely exemplary in nature and is not intended to limit the application or use. Furthermore, there is no intention to be bound by any expressed or used theory presented in the preceding technical field, background, brief summary or the following detailed description. The term "module" as used herein refers to an application specific integrated circuit (ASIC), an electronic circuit, a processor (proportionate, specially provided, or as a group), and a memory containing one or more software or firmware programs, a combined logic circuit and / or other suitable components that provide the described functionality.
Nun auf
Ein oder mehrere mobile Geräte
Das Sprachsystem
Wie dargestellt, umfasst das Sprachsystem
Das Sprachverständnismodul
Das Dialogmanagermodul
Das Spracherzeugungsmodul
Die Ergebnisliste
Zusätzlich zu einem gesprochenen Dialog könnten die Nutzer
Bezugnehmend nun auf
In der gezeigten Ausführungsform umfasst das System
Das Ereignis-Zeitgebermodul
Das semantische Interpretationsmodul
Das Shortcut- bzw. Verkürzungsmodul
Wenn beim Schritt
Das Ausgabemodul
Gemäß einer Ausführungsform werden historische Daten in Bezug auf den Betrieb des Systems
Während wenigstens eine beispielhafte Ausführungsform in der vorhergehenden detaillierten Beschreibung präsentiert wurde, sollte es erwähnt sein, dass eine beträchtliche Anzahl von Variationen existiert. Es sollte auch erwähnt sein, dass die beispielhafte Ausführungsform oder die beispielhaften Ausführungsformen nur Beispiele sind, und es nicht beabsichtigt ist, den Umfang, die Anwendbarkeit oder die Konfiguration der Offenbarung in irgendeiner Weise zu begrenzen. Vielmehr wird die vorhergehende detaillierte Beschreibung dem Fachmann der Technik einen geeigneten Plan zum Ausführen der beispielhaften Ausführungsform oder den beispielhaften Ausführungsformen bereitstellen. Es sollte klar sein, dass unterschiedliche Änderungen in der Funktion und der Anordnung der Elemente durchgeführt werden können, ohne von dem Umfang der Offenbarung, wie er in den anhängenden Ansprüchen und den gesetzlichen Äquivalenten davon festgelegt ist, abzuweichen.While at least one exemplary embodiment has been presented in the foregoing detailed description, it should be noted that a considerable number of variations exist. It should also be noted that the exemplary embodiment or exemplary embodiments are only examples, and it is not intended to in any way limit the scope, applicability, or configuration of the disclosure. Rather, the foregoing detailed description will enable one skilled in the art to devise a suitable plan for carrying out the art exemplary embodiment or exemplary embodiments. It should be understood that various changes in the function and arrangement of the elements may be made without departing from the scope of the disclosure as defined in the appended claims and the legal equivalents thereof.
Beispiele:Examples:
Beispiel 1. Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen, wobei das Verfahren umfasst:
Empfangen einer Sprachäußerung von einem Nutzer innerhalb der Umgebung;
Empfangen erster Erkennungsergebnisse und eines ersten Vertrauenslevels bzw. Konfidenzwertes, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle;
Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle;
Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist;
Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.Example 1. A method for arbitrating speech dialog results, the method comprising:
Receiving a voice utterance from a user within the environment;
Receiving first recognition results and a first confidence level associated with the utterance from a first source;
Receiving second recognition results and a second confidence level associated with the utterance from a second source;
Receiving human-machine interface (HMI) information associated with the user;
Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information.
Beispiel 2. Das Verfahren von Beispiel 1, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen der ersten Erkennungsergebnisse einschließt, wenn der erste Vertrauenslevel oberhalb eines Schwellenwerts liegt.Example 2. The method of Example 1, wherein selecting between the first recognition results and the second recognition results includes selecting the first recognition results when the first confidence level is above a threshold.
Beispiel 3. Das Verfahren von einem der Beispiele 1–2, weiterhin umfassend ein Auswählen der ersten Erkennungsergebnisse, wenn der erste Vertrauenslevel nicht über dem Schwellenwert liegt und der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel.Example 3. The method of any of Examples 1-2, further comprising selecting the first recognition results if the first confidence level is not above the threshold and the first confidence level is greater than the second confidence level.
Beispiel 4. Das Verfahren von einem der Beispiele 1–3, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.Example 4. The method of any of Examples 1-3, wherein at least a portion of the first recognition results are predetermined recognition results.
Beispiel 5. Das Verfahren von einem der Beispiele 1–4, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit entsprechenden Ausschnitttypen assoziiert sind.Example 5. The method of any one of Examples 1-4, wherein each of the first recognition results includes one or more linguistic slots associated with corresponding clipping types.
Beispiel 6. Das Verfahren von Beispiel 5, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.Example 6. The method of Example 5, wherein the linguistic pane types include a proper name and / or an address.
Beispiel 7. Das Verfahren von einem der Beispiele 1–6, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen einschließt, das auf einem Hidden Markov Modell basiert.Example 7. The method of any of Examples 1-6, wherein selecting between the first recognition results and the second recognition results includes selecting based on a Hidden Markov Model.
Beispiel 8. Ein System für ein Arbitrieren von Sprachdialogergebnissen in einem Fahrzeug, wobei das System umfasst:
ein semantisches Interpretationsmodul, das konfiguriert ist, um eine Sprachäußerung von einem Nutzer innerhalb der Umgebung zu empfangen, um erste Erkennungsergebnisse und einen ersten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer ersten Quelle zu empfangen und um zweite Erkennungsergebnisse und einen zweiten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer zweiten Quelle zu empfangen;
ein Shortcut- bzw. Verkürzungsmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel über einem Schwellenwert liegt; und
ein Ergebnisauswahlmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel und der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt.Example 8. A system for arbitrating speech dialog results in a vehicle, the system comprising:
a semantic interpretation module configured to receive a voice utterance from a user within the environment to receive first recognition results and a first level of confidence associated with the utterance from a first source, and second recognition results and a second confidence level; associated with the utterance to receive from a second source;
a shortcut module configured to select the first recognition results when the first confidence level is above a threshold; and
a result selection module configured to select the first recognition results when the first confidence level is greater than the second confidence level and the first confidence level is not above the threshold value.
Beispiel 9. Das System von Beispiel 8, wobei das Ergebnisauswahlmodul konfiguriert ist, um eine HMI-Zustandsinformation zu empfangen, und weiter konfiguriert ist, um die ersten Erkennungsergebnisse teilweise basierend auf der HMI-Zustandsinformation auszuwählen.Example 9. The system of Example 8, wherein the result selection module is configured to receive HMI state information and further configured to select the first recognition results based in part on the HMI state information.
Beispiel 10. Das System von einem der Beispiele 1–9, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.Example 10. The system of any one of Examples 1-9, wherein at least a portion of the first recognition results are predetermined recognition results.
Beispiel 11. Das System von einem der Beispiele 8–10, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit entsprechenden Ausschnitttypen korrespondieren.Example 11. The system of any of Examples 8-10, wherein each of the first recognition results includes one or more linguistic slots corresponding to corresponding clipping types.
Beispiel 12. Das System von Beispiel 11, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.Example 12. The system of Example 11, wherein the linguistic pane types include a proper name and / or an address.
Beispiel 13. Das System von einem der Beispiele 8–12, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen einschließt, das auf einem Hidden Markov Modell basiert.Example 13. The system of any one of Examples 8-12, wherein selecting between the first recognition results and the second recognition results includes selecting based on a Hidden Markov Model.
Beispiel 14. Das System von einem der Beispiele 8–13, weiterhin umfassend ein Ereignis-Zeitgebermodul, das konfiguriert ist, um eine erste Zeit festzulegen, die damit assoziiert ist, wann die ersten Erkennungsergebnisse empfangen wurden, um eine zweite Zeit festzulegen, die damit assoziiert ist, wann die zweiten Erkennungsergebnisse empfangen wurden, wobei das Ergebnisauswahlmodul weiterhin konfiguriert ist, um die ersten Erkennungsergebnisse teilweise basierend auf der ersten Zeit und der zweiten Zeit auszuwählen.Example 14. The system of any one of Examples 8-13, further comprising an event timer module configured to set a first time associated with when the first recognition results were received to establish a second time associated therewith when the second recognition results have been received, wherein the result selection module is further configured to select the first recognition results based in part on the first time and the second time.
Beispiel 15. Das System von einem der Beispiele 8–14, weiterhin umfassend ein Ausgabemodul, das konfiguriert ist, um dem Nutzer die ausgewählten ersten Erkennungsergebnisse bereitzustellen und dem Ereignis-Zeitgebermodul ein Rücksetzsignal bereitzustellen.Example 15. The system of any one of Examples 8-14, further comprising an output module configured to provide the user with the selected first recognition results and to provide the event timer module with a reset signal.
Beispiel 16. Ein nicht-transistorisches computerlesbares Medium trägt Softwareinstruktionen, die konfiguriert sind, um einen Prozessor zu veranlassen, Sprachdialogergebnisse zu arbitrieren bzw. zu vermitteln durch Ausführen der Schritte:
Empfangen einer Sprachäußerung von einem Nutzer innerhalb der Umgebung;
Empfangen erster Erkennungsergebnisse und eines ersten Konfidenzwertes bzw. Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle;
Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind; von einer zweiten Quelle;
Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist;
Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.Example 16. A non-transitory computer-readable medium carries software instructions configured to cause a processor to arbitrate speech dialog results by performing the steps of:
Receiving a voice utterance from a user within the environment;
Receiving first recognition results and a first confidence value associated with the utterance from a first source;
Receiving second recognition results and a second confidence level associated with the utterance; from a second source;
Receiving human-machine interface (HMI) information associated with the user;
Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information.
Beispiel 17. Computer-lesbares Medium von Beispiel 16, wobei die Softwareinstruktionen weiterhin den Prozessor veranlassen, zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen zu wählen durch Auswählen der ersten Erkennungsergebnisse, wenn der erste Vertrauenslevel oberhalb eines Schwellenwerts liegt.Example 17. The computer-readable medium of Example 16, wherein the software instructions further cause the processor to choose between the first recognition results and the second recognition results by selecting the first recognition results if the first confidence level is above a threshold.
Beispiel 18. Das computerlesbare Medium von einem der Beispiele 16–17, wobei die Softwareinstruktionen weiterhin den Prozessor veranlassen, die ersten Erkennungsergebnisse zu wählen, wenn der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt und der erste Vertrauenslevel größer als der zweite Vertrauenslevel ist.Example 18. The computer-readable medium of any one of Examples 16-17, wherein the software instructions further cause the processor to select the first recognition results if the first confidence level is not above the threshold and the first confidence level is greater than the second confidence level.
Beispiel 19. Das computerlesbare Medium von einem der Beispiele 16–18, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit korrespondierenden Ausschnitttypen assoziiert sind.Example 19. The computer-readable medium of any one of Examples 16-18, wherein each of the first recognition results includes one or more linguistic slots associated with corresponding clipping types.
Beispiel 20. Das computerlesbare Medium von Beispiel 19, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.Example 20. The computer readable medium of Example 19, wherein the linguistic clipping types include a proper name and / or an address.
Claims (10)
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361845798P | 2013-07-12 | 2013-07-12 | |
US61/845,798 | 2013-07-12 | ||
US14/311,750 | 2014-06-23 | ||
US14/311,750 US9715878B2 (en) | 2013-07-12 | 2014-06-23 | Systems and methods for result arbitration in spoken dialog systems |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102014109122A1 true DE102014109122A1 (en) | 2015-01-15 |
Family
ID=52107469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102014109122.1A Withdrawn DE102014109122A1 (en) | 2013-07-12 | 2014-06-30 | Systems and methods for result-based arbitration in speech dialogue systems |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104282305B (en) |
DE (1) | DE102014109122A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270093A (en) * | 2020-01-29 | 2021-08-17 | 丰田自动车株式会社 | Proxy device, proxy system, and non-transitory recording medium |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10679620B2 (en) * | 2018-03-06 | 2020-06-09 | GM Global Technology Operations LLC | Speech recognition arbitration logic |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN110737420B (en) * | 2018-07-19 | 2023-04-28 | 博泰车联网科技(上海)股份有限公司 | Voice conflict management method, system, computer readable storage medium and device |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
CN109949817B (en) * | 2019-02-19 | 2020-10-23 | 一汽-大众汽车有限公司 | Voice arbitration method and device based on dual-operating-system dual-voice recognition engine |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5566272A (en) * | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
FI116991B (en) * | 1999-01-18 | 2006-04-28 | Nokia Corp | A method for speech recognition, a speech recognition device and a voice controlled wireless message |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
DE10339973A1 (en) * | 2003-08-29 | 2005-03-17 | Daimlerchrysler Ag | Intelligent acoustic microphone frontend with voice recognition feedback |
JP4680714B2 (en) * | 2005-08-03 | 2011-05-11 | パナソニック株式会社 | Speech recognition apparatus and speech recognition method |
EP1750253B1 (en) * | 2005-08-04 | 2012-03-21 | Nuance Communications, Inc. | Speech dialog system |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US8515762B2 (en) * | 2009-01-22 | 2013-08-20 | Microsoft Corporation | Markup language-based selection and utilization of recognizers for utterance processing |
JP2011107603A (en) * | 2009-11-20 | 2011-06-02 | Sony Corp | Speech recognition device, speech recognition method and program |
CN102439660A (en) * | 2010-06-29 | 2012-05-02 | 株式会社东芝 | Voice-tag method and apparatus based on confidence score |
CN102543071B (en) * | 2011-12-16 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | Voice recognition system and method used for mobile equipment |
CN103177721B (en) * | 2011-12-26 | 2015-08-19 | 中国电信股份有限公司 | Audio recognition method and system |
-
2014
- 2014-06-30 DE DE102014109122.1A patent/DE102014109122A1/en not_active Withdrawn
- 2014-07-11 CN CN201410329815.4A patent/CN104282305B/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270093A (en) * | 2020-01-29 | 2021-08-17 | 丰田自动车株式会社 | Proxy device, proxy system, and non-transitory recording medium |
Also Published As
Publication number | Publication date |
---|---|
CN104282305A (en) | 2015-01-14 |
CN104282305B (en) | 2018-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102014109122A1 (en) | Systems and methods for result-based arbitration in speech dialogue systems | |
DE102014109121B4 (en) | Systems and methods for arbitration of a speech dialog service | |
DE102013222507B4 (en) | Method for adapting a speech system | |
DE102019119171A1 (en) | VOICE RECOGNITION FOR VEHICLE VOICE COMMANDS | |
DE102014114604B4 (en) | Method and device for processing multiple audio streams in an on-board computer system of a vehicle | |
DE102019105269B4 (en) | METHOD OF SPEECH RECOGNITION USING SPEECH RECOGNITION ARBITRATION LOGIC | |
DE102013223036B4 (en) | Adaptation methods for language systems | |
DE112017004374T5 (en) | System and method for speech recognition | |
DE102015203372A1 (en) | DEFINITION OF DYNAMIC COMMANDS | |
DE102014203540A1 (en) | SYSTEMS AND METHOD FOR CONTROLLING DIALOGUE CONTEXT IN LANGUAGE SYSTEMS | |
DE102014201676B4 (en) | Methods for controlling the dialogue of speech systems | |
DE102015106280B4 (en) | Systems and methods for compensating for speech artifacts in speech recognition systems | |
DE102018128006A1 (en) | NATURAL LANGUAGE GENERATION BASED ON THE USER LANGUAGE STYLE | |
DE102016125812A1 (en) | Learn pronunciations of a personalized entity | |
DE102015109379A1 (en) | Systems and methods for a navigation system that uses a search with dictation and partial match | |
DE102018108947A1 (en) | Apparatus for correcting an utterance error of a user and method thereof | |
DE102019105251A1 (en) | DIALECT AND LANGUAGE RECOGNITION FOR LANGUAGE RECOGNITION IN VEHICLES | |
DE102013222757A1 (en) | Adaptation methods and systems for speech systems | |
EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
DE102017205261A1 (en) | VEHICLE-RELIABLE LANGUAGE IDENTIFICATION SYSTEMS AND METHODS | |
US9715878B2 (en) | Systems and methods for result arbitration in spoken dialog systems | |
EP3735688B1 (en) | Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing | |
DE102018132160A1 (en) | SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS | |
DE112015003357T5 (en) | Method and system for recognizing a voice prompt containing a word sequence | |
WO2021144155A1 (en) | Method, computer program, and apparatus for processing a user input |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R082 | Change of representative |
Representative=s name: SCHWEIGER & PARTNER, DE Representative=s name: SCHWEIGER & PARTNERS, DE |
|
R016 | Response to examination communication | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |