DE102014109122A1 - Systems and methods for result-based arbitration in speech dialogue systems - Google Patents

Systems and methods for result-based arbitration in speech dialogue systems Download PDF

Info

Publication number
DE102014109122A1
DE102014109122A1 DE102014109122.1A DE102014109122A DE102014109122A1 DE 102014109122 A1 DE102014109122 A1 DE 102014109122A1 DE 102014109122 A DE102014109122 A DE 102014109122A DE 102014109122 A1 DE102014109122 A1 DE 102014109122A1
Authority
DE
Germany
Prior art keywords
recognition results
confidence level
results
utterance
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102014109122.1A
Other languages
German (de)
Inventor
Robert Sims
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/311,750 external-priority patent/US9715878B2/en
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102014109122A1 publication Critical patent/DE102014109122A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen, das ein Empfangen einer Sprachäußerung von einem Nutzer innerhalb einer Umgebung einschließt; Empfangen erster Erkennungsergebnisse und eines ersten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle; Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle; Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist; Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.A method for arbitrating speech dialog results that includes receiving a utterance from a user within an environment; Receiving first recognition results and a first confidence level associated with the utterance from a first source; Receiving second recognition results and a second confidence level associated with the utterance from a second source; Receiving human-machine interface (HMI) information associated with the user; Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information.

Description

Querverweis auf verwandte AnmeldungenCross-reference to related applications

Diese Anmeldung beansprucht die Priorität der U. S. Provisional-Patent-Application No. 61/845,798, die am 12. Juli 2013 eingereicht wurde, deren Inhalte durch Bezugnahme hierin aufgenommen sind.This application claims the benefit of U.S. Provisional Patent Application no. No. 61 / 845,798, filed Jul. 12, 2013, the contents of which are incorporated herein by reference.

Technisches GebietTechnical area

Das technische Gebiet bezieht sich im Allgemeinen auf Sprachsysteme und insbesondere bezieht es sich auf Verfahren und Systeme zum Auswählen zwischen verfügbaren Spracherkennungsergebnissen.The technical field generally relates to speech systems, and more particularly relates to methods and systems for selecting between available speech recognition results.

Hintergrundbackground

Fahrzeugsysteme für Sprachdialoge (oder ”Sprachsysteme”) führen unter anderem eine Spracherkennung durch, die auf einer Sprache basiert, welche durch Besitzer eines Fahrzeugs geäußert werden. Die Sprachäußerungsweisen schließen typischerweise Kommandos ein, die mit einem oder mehreren Merkmalen des Fahrzeugs sowie andere(n) Systeme(n), die durch das Fahrzeug zugänglich sind, kommunizieren oder diese steuern. Ein Sprachsystem erzeugt Sprachbefehle in Reaktion auf die Sprachäußerung, und in einigen Fällen werden Sprachbefehle in Reaktion auf die Spracherkennung erzeugt, die weitere Informationen benötigt, um die Spracherkennung durchzuführen.Vehicle systems for voice dialogues (or "voice systems") perform inter alia speech recognition based on a language voiced by owners of a vehicle. The utterances typically include commands that communicate with or control one or more features of the vehicle as well as other system (s) accessible by the vehicle. A voice system generates voice commands in response to the utterance, and in some cases, voice commands are generated in response to the voice recognition requiring further information to perform the voice recognition.

Zunehmend kann eine Spracherkennungsfunktionalität durch multiple Geräte innerhalb der Umgebung des Nutzers sowie auch extern verfügbare Server zur Verfügung gestellt werden. Im Kontext eines Fahrzeugsystems für Sprachdialoge ist es zum Beispiel nicht ungewöhnlich, dass Spracherkennungsergebnisse simultan von dem mobilen Gerät des Nutzers (über eine oder mehrere Applikationen, die auf dem mobilen Gerät vorhanden sind), von dem Sprachsystem an Bord des Fahrzeugs und von externen Servern Dritter (welche über ein Netzwerk mit dem an Bord befindlichen Kommunikationsnetzwerk gekoppelt sind) verfügbar sind. Weiterhin kann die Zeit, die notwendig ist, damit die Systeme Spracherkennungsergebnisse erzeugen, sowie der Konfidenzwert bzw. Vertrauenslevel, der mit derartigen Ergebnissen assoziiert ist, stark variieren.Increasingly, voice recognition functionality can be provided by multiple devices within the user's environment as well as externally available servers. For example, in the context of a speech system vehicle system, it is not uncommon for speech recognition results to be simultaneous from the user's mobile device (via one or more applications residing on the mobile device), from the on-vehicle voice system, and from external third-party servers (which are coupled via a network to the on-board communication network) are available. Furthermore, the time required for the systems to generate speech recognition results, as well as the confidence level associated with such results, can vary widely.

Demgemäß ist es wünschenswert, verbesserte Verfahren und Systeme für das Auswählen oder ”Arbitrieren” von Spracherkennungsergebnissen in einem Sprachsystem bereitzustellen. Überdies werden andere wünschenswerte Merkmale und Kennzeichen der vorliegenden Erfindung durch die nachfolgende detaillierte Beschreibung und die anhängenden Ansprüche in Verbindung mit den begleitenden Zeichnungen und dem vorhergehenden technischen Gebiet und dem Hintergrund verständlich.Accordingly, it is desirable to provide improved methods and systems for selecting or "arbitrating" speech recognition results in a speech system. Moreover, other desirable features and characteristics of the present invention will be understood from the ensuing detailed description and the appended claims, taken in conjunction with the accompanying drawings and the foregoing technical field and background.

Beschreibung der ZeichnungenDescription of the drawings

Die beispielhaften Ausführungsformen werden hiernach in Zusammenhang mit den nachfolgenden Zeichnungsfiguren beschrieben, wobei gleiche Nummern gleiche Elemente bezeichnen, und wobei:The exemplary embodiments will hereinafter be described in conjunction with the following drawing figures, wherein like numerals denote like elements, and wherein:

1 ein funktionelles Blockdiagramm eines Fahrzeugs ist, das ein Sprachsystem gemäß unterschiedlicher beispielhafter Ausführungsformen einschließt; 1 FIG. 4 is a functional block diagram of a vehicle incorporating a voice system according to various exemplary embodiments; FIG.

2 ein Flussdiagramm ist, das ein Verfahren gemäß einer Ausführungsform zeigt; und 2 Fig. 10 is a flowchart showing a method according to an embodiment; and

3 ein funktionales Blockdiagramm ist, das ein Spracherkennungs-Arbitrierungssystem gemäß beispielhafter Ausführungsformen zeigt. 3 FIG. 3 is a functional block diagram showing a speech recognition arbitration system according to example embodiments. FIG.

Kurze ZusammenfassungShort Summary

Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen gemäß einer Ausführungsform umfasst ein Empfangen einer Sprachäußerung von einem Nutzer innerhalb einer Umgebung; Empfangen erster Erkennungsergebnisse und eines ersten Konfidenzwertes bzw. Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle; Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle; Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist; Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.A method for arbitrating speech dialog results according to an embodiment comprises receiving a speech utterance from a user within an environment; Receiving first recognition results and a first confidence value associated with the utterance from a first source; Receiving second recognition results and a second confidence level associated with the utterance from a second source; Receiving human-machine interface (HMI) information associated with the user; Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information.

Ein System für ein Arbitrieren von Sprachdialogergebnissen in einem Fahrzeug gemäß einer Ausführungsform umfasst ein semantisches Interpretationsmodul, ein Shortcut- bzw. Verkürzungsmodul und ein Ergebnisauswahlmodul. Das semantische Interpretationsmodul ist konfiguriert, um eine Sprachäußerung von einem Nutzer innerhalb der Umgebung zu empfangen, um erste Erkennungsergebnisse und einen ersten Konfidenzwert bzw. Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer ersten Quelle zu empfangen und um zweite Erkennungsergebnisse und einen zweiten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer zweiten Quelle zu empfangen. Das Verkürzungsmodul ist konfiguriert, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel über einem Schwellenwert liegt. Das Ergebnisauswahlmodul ist konfiguriert, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel und der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt.A system for arbitrating speech dialog results in a vehicle according to an embodiment includes a semantic interpretation module, a shortcut module and a result selection module. The semantic interpretation module is configured to receive a voice utterance from a user within the environment to receive first recognition results and a first confidence level associated with the utterance from a first source, and second recognition results and a second confidence level that is associated with the utterance, to receive from a second source. The truncation module is configured to select the first recognition results when the first confidence level is above a threshold. The The result selection module is configured to select the first recognition results if the first confidence level is greater than the second confidence level and the first confidence level is not above the threshold.

Detaillierte BeschreibungDetailed description

Die nachfolgende detaillierte Beschreibung ist in ihrer Art nur beispielhaft und es ist nicht beabsichtigt, die Applikation oder den Gebrauch zu limitieren. Ferner besteht keine Absicht, durch irgendeine ausgedrückte oder verwendete Theorie, die in dem vorhergehenden technischen Gebiet, dem Hintergrund, der kurzen Zusammenfassung oder der nachfolgenden detaillierten Beschreibung präsentiert wird, gebunden zu sein. Der hierin verwendete Ausdruck ”Modul” bezieht sich auf eine anwendungsspezifische integrierte Schaltung (ASIC, application specific integrated circuit), einen elektronischen Schaltkreis, einen Prozessor (anteilig, speziell zur Verfügung gestellt, oder als Gruppe) und einen Speicher, der eine oder mehrere Software- oder Firmware-Programme durchführt, eine kombinierte logische Schaltung und/oder andere geeignete Komponenten, welche die beschriebene Funktionalität bereitstellen.The following detailed description is merely exemplary in nature and is not intended to limit the application or use. Furthermore, there is no intention to be bound by any expressed or used theory presented in the preceding technical field, background, brief summary or the following detailed description. The term "module" as used herein refers to an application specific integrated circuit (ASIC), an electronic circuit, a processor (proportionate, specially provided, or as a group), and a memory containing one or more software or firmware programs, a combined logic circuit and / or other suitable components that provide the described functionality.

Nun auf 1 Bezug nehmend, wird gemäß den beispielhaften Ausführungsformen des hierin beschriebenen Gegenstandes ein Sprachdialogsystem (oder einfach ”Sprachsystem”) 10 innerhalb eines Fahrzeugs 12 bereitgestellt. Im Allgemeinen stellt ein Sprachsystem 10 eine Spracherkennung, ein Dialogmanagement und eine Spracherzeugung für ein oder mehrere Fahrzeugsysteme durch ein Mensch-Maschine-Schnittstellenmodul 14 (HMI, human machine interface) bereit, das konfiguriert ist, um durch einen oder mehrere Nutzer 40 (z. B. einen Fahrer, Beifahrer usw.) betrieben zu werden (oder in anderer Weise mit diesem in Wechselwirkung zu treten). Derartige Fahrzeugsysteme können zum Beispiel ein Telefonsystem 16, ein Navigationssystem 18, ein Mediasystem 20, ein Telematiksystem 22, ein Netzwerksystem 24 und irgendwelche anderen Fahrzeugsysteme einschließen, die eine sprachabhängige Applikation umfassen. In einigen Ausführungsformen sind ein oder mehrere der Fahrzeugsysteme kommunikativ über ein Netzwerk gekoppelt (z. B. ein proprietäres Netzwerk, ein 4G Netzwerk oder dergleichen), die eine Datenkommunikation mit einem oder mehreren Backendservern 26 bereitstellen.Now up 1 With reference to the exemplary embodiments of the subject matter described herein, a speech dialog system (or simply "speech system") is provided. 10 inside a vehicle 12 provided. Generally represents a language system 10 a speech recognition, a dialogue management and a speech production for one or more vehicle systems by a man-machine interface module 14 (HMI, human machine interface) ready to be configured by one or more users 40 (eg, a driver, passenger, etc.) to be operated (or otherwise interact with). Such vehicle systems may be, for example, a telephone system 16 , a navigation system 18 , a media system 20 , a telematics system 22 , a network system 24 and any other vehicle systems that include a language-dependent application. In some embodiments, one or more of the vehicle systems are communicatively coupled via a network (eg, a proprietary network, a 4G network, or the like) that communicates with one or more backend servers 26 provide.

Ein oder mehrere mobile Geräte 50 könnten auch innerhalb des Fahrzeugs 12 vorhanden sein, einschließlich unterschiedlicher Smartphones, Tabletcomputern, Ausstattungstelefonen (engl. feature phones) usw. Ein mobiles Gerät 50 kann auch kommunikativ mit der HMI 14 über eine geeignete drahtlose Verbindung gekoppelt sein (z. B. Bluetooth oder WiFi), so dass eine oder mehrere Applikationen, die auf dem mobilen Gerät 50 resident sind, für den Nutzer 40 über das HMI 14 zugänglich sind. Somit kann typischerweise ein Nutzer 40 einen Zugriff auf Applikationen haben, die auf drei unterschiedlichen Plattformen aktiv sind: Applikationen, die innerhalb des Fahrzeugsystems selbst ausgeführt werden, Applikationen, die auf einem mobilen Gerät 50 im Einsatz sind, und Applikationen, die auf einem Abschlussserver 26 residieren bzw. installiert sind. Weiterhin können ein oder mehrere dieser Applikationen gemäß ihrer eigenen jeweiligen Sprachdialogsysteme arbeiten, und somit kann eine Vielzahl von Geräten in der Lage sein, in unterschiedlichem Ausmaß auf die Anfrage, die von einem Nutzer 40 gesprochen wird, zu reagieren.One or more mobile devices 50 could also be inside the vehicle 12 including various smartphones, tablet computers, feature phones, etc. A mobile device 50 Can also be communicative with the HMI 14 be coupled via a suitable wireless connection (eg Bluetooth or WiFi), so that one or more applications running on the mobile device 50 resident, for the user 40 via the HMI 14 are accessible. Thus, typically a user 40 have access to applications running on three different platforms: applications running inside the vehicle system itself, applications running on a mobile device 50 in use, and applications that are on a final server 26 reside or are installed. Furthermore, one or more of these applications may operate in accordance with their own respective speech dialogue systems, and thus a variety of devices may be capable, to varying degrees, of the request made by a user 40 is spoken to respond.

Das Sprachsystem 10 kommuniziert mit den Fahrzeugsystemen 14, 16, 18, 20, 22, 24 und 26 über einen Kommunikations-Bus und/oder über ein anderes Datenkommunikationsnetzwerk 29 (z. B. drahtgebunden, nahbereichsdrahtlos oder fernbereichsdrahtlos). Der Kommunikations-Bus kann zum Beispiel ein CAN-Bus (CAN, controller area network), ein LIN-Bus (LIN, local interconnect network) oder dergleichen sein. Es ist sinnvoll, dass das Sprachsystem 10 in Verbindung sowohl mit fahrzeugbasierenden Umgebungen als auch mit nicht-fahrzeugbasierenden Umgebungen verwendet wird, welche eine oder mehrere sprachabhängige Applikationen aufweisen, und die hier vorgesehenen fahrzeugbasierenden Beispiele werden allgemeingültig dargelegt.The language system 10 communicates with the vehicle systems 14 . 16 . 18 . 20 . 22 . 24 and 26 via a communication bus and / or via another data communication network 29 (e.g., wired, near-wireless, or wide-area wireless). The communication bus may be, for example, a CAN bus (controller area network), a LIN bus (LIN, local interconnect network), or the like. It makes sense that the language system 10 is used in conjunction with both vehicle-based environments and non-vehicle-based environments having one or more language-dependent applications, and the vehicle-based examples provided herein are set forth generally.

Wie dargestellt, umfasst das Sprachsystem 10 ein Sprachverständnismodul 32, ein Dialogmanagermodul 34 und ein Spracherzeugungsmodul 35. Diese funktionalen Module können als separate Systeme oder als ein kombiniertes, integriertes System ausgeführt sein. Im Allgemeinen empfängt das HMI-Modul 14 ein akustisches Signal (oder eine ”Sprachäußerung”) 41 von einem Nutzer 40, welche dem Sprachverständnismodul 32 zur Verfügung gestellt wird.As shown, the language system includes 10 a language comprehension module 32 , a dialog manager module 34 and a speech production module 35 , These functional modules may be implemented as separate systems or as a combined, integrated system. In general, the HMI module receives 14 an acoustic signal (or an "utterance") 41 from a user 40 which the language comprehension module 32 is made available.

Das Sprachverständnismodul 32 umfasst jede Kombination der Hardware und/oder Software, die konfiguriert ist, um die Sprachäußerung vom HMI-Modul 14 (empfangen über ein oder mehrere Mikrofone 52) zu verarbeiten, und zwar unter Verwenden geeigneter Spracherkennungsverfahren, welche zum Beispiel automatische Spracherkennung und semantische Decodierung (oder Verständnis der gesprochen Sprache (SLU, spoken language understanding)) aufweisen. Unter Verwenden derartiger Techniken erzeugt das Sprachverständnismodul 32 eine Ergebnisliste (oder Listen) 33 möglicher Ergebnisse von der Sprachäußerung. In einer Ausführungsform umfasst die Ergebnisliste 33 einen oder mehrere Satzhypothesen, die eine Wahrscheinlichkeitsverteilung über den Satz der Äußerungen repräsentiert, welche durch den Nutzer 40 gesprochen sein könnten (nämlich die Äußerung 41). Die Liste 33 könnte zum Beispiel die Form einer N-Bestenliste annehmen. In unterschiedlichen Ausführungsformen erzeugt das Sprachverständnismodul 32 eine Liste der Ergebnisse (”Spracherkennungsergebnisse” oder einfach ”Ergebnisse”) 33 unter Verwenden vordefinierter Möglichkeiten, die in einem Datenspeicher gespeichert sind. Zum Beispiel könnten die vordefinierten Möglichkeiten Namen oder Nummern sein, die in einem Telefonbuch gespeichert sind, Namen oder Adressen sein, die in einem Adressbuch gespeichert sind, Namen von Liedern, Alben oder Künstlern sein, die in einem Musikverzeichnis gespeichert sind, usw. In einer Ausführungsform entwickelt das Sprachverständnismodul 32 eine Front-End-Merkmalsextraktion, auf die ein HMM-Modell (Hiden Markov Model) und ein Punktezählmechanismus folgt. Wie weiter unten im Detail beschrieben, kann das Sprachverständnismodul 32 zwischen einer Vielzahl von Spracherkennungsergebnissen arbitrieren, die von einer Vielzahl von Geräten und/oder Systemen empfangen werden, um die endgültige Ergebnisliste 33 zu erzeugen,The speech understanding module 32 includes any combination of hardware and / or software configured to handle the voice utterance from the HMI module 14 (received via one or more microphones 52 ), using appropriate speech recognition techniques, including, for example, automatic speech recognition and semantic decoding (or spoken language understanding (SLU)). Using such techniques, the speech understanding module generates 32 a result list (or lists) 33 possible results of the speech. In one embodiment, the result list includes 33 one or more sentence hypotheses representing a probability distribution over the set of utterances made by the user 40 spoken could be (namely the utterance 41 ). The list 33 For example, it could take the form of an N-leaderboard. In different embodiments, the speech understanding module generates 32 a list of results ("Speech Recognition Results" or simply "Results") 33 using predefined capabilities stored in a data store. For example, the predefined options could be names or numbers stored in a phonebook, names or addresses stored in an address book, names of songs, albums or artists stored in a music directory, etc. In one Embodiment develops the speech understanding module 32 a front-end feature extraction followed by an HMM (Hiden Markov Model) model and a score counting mechanism. As described in detail below, the speech understanding module 32 arbitrate between a plurality of speech recognition results received from a plurality of devices and / or systems to the final result list 33 to create,

Das Dialogmanagermodul 34 schließt jede Kombination von Hardware und/oder Software ein, die konfiguriert ist, um eine Interaktionssequenz und eine Auswahl der Sprachaufforderungen 42, die zu dem Nutzer zu sprechen sind, zu managen, basierend auf einer Liste 33. Wenn eine Liste mehr als ein mögliches Ergebnis enthält, verwendet das Dialogmanagermodul 34 Eindeutigkeitsstrategien, um einen Dialog von Aufforderungen mit dem Nutzer zu managen, so dass ein erkanntes Ergebnis bestimmt werden kann. Demgemäß ist in einer beispielhaften Ausführungsform das Dialogmanagermodul 34 in der Lage, Dialogkontexte zu managen, wie es weiter unten beschrieben wird.The dialog manager module 34 includes any combination of hardware and / or software configured to provide an interaction sequence and a selection of voice prompts 42 to manage to talk to the user based on a list 33 , If a list contains more than one possible result, use the Dialog Manager module 34 Uniqueness strategies to manage a dialogue of prompts with the user so that a recognized result can be determined. Accordingly, in an exemplary embodiment, the dialog manager module 34 able to manage dialogue contexts, as described below.

Das Spracherzeugungsmodul 35 umfasst jede Kombination von Hardware und/oder Software, die konfiguriert ist, um gesprochene Aufforderungen bzw. Sprachaufforderungen 42 an den Nutzer 40 zu erzeugen, und zwar basierend auf dem Dialog, der durch das Dialogmanagermodul 34 bestimmt ist. In dieser Beziehung wird das Spracherzeugungsmodul 35 im Allgemeinen eine natürliche Spracherzeugung (NLG, natural language generation) und eine Sprachsynthese oder eine Text-zu-Sprache (TTS, text-to-speech) bereitstellen.The speech generation module 35 includes any combination of hardware and / or software configured to voice prompts 42 to the user 40 based on the dialog created by the dialog manager module 34 is determined. In this regard, the speech production module becomes 35 generally provide natural language generation (NLG) and speech synthesis or text-to-speech (TTS).

Die Ergebnisliste 33 schließt ein oder mehrere Elemente ein, die ein mögliches Ergebnis repräsentieren. In unterschiedlichen Ausführungsformen umfasst jedes Element der Liste 33 einen oder mehrere ”Ausschnitte” bzw. ”Slots”, die jeweils mit einem linguistischen, von der Applikation abhängigen Slot- bzw. Ausschnitttyp assoziiert sind. Wenn zum Beispiel die Applikation das Telefonieren mit Telefonbuch-Kontakten unterstützt (z. B. ”Ruf John Doe an”), dann kann jedes Element Ausschnitte mit Ausschnitttypen eines Vornamens, eines Mittelnamens und/oder eines Familiennamens einschließen. Wenn in einem anderen Beispiel die Applikation die Navigation unterstützt (z. B. ”Fahre zu 1111 Sunshine Boulevard”), dann kann jedes Element Ausschnitte mit Ausschnitttypen einer Hausnummer und eines Straßennamens usw. einschließen. In unterschiedlichen Ausführungsformen können die Ausschnitte und die Ausschnitttypen in einem Datenspeicher gespeichert sein und von jedem der dargestellten Systeme kann auf sie zugegriffen werden. Jedes Element oder jeder Ausschnitt der Liste 33 ist mit eine Vertrauenslevel bzw. Konfidenzwert assoziiert.The result list 33 includes one or more elements that represent a possible outcome. In various embodiments, each item comprises the list 33 one or more "snippets" or "slots", each associated with a linguistic, application-dependent slot or snippet type. For example, if the application supports phoning with Phonebook contacts (eg, "Call John Doe An"), then each element may include snippets of clipping types of a first name, a middle name, and / or a family name. In another example, if the application supports navigation (eg, "Drive to 1111 Sunshine Boulevard"), then each item may include snippets with snippet types of a house number and a street name, and so on. In various embodiments, the clippings and clipping types may be stored in a data store and accessed by each of the illustrated systems. Each item or section of the list 33 is associated with a confidence level or confidence level.

Zusätzlich zu einem gesprochenen Dialog könnten die Nutzer 40 auch mit der HMI 14 über unterschiedliche Tasten, Schalter, Touchscreen-Nutzer-Schnittstellenelemente, Gesten (z. B. Handgesten, die durch eine oder mehrere Kameras, die innerhalb des Fahrzeugs 12 bereitgestellt sind) und dergleichen zusammenwirken. In einer Ausführungsform wird eine Taste 54 (z. B. eine ”Drücken-zum-Sprechen”-Taste oder einfach ”Sprechen-Taste”) bereitgestellt, die leicht von einem oder mehreren Nutzern 40 erreichbar ist. Die Taste 54 kann zum Beispiel in einem Lenkrad 56 eingebettet sein.In addition to a spoken dialogue, users could 40 also with the HMI 14 via different buttons, switches, touchscreen user interface elements, gestures (for example, hand gestures, by one or more cameras inside the vehicle 12 provided) and the like cooperate. In one embodiment, a key becomes 54 (For example, a "press-to-talk" button or simply a "talk button") provided by one or more users 40 is reachable. The key 54 can, for example, in a steering wheel 56 be embedded.

Bezugnehmend nun auf 3 wird ein Arbitrierungssystem 300 gemäß einer Ausführungsform nun in Verbindung mit einem beispielhaften Arbitrierungsverfahren 200 beschrieben, das in 2 gezeigt wird. In einigen Ausführungsformen wird ein System 300 als Teil eines Sprachverständnismoduls 32, das in 1 gezeigt wird, verwendet. In anderen Ausführungsformen befindet sich das System 300 in einem oder mehreren anderen Modulen, die in 1 gezeigt werden.Referring now to 3 becomes an arbitration system 300 according to one embodiment, now in conjunction with an example arbitration method 200 described in 2 will be shown. In some embodiments, a system becomes 300 as part of a speech understanding module 32 , this in 1 is shown used. In other embodiments, the system is located 300 in one or more other modules that are in 1 to be shown.

In der gezeigten Ausführungsform umfasst das System 300 ein Ereignis-Zeitgebermodul 308, ein semantisches Interpretationsmodul 310, ein Shortcut- bzw. Verkürzungsmodul 312, ein Ergebnisauswahlmodul 314, eine laufende bzw. aktuelle Mensch-Maschine-Schnittstelle-Zustandsinformation (HMI state information) 306 und ein Ausgabemodul 318. Das Ereignis-Zeitgebermodul 308 ist konfiguriert, um eine Vielzahl von Spracherkennungsergebnissen (oder einfach ”Ergebnisse”) 301305 zu akzeptieren (Schritt 202, 2). Die Spracherkennungsergebnisse 301305 können von vielen Quellen abgeleitet werden und/oder könnten mit Ergebnissen korrespondieren, die durch eine Vielzahl von Spracherkennungsverfahren erzeugt werden. Zum Beispiel könnten die Ergebnisse 301 Ergebnissen entsprechen, die durch eine Applikation eines statistischen Sprachmodells (SLM, statistical language model) erzeugt werden, während die Ergebnisse 302 mit Ergebnissen korrespondieren könnten, die durch eine Applikation einer finiten Statusgrammatik (FSG, finite state grammar) zu der gleichen Sprachäußerung erzeugt wurden. In ähnlicher Weise können die Ergebnisse 303 durch ein On-board- (oder ”eingebettetes”) Spracherkennungssystem erzeugt sein, wie ein Navigationssystem, während die Ergebnisse 305 durch einen externen Server (z. B. Server 26 in 1) erzeugt sein könnten.In the embodiment shown, the system comprises 300 an event timer module 308 , a semantic interpretation module 310 , a shortcut or shortening module 312 , a result selection module 314 , a current human machine interface state information (HMI state information) 306 and an output module 318 , The event timer module 308 is configured to receive a variety of speech recognition results (or simply "results") 301 - 305 to accept (step 202 . 2 ). The speech recognition results 301 - 305 may be derived from many sources and / or could correspond to results produced by a variety of speech recognition methods. For example, the results could be 301 Results generated by an application of a statistical language model (SLM) while the results 302 could correspond to results obtained by applying a finite status grammar (FSG, finite state grammar) were generated to the same utterance. Similarly, the results can be 303 be generated by an on-board (or "embedded") speech recognition system, such as a navigation system, while the results 305 through an external server (eg server 26 in 1 ) could be generated.

Das Ereignis-Zeitgebermodul 308 ist konfiguriert, um die unterschiedlichen Ergebnisse 301305 zu empfangen und die Zeit zu bestimmen, zu der jedes der Ergebnisse empfangen wurde (Schritt 204, 2). Das bedeutet zum Beispiel, dass die Ergebnisse 301 bei 200 Millisekunden (ms) nach einer bestimmten Zeit (z. B. der Zeit, in der eine Äußerung zur Interpretation übermittelt wurde) empfangen sein könnten, während die Ergebnisse 305 (von einem externen Server) 3,0 Sekunden nach der spezifizierten Zeit empfangen werden könnten.The event timer module 308 is configured to the different results 301 - 305 and to determine the time at which each of the results was received (step 204 . 2 ). That means, for example, that the results 301 at 200 milliseconds (ms) after a certain time (for example, the time at which an utterance was submitted for interpretation) could be received while the results 305 (from an external server) 3.0 seconds after the specified time could be received.

Das semantische Interpretationsmodul 310 ist konfiguriert, um die Ergebnisse 301305 zusammen mit den Zeitinformationen von dem Ereignis-Zeitgebermodul 308 zu empfangen, und ist konfiguriert, um geeignete Verfahren anzuwenden, um den Dialogkontext und/oder die unterschiedlichen ”Ausschnitte” bzw. ”Slots”, die auf die empfangenen Ergebnisse anwendbar sind, zu bestimmen, wie es oben (Schritt 206, 2) beschrieben ist. Das bedeutet, dass das semantische Interpretationsmodul 310 konfiguriert ist, um die semantische Bedeutung der empfangenen Ergebnisse zu bestimmen und auch den Vertrauenslevel für jede Interpretation festzulegen. Das semantische Interpretationsmodul 310 kann auch vorher interpretierte Ergebnisse von einer oder mehreren Quellen empfangen, z. B. Ergebnisse 305 von einem externen Server.The semantic interpretation module 310 is configured to see the results 301 - 305 along with the time information from the event timer module 308 and is configured to apply appropriate methods to determine the dialog context and / or the different "slots" applicable to the received results, as described above (step 206 . 2 ) is described. This means that the semantic interpretation module 310 is configured to determine the semantic meaning of the received results and also to set the confidence level for each interpretation. The semantic interpretation module 310 may also receive previously interpreted results from one or more sources, e.g. B. Results 305 from an external server.

Das Shortcut- bzw. Verkürzungsmodul 312 ist konfiguriert, um die interpretierten Ergebnisse von den unterschiedlichen Quellen zu empfangen und zu bestimmen (Schritt 208), ob eines der interpretierten Ergebnisse von ausreichend hohem Vertrauen ist (nämlich über einem vorbestimmten Schwellenwert). Wenn das so ist, wird das interpretierte Ergebnis direkt zum Ausgangsmodul 318 übertragen (Schritt 210), dadurch wird jede Verzögerung, die durch nachfolgende Prozessschritte eingeführt werden könnten, vermieden. Der vorbestimmte Schwellenwert kann variieren, was für den Fachmann der Technik verständlich ist, in Abhängigkeit von der Natur der Ergebnisse 301302 sowie dem semantischen Interpretationsmodul 310.The shortcut or shortening module 312 is configured to receive and determine the interpreted results from the different sources (step 208 ), whether one of the interpreted results is of sufficiently high confidence (above a predetermined threshold). If so, the interpreted result becomes the output module directly 318 transfer (step 210 ), thereby avoiding any delay that might be introduced by subsequent process steps. The predetermined threshold may vary, which will be understood by those skilled in the art, depending on the nature of the results 301 - 302 as well as the semantic interpretation module 310 ,

Wenn beim Schritt 208 bestimmt wird, dass keines der interpretierten Ergebnisse einen Vertrauenslevel über dem vorbestimmten Schwellenwert aufweist, dann wählt das Ergebnisauswahlmodul 314 zwischen den interpretierten Ergebnissen aus, und zwar basierend auf dem Vertrauenslevel, der mit jedem assoziiert ist, zusammen mit HMI-Zustandsinformation 306 (Schritt 211, 2). In diesem Zusammenhang umfasst die HMI-Zustandsinformation jede Information, die sich auf den gegenwärtigen Bearbeitungsmodus des HMI 14 der 1 bezieht. Eine derartige Information könnte zum Beispiel die gegenwärtige Bildschirmdarstellung auf einem Touchscreen, den Status von irgendwelchen Tasten (z. B. Sprachtasten) innerhalb der Umgebung, ob der Nutzer mit bestimmten Internethosts (z. B. Google Maps, Pandora usw.) zusammenwirkt, ob der Nutzer mit Medien zusammenwirkt, den gegenwärtigen Dialogstatus, den Inhalt dessen, was dem Nutzer angezeigt wird, Informationen, die den Zustand des Fahrzeugs betreffen (z. B. stationär oder bewegend) oder dergleichen umfassen. Die Verwendung der HMI-Statusinformation 306 ermöglicht dem Ergebnisauswahlmodus 314 eine intelligentere Auswahl zu treffen. Wenn zum Beispiel der Nutzer mit Google Maps auf einem externen Server zusammenwirkt, dann würde das Ergebnisauswahlmodul 314 typischerweise auf Ergebnisse 305, die empfangen werden sollen, warten, selbst wenn derartige Ergebnisse später empfangen werden als die Ergebnisse von anderen Quellen (da klar ist, dass der Nutzer wünscht, Ergebnisse spezifischerweise von diesem Dienst bzw. Service zu nutzen).When at the step 208 it is determined that none of the interpreted results have a confidence level above the predetermined threshold, then the result selection module selects 314 between the interpreted results, based on the confidence level associated with each, along with HMI state information 306 (Step 211 . 2 ). In this context, the HMI state information includes any information related to the current HMI edit mode 14 of the 1 refers. Such information could include, for example, the current on-screen display on a touch screen, the status of any keys (e.g., voice keys) within the environment, whether the user is interacting with particular Internet hosts (e.g., Google Maps, Pandora, etc.) the user interacts with media, the current dialog status, the content of what is displayed to the user, information related to the condition of the vehicle (eg, stationary or moving), or the like. The use of HMI status information 306 enables the result selection mode 314 make a smarter choice. For example, if the user interacted with Google Maps on an external server, then the result selector module would become 314 typically on results 305 Even if such results are received later than the results from other sources (as it is clear that the user wishes to specifically use results from that service), they should wait to be received.

Das Ausgabemodul 318 ist konfiguriert, um eine Ausgabe der ausgewählten interpretierten Ergebnisse 330 auszugeben (nämlich entweder die verkürzten Ergebnisse von dem Verkürzungsmodul 312 oder die ausgewählten Ergebnisse von dem Ergebnisauswahlmodul 314). In dieser Beziehung können Ergebnisse 330 mit Ergebnissen der Liste 33, die in 1 gezeigt ist, korrespondieren. Das Ausgabemodul 318 ist weiterhin konfiguriert, um das Ereignis-Zeitgebermodul 308 zurückzusetzen (nämlich den Wartezeitgeber zurück auf Null zu setzen).The output module 318 is configured to produce an output of the selected interpreted results 330 output (namely, either the truncated results from the truncation module 312 or the selected results from the result selection module 314 ). In this regard, results can be 330 with results of the list 33 , in the 1 is shown, correspond. The output module 318 is still configured to use the event timer module 308 reset (namely to reset the wait timer back to zero).

Gemäß einer Ausführungsform werden historische Daten in Bezug auf den Betrieb des Systems 300 verwendet, um unterschiedliche Komponenten des Systems 300 zu trainieren – zum Beispiel Aktualisieren der Modelle, die für das semantische Interpretationsmodul 310 und für das Ergebnisauswahlmodul 314 verwendet werden.According to one embodiment, historical data related to the operation of the system 300 used to different components of the system 300 to train - for example, updating the models used for the semantic interpretation module 310 and for the result selection module 314 be used.

Während wenigstens eine beispielhafte Ausführungsform in der vorhergehenden detaillierten Beschreibung präsentiert wurde, sollte es erwähnt sein, dass eine beträchtliche Anzahl von Variationen existiert. Es sollte auch erwähnt sein, dass die beispielhafte Ausführungsform oder die beispielhaften Ausführungsformen nur Beispiele sind, und es nicht beabsichtigt ist, den Umfang, die Anwendbarkeit oder die Konfiguration der Offenbarung in irgendeiner Weise zu begrenzen. Vielmehr wird die vorhergehende detaillierte Beschreibung dem Fachmann der Technik einen geeigneten Plan zum Ausführen der beispielhaften Ausführungsform oder den beispielhaften Ausführungsformen bereitstellen. Es sollte klar sein, dass unterschiedliche Änderungen in der Funktion und der Anordnung der Elemente durchgeführt werden können, ohne von dem Umfang der Offenbarung, wie er in den anhängenden Ansprüchen und den gesetzlichen Äquivalenten davon festgelegt ist, abzuweichen.While at least one exemplary embodiment has been presented in the foregoing detailed description, it should be noted that a considerable number of variations exist. It should also be noted that the exemplary embodiment or exemplary embodiments are only examples, and it is not intended to in any way limit the scope, applicability, or configuration of the disclosure. Rather, the foregoing detailed description will enable one skilled in the art to devise a suitable plan for carrying out the art exemplary embodiment or exemplary embodiments. It should be understood that various changes in the function and arrangement of the elements may be made without departing from the scope of the disclosure as defined in the appended claims and the legal equivalents thereof.

Beispiele:Examples:

Beispiel 1. Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen, wobei das Verfahren umfasst:
Empfangen einer Sprachäußerung von einem Nutzer innerhalb der Umgebung;
Empfangen erster Erkennungsergebnisse und eines ersten Vertrauenslevels bzw. Konfidenzwertes, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle;
Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle;
Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist;
Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.
Example 1. A method for arbitrating speech dialog results, the method comprising:
Receiving a voice utterance from a user within the environment;
Receiving first recognition results and a first confidence level associated with the utterance from a first source;
Receiving second recognition results and a second confidence level associated with the utterance from a second source;
Receiving human-machine interface (HMI) information associated with the user;
Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information.

Beispiel 2. Das Verfahren von Beispiel 1, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen der ersten Erkennungsergebnisse einschließt, wenn der erste Vertrauenslevel oberhalb eines Schwellenwerts liegt.Example 2. The method of Example 1, wherein selecting between the first recognition results and the second recognition results includes selecting the first recognition results when the first confidence level is above a threshold.

Beispiel 3. Das Verfahren von einem der Beispiele 1–2, weiterhin umfassend ein Auswählen der ersten Erkennungsergebnisse, wenn der erste Vertrauenslevel nicht über dem Schwellenwert liegt und der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel.Example 3. The method of any of Examples 1-2, further comprising selecting the first recognition results if the first confidence level is not above the threshold and the first confidence level is greater than the second confidence level.

Beispiel 4. Das Verfahren von einem der Beispiele 1–3, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.Example 4. The method of any of Examples 1-3, wherein at least a portion of the first recognition results are predetermined recognition results.

Beispiel 5. Das Verfahren von einem der Beispiele 1–4, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit entsprechenden Ausschnitttypen assoziiert sind.Example 5. The method of any one of Examples 1-4, wherein each of the first recognition results includes one or more linguistic slots associated with corresponding clipping types.

Beispiel 6. Das Verfahren von Beispiel 5, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.Example 6. The method of Example 5, wherein the linguistic pane types include a proper name and / or an address.

Beispiel 7. Das Verfahren von einem der Beispiele 1–6, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen einschließt, das auf einem Hidden Markov Modell basiert.Example 7. The method of any of Examples 1-6, wherein selecting between the first recognition results and the second recognition results includes selecting based on a Hidden Markov Model.

Beispiel 8. Ein System für ein Arbitrieren von Sprachdialogergebnissen in einem Fahrzeug, wobei das System umfasst:
ein semantisches Interpretationsmodul, das konfiguriert ist, um eine Sprachäußerung von einem Nutzer innerhalb der Umgebung zu empfangen, um erste Erkennungsergebnisse und einen ersten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer ersten Quelle zu empfangen und um zweite Erkennungsergebnisse und einen zweiten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer zweiten Quelle zu empfangen;
ein Shortcut- bzw. Verkürzungsmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel über einem Schwellenwert liegt; und
ein Ergebnisauswahlmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel und der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt.
Example 8. A system for arbitrating speech dialog results in a vehicle, the system comprising:
a semantic interpretation module configured to receive a voice utterance from a user within the environment to receive first recognition results and a first level of confidence associated with the utterance from a first source, and second recognition results and a second confidence level; associated with the utterance to receive from a second source;
a shortcut module configured to select the first recognition results when the first confidence level is above a threshold; and
a result selection module configured to select the first recognition results when the first confidence level is greater than the second confidence level and the first confidence level is not above the threshold value.

Beispiel 9. Das System von Beispiel 8, wobei das Ergebnisauswahlmodul konfiguriert ist, um eine HMI-Zustandsinformation zu empfangen, und weiter konfiguriert ist, um die ersten Erkennungsergebnisse teilweise basierend auf der HMI-Zustandsinformation auszuwählen.Example 9. The system of Example 8, wherein the result selection module is configured to receive HMI state information and further configured to select the first recognition results based in part on the HMI state information.

Beispiel 10. Das System von einem der Beispiele 1–9, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.Example 10. The system of any one of Examples 1-9, wherein at least a portion of the first recognition results are predetermined recognition results.

Beispiel 11. Das System von einem der Beispiele 8–10, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit entsprechenden Ausschnitttypen korrespondieren.Example 11. The system of any of Examples 8-10, wherein each of the first recognition results includes one or more linguistic slots corresponding to corresponding clipping types.

Beispiel 12. Das System von Beispiel 11, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.Example 12. The system of Example 11, wherein the linguistic pane types include a proper name and / or an address.

Beispiel 13. Das System von einem der Beispiele 8–12, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen einschließt, das auf einem Hidden Markov Modell basiert.Example 13. The system of any one of Examples 8-12, wherein selecting between the first recognition results and the second recognition results includes selecting based on a Hidden Markov Model.

Beispiel 14. Das System von einem der Beispiele 8–13, weiterhin umfassend ein Ereignis-Zeitgebermodul, das konfiguriert ist, um eine erste Zeit festzulegen, die damit assoziiert ist, wann die ersten Erkennungsergebnisse empfangen wurden, um eine zweite Zeit festzulegen, die damit assoziiert ist, wann die zweiten Erkennungsergebnisse empfangen wurden, wobei das Ergebnisauswahlmodul weiterhin konfiguriert ist, um die ersten Erkennungsergebnisse teilweise basierend auf der ersten Zeit und der zweiten Zeit auszuwählen.Example 14. The system of any one of Examples 8-13, further comprising an event timer module configured to set a first time associated with when the first recognition results were received to establish a second time associated therewith when the second recognition results have been received, wherein the result selection module is further configured to select the first recognition results based in part on the first time and the second time.

Beispiel 15. Das System von einem der Beispiele 8–14, weiterhin umfassend ein Ausgabemodul, das konfiguriert ist, um dem Nutzer die ausgewählten ersten Erkennungsergebnisse bereitzustellen und dem Ereignis-Zeitgebermodul ein Rücksetzsignal bereitzustellen.Example 15. The system of any one of Examples 8-14, further comprising an output module configured to provide the user with the selected first recognition results and to provide the event timer module with a reset signal.

Beispiel 16. Ein nicht-transistorisches computerlesbares Medium trägt Softwareinstruktionen, die konfiguriert sind, um einen Prozessor zu veranlassen, Sprachdialogergebnisse zu arbitrieren bzw. zu vermitteln durch Ausführen der Schritte:
Empfangen einer Sprachäußerung von einem Nutzer innerhalb der Umgebung;
Empfangen erster Erkennungsergebnisse und eines ersten Konfidenzwertes bzw. Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle;
Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind; von einer zweiten Quelle;
Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist;
Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.
Example 16. A non-transitory computer-readable medium carries software instructions configured to cause a processor to arbitrate speech dialog results by performing the steps of:
Receiving a voice utterance from a user within the environment;
Receiving first recognition results and a first confidence value associated with the utterance from a first source;
Receiving second recognition results and a second confidence level associated with the utterance; from a second source;
Receiving human-machine interface (HMI) information associated with the user;
Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information.

Beispiel 17. Computer-lesbares Medium von Beispiel 16, wobei die Softwareinstruktionen weiterhin den Prozessor veranlassen, zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen zu wählen durch Auswählen der ersten Erkennungsergebnisse, wenn der erste Vertrauenslevel oberhalb eines Schwellenwerts liegt.Example 17. The computer-readable medium of Example 16, wherein the software instructions further cause the processor to choose between the first recognition results and the second recognition results by selecting the first recognition results if the first confidence level is above a threshold.

Beispiel 18. Das computerlesbare Medium von einem der Beispiele 16–17, wobei die Softwareinstruktionen weiterhin den Prozessor veranlassen, die ersten Erkennungsergebnisse zu wählen, wenn der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt und der erste Vertrauenslevel größer als der zweite Vertrauenslevel ist.Example 18. The computer-readable medium of any one of Examples 16-17, wherein the software instructions further cause the processor to select the first recognition results if the first confidence level is not above the threshold and the first confidence level is greater than the second confidence level.

Beispiel 19. Das computerlesbare Medium von einem der Beispiele 16–18, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit korrespondierenden Ausschnitttypen assoziiert sind.Example 19. The computer-readable medium of any one of Examples 16-18, wherein each of the first recognition results includes one or more linguistic slots associated with corresponding clipping types.

Beispiel 20. Das computerlesbare Medium von Beispiel 19, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.Example 20. The computer readable medium of Example 19, wherein the linguistic clipping types include a proper name and / or an address.

Claims (10)

Verfahren zum Arbitrieren von Sprachdialogergebnissen, wobei das Verfahren umfasst: – Empfangen einer Sprachäußerung von einem Nutzer innerhalb einer Umgebung; – Empfangen erster Erkennungsergebnisse und eines ersten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle; – Empfangen zweiter Erkennungsergebnissen und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle; – Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist; – Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.A method of arbitrating speech dialog results, the method comprising: - receiving a voice utterance from a user within an environment; - receiving first recognition results and a first confidence level associated with the utterance from a first source; - receiving second recognition results and a second confidence level associated with the utterance from a second source; Receiving human-machine interface (HMI) information associated with the user; Selecting between the first recognition results and the second recognition results based on at least one of the first confidence level, the second confidence level, and the HMI information. Verfahren nach Anspruch 1, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen der ersten Erkennungsergebnisse einschließt, wenn der erste Vertrauenslevel oberhalb eines Schwellenwerts liegt.The method of claim 1, wherein selecting between the first recognition results and the second recognition results includes selecting the first recognition results when the first confidence level is above a threshold. Verfahren nach einem der Ansprüche 1–2, weiterhin umfassend ein Auswählen der ersten Erkennungsergebnisse, wenn der erste Vertrauenslevel nicht über dem Schwellenwert liegt und der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel.The method of claim 1, further comprising selecting the first recognition results if the first confidence level is not above the threshold and the first confidence level is greater than the second confidence level. Verfahren nach einem der Ansprüche 1–3, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.The method of any of claims 1-3, wherein at least a portion of the first recognition results are predetermined recognition results. Verfahren nach einem der Ansprüche 1–4, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit entsprechenden Ausschnittstypen assoziiert sind.The method of any one of claims 1-4, wherein each of the first recognition results includes one or more linguistic slots associated with corresponding clipping types. Verfahren nach Anspruch 5, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.The method of claim 5, wherein the linguistic clipping types include a proper name and / or an address. Verfahren nach einem der Ansprüche 1–6, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen einschließt, das auf einem Hidden Markov Modell basiert.The method of any one of claims 1-6, wherein selecting between the first recognition results and the second recognition results includes selecting based on a Hidden Markov Model. System für ein Arbitrieren von Sprachdialogergebnissen in einem Fahrzeug, wobei das System umfasst: – ein semantisches Interpretationsmodul, das konfiguriert ist, um eine Sprachäußerung von einem Nutzer innerhalb der Umgebung zu empfangen, um erste Erkennungsergebnisse und einen ersten Vertrauenslevel, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle zu empfangen und um zweite Erkennungsergebnisse und einen zweiten Vertrauenslevel, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle zu empfangen; – ein Verkürzungsmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel über einem Schwellenwert liegt; und – ein Ergebnisauswahlmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel und der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt. A system for arbitrating speech dialogue results in a vehicle, the system comprising: a semantic interpretation module configured to receive a speech utterance from a user within the environment, first recognition results, and a first confidence level associated with the utterance receive from a first source and receive second recognition results and a second confidence level associated with the utterance from a second source; A shortening module configured to select the first recognition results when the first confidence level is above a threshold; and a result selection module configured to select the first recognition results when the first confidence level is greater than the second confidence level and the first confidence level is not above the threshold. System nach Anspruch 8, wobei das Ergebnisauswahlmodul konfiguriert ist, um eine HMI-Zustandsinformation zu empfangen, und weiter konfiguriert ist, um die ersten Erkennungsergebnisse basierend teilweise auf der HMI-Zustandsinformation auszuwählen.The system of claim 8, wherein the result selection module is configured to receive HMI state information and further configured to select the first recognition results based in part on the HMI state information. System nach einem der Ansprüche 8–9, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.The system of any of claims 8-9, wherein at least a portion of the first recognition results are predetermined recognition results.
DE102014109122.1A 2013-07-12 2014-06-30 Systems and methods for result-based arbitration in speech dialogue systems Withdrawn DE102014109122A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361845798P 2013-07-12 2013-07-12
US61/845,798 2013-07-12
US14/311,750 2014-06-23
US14/311,750 US9715878B2 (en) 2013-07-12 2014-06-23 Systems and methods for result arbitration in spoken dialog systems

Publications (1)

Publication Number Publication Date
DE102014109122A1 true DE102014109122A1 (en) 2015-01-15

Family

ID=52107469

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014109122.1A Withdrawn DE102014109122A1 (en) 2013-07-12 2014-06-30 Systems and methods for result-based arbitration in speech dialogue systems

Country Status (2)

Country Link
CN (1) CN104282305B (en)
DE (1) DE102014109122A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270093A (en) * 2020-01-29 2021-08-17 丰田自动车株式会社 Proxy device, proxy system, and non-transitory recording medium

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN110737420B (en) * 2018-07-19 2023-04-28 博泰车联网科技(上海)股份有限公司 Voice conflict management method, system, computer readable storage medium and device
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
CN109949817B (en) * 2019-02-19 2020-10-23 一汽-大众汽车有限公司 Voice arbitration method and device based on dual-operating-system dual-voice recognition engine
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
FI116991B (en) * 1999-01-18 2006-04-28 Nokia Corp A method for speech recognition, a speech recognition device and a voice controlled wireless message
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
DE10339973A1 (en) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligent acoustic microphone frontend with voice recognition feedback
JP4680714B2 (en) * 2005-08-03 2011-05-11 パナソニック株式会社 Speech recognition apparatus and speech recognition method
EP1750253B1 (en) * 2005-08-04 2012-03-21 Nuance Communications, Inc. Speech dialog system
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8515762B2 (en) * 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
JP2011107603A (en) * 2009-11-20 2011-06-02 Sony Corp Speech recognition device, speech recognition method and program
CN102439660A (en) * 2010-06-29 2012-05-02 株式会社东芝 Voice-tag method and apparatus based on confidence score
CN102543071B (en) * 2011-12-16 2013-12-11 安徽科大讯飞信息科技股份有限公司 Voice recognition system and method used for mobile equipment
CN103177721B (en) * 2011-12-26 2015-08-19 中国电信股份有限公司 Audio recognition method and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270093A (en) * 2020-01-29 2021-08-17 丰田自动车株式会社 Proxy device, proxy system, and non-transitory recording medium

Also Published As

Publication number Publication date
CN104282305A (en) 2015-01-14
CN104282305B (en) 2018-04-24

Similar Documents

Publication Publication Date Title
DE102014109122A1 (en) Systems and methods for result-based arbitration in speech dialogue systems
DE102014109121B4 (en) Systems and methods for arbitration of a speech dialog service
DE102013222507B4 (en) Method for adapting a speech system
DE102019119171A1 (en) VOICE RECOGNITION FOR VEHICLE VOICE COMMANDS
DE102014114604B4 (en) Method and device for processing multiple audio streams in an on-board computer system of a vehicle
DE102019105269B4 (en) METHOD OF SPEECH RECOGNITION USING SPEECH RECOGNITION ARBITRATION LOGIC
DE102013223036B4 (en) Adaptation methods for language systems
DE112017004374T5 (en) System and method for speech recognition
DE102015203372A1 (en) DEFINITION OF DYNAMIC COMMANDS
DE102014203540A1 (en) SYSTEMS AND METHOD FOR CONTROLLING DIALOGUE CONTEXT IN LANGUAGE SYSTEMS
DE102014201676B4 (en) Methods for controlling the dialogue of speech systems
DE102015106280B4 (en) Systems and methods for compensating for speech artifacts in speech recognition systems
DE102018128006A1 (en) NATURAL LANGUAGE GENERATION BASED ON THE USER LANGUAGE STYLE
DE102016125812A1 (en) Learn pronunciations of a personalized entity
DE102015109379A1 (en) Systems and methods for a navigation system that uses a search with dictation and partial match
DE102018108947A1 (en) Apparatus for correcting an utterance error of a user and method thereof
DE102019105251A1 (en) DIALECT AND LANGUAGE RECOGNITION FOR LANGUAGE RECOGNITION IN VEHICLES
DE102013222757A1 (en) Adaptation methods and systems for speech systems
EP3152753B1 (en) Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules
DE102017205261A1 (en) VEHICLE-RELIABLE LANGUAGE IDENTIFICATION SYSTEMS AND METHODS
US9715878B2 (en) Systems and methods for result arbitration in spoken dialog systems
EP3735688B1 (en) Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing
DE102018132160A1 (en) SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS
DE112015003357T5 (en) Method and system for recognizing a voice prompt containing a word sequence
WO2021144155A1 (en) Method, computer program, and apparatus for processing a user input

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: SCHWEIGER & PARTNER, DE

Representative=s name: SCHWEIGER & PARTNERS, DE

R016 Response to examination communication
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee