DE102017222549A1 - Control procedure and speech dialogue system - Google Patents

Control procedure and speech dialogue system Download PDF

Info

Publication number
DE102017222549A1
DE102017222549A1 DE102017222549.1A DE102017222549A DE102017222549A1 DE 102017222549 A1 DE102017222549 A1 DE 102017222549A1 DE 102017222549 A DE102017222549 A DE 102017222549A DE 102017222549 A1 DE102017222549 A1 DE 102017222549A1
Authority
DE
Germany
Prior art keywords
cloud
unit
voice
client
dialogue system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102017222549.1A
Other languages
German (de)
Inventor
Tobias Scheideck
Ralph Retter
David Spieler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102017222549.1A priority Critical patent/DE102017222549A1/en
Publication of DE102017222549A1 publication Critical patent/DE102017222549A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

Die Erfindung betrifft ein Steuerverfahren zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachdialogsystem ein Sprachsignal empfängt und auswertet, welches ein Sprechkommando repräsentiert, und ein zugehöriges Sprachdialogsystem (1). Im Steuerverfahren werden bei einer Netzwerkverbindung zwischen einer Client-Einheit (2) und einer Cloud-Einheit (3) eine Vielzahl von Erkennungsergebnissen von der Client-Einheit (2) abgerufen und in einer Datenbank (12) abgespeichert, so dass eine Sprachsteuerung von Client-Anwendungen und auch von Cloud-Diensten aktiviert wird. Somit wird eine Möglichkeit bereitgestellt, Kommandos und/oder Suchbegriffe aus komplexen Domänen, wie beispielsweise unter Millionen von Musiktiteln oder Sonderzielen, zumindest teilweise offline verfügbar zu machen.The invention relates to a control method for voice control of functions and / or services, wherein a voice dialogue system receives and evaluates a voice signal representing a voice command, and an associated voice dialogue system (1). In the control method, at a network connection between a client unit (2) and a cloud unit (3), a plurality of recognition results are retrieved from the client unit (2) and stored in a database (12), so that voice control from client Applications and cloud services. Thus, a way is provided to make commands and / or search terms from complex domains, such as among millions of songs or POIs, at least partially available offline.

Description

Die Erfindung betrifft ein Steuerverfahren zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachdialogsystem ein Sprachsignal empfängt und auswertet, welches ein Sprechkommando repräsentiert, und ein zugehöriges Sprachdialogsystem.The invention relates to a control method for voice control of functions and / or services, wherein a voice dialogue system receives and evaluates a voice signal representing a voice command, and an associated voice dialogue system.

Stand der TechnikState of the art

Sprachdialogsysteme, im Folgenden auch als SDS abgekürzt, d.h. Systeme zur Sprachsteuerung von Funktionen und/oder Diensten, sind in verschiedenen Ausprägungen bekannt. Zum einen gibt es Stand-alone Embedded SDS, bei denen Spracherkennung, Interpretation und Kommando-Ausführung vollständig lokal ablaufen. Solche SDS werden beispielsweise in Mobilgeräten oder in Automotive-Infotainment-Geräten eingesetzt. Zum anderen gibt es Cloud-SDS. Hierbei finden Spracherkennung, Interpretation und Kommando-Ausführung in einem Cloudsystem statt. Ein Zugriff erfolgt durch Clients, wie beispielsweise Webbrowser oder Smartphone-Apps. Des Weiteren gibt es auch hybride Systeme, die sowohl Komponenten eines Embedded als auch eines Cloud-SDS enthalten. Solch ein hybrides System ist aus der US 8249877 B2 bekannt.Speech dialogue systems, also abbreviated hereafter as SDS, ie systems for voice control of functions and / or services, are known in various forms. On the one hand, there are stand-alone embedded SDS, in which voice recognition, interpretation and command execution are completely local. Such SDS are used, for example, in mobile devices or in automotive infotainment devices. Second, there are cloud SDS. Speech recognition, interpretation and command execution take place in a cloud system. Access is provided by clients, such as web browsers or smartphone apps. There are also hybrid systems that include both embedded and cloud SDS components. Such a hybrid system is out of the US 8249877 B2 known.

Derzeit haben die in Embedded-Systemen eingesetzten Komponenten zur Spracherkennung nicht die Fähigkeit, Kommandos oder Suchbegriffe aus beispielsweise Millionen von Musiktiteln oder Sonderzielen flexibel zu erkennen, und wenn, dann nur mit geringer oder fehlender Genauigkeit. Solche Anwendungsfälle werden in einem hybriden System nur von dem Cloud-Anteil behandelt und stehen bei sehr schlechter oder fehlender Netzwerkverbindung, beispielsweise bei einer permanenten oder temporären Netzwerkunterbrechung, nicht zur Verfügung. Ruft der Nutzer eines Cloud-gebundenen Anwendungsfalls bei fehlender Netzwerkverbindung Informationen oder Dienste ab und das Embedded SDS kann nicht zumindest die Grundintention des Nutzers erkennen, dann wird das System nur mit einer allgemeinen und für den Nutzer meist unbefriedigenden Fehlermeldung wie „Habe Sie nicht verstanden“ oder „Derzeit keine Netzwerkverbindung“ reagieren.Currently, speech recognition components used in embedded systems do not have the ability to flexibly recognize commands or phrases from, for example, millions of songs or POIs, and then, with little or no accuracy. Such use cases are only handled by the cloud portion in a hybrid system and are not available if there is a very poor or missing network connection, for example a permanent or temporary network interruption. If the user of a cloud-bound use case retrieves information or services in the event of a missing network connection and the embedded SDS can not recognize at least the basic intention of the user, then the system will only have a general and, for the user, mostly unsatisfactory error message such as "I do not understand you". or "Currently no network connection" respond.

US 20130132086 A1 beschreibt ein Verfahren zur automatischen, adaptiven Erweiterung des Embedded SDS. Dieses Verfahren beschränkt sich auf die Spracherkennung. Eine Erweiterung um neue Kommandos und deren Ausführung ist mit dem beschriebenen Verfahren nicht möglich. US 20130132086 A1 describes a method for automatic, adaptive expansion of the embedded SDS. This method is limited to speech recognition. An extension to new commands and their execution is not possible with the described method.

Offenbarung der ErfindungDisclosure of the invention

Der Erfindung liegt die Aufgabe zugrunde, bei einem Sprachdialogsystem Kommandos und/oder Suchbegriffe aus komplexen Domänen, wie beispielsweise unter Millionen von Musiktiteln oder Sonderzielen, flexibel und mit hoher Genauigkeit zu erkennen. Diese Aufgabe wird durch ein Steuerverfahren nach Anspruch 1 und durch ein Sprachdialogsystem nach Anspruch 5 gelöst.The invention has for its object to recognize in a speech dialogue system commands and / or search terms from complex domains, such as millions of songs or POIs, flexible and with high accuracy. This object is achieved by a control method according to claim 1 and by a speech dialogue system according to claim 5.

Erfindungsgemäß wird die Aufgabe bezüglich des Steuerverfahrens gelöst durch ein Steuerverfahren zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachdialogsystem ein Sprachsignal empfängt und auswertet, welches ein Sprechkommando repräsentiert, wobei bei einer Netzwerkverbindung zwischen einer Client-Einheit und einer Cloud-Einheit eine Vielzahl von Erkennungsergebnissen von der Client-Einheit abgerufen und in einer Datenbank abgespeichert werden, sodass eine Sprachsteuerung von Client-Anwendungen und auch von Cloud-Diensten aktiviert wird.According to the invention, the object with respect to the control method is achieved by a control method for voice control of functions and / or services, wherein a voice dialogue system receives and evaluates a voice signal representing a voice command, wherein in a network connection between a client unit and a cloud unit a plurality of recognition results are retrieved from the client device and stored in a database so that voice control is activated by client applications and also by cloud services.

Das Sprachsignal umfasst vorzugsweise wenigstens ein Sprechkommando und wird abgespeichert, wobei eine Auswertung einer Informations- und Suchanfrage vorzugsweise auf zwischengespeicherten Ergebnissen erfolgt. Dabei ist es vorteilhaft, dass eine Information über wenigstens eine Interaktion der Client-Einheit mit der Cloud-Einheit aufgezeichnet wird, und eine Information über die Erkennungsergebnisse von der Cloud-Einheit sowie Anfrage und Antwort des Cloud-Dienstes gespeichert werden. Aus den gespeicherten Informationen wird vorzugsweise ein Sprachmodell von Nutzeranfragen erstellt, wobei das Sprachmodell eine Bewertung der Wichtigkeit für zukünftige Informations- und Suchanfragen gemäß einer vorgegebenen Wichtigkeitsschwelle umfasst. Dabei ist es zweckmäßig, dass die Wichtigkeitsschwelle einstellbar ist und frei vorgegeben werden kann. Vorzugsweise wird bei fehlender Netzwerkverbindung, insbesondere bei einer Netzwerkunterbrechung, das Sprachmodell in die Client-Einheit geladen, sodass bei einer Spracheingabe eines Nutzers die Erkennungsergebnisse bearbeitet werden.The speech signal preferably comprises at least one speech command and is stored, wherein an evaluation of an information and search query is preferably carried out on cached results. It is advantageous that information about at least one interaction of the client unit with the cloud unit is recorded, and information about the recognition results from the cloud unit and the request and response of the cloud service are stored. From the stored information, a language model of user requests is preferably created, wherein the language model comprises an assessment of the importance for future information and search requests according to a predetermined importance threshold. It is expedient that the importance threshold is adjustable and can be freely specified. In the case of a missing network connection, in particular in the case of a network interruption, the language model is preferably loaded into the client unit so that the recognition results are processed in the case of a voice input by a user.

Erfindungsgemäß wird die Aufgabe bezüglich des Sprachdialogsystems gelöst durch ein Sprachdialogsystem zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachsignal empfangbar und auswertbar ist, welches ein Sprechkommando repräsentiert, wobei das Sprachdialogsystem eine Client-Einheit und eine Cloud-Einheit umfasst, wobei beide Einheiten einen Spracherkenner, eine Text-to-Speech-Einheit und einen Dialogmanager aufweisen, und die Cloud-Einheit eine Sprachbedienung von internen und externen Diensten ermöglicht, wobei bei einer Netzwerkverbindung zwischen der Client-Einheit und der Cloud-Einheit eine Vielzahl von Erkennungsergebnissen von der Client-Einheit abrufbar und in einer Datenbank abspeicherbar ist, sodass eine Sprachsteuerung von Client-Anwendungen und auch von Cloud-Diensten aktivierbar ist.According to the invention, the object relating to the speech dialogue system is achieved by a speech dialogue system for voice control of functions and / or services, wherein a speech signal can be received and evaluated, which represents a speech command, wherein the speech dialogue system comprises a client unit and a cloud unit, both units a voice recognizer, a text-to-speech unit, and a dialogue manager, and the cloud unit enables voice service of internal and external services, wherein at a network connection between the client unit and the cloud unit, a plurality of recognition results from the Client unit is retrievable and stored in a database, so that Voice control of client applications and also cloud services can be activated.

Das Sprachdialogsystem ist insbesondere zur Durchführung eines vorbeschriebenen Steuerverfahrens ausgebildet.The speech dialogue system is designed in particular for carrying out a previously described control method.

Weiterhin ist es vorteilhaft, dass die Erkennungsergebnisse einen Typ einer Informations- und Suchanfrage, und/oder eine Information des Nutzers über Nicht-Erreichbarkeit eines Cloud-Dienstes und/oder eine zeitversetzte Ausführung des Cloud-Dienstes, sofern es wieder erreichbar ist, umfassen. Vorzugsweise weist die Client-Einheit zusätzlich ein Konnektivitätsmodul auf, welches eine Kommunikation mit der Cloud-Einheit übernimmt und einen Netzwerkverbindungsstatus zwischen der Client-Einheit und der Cloud-Einheit prüft. Weiterhin ist es vorteilhaft, dass die Client-Einheit vorzugsweise ein Fallback-Modul umfasst, das mit der Datenbank verbindbar ist, und das Fallback-Modul ist derart ausgestaltet, eine Speicherung der Vielzahl von Erkennungsergebnissen in der Datenbank zu aktivieren, wenn das Konnektivitätsmodul die Netzwerkverbindung zwischen der Client-Einheit und der Cloud-Einheit anzeigt. Dabei ist das Fallback-Modul der Client-Einheit insbesondere generisch und selbstlernend ausgebildet. Das heißt, Cloud-Funktionen und Cloud-Dienste können ohne Modifikation der Module der Client-Einheit später hinzugefügt werden und sind nach zumindest einer beispielhaften Nutzung bei bestehender Verbindung auch bei nicht bestehender Verbindung offline verfügbar. Dabei ist es zweckmäßig, dass das Fallback-Modul vorzugsweise eine Information über wenigstens eine Interaktion der Client-Einheit mit der Cloud-Einheit aufzeichnet und/oder vorzugsweise eine Information über die Erkennungsergebnisse des Spracherkenners von der Cloud-Einheit sowie Anfrage und Antwort des Cloud-Dienstes speichert.Furthermore, it is advantageous that the recognition results include a type of information and search request, and / or information of the user about unavailability of a cloud service and / or a time-delayed execution of the cloud service, if it is reachable again. Preferably, the client unit additionally includes a connectivity module that handles communication with the cloud unit and checks a network connection status between the client unit and the cloud unit. Furthermore, it is advantageous that the client unit preferably comprises a fallback module connectable to the database, and the fallback module is configured to enable storage of the plurality of recognition results in the database if the connectivity module is the network connection between the client unit and the cloud unit. In this case, the fallback module of the client unit is in particular designed to be generic and self-learning. That is, cloud features and cloud services may be added later without modifying the modules of the client unit and, after at least one example usage with an existing connection, are available offline even if the connection is not present. It is expedient that the fallback module preferably records information about at least one interaction of the client unit with the cloud unit and / or preferably information about the recognition results of the speech recognizer from the cloud unit as well as request and response of the cloud unit. Service stores.

Weiterhin ist es vorteilhaft, dass das Fallback-Modul weiter ausgestaltet ist, aus den gespeicherten Informationen ein Sprachmodell von Nutzeranfragen zu erstellen, wobei das Sprachmodell eine Bewertung der Wichtigkeit über zukünftige Informations- und Suchanfragen gemäß einer vorgegebenen Wichtigkeitsschwelle vornimmt. Vorzugsweise lädt bei fehlender Netzwerkverbindung, insbesondere bei einer Netzwerkunterbrechung, zu der Cloud-Einheit das Fallback-Modul das Sprachmodell in den Spracherkenner der Client-Einheit, sodass das Fallback-Modul bei einer Spracheingabe des Nutzers die Erkennungsergebnisse bearbeiten kann.Furthermore, it is advantageous that the fallback module is further configured to generate from the stored information a language model of user requests, wherein the language model evaluates the importance of future information and search requests according to a predetermined importance threshold. Preferably, in the event of a missing network connection, in particular in the event of a network interruption, the fallback module loads the language model into the speech recognizer of the client unit so that the fallback module can process the recognition results when the user inputs a speech.

Somit werden ein Steuerverfahren und ein Sprachdialogsystem bereitgestellt, welche flexibel arbeiten und zugleich eine hohe Genauigkeit aufweisen. Damit wird ermöglicht, bei fehlender Netzwerkverbindung, d.h. offline, mit einem Fallback-Mechanismus ein Sprachdialogsystem zu steuern. In einem hybriden SDS wird das Erkennen und Ausführen einer spezifischen Informations- und Suchanfrage auf zwischengespeicherten Ergebnissen ermöglicht. Außerdem wird das Erkennen des Typs einer Informations- und Suchanfrage ohne die spezifische Anfrage zu kennen und das Erkennen der Information des Nutzers über die Nicht-Erreichbarkeit des Cloud-Dienstes ermöglicht. Auch das Erkennen einer Anfrage und des Typs einer Anfrage zur Manipulation eines Cloud-Dienstes wird ermöglicht, wobei sowohl das Erkennen einer Information des Nutzers über Nicht-Erreichbarkeit des Cloud-Dienstes als auch eine zeitversetzte Ausführung, soweit der Cloud-Server wieder erreichbar ist, realisierbar sind. Diese Funktionen und/oder Dienste sollten vorzugsweise mit demselben System bereits vorher einmal bei bestehender Netzwerkverbindung zum Cloud-Server ausgeführt worden sein.Thus, a control method and a speech dialogue system are provided, which operate flexibly and at the same time have a high degree of accuracy. This makes it possible, in the absence of network connection, i. offline, using a fallback mechanism to control a speech dialog system. A hybrid SDS enables you to recognize and run a specific information query on cached results. In addition, recognizing the type of information and search query without knowing the specific request and recognizing the information of the user about the unavailability of the cloud service is made possible. The recognition of a request and the type of a request for manipulation of a cloud service is also made possible, whereby both the recognition of information of the user about unavailability of the cloud service and a time-delayed execution, as far as the cloud server is reachable again, are feasible. These functions and / or services should preferably have already been executed with the same system in the past with an existing network connection to the cloud server.

Somit wird eine Möglichkeit bereitgestellt, Kommandos und/oder Suchbegriffe aus komplexen Domänen, wie beispielsweise unter Millionen von Musiktiteln oder Sonderzielen, zumindest teilweise offline verfügbar zu machen. Dieser Teil ist aber für einen individuellen Nutzer wahrscheinlich sehr relevant, da er das Sprachkommando bereits verwendet hat. Somit wird der Nutzungskomfort erhöht.Thus, a way is provided to make commands and / or search terms from complex domains, such as among millions of songs or POIs, at least partially available offline. However, this part is probably very relevant to an individual user because he has already used the voice command. Thus, the ease of use is increased.

Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnung näher erläutert. Es zeigt:

  • 1 in einer schematischen Darstellung ein erfindungsgemäßes Sprachdialogsystem.
An embodiment of the invention will be explained below with reference to the drawing. It shows:
  • 1 in a schematic representation of an inventive speech dialogue system.

1 zeigt ein Sprachdialogsystem gemäß einem bevorzugten Ausführungsbeispiel der Erfindung. Das Sprachdialogsystem 1 besteht aus einer Client-Einheit 2 und einem Server oder einer Cloud-Einheit 3, die jeweils typische Komponenten eines solchen Systems enthalten. Diese sind Spracherkenner 4, 7, eine Text-to-Speech-Einheit 5, 8, und ein Dialogmanager 6, 9. Die Cloud-Einheit 3 ermöglicht eine Sprachbedienung der eingebundenen internen und externen Dienste 10, 11. Die Client-Einheit 2 weist zusätzlich ein Konnektivitätsmodul 13 auf, welches die Kommunikation mit der Cloud-Einheit 3 übernimmt und den Status der Netzwerkverbindung überwacht. Über das Fallback-Modul 14, das mit einer Datenbank 12 verbunden ist, erfolgt eine permanente oder temporäre Speicherung der gelernten Anfragen des Nutzers. Somit wird ein generisches, selbstlernendes Client-Dialog-System bereitgestellt, das innerhalb eines hybriden SDS angewendet werden kann. Das Client-System lernt die Anfragen des Nutzers, die bei bestehender Netzwerkverbindung vom Cloud-System bearbeitet werden, und kann diese dann bei fehlender Netzwerkverbindung oder bei einer Netzwerkunterbrechung erkennen bzw. beantworten. Dadurch können Cloud-Funktionen und Cloud-Dienste ohne Modifikation der Module der Client-Einheit 2 später hinzugefügt werden und sind nach zumindest einer beispielhaften Nutzung bei bestehender Verbindung auch bei nicht bestehender Verbindung offline verfügbar. Dies erhöht den Nutzungskomfort. 1 shows a speech dialogue system according to a preferred embodiment of the invention. The speech dialogue system 1 consists of a client unit 2 and a server or cloud device 3 each containing typical components of such a system. These are speech recognizers 4 . 7 , a text-to-speech unit 5 . 8th , and a dialogue manager 6 . 9 , The cloud unit 3 enables voice operation of the integrated internal and external services 10 . 11 , The client unit 2 additionally has a connectivity module 13 on which communication with the cloud unit 3 takes over and monitors the status of the network connection. About the fallback module 14 that with a database 12 is connected, there is a permanent or temporary storage of the learned requests of the user. Thus, a generic self-learning client dialog system is provided that can be used within a hybrid SDS. The client system learns the user's requests that are processed by the cloud system during an existing network connection, and can then identify or answer them in the event of a network connection or network interruption. This allows cloud Functions and cloud services without modifying the modules of the client unit 2 be added later and are available offline after at least one example use of existing connection even if not connected. This increases the comfort of use.

Im bevorzugten Ausführungsbeispiel der Erfindung wird im Hybrid-Betrieb bei bestehender Netzwerkverbindung die Client-Einheit 2 mit der Cloud-Einheit 3 interagieren und die Sprachsteuerung von Client-Anwendungen und von Cloud-Diensten ermöglichen. Zusätzlich zum Hybrid-Betrieb ist im Lern-Betrieb das Fallback-Modul 14 aktiv. Das Konnektivitätsmodul 13 informiert das Fallback-Modul 14 über den Status der Netzwerkverbindung. Bei bestehender Netzwerkverbindung zeichnet das Fallback-Modul 14 erfolgreiche Interaktionen mit der Cloud-Einheit 3 auf und speichert das Ergebnis des Cloud-Spracherkenners 7 sowie Anfrage und Antwort des Cloud-Dienstes. Die Erkennungsergebnisse enthalten in diesem bevorzugten Ausführungsbeispiel den erkannten Text inklusive Markierung eventueller Objekte, Argumente oder Variablen, den Kommando-Typ des erkannten Textes sowie Service-Anfrage, Antwort und Gültigkeitsdauer der Antwort. Aus den gespeicherten Informationen erstellt das Fallback-Modul 14 im Hintergrund ein Sprachmodell der Nutzeranfragen und bewertet die Wichtigkeit für zukünftige Anfragen. Dabei kann eine Wichtigkeitsschwelle definiert oder eingestellt werden, wobei für Anfragen oder Gruppen von Anfragen oberhalb dieser Wichtigkeitsschwelle das Fallback-Modul 14 ein oder mehrere Sprachmodelle für die Erkennung der Anfrage an sich erstellt, dies auch für die Erkennung des Anfragetyps sowie für Anfragevarianten mit anderen auf dem Client-System bekannten Argumenten und Objekten. Weiterhin stellt das Fallback-Modul 14 für gespeicherte Service-Antworten mit begrenzter Gültigkeitsdauer durch erneute Anfragen an die Dienste in einem einstellbaren Bereich sicher, dass gültige Antworten vorliegen.In the preferred embodiment of the invention, in hybrid operation with an existing network connection, the client unit becomes 2 with the cloud unit 3 interact and enable voice control of client applications and cloud services. In addition to hybrid operation, the fallback module is in learning mode 14 active. The connectivity module 13 informs the fallback module 14 about the status of the network connection. If there is an existing network connection, the fallback module draws 14 successful interactions with the cloud unit 3 and stores the result of the cloud speech recognizer 7 as well as request and response of the cloud service. The recognition results in this preferred embodiment include the recognized text including marking any objects, arguments or variables, the command type of the recognized text as well as service request, response and validity period of the answer. From the stored information created the fallback module 14 in the background a language model of the user requests and assesses the importance for future requests. An importance threshold can be defined or set, with the fallback module for requests or groups of requests above this importance threshold 14 created one or more language models for the recognition of the request itself, this also for the recognition of the request type as well as for request variants with other arguments and objects known on the client system. Furthermore, the fallback module provides 14 for stored service replies with a limited validity period, by re-inquiring the services in an adjustable area, ensure that there are valid answers.

Bei fehlender Netzwerkverbindung schaltet das Fallback-Modul 14 in den Fallback-Betrieb. Dabei werden die im Lern-Betrieb erstellten Sprachmodelle in den Spracherkenner 4 geladen. Werden bei einer Spracheingabe des Nutzers Erkennungsergebnisse aus diesem Sprachmodell erkannt, leitet der Dialogmanager 6 diese zur Bearbeitung an das Fallback-Modul 14 weiter. Abhängig von dem Erkennungsergebnis oder den Erkennungsergebnissen und den gespeicherten Service-Antworten treten dabei folgende Fälle auf: Erstens, es wurde zwar der Typ der Anfrage erkannt, aber die genaue Anfrage wurde nicht erkannt. Das System informiert in diesem ersten Fall den Nutzer, dass eine Anfrage dieses Typs erkannt wurde, aber wegen fehlender Netzwerkverbindung nicht ausgeführt werden kann. In anderen bevorzugten Ausführungsbeispielen wird das Audio-Signal der Nutzeranfrage gespeichert und später bei bestehender Netzwerkverbindung an die Cloud-Einheit 3 zur Bearbeitung übertragen. Zweitens, es wurde zwar die Anfrage erkannt und die Anfrage betrifft eine Manipulation eines Cloud-Dienstes oder das Ergebnis einer lesenden Anfrage liegt nicht vor oder ist nicht mehr gültig. In diesem zweiten Fall informiert das System den Nutzer, dass die Anfrage erkannt wurde, aber wegen fehlender Netzwerkverbindung nicht ausgeführt werden kann. Gemäß anderen bevorzugten Ausführungsbeispielen wird die Anfrage oder das Audio-Signal der Nutzeranfrage gespeichert und später bei bestehender Netzwerkverbindung an die Cloud-Einheit 3 zur Bearbeitung übertragen. Drittens, es wurde eine lesende Anfrage an einen Cloud-Dienst erkannt und es liegt eine gültige Antwort vor. Das Sprachdialogsystem 1 antwortet in diesem dritten Fall dem Nutzer entsprechend der Anfrage.If there is no network connection, the fallback module switches 14 in fallback mode. In doing so, the language models created in the learning mode become the speech recognizer 4 loaded. If recognition results from this language model are recognized when the user inputs a speech, the dialog manager will be responsible 6 this for processing to the fallback module 14 continue. Depending on the recognition result or the recognition results and the stored service replies, the following cases occur: First, although the type of request was recognized, the exact request was not recognized. In this first case, the system informs the user that a request of this type has been detected, but can not be executed due to a lack of network connection. In other preferred embodiments, the audio signal of the user request is stored and later on the network unit to the cloud unit 3 transferred for processing. Second, although the request has been detected and the request concerns a cloud service manipulation, the result of a read request is not present or is no longer valid. In this second case, the system informs the user that the request has been recognized but can not be performed due to lack of network connection. According to other preferred embodiments, the request or the audio signal of the user request is stored and later on the network unit to the cloud unit 3 transferred for processing. Third, a read request to a cloud service has been detected and there is a valid answer. The speech dialogue system 1 responds in this third case to the user according to the request.

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

  • US 8249877 B2 [0002]US 8249877 B2 [0002]
  • US 20130132086 A1 [0004]US 20130132086 A1 [0004]

Claims (10)

Steuerverfahren zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachdialogsystem (1) ein Sprachsignal empfängt und auswertet, welches ein Sprechkommando repräsentiert, dadurch gekennzeichnet, dass bei einer Netzwerkverbindung zwischen einer Client-Einheit (2) und einer Cloud-Einheit (3) eine Vielzahl von Erkennungsergebnissen von der Client-Einheit (2) abgerufen und in einer Datenbank (12) abgespeichert werden, so dass eine Sprachsteuerung von Client-Anwendungen und auch von Cloud-Diensten aktiviert wird.A control method for voice-controlling functions and / or services, wherein a voice dialogue system (1) receives and evaluates a voice signal representing a voice command, characterized in that, in the case of a network connection between a client unit (2) and a cloud unit (3) a plurality of recognition results are retrieved from the client unit (2) and stored in a database (12) so that voice control is activated by client applications and also by cloud services. Steuerverfahren nach Anspruch 1, wobei eine Information über wenigstens eine Interaktion der Client-Einheit (2) mit der Cloud-Einheit (3) aufgezeichnet wird, und eine Information über die Erkennungsergebnisse von der Cloud-Einheit (3) sowie Anfrage und Antwort des Cloud-Dienstes gespeichert werden.Control method according to Claim 1 in which information about at least one interaction of the client unit (2) with the cloud unit (3) is recorded, and information about the recognition results is stored by the cloud unit (3) and request and response of the cloud service , Steuerverfahren nach Anspruch 2, wobei aus den gespeicherten Informationen ein Sprachmodell von Nutzeranfragen erstellt wird, wobei das Sprachmodell eine Bewertung der Wichtigkeit für zukünftige Informations- und Suchanfragen gemäß einer vorgegebenen Wichtigkeitsschwelle umfasst.Control method according to Claim 2 in which a language model of user requests is generated from the stored information, the language model comprising an assessment of the importance for future information and search requests according to a predetermined importance threshold. Steuerverfahren nach Anspruch 3, wobei bei einer Netzwerkunterbrechung das Sprachmodell in die Client-Einheit (3) geladen wird, so dass bei einer Spracheingabe eines Nutzers die Erkennungsergebnisse bearbeitet werden.Control method according to Claim 3 in which, in the event of a network interruption, the language model is loaded into the client unit (3) so that the recognition results are processed in the case of a voice input by a user. Sprachdialogsystem (1) zur Sprachsteuerung von Funktionen und/oder Diensten, insbesondere zur Durchführung eines Verfahrens nach einem der vorgenannten Ansprüche, wobei ein Sprachsignal empfangbar und auswertbar ist, welches ein Sprechkommando repräsentiert, wobei das Sprachdialogsystem (1) eine Client-Einheit (2) und eine Cloud-Einheit (3) umfasst, wobei beide Einheiten (2, 3) einen Spracherkenner (4, 7), eine Text-to-Speech-Einheit (5, 8) und einen Dialogmanager (6, 9) aufweisen, und die Cloud-Einheit (3) eine Sprachbedienung von internen und externen Diensten (10, 11) ermöglicht, dadurch gekennzeichnet, dass bei einer Netzwerkverbindung zwischen der Client-Einheit (2) und der Cloud-Einheit (3) eine Vielzahl von Erkennungsergebnissen von der Client-Einheit (2) abrufbar und in einer Datenbank (12) abspeicherbar ist, so dass eine Sprachsteuerung von Client-Anwendungen und auch von Cloud-Diensten aktivierbar ist.Speech dialogue system (1) for voice control of functions and / or services, in particular for carrying out a method according to one of the preceding claims, wherein a voice signal can be received and evaluated, which represents a voice command, wherein the voice dialogue system (1) comprises a client unit (2). and a cloud unit (3), wherein both units (2, 3) have a speech recognizer (4, 7), a text-to-speech unit (5, 8) and a dialogue manager (6, 9), and the cloud unit (3) enables voice operation of internal and external services (10, 11), characterized in that in a network connection between the client unit (2) and the cloud unit (3) a plurality of recognition results from the Client unit (2) is retrievable and stored in a database (12), so that a voice control of client applications and cloud services can be activated. Sprachdialogsystem nach Anspruch 5, wobei die Erkennungsergebnisse einen Typ einer Informations- und Suchanfrage, und/oder eine Information des Nutzers über Nicht-Erreichbarkeit eines Cloud-Dienstes und/oder eine zeitversetzte Ausführung des Cloud-Dienstes, sofern es wieder erreichbar ist, umfassen.Speech dialogue system Claim 5 wherein the recognition results comprise a type of information and search request, and / or information of the user about unavailability of a cloud service and / or a deferred execution of the cloud service, if it is reachable again. Sprachdialogsystem nach einem der Ansprüche 5 oder 6, wobei die Client-Einheit (2) zusätzlich ein Konnektivitätsmodul (13) aufweist, welches eine Kommunikation mit der Cloud-Einheit (3) übernimmt und einen Netzwerkverbindungsstatus zwischen der Client-Einheit (2) und der Cloud-Einheit (3) prüft.Speech dialogue system according to one of Claims 5 or 6 wherein the client unit (2) additionally comprises a connectivity module (13) which handles communication with the cloud unit (3) and checks a network connection status between the client unit (2) and the cloud unit (3). Sprachdialogsystem nach Anspruch 7, wobei die Client-Einheit (2) weiter ein Fallback-Modul (14) umfasst, das mit der Datenbank (12) verbindbar ist, und das Fallback-Modul (14) ist derart ausgestaltet, eine Speicherung der Vielzahl von Erkennungsergebnissen in der Datenbank (12) zu aktivieren, wenn das Konnektivitätsmodul (13) die Netzwerkverbindung zwischen der Client-Einheit (2) und der Cloud-Einheit (3) anzeigt.Speech dialogue system Claim 7 wherein the client unit (2) further comprises a fallback module (14) connectable to the database (12) and the fallback module (14) is adapted to store the plurality of recognition results in the database (12) when the connectivity module (13) displays the network connection between the client device (2) and the cloud device (3). Sprachdialogsystem nach Anspruch 8, wobei das Fallback-Modul (14) weiter ausgestaltet ist, aus den gespeicherten Informationen ein Sprachmodell von Nutzeranfragen zu erstellen, wobei das Sprachmodell eine Bewertung der Wichtigkeit für zukünftige Informations- und Suchanfragen gemäß einer vorgegebenen Wichtigkeitsschwelle vornimmt.Speech dialogue system Claim 8 wherein the fallback module (14) is further configured to generate from the stored information a language model of user requests, the language model evaluating the importance for future information and search requests according to a predetermined importance threshold. Sprachdialogsystem nach Anspruch 9, wobei bei einer Netzwerkunterbrechung zu der Cloud-Einheit (3) das Fallback-Modul (14) das Sprachmodell in den Spracherkenner (4) der Client-Einheit (2) lädt, so dass das Fallback-Modul (14) bei einer Spracheingabe des Nutzers die Erkennungsergebnisse bearbeiten kann.Speech dialogue system Claim 9 in which, in the event of a network interruption to the cloud unit (3), the fallback module (14) loads the language model into the speech recognizer (4) of the client unit (2) so that the fallback module (14) will initiate a voice input of the client unit (2) User can edit the recognition results.
DE102017222549.1A 2017-12-13 2017-12-13 Control procedure and speech dialogue system Pending DE102017222549A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102017222549.1A DE102017222549A1 (en) 2017-12-13 2017-12-13 Control procedure and speech dialogue system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102017222549.1A DE102017222549A1 (en) 2017-12-13 2017-12-13 Control procedure and speech dialogue system

Publications (1)

Publication Number Publication Date
DE102017222549A1 true DE102017222549A1 (en) 2019-06-13

Family

ID=66629702

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017222549.1A Pending DE102017222549A1 (en) 2017-12-13 2017-12-13 Control procedure and speech dialogue system

Country Status (1)

Country Link
DE (1) DE102017222549A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249877B2 (en) 2008-08-29 2012-08-21 Multimodal Technologies, Llc Hybrid speech recognition
US20130132086A1 (en) 2011-11-21 2013-05-23 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249877B2 (en) 2008-08-29 2012-08-21 Multimodal Technologies, Llc Hybrid speech recognition
US20130132086A1 (en) 2011-11-21 2013-05-23 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance

Similar Documents

Publication Publication Date Title
EP1927980B1 (en) Method for classifying spoken language in spoken dialogue systems
DE102017220266B3 (en) Method for checking an onboard speech recognizer of a motor vehicle and control device and motor vehicle
DE102009017176A1 (en) Navigation arrangement for a motor vehicle
EP1926081A1 (en) Method for dialogue adaptation and dialogue system for this purpose
DE10220521B4 (en) Method and system for processing voice data and classifying calls
DE102006036338A1 (en) Method for generating a context-based speech dialog output in a speech dialogue system
EP1430368A2 (en) Method for accessing information and/or services of a distributed automation system
DE60133537T2 (en) AUTOMATIC UMTRAINING OF A LANGUAGE RECOGNITION SYSTEM
EP3152753B1 (en) Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules
DE112016006512T5 (en) Intention estimation device and intention estimation method
WO2004086360A1 (en) Speaker-dependent voice recognition method and voice recognition system
DE19849855C1 (en) Method for using a computer system to generate a text expression automatically while retaining meaning determines a statistical model on a number of preset pairs of word meanings and associated expressions.
DE102015212650B4 (en) Method and system for computer-assisted processing of a speech input
WO2021144155A1 (en) Method, computer program, and apparatus for processing a user input
DE102017222549A1 (en) Control procedure and speech dialogue system
DE10156945A1 (en) Method for operation of speech recognition dialogue system for provision of telephone information, etc., whereby navigation is improved as a user can jump straight to a point in a dialogue by giving a marker name
DE102018132160A1 (en) SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS
EP1214704B1 (en) Method and device for detecting and evaluating vocal signals representing a word emitted by a user of a voice-recognition system
DE102020100638A1 (en) System and method for a dialogue with a user
DE102020106066A1 (en) Device and method for monitoring communication between a user and an information unit
DE102014224794B4 (en) Voice assistance method for a motor vehicle
WO2018188907A1 (en) Processing speech input
DE102016002463A1 (en) Method for operating a voice control
DE102018003777A1 (en) Method for updating a software of at least one control device of a vehicle
DE102016004287A1 (en) Method for speech recognition in a motor vehicle

Legal Events

Date Code Title Description
R012 Request for examination validly filed