DE102017222549A1 - Control procedure and speech dialogue system - Google Patents
Control procedure and speech dialogue system Download PDFInfo
- Publication number
- DE102017222549A1 DE102017222549A1 DE102017222549.1A DE102017222549A DE102017222549A1 DE 102017222549 A1 DE102017222549 A1 DE 102017222549A1 DE 102017222549 A DE102017222549 A DE 102017222549A DE 102017222549 A1 DE102017222549 A1 DE 102017222549A1
- Authority
- DE
- Germany
- Prior art keywords
- cloud
- unit
- voice
- client
- dialogue system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Abstract
Die Erfindung betrifft ein Steuerverfahren zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachdialogsystem ein Sprachsignal empfängt und auswertet, welches ein Sprechkommando repräsentiert, und ein zugehöriges Sprachdialogsystem (1). Im Steuerverfahren werden bei einer Netzwerkverbindung zwischen einer Client-Einheit (2) und einer Cloud-Einheit (3) eine Vielzahl von Erkennungsergebnissen von der Client-Einheit (2) abgerufen und in einer Datenbank (12) abgespeichert, so dass eine Sprachsteuerung von Client-Anwendungen und auch von Cloud-Diensten aktiviert wird. Somit wird eine Möglichkeit bereitgestellt, Kommandos und/oder Suchbegriffe aus komplexen Domänen, wie beispielsweise unter Millionen von Musiktiteln oder Sonderzielen, zumindest teilweise offline verfügbar zu machen.The invention relates to a control method for voice control of functions and / or services, wherein a voice dialogue system receives and evaluates a voice signal representing a voice command, and an associated voice dialogue system (1). In the control method, at a network connection between a client unit (2) and a cloud unit (3), a plurality of recognition results are retrieved from the client unit (2) and stored in a database (12), so that voice control from client Applications and cloud services. Thus, a way is provided to make commands and / or search terms from complex domains, such as among millions of songs or POIs, at least partially available offline.
Description
Die Erfindung betrifft ein Steuerverfahren zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachdialogsystem ein Sprachsignal empfängt und auswertet, welches ein Sprechkommando repräsentiert, und ein zugehöriges Sprachdialogsystem.The invention relates to a control method for voice control of functions and / or services, wherein a voice dialogue system receives and evaluates a voice signal representing a voice command, and an associated voice dialogue system.
Stand der TechnikState of the art
Sprachdialogsysteme, im Folgenden auch als SDS abgekürzt, d.h. Systeme zur Sprachsteuerung von Funktionen und/oder Diensten, sind in verschiedenen Ausprägungen bekannt. Zum einen gibt es Stand-alone Embedded SDS, bei denen Spracherkennung, Interpretation und Kommando-Ausführung vollständig lokal ablaufen. Solche SDS werden beispielsweise in Mobilgeräten oder in Automotive-Infotainment-Geräten eingesetzt. Zum anderen gibt es Cloud-SDS. Hierbei finden Spracherkennung, Interpretation und Kommando-Ausführung in einem Cloudsystem statt. Ein Zugriff erfolgt durch Clients, wie beispielsweise Webbrowser oder Smartphone-Apps. Des Weiteren gibt es auch hybride Systeme, die sowohl Komponenten eines Embedded als auch eines Cloud-SDS enthalten. Solch ein hybrides System ist aus der
Derzeit haben die in Embedded-Systemen eingesetzten Komponenten zur Spracherkennung nicht die Fähigkeit, Kommandos oder Suchbegriffe aus beispielsweise Millionen von Musiktiteln oder Sonderzielen flexibel zu erkennen, und wenn, dann nur mit geringer oder fehlender Genauigkeit. Solche Anwendungsfälle werden in einem hybriden System nur von dem Cloud-Anteil behandelt und stehen bei sehr schlechter oder fehlender Netzwerkverbindung, beispielsweise bei einer permanenten oder temporären Netzwerkunterbrechung, nicht zur Verfügung. Ruft der Nutzer eines Cloud-gebundenen Anwendungsfalls bei fehlender Netzwerkverbindung Informationen oder Dienste ab und das Embedded SDS kann nicht zumindest die Grundintention des Nutzers erkennen, dann wird das System nur mit einer allgemeinen und für den Nutzer meist unbefriedigenden Fehlermeldung wie „Habe Sie nicht verstanden“ oder „Derzeit keine Netzwerkverbindung“ reagieren.Currently, speech recognition components used in embedded systems do not have the ability to flexibly recognize commands or phrases from, for example, millions of songs or POIs, and then, with little or no accuracy. Such use cases are only handled by the cloud portion in a hybrid system and are not available if there is a very poor or missing network connection, for example a permanent or temporary network interruption. If the user of a cloud-bound use case retrieves information or services in the event of a missing network connection and the embedded SDS can not recognize at least the basic intention of the user, then the system will only have a general and, for the user, mostly unsatisfactory error message such as "I do not understand you". or "Currently no network connection" respond.
Offenbarung der ErfindungDisclosure of the invention
Der Erfindung liegt die Aufgabe zugrunde, bei einem Sprachdialogsystem Kommandos und/oder Suchbegriffe aus komplexen Domänen, wie beispielsweise unter Millionen von Musiktiteln oder Sonderzielen, flexibel und mit hoher Genauigkeit zu erkennen. Diese Aufgabe wird durch ein Steuerverfahren nach Anspruch 1 und durch ein Sprachdialogsystem nach Anspruch 5 gelöst.The invention has for its object to recognize in a speech dialogue system commands and / or search terms from complex domains, such as millions of songs or POIs, flexible and with high accuracy. This object is achieved by a control method according to claim 1 and by a speech dialogue system according to
Erfindungsgemäß wird die Aufgabe bezüglich des Steuerverfahrens gelöst durch ein Steuerverfahren zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachdialogsystem ein Sprachsignal empfängt und auswertet, welches ein Sprechkommando repräsentiert, wobei bei einer Netzwerkverbindung zwischen einer Client-Einheit und einer Cloud-Einheit eine Vielzahl von Erkennungsergebnissen von der Client-Einheit abgerufen und in einer Datenbank abgespeichert werden, sodass eine Sprachsteuerung von Client-Anwendungen und auch von Cloud-Diensten aktiviert wird.According to the invention, the object with respect to the control method is achieved by a control method for voice control of functions and / or services, wherein a voice dialogue system receives and evaluates a voice signal representing a voice command, wherein in a network connection between a client unit and a cloud unit a plurality of recognition results are retrieved from the client device and stored in a database so that voice control is activated by client applications and also by cloud services.
Das Sprachsignal umfasst vorzugsweise wenigstens ein Sprechkommando und wird abgespeichert, wobei eine Auswertung einer Informations- und Suchanfrage vorzugsweise auf zwischengespeicherten Ergebnissen erfolgt. Dabei ist es vorteilhaft, dass eine Information über wenigstens eine Interaktion der Client-Einheit mit der Cloud-Einheit aufgezeichnet wird, und eine Information über die Erkennungsergebnisse von der Cloud-Einheit sowie Anfrage und Antwort des Cloud-Dienstes gespeichert werden. Aus den gespeicherten Informationen wird vorzugsweise ein Sprachmodell von Nutzeranfragen erstellt, wobei das Sprachmodell eine Bewertung der Wichtigkeit für zukünftige Informations- und Suchanfragen gemäß einer vorgegebenen Wichtigkeitsschwelle umfasst. Dabei ist es zweckmäßig, dass die Wichtigkeitsschwelle einstellbar ist und frei vorgegeben werden kann. Vorzugsweise wird bei fehlender Netzwerkverbindung, insbesondere bei einer Netzwerkunterbrechung, das Sprachmodell in die Client-Einheit geladen, sodass bei einer Spracheingabe eines Nutzers die Erkennungsergebnisse bearbeitet werden.The speech signal preferably comprises at least one speech command and is stored, wherein an evaluation of an information and search query is preferably carried out on cached results. It is advantageous that information about at least one interaction of the client unit with the cloud unit is recorded, and information about the recognition results from the cloud unit and the request and response of the cloud service are stored. From the stored information, a language model of user requests is preferably created, wherein the language model comprises an assessment of the importance for future information and search requests according to a predetermined importance threshold. It is expedient that the importance threshold is adjustable and can be freely specified. In the case of a missing network connection, in particular in the case of a network interruption, the language model is preferably loaded into the client unit so that the recognition results are processed in the case of a voice input by a user.
Erfindungsgemäß wird die Aufgabe bezüglich des Sprachdialogsystems gelöst durch ein Sprachdialogsystem zur Sprachsteuerung von Funktionen und/oder Diensten, wobei ein Sprachsignal empfangbar und auswertbar ist, welches ein Sprechkommando repräsentiert, wobei das Sprachdialogsystem eine Client-Einheit und eine Cloud-Einheit umfasst, wobei beide Einheiten einen Spracherkenner, eine Text-to-Speech-Einheit und einen Dialogmanager aufweisen, und die Cloud-Einheit eine Sprachbedienung von internen und externen Diensten ermöglicht, wobei bei einer Netzwerkverbindung zwischen der Client-Einheit und der Cloud-Einheit eine Vielzahl von Erkennungsergebnissen von der Client-Einheit abrufbar und in einer Datenbank abspeicherbar ist, sodass eine Sprachsteuerung von Client-Anwendungen und auch von Cloud-Diensten aktivierbar ist.According to the invention, the object relating to the speech dialogue system is achieved by a speech dialogue system for voice control of functions and / or services, wherein a speech signal can be received and evaluated, which represents a speech command, wherein the speech dialogue system comprises a client unit and a cloud unit, both units a voice recognizer, a text-to-speech unit, and a dialogue manager, and the cloud unit enables voice service of internal and external services, wherein at a network connection between the client unit and the cloud unit, a plurality of recognition results from the Client unit is retrievable and stored in a database, so that Voice control of client applications and also cloud services can be activated.
Das Sprachdialogsystem ist insbesondere zur Durchführung eines vorbeschriebenen Steuerverfahrens ausgebildet.The speech dialogue system is designed in particular for carrying out a previously described control method.
Weiterhin ist es vorteilhaft, dass die Erkennungsergebnisse einen Typ einer Informations- und Suchanfrage, und/oder eine Information des Nutzers über Nicht-Erreichbarkeit eines Cloud-Dienstes und/oder eine zeitversetzte Ausführung des Cloud-Dienstes, sofern es wieder erreichbar ist, umfassen. Vorzugsweise weist die Client-Einheit zusätzlich ein Konnektivitätsmodul auf, welches eine Kommunikation mit der Cloud-Einheit übernimmt und einen Netzwerkverbindungsstatus zwischen der Client-Einheit und der Cloud-Einheit prüft. Weiterhin ist es vorteilhaft, dass die Client-Einheit vorzugsweise ein Fallback-Modul umfasst, das mit der Datenbank verbindbar ist, und das Fallback-Modul ist derart ausgestaltet, eine Speicherung der Vielzahl von Erkennungsergebnissen in der Datenbank zu aktivieren, wenn das Konnektivitätsmodul die Netzwerkverbindung zwischen der Client-Einheit und der Cloud-Einheit anzeigt. Dabei ist das Fallback-Modul der Client-Einheit insbesondere generisch und selbstlernend ausgebildet. Das heißt, Cloud-Funktionen und Cloud-Dienste können ohne Modifikation der Module der Client-Einheit später hinzugefügt werden und sind nach zumindest einer beispielhaften Nutzung bei bestehender Verbindung auch bei nicht bestehender Verbindung offline verfügbar. Dabei ist es zweckmäßig, dass das Fallback-Modul vorzugsweise eine Information über wenigstens eine Interaktion der Client-Einheit mit der Cloud-Einheit aufzeichnet und/oder vorzugsweise eine Information über die Erkennungsergebnisse des Spracherkenners von der Cloud-Einheit sowie Anfrage und Antwort des Cloud-Dienstes speichert.Furthermore, it is advantageous that the recognition results include a type of information and search request, and / or information of the user about unavailability of a cloud service and / or a time-delayed execution of the cloud service, if it is reachable again. Preferably, the client unit additionally includes a connectivity module that handles communication with the cloud unit and checks a network connection status between the client unit and the cloud unit. Furthermore, it is advantageous that the client unit preferably comprises a fallback module connectable to the database, and the fallback module is configured to enable storage of the plurality of recognition results in the database if the connectivity module is the network connection between the client unit and the cloud unit. In this case, the fallback module of the client unit is in particular designed to be generic and self-learning. That is, cloud features and cloud services may be added later without modifying the modules of the client unit and, after at least one example usage with an existing connection, are available offline even if the connection is not present. It is expedient that the fallback module preferably records information about at least one interaction of the client unit with the cloud unit and / or preferably information about the recognition results of the speech recognizer from the cloud unit as well as request and response of the cloud unit. Service stores.
Weiterhin ist es vorteilhaft, dass das Fallback-Modul weiter ausgestaltet ist, aus den gespeicherten Informationen ein Sprachmodell von Nutzeranfragen zu erstellen, wobei das Sprachmodell eine Bewertung der Wichtigkeit über zukünftige Informations- und Suchanfragen gemäß einer vorgegebenen Wichtigkeitsschwelle vornimmt. Vorzugsweise lädt bei fehlender Netzwerkverbindung, insbesondere bei einer Netzwerkunterbrechung, zu der Cloud-Einheit das Fallback-Modul das Sprachmodell in den Spracherkenner der Client-Einheit, sodass das Fallback-Modul bei einer Spracheingabe des Nutzers die Erkennungsergebnisse bearbeiten kann.Furthermore, it is advantageous that the fallback module is further configured to generate from the stored information a language model of user requests, wherein the language model evaluates the importance of future information and search requests according to a predetermined importance threshold. Preferably, in the event of a missing network connection, in particular in the event of a network interruption, the fallback module loads the language model into the speech recognizer of the client unit so that the fallback module can process the recognition results when the user inputs a speech.
Somit werden ein Steuerverfahren und ein Sprachdialogsystem bereitgestellt, welche flexibel arbeiten und zugleich eine hohe Genauigkeit aufweisen. Damit wird ermöglicht, bei fehlender Netzwerkverbindung, d.h. offline, mit einem Fallback-Mechanismus ein Sprachdialogsystem zu steuern. In einem hybriden SDS wird das Erkennen und Ausführen einer spezifischen Informations- und Suchanfrage auf zwischengespeicherten Ergebnissen ermöglicht. Außerdem wird das Erkennen des Typs einer Informations- und Suchanfrage ohne die spezifische Anfrage zu kennen und das Erkennen der Information des Nutzers über die Nicht-Erreichbarkeit des Cloud-Dienstes ermöglicht. Auch das Erkennen einer Anfrage und des Typs einer Anfrage zur Manipulation eines Cloud-Dienstes wird ermöglicht, wobei sowohl das Erkennen einer Information des Nutzers über Nicht-Erreichbarkeit des Cloud-Dienstes als auch eine zeitversetzte Ausführung, soweit der Cloud-Server wieder erreichbar ist, realisierbar sind. Diese Funktionen und/oder Dienste sollten vorzugsweise mit demselben System bereits vorher einmal bei bestehender Netzwerkverbindung zum Cloud-Server ausgeführt worden sein.Thus, a control method and a speech dialogue system are provided, which operate flexibly and at the same time have a high degree of accuracy. This makes it possible, in the absence of network connection, i. offline, using a fallback mechanism to control a speech dialog system. A hybrid SDS enables you to recognize and run a specific information query on cached results. In addition, recognizing the type of information and search query without knowing the specific request and recognizing the information of the user about the unavailability of the cloud service is made possible. The recognition of a request and the type of a request for manipulation of a cloud service is also made possible, whereby both the recognition of information of the user about unavailability of the cloud service and a time-delayed execution, as far as the cloud server is reachable again, are feasible. These functions and / or services should preferably have already been executed with the same system in the past with an existing network connection to the cloud server.
Somit wird eine Möglichkeit bereitgestellt, Kommandos und/oder Suchbegriffe aus komplexen Domänen, wie beispielsweise unter Millionen von Musiktiteln oder Sonderzielen, zumindest teilweise offline verfügbar zu machen. Dieser Teil ist aber für einen individuellen Nutzer wahrscheinlich sehr relevant, da er das Sprachkommando bereits verwendet hat. Somit wird der Nutzungskomfort erhöht.Thus, a way is provided to make commands and / or search terms from complex domains, such as among millions of songs or POIs, at least partially available offline. However, this part is probably very relevant to an individual user because he has already used the voice command. Thus, the ease of use is increased.
Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnung näher erläutert. Es zeigt:
-
1 in einer schematischen Darstellung ein erfindungsgemäßes Sprachdialogsystem.
-
1 in a schematic representation of an inventive speech dialogue system.
Im bevorzugten Ausführungsbeispiel der Erfindung wird im Hybrid-Betrieb bei bestehender Netzwerkverbindung die Client-Einheit
Bei fehlender Netzwerkverbindung schaltet das Fallback-Modul
ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- US 8249877 B2 [0002]US 8249877 B2 [0002]
- US 20130132086 A1 [0004]US 20130132086 A1 [0004]
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017222549.1A DE102017222549A1 (en) | 2017-12-13 | 2017-12-13 | Control procedure and speech dialogue system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017222549.1A DE102017222549A1 (en) | 2017-12-13 | 2017-12-13 | Control procedure and speech dialogue system |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102017222549A1 true DE102017222549A1 (en) | 2019-06-13 |
Family
ID=66629702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102017222549.1A Pending DE102017222549A1 (en) | 2017-12-13 | 2017-12-13 | Control procedure and speech dialogue system |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102017222549A1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8249877B2 (en) | 2008-08-29 | 2012-08-21 | Multimodal Technologies, Llc | Hybrid speech recognition |
US20130132086A1 (en) | 2011-11-21 | 2013-05-23 | Robert Bosch Gmbh | Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance |
-
2017
- 2017-12-13 DE DE102017222549.1A patent/DE102017222549A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8249877B2 (en) | 2008-08-29 | 2012-08-21 | Multimodal Technologies, Llc | Hybrid speech recognition |
US20130132086A1 (en) | 2011-11-21 | 2013-05-23 | Robert Bosch Gmbh | Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1927980B1 (en) | Method for classifying spoken language in spoken dialogue systems | |
DE102017220266B3 (en) | Method for checking an onboard speech recognizer of a motor vehicle and control device and motor vehicle | |
DE102009017176A1 (en) | Navigation arrangement for a motor vehicle | |
EP1926081A1 (en) | Method for dialogue adaptation and dialogue system for this purpose | |
DE10220521B4 (en) | Method and system for processing voice data and classifying calls | |
DE102006036338A1 (en) | Method for generating a context-based speech dialog output in a speech dialogue system | |
EP1430368A2 (en) | Method for accessing information and/or services of a distributed automation system | |
DE60133537T2 (en) | AUTOMATIC UMTRAINING OF A LANGUAGE RECOGNITION SYSTEM | |
EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
DE112016006512T5 (en) | Intention estimation device and intention estimation method | |
WO2004086360A1 (en) | Speaker-dependent voice recognition method and voice recognition system | |
DE19849855C1 (en) | Method for using a computer system to generate a text expression automatically while retaining meaning determines a statistical model on a number of preset pairs of word meanings and associated expressions. | |
DE102015212650B4 (en) | Method and system for computer-assisted processing of a speech input | |
WO2021144155A1 (en) | Method, computer program, and apparatus for processing a user input | |
DE102017222549A1 (en) | Control procedure and speech dialogue system | |
DE10156945A1 (en) | Method for operation of speech recognition dialogue system for provision of telephone information, etc., whereby navigation is improved as a user can jump straight to a point in a dialogue by giving a marker name | |
DE102018132160A1 (en) | SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS | |
EP1214704B1 (en) | Method and device for detecting and evaluating vocal signals representing a word emitted by a user of a voice-recognition system | |
DE102020100638A1 (en) | System and method for a dialogue with a user | |
DE102020106066A1 (en) | Device and method for monitoring communication between a user and an information unit | |
DE102014224794B4 (en) | Voice assistance method for a motor vehicle | |
WO2018188907A1 (en) | Processing speech input | |
DE102016002463A1 (en) | Method for operating a voice control | |
DE102018003777A1 (en) | Method for updating a software of at least one control device of a vehicle | |
DE102016004287A1 (en) | Method for speech recognition in a motor vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed |