DE102016005629A1 - Motor vehicle operating device and method for determining at least one recognition result to a voice signal - Google Patents

Motor vehicle operating device and method for determining at least one recognition result to a voice signal Download PDF

Info

Publication number
DE102016005629A1
DE102016005629A1 DE102016005629.0A DE102016005629A DE102016005629A1 DE 102016005629 A1 DE102016005629 A1 DE 102016005629A1 DE 102016005629 A DE102016005629 A DE 102016005629A DE 102016005629 A1 DE102016005629 A1 DE 102016005629A1
Authority
DE
Germany
Prior art keywords
recognition result
speech
specialized
recognition
speech recognizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102016005629.0A
Other languages
German (de)
Other versions
DE102016005629B4 (en
Inventor
Andre Eisenmann
Andreja JANEZIC
Christoph Voigt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audi AG
Original Assignee
Audi AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audi AG filed Critical Audi AG
Priority to DE102016005629.0A priority Critical patent/DE102016005629B4/en
Publication of DE102016005629A1 publication Critical patent/DE102016005629A1/en
Application granted granted Critical
Publication of DE102016005629B4 publication Critical patent/DE102016005629B4/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

Die Erfindung betrifft ein Verfahren zum Ermitteln eines Erkennungsergebnisses (27, 28) zu einem Sprachsignal (17), das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung enthält, wobei durch eine Bedienvorrichtung (11) das Sprachsignal (14) an mehrere Spracherkenner (18, 19) übermittelt wird, von denen einige oder alle mit unterschiedlichen Erkennungsvokabularien (25, 27) betrieben werden, so dass sie jeweils für eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert sind, und durch die Bedienvorrichtung eine Timereinrichtung (30) eingestellt wird. Die Erfindung sieht vor, dass ein erstes Erkennungsergebnis aus einem ersten der Spracherkenner (18, 19) empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird und überprüft wird, ob ein Spracherkenner (18, 19), dessen Erkennungsergebnis noch aussteht, für die Soll-Befehlsdomäne spezialisiert ist, und bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners (18, 19) die Timereinrichtung (30) derart eingestellt wird, dass auf das ausstehende Erkennungsergebnis (27) für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird.The invention relates to a method for determining a recognition result (27, 28) for a speech signal (17) containing a voice command (14) to be recognized for voice control, wherein the speech signal (14) is transmitted to a plurality of speech recognizers by an operator device (11). 18, 19), some or all of which are operated with different recognition vocabularies (25, 27) so as to each be specialized for a predetermined command domain of voice control, and a timer means (30) is set by the operating device. The invention provides that a first recognition result is received from a first one of the speech recognizers (18, 19) and a desired command domain is determined on the basis of the received first recognition result and it is checked whether a speech recognizer (18, 19) whose recognition result is still outstanding , is specialized for the target command domain, and is pending recognition result of the specialized speech recognizer (18, 19), the timer means (30) is set such that the pending recognition result (27) is waited for at least a predetermined minimum period of time.

Description

Die Erfindung betrifft ein Verfahren zum Ansteuern zumindest eines Spracherkenners zum Minimieren einer Latenz beim Ermitteln eines Erkennungsergebnisses zu einem Sprachsignal, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält. Zum Ermitteln des Erkennungsergebnisses werden mehrere Spracherkenner betrieben. Zu der Erfindung gehört auch eine Bedienvorrichtung zum Durchführen des erfindungsgemäßen Verfahrens. Schließlich umfasst die Erfindung auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung.The invention relates to a method for driving at least one speech recognizer for minimizing a latency in determining a recognition result to a speech signal containing a voice command to be recognized for a voice control. Several speech recognizers are operated to determine the recognition result. The invention also includes an operating device for carrying out the method according to the invention. Finally, the invention also includes a motor vehicle with the operating device according to the invention.

Im Zusammenhang mit der Erfindung ist unter einem Spracherkenner eine Erkennungseinrichtung zu verstehen, die eine automatisierte Spracherkennung (ASR-Automatic Speech Recognition) durchführt. Eine solche Spracherkennung kann beispielsweise auf der Grundlage von Hidden-Markov-Modellen erzeugt werden.In connection with the invention, a speech recognizer is to be understood as meaning a recognition device which performs an automated speech recognition (ASR). Such speech recognition can be generated, for example, on the basis of hidden Markov models.

Die Bedienung eines Kraftfahrzeugs mittels Sprachbedienung ist aus der US 2015/0269939 A1 bekannt. Hierbei ist der gleichzeitige Betrieb mehrerer Spracherkenner vorgesehen. Einer der Spracherkenner kann sich im Kraftfahrzeug, ein anderer Spracherkenner außerhalb des Kraftfahrzeugs befinden, beispielsweise als Online-Spracherkennungsdienst des Internets.The operation of a motor vehicle by means of voice control is from the US 2015/0269939 A1 known. Here, the simultaneous operation of multiple speech recognizer is provided. One of the speech recognizers can be in the car, another speech recognizer outside the car, for example as an online voice recognition service of the Internet.

Beim Betrieb mehrerer Spracherkenner zum Ermitteln zumindest eines Erkennungsergebnisses ergibt sich das Problem, dass nicht alle Spracherkenner zugleich ihr jeweiliges Erkennungsergebnis bereitstellen. Die Spracherkenner benötigen unterschiedlich viel Zeit, um ein Erkennungsergebnis zu ermitteln und dieses an die Bedienvorrichtung zu übertragen. Daher stellt sich die Frage, ab welchem Zeitpunkt nach dem Eintreffen eines ersten Erkennungsergebnisses der Spracherkennungsvorgang abgebrochen werden soll, um die bis dahin empfangenen Erkennungsergebnisse für den weiteren Steuervorgang oder Bedienvorgang des Kraftfahrzeugs zu nutzen. Liegt beispielsweise schon ein richtiges Erkennungsergebnis vor, so sollte gleich mit der Umsetzung des durch das Erkennungsergebnis beschriebenen Sprachbefehls fortgefahren werden, da ansonsten aus Sicht des Bedieners eine unnötige Verzögerung entsteht.When operating multiple speech recognizers to determine at least one recognition result, the problem arises that not all speech recognizers provide their respective recognition result at the same time. The speech recognizers take different amounts of time to determine a recognition result and to transmit this to the operating device. Therefore, the question arises, from which time after the arrival of a first recognition result of the speech recognition process is to be aborted to use the previously received recognition results for the further control process or operation of the motor vehicle. For example, if there is already a correct recognition result, then the reaction to the voice command described by the recognition result should proceed immediately, since otherwise an unnecessary delay arises from the perspective of the operator.

Eine Sprachbedienung für eine Suchfunktion einer Datenbank ist aus der DE 39 28 049 A1 bekannt.A voice control for a search function of a database is from the DE 39 28 049 A1 known.

Aus der DE 199 42 868 A1 ist bekannt, zum zuverlässigen Ermitteln eines Erkennungsergebnisses mehrere Mikrofone zu nutzen, aus denen dann dasjenige mit dem zuverlässigsten Sprachsignal ausgewählt wird, um damit einen Spracherkenner zu betreiben.From the DE 199 42 868 A1 It is known to reliably use a recognition result to use several microphones, from which then the one with the most reliable speech signal is selected to operate a speech recognizer.

Aus der DE 10 2013 011 922 A1 ist bekannt, zum Überprüfen einer Qualität eines Erkennungsergebnisses einen Konfidenzwert zu überprüfen, der von einem Spracherkenner als Teil des Erkennungsergebnisses bereitgestellt werden kann.From the DE 10 2013 011 922 A1 For checking a quality of a recognition result, it is known to check a confidence value that can be provided by a speech recognizer as part of the recognition result.

Der Erfindung liegt die Aufgabe zugrunde, eine Betriebsstrategie für eine Sprachbedienung bereitzustellen, die zum Erkennen eines Sprachbefehls mehrere Spracherkenner gleichzeitig oder parallel betreibt.The invention has for its object to provide an operating strategy for a voice control, which operates to recognize a voice command multiple speech recognizers simultaneously or in parallel.

Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren gegeben.The object is solved by the subject matters of the independent claims. Advantageous developments of the invention are given by the features of the dependent claims, the following description and the figures.

Durch die Erfindung ist ein Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält, bereitgestellt. Durch eine Bedienvorrichtung wird das Sprachsignal an mehrere Spracherkenner übermittelt. Insbesondere ist eine Sprachbedienung eines Kraftfahrzeugs vorgesehen. Die Bedienvorrichtung kann beispielsweise als ein Steuergerät des Kraftfahrzeugs ausgestaltet sein. Das Verfahren ist aber auch in einem anderen Gerät vorsehbar, z. B. in einem portablen, mobilen Endgerät, wie z. B. einem Smartphone, einem Tablet-PC oder einer Smartwatch.The invention provides a method for determining at least one recognition result for a speech signal that contains a speech command to be recognized for a voice operation. An operating device transmits the speech signal to a plurality of speech recognizers. In particular, a voice control of a motor vehicle is provided. The operating device can be configured, for example, as a control unit of the motor vehicle. The method is also providable in another device, z. B. in a portable, mobile device such. As a smartphone, a tablet PC or a smartwatch.

Von den Spracherkennern werden einige oder alle mit unterschiedlichen Erkennungsvokabularien betrieben. Hierdurch sind sie für jeweils eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert. Insbesondere ist vorgesehen, dass Erkennungsvokabularien für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung (zum Beispiel eines MP3-Abspielgerät), eine Bedienung einer Sucheinrichtung (zum Beispiel für eine Suche in einem digitalen Telefonbuch oder eine Suche im Internet). Mit „zumindest eine” ist hierbei gemeint, dass eine oder einige oder alle der besagten Befehlsdomänen umfasst sein können.Some or all of the speech recognizers operate on different recognition vocabularies. As a result, they each specialize in a predetermined command domain of voice control. In particular, it is provided that recognition vocabularies are provided for at least one of the following command domains: an operation of a navigation device, an operation of an infotainment system, an operation of a telephone device, an operation of a media player (for example an MP3 player), an operation of a search device (for example for a search in a digital telephone book or a search on the Internet). By "at least one" is meant here that one or some or all of the said instruction domains may be included.

Das Sprachsignal mit dem darin enthaltenen Sprachbefehl wird also an mehrere, gleichzeitig betriebene Spracherkenner ausgesendet, damit diese jeweils ein Erkennungsergebnis erzeugen und dieses zurück an die Bedienvorrichtung aussenden oder übermitteln. Durch die Bedienvorrichtung wird eine Timereinrichtung für eine Maximaldauer eines Wartevorgangs zum Empfangen von Erkennungsergebnissen eingestellt. Falls nach Ablauf der Maximaldauer kein Erkennungsergebnis empfangen wird, so wird der Erkennungsvorgang bevorzugt abgebrochen und der Benutzer beispielsweise aufgefordert, den Sprachbefehl noch einmal auszusprechen oder auf eine andere Eingabemodalität, zum Beispiel eine manuelle Bedienung, zu wechseln. Die Timereinrichtung kann in an sich bekannter Weise realisiert sein, beispielsweise als ein Programmodul, das einen sogenannten Countdown ausführt.The speech signal with the voice command contained therein is thus transmitted to a plurality of speech recognizers operated simultaneously, so that they each generate a recognition result and send it out or transmit it back to the operating device. By the operating device is a timer device for a maximum duration of Wait for receiving recognition results. If after the expiration of the maximum duration no recognition result is received, the recognition process is preferably aborted and the user is prompted, for example, to pronounce the voice command again or to change to another input modality, for example a manual operation. The timer device can be realized in a manner known per se, for example as a program module which executes a so-called countdown.

Der Sprachbefehl kann aus einem Wort bestehen, z. B. einem Städtenamen bei der Eingabe eines Navigationsziels. Bei dem Sprachbefehl kann es sich auch um eine vollständige Phrase (mehrere Wörter) handeln. Beispielsweise kann der Sprachbefehl besagen: „Fahre mich zum Restaurant XY!” Hierbei können allgemeine Worte wie „Fahre” und „Restaurant” in einem Erkennungsvokabular eines nicht-spezialisierten Spracherkenners enthalten sein. Dagegen bedarf es eines spezialisierten Erkennungsvokabulars, um auch die Namen einzelner Restaurants, wie zum Beispiel „XY” ebenfalls fehlerfrei erkennen zu können. Ein nicht-spezialisierter Spracherkenner kann somit beispielsweise in seinen Erkennungsergebnis zwar die erkannten Worte „Fahre” und „Restaurant” angeben, aber anstelle des Namens des Restaurants („XY”) ein unerkanntes Wort signalisieren. Dagegen kann durch einen spezialisierten Spracherkenner, der das Erkennungsvokabular zum Beispiel für eine Navigation oder für eine Navigation zu vorbestimmten Fahrzielen (POI-Point-of-Interest) verwendet, auch der Name erkannt werden.The voice command can consist of one word, e.g. B. a city name when entering a navigation destination. The voice command can also be a complete phrase (multiple words). For example, the voice command may say, "Drive me to the restaurant XY!" Here, common words such as "drive" and "restaurant" may be included in a recognition vocabulary of a non-specialized speech recognizer. On the other hand, a specialized recognition vocabulary is required in order to be able to recognize the names of individual restaurants, such as "XY", without errors as well. Thus, for example, a non-specialized speech recognizer may indicate the recognized words "Fahre" and "Restaurant" in its recognition result, but signal an unrecognized word instead of the name of the restaurant ("XY"). In contrast, the name can be recognized by a specialized speech recognizer using the recognition vocabulary, for example, for navigation or navigation to predetermined destinations (POI point-of-interest).

Falls nun ein frühestes oder erstes Erkennungsergebnis von einem ersten Spracherkenner empfangen wird oder eintrifft, stellt sich die Frage, ob man dieses erste Erkennungsergebnis nutzen sollte, um möglichst schnell den Sprachbefehl, wie er gemäß den Erkennungsergebnis erkannt wurde, umzusetzen, oder ob auf noch zumindest ein weiteres Erkennungsergebnis gewartet werden soll. Die letztere Entscheidung erzeugt aus Sicht des Benutzers eine Reaktionsverzögerung der Bedienvorrichtung.If an earliest or first recognition result is received or arrives from a first speech recognizer, the question arises as to whether this first recognition result should be used in order to implement the speech command as quickly as possible, as detected according to the recognition result, or whether at least another recognition result is to be maintained. The latter decision generates a response delay of the operating device from the user's point of view.

Bei dem erfindungsgemäßen Verfahren ist vorgesehen, dass das erste Erkennungsergebnis aus dem ersten Spracherkenner empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird. Bei der Soll-Befehlsdomäne kann es sich um eine Angabe der Befehlsdomäne handeln, die von dem ersten Spracherkenner selbst als Bestandteil des Erkennungsergebnisses bereitgestellt sein kann. Erkennt der Spracherkenner beispielsweise das Wort „Restaurant” in einem Sprachsignal, welches lautet: „Fahre mich zum Restaurant XY!”, so kann durch den Spracherkenner selbst als Soll-Befehlsdomäne beispielsweise „Navigation” (Bedienung einer Navigationseinrichtung) angegeben werden. Alternativ dazu kann auch durch die Bedienvorrichtung selbst anhand zumindest eines erkannten Wortes, zum Beispiel „Fahre” und „Restaurant” anhand einer vorbestimmten Zuordnungsvorschrift ebenfalls eine soll-Befehlsdomäne ermittelt werden. Die Zuordnungsvorschrift kann beispielsweise auf der Grundlage einer Zuordnungstabelle realisiert sein. Durch die Bedienvorrichtung wird überprüft, ob ein Spracherkenner, dessen Erkennungsergebnis noch aussteht, d. h. noch nicht empfangen wurde, für die Soll-Befehlsdomäne spezialisiert ist. In dem beschriebenen Beispiel wird also überprüft, ob ein Spracherkenner für Befehlsdomäne „Navigation” mit dem entsprechenden Erkennungsvokabular unter den Spracherkennern vorhanden ist und von diesem spezialisierten Spracherkenner noch kein Erkennungsergebnis empfangen wurde. Bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners wird die beschriebene Timereinrichtung derart eingestellt, dass auf das ausstehende Erkennungsergebnis des spezialisierten Spracherkenners für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird. Mit anderen Worten wird unabhängig von einem aktuellen Timerzustand sichergestellt, dass die Maximaldauer bis zum Abbrechen des Erkennungsvorgangs zumindest die vorbestimmte Mindestzeitdauer beträgt.In the method according to the invention, it is provided that the first recognition result is received from the first speech recognizer and a desired command domain is determined on the basis of the received first recognition result. The target command domain may be an indication of the command domain that may be provided by the first speech recognizer itself as part of the recognition result. If the speech recognizer recognizes, for example, the word "restaurant" in a speech signal which reads "drive me to the restaurant XY!", The speech recognizer itself can, for example, indicate "navigation" (operation of a navigation device) as the target command domain. Alternatively, a target command domain can also be determined by the operating device itself based on at least one recognized word, for example, "Fahre" and "Restaurant" based on a predetermined assignment rule. The assignment rule can be realized, for example, on the basis of an allocation table. The operating device checks whether a speech recognizer whose recognition result is still outstanding, d. H. has not yet been received, is specialized for the target command domain. In the example described, it is thus checked whether a speech recognizer for command domain "navigation" with the corresponding recognition vocabulary is present among the speech recognizers and no recognition result has yet been received by this specialized speech recognizer. If the recognition result of the specialized speech recognizer is still pending, the described timer means is set such that the outstanding recognition result of the specialized speech recognizer is waited for at least a predetermined minimum time duration. In other words, regardless of a current timer state, it is ensured that the maximum duration until the detection process is interrupted is at least the predetermined minimum time duration.

Durch die Erfindung ergibt sich der Vorteil, dass überprüft wird, ob ein zuverlässigeres oder besseres oder vollständigeres Erkennungsergebnis zu erwarten ist, weil noch ein spezialisierter Spracherkenner läuft und von diesem ein besseres Erkennungsergebnis zu erwarten ist. In dem beschriebenen Beispiel kann es sein, dass von dem ersten Spracherkenner in dem Erkennungsergebnis zwar die Worte „Fahre” und „Restaurant” erkannt werden, aber der spezifische Name des Restaurants, nämlich „XY”, nicht erkannt werden konnte, weil dem ersten Spracherkenner aufgrund seines beschränkten Erkennungsvokabulars der Name des Restaurants unbekannt ist. Dagegen ist die Wahrscheinlichkeit, dass auch der Name des Restaurants erkannt wurde, bei dem Erkennungsergebnis des spezialisierten Spracherkenners größer. Somit ist es sinnvoll, dieses Erkennungsergebnis abzuwarten, anstatt den Benutzer auf der Grundlage des unvollständigen Erkennungsergebnisses des ersten Spracherkenners noch einmal nach dem genauen Namen des Restaurants zu fragen.The invention provides the advantage that it is checked whether a more reliable or better or more complete recognition result is to be expected because a specialized speech recognizer is still running and a better recognition result can be expected from this. In the described example, although the words "drive" and "restaurant" may be recognized by the first speech recognizer in the recognition result, the specific name of the restaurant, namely "XY", could not be recognized because the first speech recognizer Due to its limited recognition vocabulary, the name of the restaurant is unknown. On the other hand, the probability that the name of the restaurant was recognized is greater for the recognition result of the specialized speech recognizer. Thus, it makes sense to wait for this recognition result instead of asking the user again for the exact name of the restaurant based on the incomplete recognition result of the first speech recognizer.

Zu der Erfindung gehören auch vorteilhafte Weiterbildungen, durch deren Merkmale sich zusätzliche Vorteile ergeben.The invention also includes advantageous developments, the characteristics of which provide additional advantages.

Für den Fall, dass der für die Soll-Befehlsdomäne spezialisierte Spracherkenner fehlt, d. h. kein Spracherkenner mit dem entsprechenden Erkennungsvokabular betrieben wird, wird bevorzugt aus dem empfangenen 1. Erkennungsergebnis ein Konfidenzwert entnommen und mit einem Schwellenwert verglichen. Der Konfidenzwert kann beispielsweise eine Likelihood angeben, wie sie durch ein Hidden-Markov-Modell ermittelt werden kann. Der Konfidenzwert kann auch ein sogenannter Score sein wie er auf der Grundlage von mehreren erkannten Worten und einer nachgeschalteten Grammatik in an sich bekannter Weise ermittelt werden kann falls der Konfidenzwert kleiner als der Schwellenwert ist, das heißt das Erkennungsergebnis unsicher ist, wird das Erkennungsergebnis verworfen und auf ein nächstes Erkennungsergebnis gewartet. Dies kann so lange fortgesetzt werden, bis der Restwert der Timereinrichtung abgelaufen ist. Falls auch das nächste Erkennungsergebnis einen Konfidenzwert aufweist, der kleiner als der Schwellenwert ist, so kann dieses ebenfalls verworfen werden und auf ein nächstes Erkennungsergebnis gewartet werden. Falls der Konfidenzwert des ersten Erkennungsergebnisses oder eines nächsten Erkennungsergebnisses größer als der Schwellenwert ist, so kann dieses Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt oder verwendet werden. Das verwendete Erkennungsergebnis wird dann zum Ermitteln oder erzeugen des durch den Sprachbefehl beschriebenen Steuersignals z. B. für das Kraftfahrzeug oder ein anderes Gerät verwendet.In the event that the speech recognizer specialized for the target command domain is missing, ie no speech recognizer is operated with the corresponding recognition vocabulary, it is preferred taken from the received 1st recognition result, a confidence value and compared with a threshold. For example, the confidence value may indicate a likelihood, as determined by a hidden Markov model. The confidence value can also be a so-called score, as it can be determined in a manner known per se on the basis of several recognized words and a subsequent grammar. If the confidence value is less than the threshold value, ie the recognition result is uncertain, the recognition result is discarded and waiting for a next recognition result. This can be continued until the residual value of the timer device has expired. If the next recognition result also has a confidence value which is smaller than the threshold value, then this can also be discarded and the next recognition result can be waited for. If the confidence value of the first recognition result or a next recognition result is greater than the threshold, then this recognition result may be provided or used as a final recognition result. The recognition result used is then used to determine or generate the control signal z described by the voice command. B. used for the motor vehicle or another device.

Falls ein für die Soll-Befehlsdomäne spezialisierte Spracherkenner vorhanden ist, so wird bevorzugt bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners eine Restzeitdauer der Timereinrichtung auf die Mindestzeitdauer verlängert. Damit wartet die Bedienvorrichtung nicht nur für die beschriebene Maximaldauer auf Erkennungsergebnis, sondern es wird eine längere Mindestzeitdauer eingestellt. Alternativ dazu kann auch vorgesehen sein, dass die Mindestzeitdauer eine relative Zeitangabe ist und die Restzeitdauer der Timereinrichtung nicht auf die Mindestzeitdauer, sondern um die Mindestzeitdauer verlängert wird. Hierdurch ist sichergestellt, dass selbst nach einer längeren Wartezeit auf das 1. Erkennungsergebnis noch mindestens die Mindestzeitdauer abgewartet wird, um auch das Erkennungsergebnis des spezialisierten Spracherkenners zu empfangen.If a speech recognizer specialized for the target command domain is present, it is preferable to extend a remaining time duration of the timer device to the minimum duration if the recognition result of the specialized speech recognizer is still pending. Thus, the operating device waits not only for the described maximum duration on recognition result, but it is set a longer minimum period of time. Alternatively, it can also be provided that the minimum time duration is a relative time specification and the remaining time duration of the timer device is not extended to the minimum time duration but by the minimum time duration. This ensures that even after a long waiting time for the first recognition result, at least the minimum period of time is still waited to receive the recognition result of the specialized speech recognizer.

Wie bereits ausgeführt, kann es sich bei zumindest einem der Spracherkenner um einen vorrichtungsexternen Spracherkenner handeln, der dann zum Beispiel über eine Funkverbindung mit der Bedienvorrichtung gekoppelt sein kann. Deshalb wird nach dem empfangen des ersten Erkennungsergebnisses bevorzugt zunächst überprüft, ob zumindest einer der übrigen Spracherkenner noch über eine jeweilige Kommunikationsverbindung zum empfangen eines Erkennungsergebnisses erreichbar ist. Nur für diesen Fall wird die Soll-Befehlsdomäne ermittelt. Andernfalls, wenn also keiner der übrigen Spracherkenner erreichbar ist, wird das erste Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt.As already stated, at least one of the voice recognizers can be a voice recognizer external to the device, which can then be coupled to the operating device, for example via a radio link. Therefore, after receiving the first recognition result, it is preferably first checked whether at least one of the remaining speech recognizers can still be reached via a respective communication connection for receiving a recognition result. Only in this case the target command domain is determined. Otherwise, if none of the other speech recognizers can be reached, the first recognition result is provided as the final recognition result.

Für den Fall, dass zumindest einer der übrigen Spracherkenner über die jeweilige Kommunikationsverbindung erreichbar ist, wird solange auf zumindest ein weiteres Erkennungsergebnis gewartet, bis eine der beiden folgenden Bedingungen erfüllt ist: Es wird ein weiteres Erkennungsergebnis empfangen, das einen Konfidenzwert aufweist, der größer als ein vorbestimmter Schwellenwert ist, oder die Timereinrichtung signalisiert einen Timerablauf. Bei dem Schwellenwert kann es sich um den bereits beschriebenen Schwellenwert handeln oder um einen anderen Schwellenwert. Es kann also sein, dass selbst das Erkennungsergebnis des spezialisierten Spracherkenners anhand seines Konfidenzwert des über den Schwellenwertvergleich überprüft wird.In the event that at least one of the other speech recognizers can be reached via the respective communication connection, at least one further recognition result is awaited until one of the following two conditions has been fulfilled: A further recognition result is received which has a confidence value greater than is a predetermined threshold, or the timer means signals a timer expiration. The threshold may be the threshold already described or another threshold. It may therefore be that even the recognition result of the specialized speech recognizer is checked on the basis of its confidence value of the threshold comparison.

Wie bereits ausgeführt, handelt es sich bei den Spracherkennern bevorzugt um zumindest einen vorrichtungseigenen oder vorrichtungsinternen Spracherkenner, der in der Bedienvorrichtung betrieben wird, und um zumindest einen vorrichtungsexternen Spracherkenner, an welchen das Sprachsignal ausgesendet wird. Dies kann über die beschriebene Funkverbindung erfolgen, die beispielsweise eine Mobilfunkverbindung oder eine WLAN-Funkverbindung (WLAN-Wireless local area Network) sein kann.As already stated, the speech recognizers are preferably at least one device-specific or device-internal speech recognizer which is operated in the operating device and at least one device-external speech recognizer to which the speech signal is transmitted. This can be done via the radio connection described, which may be, for example, a mobile radio connection or a WLAN wireless connection (WLAN wireless local area network).

Zu der Erfindung gehört auch die beschriebene Bedienvorrichtung zum Bedienen eines Kraftfahrzeugs mittels Sprachbedienung. Die Bedienvorrichtung ist dazu eingerichtet, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Hierzu kann die Bedienvorrichtung eine Prozessoreinrichtung aufweisen, die Programmcode enthält, der bei Ausführen durch die Prozessoreinrichtung eine Ausführungsform des erfindungsgemäßen Verfahrens durchführt. Die Prozessoreinrichtung kann hierzu beispielsweise einen Mikroprozessor oder einen Mikrocontroller aufweisen. Des Weiteren kann die Prozessoreinrichtung einen Speicher aufweisen, in welchem der Programmcode gespeichert ist.The invention also includes the described operating device for operating a motor vehicle by means of voice control. The operating device is set up to carry out an embodiment of the method according to the invention. For this purpose, the operating device may have a processor device which contains program code which, when executed by the processor device, carries out an embodiment of the method according to the invention. For this purpose, the processor device can have, for example, a microprocessor or a microcontroller. Furthermore, the processor device can have a memory in which the program code is stored.

Schließlich gehört zu der Erfindung auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung. Das Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen, ausgestaltet.Finally, the invention also includes a motor vehicle with the operating device according to the invention. The motor vehicle is preferably designed as a motor vehicle, in particular as a passenger car.

Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt:In the following an embodiment of the invention is described. This shows:

1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs und 1 a schematic representation of an embodiment of the motor vehicle according to the invention and

2 ein Flussschaudiagramm zur Veranschaulichung einer Ausführungsform des erfindungsgemäßen Verfahrens, die durch eine Bedienvorrichtung des Kraftfahrzeugs von 1 ausgeführt werden kann. 2 a Flußschaudiagramm illustrating an embodiment of the method according to the invention, by an operating device of the motor vehicle of 1 can be executed.

Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiment explained below is a preferred embodiment of the invention. In the exemplary embodiment, the described components of the embodiment each represent individual features of the invention that are to be considered independently of one another, which also each independently further develop the invention and thus also individually or in a different combination than the one shown as part of the invention. Furthermore, the described embodiment can also be supplemented by further features of the invention already described.

In den Figuren sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.In the figures, functionally identical elements are each provided with the same reference numerals.

1 zeigt ein Kraftfahrzeug 10, bei dem es sich um einen Kraftwagen, insbesondere einen Personenkraftwagen, handeln kann. Das Kraftfahrzeug 10 kann eine Bedienvorrichtung 11 aufweisen, mittels welcher ein Benutzer 12 zumindest eine Fahrzeugkomponente 13 des Kraftfahrzeugs 10 bedienen kann. Die Fahrzeugkomponente 13 kann beispielsweise ein Infotainmentsystem (Information-Unterhaltungssystem) des Kraftfahrzeugs 10 sein. 1 shows a motor vehicle 10 which may be a motor vehicle, in particular a passenger car. The car 10 can be an operating device 11 have, by means of which a user 12 at least one vehicle component 13 of the motor vehicle 10 can serve. The vehicle component 13 For example, an infotainment system (information-entertainment system) of the motor vehicle 10 be.

Durch die Bedienvorrichtung 11 ist hierbei eine Sprachbedienung der zumindest einen Fahrzeugkomponente 13 ermöglicht. Hierzu kann der Benutzer 12 einen Sprachbefehl 14 aussprechen, welcher als Sprachschall durch eine Mikrofonanordnung 15 des Kraftfahrzeugs 10 empfangen werden kann. Die Mikrofonanordnung 15 kann in bekannter Weise zum Beispiel ein oder mehrere Mikrofone umfassen. Ein Mikrofonsignal 16 der Mikrofonanordnung 15 kann durch die Bedienvorrichtung 11 empfangen werden. Die Bedienvorrichtung 11 kann das Mikrofonsignal 16 selbst oder aus dem Mikrofonsignal 16 erzeugten Erkennungsmerkmale, beispielsweise cepstrale Koeffizienten, als ein Sprachsignal 17 an mehrere Spracherkenner 18, 19 ausgeben. Zumindest einer der Spracherkenner 18, 19 kann ein fahrzeugeigener Spracherkenner sein, was in 1 durch den Spracherkenner 18 symbolisiert ist. Zumindest ein weiterer Spracherkenner 19 kann ein fahrzeugexterner Spracherkenner sein, was in 1 durch den Spracherkenner 19 symbolisiert ist.Through the operating device 11 Here is a voice control of at least one vehicle component 13 allows. This can be done by the user 12 a voice command 14 pronounce, which as a speech sound through a microphone arrangement 15 of the motor vehicle 10 can be received. The microphone arrangement 15 For example, in known manner, it may include one or more microphones. A microphone signal 16 the microphone arrangement 15 can through the operating device 11 be received. The operating device 11 can the microphone signal 16 yourself or from the microphone signal 16 generated recognition features, such as cepstral coefficients, as a speech signal 17 to several speech recognizers 18 . 19 output. At least one of the speech recognizers 18 . 19 can be an on-board Speech Recognizer, what in 1 through the speech recognizer 18 is symbolized. At least one more speech recognizer 19 can be an external speech recognizer, which is in 1 through the speech recognizer 19 is symbolized.

Das Sprachsignal 17 kann an den fahrzeugexternen Spracherkenner 19 beispielsweise über eine Kommunikationseinrichtung 20 des Kraftfahrzeugs 10 ausgesendet werden. Die Kommunikationseinrichtung 20 kann beispielsweise ein Mobilfunkmodul und/oder ein WLAN-Funkmodul umfassen. Mittels der Kommunikationseinrichtung 20 kann eine Funkverbindung 21 beispielsweise zu einem Mobilfunknetzwerk 22 oder einen WLAN-Router aufgebaut oder bereitgestellt werden. Insgesamt kann somit eine Kommunikationsverbindung 23 zwischen der Bedienvorrichtung 11 und dem Spracherkenner 19 bereitgestellt werden, die auch über das Internet 24 führen kann. Jeder der Spracherkenner 18, 19 wird mit einem vorbestimmten Erkennungsvokabular 25, 26 betrieben. Hierdurch kann jeder der Spracherkenner 18, 19 für eine vorbestimmte Befehlsdomäne, zum Beispiel das Bedienen einer Navigationseinrichtung oder eines Telefons, spezialisiert sein. Es kann auch ein allgemeines Erkennungsvokabular ohne Spezialisierung oder es können mehre Erkennungsvokabularien mit unterschiedlich großem Wortschatz vorgesehen sein, die dann unterschiedliche Grade der Spezialisierung ergeben.The speech signal 17 can be sent to the vehicle external speech recognizer 19 for example via a communication device 20 of the motor vehicle 10 to be sent out. The communication device 20 For example, it may comprise a mobile radio module and / or a WLAN radio module. By means of the communication device 20 can be a radio connection 21 For example, to a mobile network 22 or a wireless router is set up or provisioned. Overall, thus, a communication connection 23 between the operating device 11 and the speech recognizer 19 are also provided via the Internet 24 can lead. Each of the speech recognizers 18 . 19 comes with a predetermined recognition vocabulary 25 . 26 operated. This allows each of the speech recognizers 18 . 19 be specialized for a predetermined command domain, for example the operation of a navigation device or a telephone. There may also be a general recognition vocabulary without specialization, or several recognition vocabularies with different sized vocabulary, which then give different degrees of specialization.

Jeder der Spracherkenner 18, 19 soll auf der Grundlage seines Erkennungsvokabulars 25, 26 aus dem Sprachsignal 17 den Sprachbefehl 14 ermitteln. Das hierdurch entstehende jeweilige Erkennungsergebnis 27, 28 hängt dabei vom verwendeten Erkennungsvokabular 25, 26 ab. Es kann sein, dass einer der Spracherkenner 18, 19 den Sprachbefehl 14 gar nicht oder nur teilweise (nur einige Worte) oder vollständig erkennen kann.Each of the speech recognizers 18 . 19 based on his recognition vocabulary 25 . 26 from the speech signal 17 the voice command 14 determine. The resulting recognition result 27 . 28 depends on the recognition vocabulary used 25 . 26 from. It may be that one of the speech recognizers 18 . 19 the voice command 14 not at all or only partially (only a few words) or completely recognizable.

Um aus zumindest einem der Erkennungsergebnis 27, 28 ein Steuersignal 29 zum Steuern der zumindest einen Fahrzeugkomponente 13 zu erzeugen, wird durch die Bedienvorrichtung 11 zum Beispiel das im Folgenden anhand von 2 veranschaulichte Verfahren durchgeführt.To get at least one of the recognition result 27 . 28 a control signal 29 for controlling the at least one vehicle component 13 is generated by the operating device 11 for example, the following with reference to 2 illustrated method performed.

In einem Schritt S1 kann das Sprachsignal 17 an die Spracherkenner 18, 19 ausgesendet werden. Davor oder danach kann in einem Schritt S2 eine Timereinrichtung 30 auf eine vorbestimmte Maximaldauer eingestellt und gestartet werden. Falls die Timereinrichtung 30 abläuft, unterbricht die Bedienvorrichtung 11 das Warten auf weitere Erkennungsergebnisses 27, 28.In a step S1, the speech signal 17 to the speech recognizers 18 . 19 to be sent out. Before or after, in a step S2, a timer means 30 be set to a predetermined maximum duration and started. If the timer device 30 expires, interrupts the operating device 11 Waiting for more recognition result 27 . 28 ,

Nachdem der schnellste der Spracherkenner 18, 19 mit dem Erkennungsvorgang fertig ist, empfängt die Bedienvorrichtung 11 in einem Schritt S3 ein erstes Erkennungsergebnis 27, 28 von diesem Spracherkenner 18, 19. In dem vorliegenden Beispiel sei angenommen, dass der fahrzeugeigene Spracherkenner 18 zuerst sein Erkennungsergebnis 27 bereitstellt.After the fastest of the speech recognizers 18 . 19 is finished with the recognition process, receives the operating device 11 in a step S3, a first recognition result 27 . 28 from this speech recognizer 18 . 19 , In the present example, assume that the on-board Speech Recognizer 18 first his recognition result 27 provides.

In einem Schritt S4 kann durch die Bedienvorrichtung 11 überprüft werden, ob die Kommunikationsverbindung 23 zum weiteren Spracherkenner 19 noch bereitsteht oder zum Beispiel aufgrund eines Funkloches die Kommunikationsverbindung 23 abgebrochen oder unterbrochen ist.In a step S4, by the operating device 11 be checked if the communication connection 23 to the other speech recognizer 19 still ready or for example due to a Funkloches the communication link 23 aborted or interrupted.

Falls die Kommunikationsverbindung 23 noch bereitsteht (in 2 durch ein Plus-Zeichen „+” symbolisiert), so kann in einem Schritt S5 überprüft werden, ob es sich bei dem Erkennungsergebnis 27 (das heißt dem ersten oder frühesten Erkennungsergebnis) um einen Sprachbefehl aus einer Befehlsdomäne handelt, für welche der verbleibende Spracherkenner 19 ein spezialisiertes Erkennungsvokabular 26 aufweist. Ein solcher spezialisierter Spracherkenner ist hier als TopSR (Top Speech Recognizer) bezeichnet. In dem vorliegenden Beispiel sei angenommen, dass der Spracherkenner 19 ein spezialisierter Spracherkenner TopSR ist, während der Spracherkenner 18 für die Befehlsdomäne, wie sie anhand des Erkennungsergebnisses 27 ermittelt wurde, kein spezialisierter Spracherkenner ist. Entsprechend fällt die Prüfung im Schritt S5 positiv aus (Plus-Zeichen „+”). Daraufhin wird die Timereinrichtung 30 in einem Schritt S6 auf eine verlängerte Wartezeit eingestellt. In einem Schritt S7 läuft dann ein Wartevorgangs 31 ab, in welchen die Bedienvorrichtung 11 auf weitere Erkennungsergebnisses 28 wartet.If the communication connection 23 still ready (in 2 symbolized by a plus sign "+"), it can be checked in a step S5, whether it is the recognition result 27 (ie, the first or earliest recognition result) is a voice command from a command domain for which the remaining voice recognizer 19 a specialized recognition vocabulary 26 having. Such a specialized speech recognizer is referred to herein as TopSR (Top Speech Recognizer). In the present example, assume that the speech recognizer 19 a specialized speech recognizer TopSR is while the speech recognizer 18 for the command domain, as determined by the recognition result 27 was not a specialized speech recognizer. Accordingly, the test in step S5 is positive (plus sign "+"). The timer device will then turn on 30 set to an extended waiting time in a step S6. In a step S7 then runs a wait 31 in which the operating device 11 on further recognition result 28 waiting.

Falls in dem Schritt S5 erkannt wird, dass kein spezialisierter Spracherkenner vorhanden ist oder falls während des Wartevorgangs 31 ein weiteres Erkennungsergebnis eintrifft, kann in einem Schritt S8 (in 2 durch ein Minus-Zeichen „–” symbolisiert) zu dem jeweiligen Erkennungsergebnis 27, 28 ein Konfidenzwert CONF mit einem Schwellenwert C0 verglichen werden. Ist der Konfidenzwert kleiner als der Schwellenwert C0 (LOW) so wird in dem Schritt S7 der Wartevorgangs 31 zum empfangen zumindest eines weiteren Erkennungsergebnisses fortgesetzt. Falls der erste Spracherkenner 18 bereits ein TopSR ist, kann im Schritt S5 ebenfalls zum Schritt S8 gewechselt werden.If it is detected in step S5 that there is no specialized speech recognizer or if during the waiting process 31 If another recognition result arrives, in a step S8 (in FIG 2 by a minus sign "-" symbolizes) to the respective recognition result 27 . 28 a confidence value CONF is compared with a threshold value C0. If the confidence value is smaller than the threshold value C0 (LOW), then in step S7 the waiting process 31 to receive at least one further recognition result continued. If the first speech recognizer 18 is already a TopSR, can also be changed to step S8 in step S5.

Ist der Konfidenzwert CONF größer als der Schwellenwert C0, (HIGH), so wird in einem Schritt S9 dieses Erkennungsergebnis als finales Erkennungsergebnis FINAL bereitgestellt. Das Finale Erkennungsergebnis FINAL kann zum Erzeugen des Steuersignals 29 zugrunde gelegt oder verwendet werden.If the confidence value CONF is greater than the threshold value C0, (HIGH), this recognition result is provided as a final recognition result FINAL in a step S9. The final recognition result FINAL can be used to generate the control signal 29 be used or used.

Falls in dem Schritt S4 erkannt wird, dass die Kommunikationsverbindung 23 nicht mehr bereitsteht (in 2 durch ein Minus-Zeichen „–” symbolisiert), so kann ebenfalls zu dem Schritt S8 gewechselt werden, um zu dem ersten Erkennungsergebnis 27 dessen Konfidenzwert CONF mit dem Schwellenwert C0 zu vergleichen.If it is detected in step S4 that the communication connection 23 no longer available (in 2 is symbolized by a minus sign "-"), it is also possible to switch to step S8 in order to obtain the first recognition result 27 compare its confidence value CONF with the threshold value C0.

Der Schritt S8 kann für das erste Erkennungsergebnis 27 und/oder für das Erkennungsergebnis 28 des spezialisierten Spracherkenners TopSR ausgelassen werden, wie dies in 2 durch alternative Verlaufspfade 32 angedeutet ist.Step S8 may be for the first recognition result 27 and / or for the recognition result 28 of the specialized speech recognizer TopSR are omitted, as in 2 through alternative paths 32 is indicated.

Der Wartevorgang 31 aus dem Schritt S7 und das Überprüfen des Konfidenzwert CONF im Schritt S8 können so lange wiederholt werden, bis der die Timereinrichtung 30 einen Timerablauf signalisiert.The wait 31 from the step S7 and the checking of the confidence value CONF in step S8 can be repeated until the timer device 30 signaled a timer expiration.

Es kann vorgesehen sein, dass das Erkennungsergebnis 27, 28 eine Spracherkenners 18, 19 jeweils eine ganze Sprachphrase aus mehreren Worten enthält. Es kann aber auch vorgesehen sein, dass einer oder einige oder alle der Spracherkenner 18, 19 als Erkennungsergebnis 27, 28 jeweils mehrere erkannte Sprachphrasen umfassen. Das Finale Erkennungsergebnis FINAL aus dem Schritt S9 kann dann mehrere Sprachphrasen enthalten, von denen dann eine als Grundlage zum erzeugen des Steuerbefehls 29 verwendet werden kann. Eine solche Auswahl kann mit einer Methode aus dem Stand der Technik getroffen werden, beispielsweise auf der Grundlage einer Auswahl gemäß der N-Best-Analyse eines Erkennungsergebnisses eines Spracherkenners.It can be provided that the recognition result 27 . 28 a speech recognizer 18 . 19 each contains a whole language phrase of several words. But it can also be provided that one or some or all of the speech recognizers 18 . 19 as a recognition result 27 . 28 each comprise a plurality of recognized speech phrases. The final recognition result FINAL from step S9 can then contain several speech phrases, one of which then serves as the basis for generating the control command 29 can be used. Such a selection may be made by a prior art method, for example, based on a selection according to the N-best analysis of a recognition result of a speech recognizer.

Insgesamt zeigt das Beispiel, wie durch die Erfindung in einem Kraftfahrzeug eine verteilte Spracherkennung bereitgestellt werden kann.Overall, the example shows how distributed speech recognition can be provided by the invention in a motor vehicle.

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

  • US 2015/0269939 A1 [0003] US 2015/0269939 A1 [0003]
  • DE 3928049 A1 [0005] DE 3928049 A1 [0005]
  • DE 19942868 A1 [0006] DE 19942868 A1 [0006]
  • DE 102013011922 A1 [0007] DE 102013011922 A1 [0007]

Claims (9)

Verfahren zum Ansteuern mehrerer Spracherkenner, um zumindest ein Erkennungsergebnis (27, 28) zu einem Sprachsignal (17) zu ermitteln, das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung enthält, wobei durch eine Bedienvorrichtung (11) das Sprachsignal (17) an die Spracherkenner (18, 19) übermittelt wird, von denen einige oder alle mit unterschiedlichen Erkennungsvokabularien (25, 27) betrieben werden, so dass sie jeweils für eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert sind, und durch die Bedienvorrichtung (11) eine Timereinrichtung (30) für eine Maximaldauer eines Wartevorgangs zum Empfangen von Erkennungsergebnissen eingestellt wird, dadurch gekennzeichnet, dass ein erstes Erkennungsergebnis aus einem ersten der Spracherkenner (18, 19) empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird und überprüft wird, ob ein Spracherkenner (18, 19), dessen Erkennungsergebnis noch aussteht, für die Soll-Befehlsdomäne spezialisiert ist, und bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners (18, 19) die Timereinrichtung (30) derart eingestellt wird, dass auf das ausstehende Erkennungsergebnis (27) für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird.Method for driving a plurality of speech recognizers to obtain at least one recognition result ( 27 . 28 ) to a speech signal ( 17 ) to determine a voice command to be recognized ( 14 ) for a voice control, wherein by an operating device ( 11 ) the speech signal ( 17 ) to the speech recognizers ( 18 . 19 ), some or all of which have different recognition vocabularies ( 25 . 27 ) are each specialized for a predetermined command domain of voice control, and by the operating device ( 11 ) a timer device ( 30 ) is set for a maximum duration of a waiting process for receiving recognition results, characterized in that a first recognition result from a first of the speech recognizers ( 18 . 19 ) is received and based on the received first recognition result, a target command domain is determined and it is checked whether a speech recognizer ( 18 . 19 ), the recognition result of which is still pending, is specialized for the target command domain, and in the case of a pending recognition result of the specialized speech recognizer ( 18 . 19 ) the timer device ( 30 ) is adjusted such that the outstanding recognition result ( 27 ) is waited for at least a predetermined minimum period of time. Verfahren nach Anspruch 1, wobei für den Fall, dass der für die Soll-Befehlsdomäne spezialisierte Spracherkenner (18, 19) fehlt, aus dem empfangenen ersten Erkennungsergebnis ein Konfidenzwert entnommen und mit einem Schwellenwert verglichen wird, und falls der Konfidenzwert kleiner als der Schwellenwert ist, das erste Erkennungsergebnis verworfen und auf ein nächstes Erkennungsergebnis gewartet wird.Method according to claim 1, wherein in case the speech recognizer specialized for the target command domain ( 18 . 19 ), a confidence value is extracted from the received first recognition result and compared with a threshold value, and if the confidence value is smaller than the threshold, the first recognition result is discarded and a next recognition result is awaited. Verfahren nach einem der vorhergehenden Ansprüche, wobei bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners (18, 19) eine Restzeitdauer der Timereinrichtung (30) auf oder um die Mindestzeitdauer verlängert wird.Method according to one of the preceding claims, wherein if the recognition result of the specialized speech recognizer is still pending ( 18 . 19 ) a remaining time duration of the timer device ( 30 ) is extended to or beyond the minimum period of time. Verfahren nach einem der vorhergehenden Ansprüche, wobei nach dem Empfangen des ersten Erkennungsergebnisses zunächst überprüft wird, ob zumindest einer der übrigen Spracherkenner (18, 19) noch über eine jeweilige Kommunikationsverbindung (23) zum Empfangen eines Erkennungsergebnisses erreichbar ist, und nur für diesen Fall die Soll-Befehlsdomäne ermittelt wird und andernfalls das erste Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt wird.Method according to one of the preceding claims, wherein after receiving the first recognition result it is first checked whether at least one of the other speech recognizers ( 18 . 19 ) via a respective communication connection ( 23 ) is achievable for receiving a recognition result, and only in this case the target command domain is determined and otherwise the first recognition result is provided as a final recognition result. Verfahren nach Anspruch 4, wobei für den Fall, dass zumindest einer der übrigen Spracherkenner (18, 19) über die jeweilige Kommunikationsverbindung (23) erreichbar ist, solange auf zumindest ein weiteres Erkennungsergebnis gewartet wird, bis eine der beiden folgenden Bedingungen erfüllt ist: es wird weiteres Erkennungsergebnis empfangen, das einen Konfidenzwert aufweist, der größer als ein vorbestimmter Schwellenwert ist, oder die Timereinrichtung (30) signalisiert einen Timer-Ablauf.Method according to claim 4, wherein in the event that at least one of the other speech recognizers ( 18 . 19 ) via the respective communication connection ( 23 ), as long as at least one further recognition result is waited until one of the following two conditions is met: it is received further recognition result having a confidence value that is greater than a predetermined threshold, or the timer device ( 30 ) signals a timer expiration. Verfahren nach einem der vorhergehenden Ansprüche, wobei Erkennungsvokabularien (25, 27) für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung, eine Bedienung einer Sucheinrichtung.Method according to one of the preceding claims, wherein recognition vocabularies ( 25 . 27 ) are provided for at least one of the following command domains: an operation of a navigation device, an operation of an infotainment system, an operation of a telephone device, an operation of a media player, an operation of a searcher. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Sprachsignal (17) an zumindest einen vorrichtungsinternen Spracherkenner (18) und an zumindest einen vorrichtungsexternen Spracherkenner (19) ausgesendet wird.Method according to one of the preceding claims, wherein the speech signal ( 17 ) to at least one device-internal speech recognizer ( 18 ) and to at least one device-external speech recognizer ( 19 ) is sent out. Bedienvorrichtung (11) zum Bedienen eines Kraftfahrzeugs (10) mittels Sprachbedienung, wobei die Bedienvorrichtung (11) dazu eingerichtet ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.Operating device ( 11 ) for operating a motor vehicle ( 10 ) by means of voice control, wherein the operating device ( 11 ) is adapted to perform a method according to any one of the preceding claims. Kraftfahrzeug (10) mit einer Bedienvorrichtung (11) nach Anspruch 8.Motor vehicle ( 10 ) with an operating device ( 11 ) according to claim 8.
DE102016005629.0A 2016-05-06 2016-05-06 Motor vehicle operating device and method for determining at least one recognition result for a speech signal Expired - Fee Related DE102016005629B4 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102016005629.0A DE102016005629B4 (en) 2016-05-06 2016-05-06 Motor vehicle operating device and method for determining at least one recognition result for a speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102016005629.0A DE102016005629B4 (en) 2016-05-06 2016-05-06 Motor vehicle operating device and method for determining at least one recognition result for a speech signal

Publications (2)

Publication Number Publication Date
DE102016005629A1 true DE102016005629A1 (en) 2017-11-09
DE102016005629B4 DE102016005629B4 (en) 2020-06-25

Family

ID=60119143

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016005629.0A Expired - Fee Related DE102016005629B4 (en) 2016-05-06 2016-05-06 Motor vehicle operating device and method for determining at least one recognition result for a speech signal

Country Status (1)

Country Link
DE (1) DE102016005629B4 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3928049A1 (en) 1989-08-25 1991-02-28 Grundig Emv VOICE-CONTROLLED ARCHIVE SYSTEM
DE19942868A1 (en) 1999-09-08 2001-03-15 Volkswagen Ag Method for operating a multiple microphone arrangement in a motor vehicle and a multiple microphone arrangement itself
US20020133346A1 (en) * 2001-03-16 2002-09-19 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US20100312546A1 (en) * 2009-06-04 2010-12-09 Microsoft Corporation Recognition using re-recognition and statistical classification
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
DE102013011922A1 (en) 2013-07-17 2015-01-22 Daimler Ag Method and device for processing a voice utterance of a user in a vehicle
US20150058018A1 (en) * 2013-08-23 2015-02-26 Nuance Communications, Inc. Multiple pass automatic speech recognition methods and apparatus
US20150269939A1 (en) 2012-10-16 2015-09-24 Volkswagen Ag Speech recognition in a motor vehicle

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3928049A1 (en) 1989-08-25 1991-02-28 Grundig Emv VOICE-CONTROLLED ARCHIVE SYSTEM
DE19942868A1 (en) 1999-09-08 2001-03-15 Volkswagen Ag Method for operating a multiple microphone arrangement in a motor vehicle and a multiple microphone arrangement itself
US20020133346A1 (en) * 2001-03-16 2002-09-19 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20100312546A1 (en) * 2009-06-04 2010-12-09 Microsoft Corporation Recognition using re-recognition and statistical classification
US20150269939A1 (en) 2012-10-16 2015-09-24 Volkswagen Ag Speech recognition in a motor vehicle
DE102013011922A1 (en) 2013-07-17 2015-01-22 Daimler Ag Method and device for processing a voice utterance of a user in a vehicle
US20150058018A1 (en) * 2013-08-23 2015-02-26 Nuance Communications, Inc. Multiple pass automatic speech recognition methods and apparatus

Also Published As

Publication number Publication date
DE102016005629B4 (en) 2020-06-25

Similar Documents

Publication Publication Date Title
EP3224831B1 (en) Motor vehicle operating device with a correction strategy for voice recognition
DE102013222507B4 (en) Method for adapting a speech system
DE102014017385B4 (en) Motor vehicle device operation with operator correction
DE102009017176A1 (en) Navigation arrangement for a motor vehicle
EP0994461A2 (en) Method for automatically recognising a spelled speech utterance
EP3152753B1 (en) Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules
DE102005018174A1 (en) Method for the targeted determination of a complete input data record in a speech dialogue 11
DE102016005629B4 (en) Motor vehicle operating device and method for determining at least one recognition result for a speech signal
DE102017211447B4 (en) Method for selecting a list entry from a selection list of an operating device by means of voice control and operating device
EP3115886B1 (en) Method for operating a voice controlled system and voice controlled system
DE102018132160A1 (en) SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS
EP1395979B1 (en) Voice-recognition method and voice-recognition system
WO2014056555A1 (en) Motor vehicle having a speech translation system
DE102016003903A1 (en) Method for speech recognition in a motor vehicle
EP3735688B1 (en) Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing
DE102016005731B4 (en) Method for operating multiple speech recognizers
EP3469581B1 (en) Method for operating a motor vehicle with an operating device
DE102008025532B4 (en) A communication system and method for performing communication between a user and a communication device
DE102016009196B4 (en) Method for operating multiple speech recognizers
DE102015014206B4 (en) Method and device for selecting a navigation destination from one of several language regions by means of voice input
DE102004029873B3 (en) Method for intelligent input correction for automatic voice dialog system, involves subjecting user answer to confirmation dialog to recognition process
EP2945155A1 (en) Device and method for speech recognition, particularly in a vehicle
DE102015007361B3 (en) Method for operating at least one functional device of a motor vehicle
DE102015006662B4 (en) Method for configuring a voice control device
DE102017216513A1 (en) A method of processing a voice input over which a user specifies a location on an operator terminal, and operating device and motor vehicle

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0015320000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee