DE102016005629A1 - Motor vehicle operating device and method for determining at least one recognition result to a voice signal - Google Patents
Motor vehicle operating device and method for determining at least one recognition result to a voice signal Download PDFInfo
- Publication number
- DE102016005629A1 DE102016005629A1 DE102016005629.0A DE102016005629A DE102016005629A1 DE 102016005629 A1 DE102016005629 A1 DE 102016005629A1 DE 102016005629 A DE102016005629 A DE 102016005629A DE 102016005629 A1 DE102016005629 A1 DE 102016005629A1
- Authority
- DE
- Germany
- Prior art keywords
- recognition result
- speech
- specialized
- recognition
- speech recognizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Abstract
Die Erfindung betrifft ein Verfahren zum Ermitteln eines Erkennungsergebnisses (27, 28) zu einem Sprachsignal (17), das einen zu erkennenden Sprachbefehl (14) für eine Sprachbedienung enthält, wobei durch eine Bedienvorrichtung (11) das Sprachsignal (14) an mehrere Spracherkenner (18, 19) übermittelt wird, von denen einige oder alle mit unterschiedlichen Erkennungsvokabularien (25, 27) betrieben werden, so dass sie jeweils für eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert sind, und durch die Bedienvorrichtung eine Timereinrichtung (30) eingestellt wird. Die Erfindung sieht vor, dass ein erstes Erkennungsergebnis aus einem ersten der Spracherkenner (18, 19) empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird und überprüft wird, ob ein Spracherkenner (18, 19), dessen Erkennungsergebnis noch aussteht, für die Soll-Befehlsdomäne spezialisiert ist, und bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners (18, 19) die Timereinrichtung (30) derart eingestellt wird, dass auf das ausstehende Erkennungsergebnis (27) für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird.The invention relates to a method for determining a recognition result (27, 28) for a speech signal (17) containing a voice command (14) to be recognized for voice control, wherein the speech signal (14) is transmitted to a plurality of speech recognizers by an operator device (11). 18, 19), some or all of which are operated with different recognition vocabularies (25, 27) so as to each be specialized for a predetermined command domain of voice control, and a timer means (30) is set by the operating device. The invention provides that a first recognition result is received from a first one of the speech recognizers (18, 19) and a desired command domain is determined on the basis of the received first recognition result and it is checked whether a speech recognizer (18, 19) whose recognition result is still outstanding , is specialized for the target command domain, and is pending recognition result of the specialized speech recognizer (18, 19), the timer means (30) is set such that the pending recognition result (27) is waited for at least a predetermined minimum period of time.
Description
Die Erfindung betrifft ein Verfahren zum Ansteuern zumindest eines Spracherkenners zum Minimieren einer Latenz beim Ermitteln eines Erkennungsergebnisses zu einem Sprachsignal, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält. Zum Ermitteln des Erkennungsergebnisses werden mehrere Spracherkenner betrieben. Zu der Erfindung gehört auch eine Bedienvorrichtung zum Durchführen des erfindungsgemäßen Verfahrens. Schließlich umfasst die Erfindung auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung.The invention relates to a method for driving at least one speech recognizer for minimizing a latency in determining a recognition result to a speech signal containing a voice command to be recognized for a voice control. Several speech recognizers are operated to determine the recognition result. The invention also includes an operating device for carrying out the method according to the invention. Finally, the invention also includes a motor vehicle with the operating device according to the invention.
Im Zusammenhang mit der Erfindung ist unter einem Spracherkenner eine Erkennungseinrichtung zu verstehen, die eine automatisierte Spracherkennung (ASR-Automatic Speech Recognition) durchführt. Eine solche Spracherkennung kann beispielsweise auf der Grundlage von Hidden-Markov-Modellen erzeugt werden.In connection with the invention, a speech recognizer is to be understood as meaning a recognition device which performs an automated speech recognition (ASR). Such speech recognition can be generated, for example, on the basis of hidden Markov models.
Die Bedienung eines Kraftfahrzeugs mittels Sprachbedienung ist aus der
Beim Betrieb mehrerer Spracherkenner zum Ermitteln zumindest eines Erkennungsergebnisses ergibt sich das Problem, dass nicht alle Spracherkenner zugleich ihr jeweiliges Erkennungsergebnis bereitstellen. Die Spracherkenner benötigen unterschiedlich viel Zeit, um ein Erkennungsergebnis zu ermitteln und dieses an die Bedienvorrichtung zu übertragen. Daher stellt sich die Frage, ab welchem Zeitpunkt nach dem Eintreffen eines ersten Erkennungsergebnisses der Spracherkennungsvorgang abgebrochen werden soll, um die bis dahin empfangenen Erkennungsergebnisse für den weiteren Steuervorgang oder Bedienvorgang des Kraftfahrzeugs zu nutzen. Liegt beispielsweise schon ein richtiges Erkennungsergebnis vor, so sollte gleich mit der Umsetzung des durch das Erkennungsergebnis beschriebenen Sprachbefehls fortgefahren werden, da ansonsten aus Sicht des Bedieners eine unnötige Verzögerung entsteht.When operating multiple speech recognizers to determine at least one recognition result, the problem arises that not all speech recognizers provide their respective recognition result at the same time. The speech recognizers take different amounts of time to determine a recognition result and to transmit this to the operating device. Therefore, the question arises, from which time after the arrival of a first recognition result of the speech recognition process is to be aborted to use the previously received recognition results for the further control process or operation of the motor vehicle. For example, if there is already a correct recognition result, then the reaction to the voice command described by the recognition result should proceed immediately, since otherwise an unnecessary delay arises from the perspective of the operator.
Eine Sprachbedienung für eine Suchfunktion einer Datenbank ist aus der
Aus der
Aus der
Der Erfindung liegt die Aufgabe zugrunde, eine Betriebsstrategie für eine Sprachbedienung bereitzustellen, die zum Erkennen eines Sprachbefehls mehrere Spracherkenner gleichzeitig oder parallel betreibt.The invention has for its object to provide an operating strategy for a voice control, which operates to recognize a voice command multiple speech recognizers simultaneously or in parallel.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren gegeben.The object is solved by the subject matters of the independent claims. Advantageous developments of the invention are given by the features of the dependent claims, the following description and the figures.
Durch die Erfindung ist ein Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal, das einen zu erkennenden Sprachbefehl für eine Sprachbedienung enthält, bereitgestellt. Durch eine Bedienvorrichtung wird das Sprachsignal an mehrere Spracherkenner übermittelt. Insbesondere ist eine Sprachbedienung eines Kraftfahrzeugs vorgesehen. Die Bedienvorrichtung kann beispielsweise als ein Steuergerät des Kraftfahrzeugs ausgestaltet sein. Das Verfahren ist aber auch in einem anderen Gerät vorsehbar, z. B. in einem portablen, mobilen Endgerät, wie z. B. einem Smartphone, einem Tablet-PC oder einer Smartwatch.The invention provides a method for determining at least one recognition result for a speech signal that contains a speech command to be recognized for a voice operation. An operating device transmits the speech signal to a plurality of speech recognizers. In particular, a voice control of a motor vehicle is provided. The operating device can be configured, for example, as a control unit of the motor vehicle. The method is also providable in another device, z. B. in a portable, mobile device such. As a smartphone, a tablet PC or a smartwatch.
Von den Spracherkennern werden einige oder alle mit unterschiedlichen Erkennungsvokabularien betrieben. Hierdurch sind sie für jeweils eine vorbestimmte Befehlsdomäne der Sprachbedienung spezialisiert. Insbesondere ist vorgesehen, dass Erkennungsvokabularien für zumindest eine der folgenden Befehlsdomänen bereitgestellt sind: eine Bedienung einer Navigationseinrichtung, eine Bedienung eines Infotainmentsystems, eine Bedienung einer Telefoneinrichtung, eine Bedienung einer Medienabspieleinrichtung (zum Beispiel eines MP3-Abspielgerät), eine Bedienung einer Sucheinrichtung (zum Beispiel für eine Suche in einem digitalen Telefonbuch oder eine Suche im Internet). Mit „zumindest eine” ist hierbei gemeint, dass eine oder einige oder alle der besagten Befehlsdomänen umfasst sein können.Some or all of the speech recognizers operate on different recognition vocabularies. As a result, they each specialize in a predetermined command domain of voice control. In particular, it is provided that recognition vocabularies are provided for at least one of the following command domains: an operation of a navigation device, an operation of an infotainment system, an operation of a telephone device, an operation of a media player (for example an MP3 player), an operation of a search device (for example for a search in a digital telephone book or a search on the Internet). By "at least one" is meant here that one or some or all of the said instruction domains may be included.
Das Sprachsignal mit dem darin enthaltenen Sprachbefehl wird also an mehrere, gleichzeitig betriebene Spracherkenner ausgesendet, damit diese jeweils ein Erkennungsergebnis erzeugen und dieses zurück an die Bedienvorrichtung aussenden oder übermitteln. Durch die Bedienvorrichtung wird eine Timereinrichtung für eine Maximaldauer eines Wartevorgangs zum Empfangen von Erkennungsergebnissen eingestellt. Falls nach Ablauf der Maximaldauer kein Erkennungsergebnis empfangen wird, so wird der Erkennungsvorgang bevorzugt abgebrochen und der Benutzer beispielsweise aufgefordert, den Sprachbefehl noch einmal auszusprechen oder auf eine andere Eingabemodalität, zum Beispiel eine manuelle Bedienung, zu wechseln. Die Timereinrichtung kann in an sich bekannter Weise realisiert sein, beispielsweise als ein Programmodul, das einen sogenannten Countdown ausführt.The speech signal with the voice command contained therein is thus transmitted to a plurality of speech recognizers operated simultaneously, so that they each generate a recognition result and send it out or transmit it back to the operating device. By the operating device is a timer device for a maximum duration of Wait for receiving recognition results. If after the expiration of the maximum duration no recognition result is received, the recognition process is preferably aborted and the user is prompted, for example, to pronounce the voice command again or to change to another input modality, for example a manual operation. The timer device can be realized in a manner known per se, for example as a program module which executes a so-called countdown.
Der Sprachbefehl kann aus einem Wort bestehen, z. B. einem Städtenamen bei der Eingabe eines Navigationsziels. Bei dem Sprachbefehl kann es sich auch um eine vollständige Phrase (mehrere Wörter) handeln. Beispielsweise kann der Sprachbefehl besagen: „Fahre mich zum Restaurant XY!” Hierbei können allgemeine Worte wie „Fahre” und „Restaurant” in einem Erkennungsvokabular eines nicht-spezialisierten Spracherkenners enthalten sein. Dagegen bedarf es eines spezialisierten Erkennungsvokabulars, um auch die Namen einzelner Restaurants, wie zum Beispiel „XY” ebenfalls fehlerfrei erkennen zu können. Ein nicht-spezialisierter Spracherkenner kann somit beispielsweise in seinen Erkennungsergebnis zwar die erkannten Worte „Fahre” und „Restaurant” angeben, aber anstelle des Namens des Restaurants („XY”) ein unerkanntes Wort signalisieren. Dagegen kann durch einen spezialisierten Spracherkenner, der das Erkennungsvokabular zum Beispiel für eine Navigation oder für eine Navigation zu vorbestimmten Fahrzielen (POI-Point-of-Interest) verwendet, auch der Name erkannt werden.The voice command can consist of one word, e.g. B. a city name when entering a navigation destination. The voice command can also be a complete phrase (multiple words). For example, the voice command may say, "Drive me to the restaurant XY!" Here, common words such as "drive" and "restaurant" may be included in a recognition vocabulary of a non-specialized speech recognizer. On the other hand, a specialized recognition vocabulary is required in order to be able to recognize the names of individual restaurants, such as "XY", without errors as well. Thus, for example, a non-specialized speech recognizer may indicate the recognized words "Fahre" and "Restaurant" in its recognition result, but signal an unrecognized word instead of the name of the restaurant ("XY"). In contrast, the name can be recognized by a specialized speech recognizer using the recognition vocabulary, for example, for navigation or navigation to predetermined destinations (POI point-of-interest).
Falls nun ein frühestes oder erstes Erkennungsergebnis von einem ersten Spracherkenner empfangen wird oder eintrifft, stellt sich die Frage, ob man dieses erste Erkennungsergebnis nutzen sollte, um möglichst schnell den Sprachbefehl, wie er gemäß den Erkennungsergebnis erkannt wurde, umzusetzen, oder ob auf noch zumindest ein weiteres Erkennungsergebnis gewartet werden soll. Die letztere Entscheidung erzeugt aus Sicht des Benutzers eine Reaktionsverzögerung der Bedienvorrichtung.If an earliest or first recognition result is received or arrives from a first speech recognizer, the question arises as to whether this first recognition result should be used in order to implement the speech command as quickly as possible, as detected according to the recognition result, or whether at least another recognition result is to be maintained. The latter decision generates a response delay of the operating device from the user's point of view.
Bei dem erfindungsgemäßen Verfahren ist vorgesehen, dass das erste Erkennungsergebnis aus dem ersten Spracherkenner empfangen wird und anhand des empfangenen ersten Erkennungsergebnisses eine Soll-Befehlsdomäne ermittelt wird. Bei der Soll-Befehlsdomäne kann es sich um eine Angabe der Befehlsdomäne handeln, die von dem ersten Spracherkenner selbst als Bestandteil des Erkennungsergebnisses bereitgestellt sein kann. Erkennt der Spracherkenner beispielsweise das Wort „Restaurant” in einem Sprachsignal, welches lautet: „Fahre mich zum Restaurant XY!”, so kann durch den Spracherkenner selbst als Soll-Befehlsdomäne beispielsweise „Navigation” (Bedienung einer Navigationseinrichtung) angegeben werden. Alternativ dazu kann auch durch die Bedienvorrichtung selbst anhand zumindest eines erkannten Wortes, zum Beispiel „Fahre” und „Restaurant” anhand einer vorbestimmten Zuordnungsvorschrift ebenfalls eine soll-Befehlsdomäne ermittelt werden. Die Zuordnungsvorschrift kann beispielsweise auf der Grundlage einer Zuordnungstabelle realisiert sein. Durch die Bedienvorrichtung wird überprüft, ob ein Spracherkenner, dessen Erkennungsergebnis noch aussteht, d. h. noch nicht empfangen wurde, für die Soll-Befehlsdomäne spezialisiert ist. In dem beschriebenen Beispiel wird also überprüft, ob ein Spracherkenner für Befehlsdomäne „Navigation” mit dem entsprechenden Erkennungsvokabular unter den Spracherkennern vorhanden ist und von diesem spezialisierten Spracherkenner noch kein Erkennungsergebnis empfangen wurde. Bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners wird die beschriebene Timereinrichtung derart eingestellt, dass auf das ausstehende Erkennungsergebnis des spezialisierten Spracherkenners für zumindest eine vorbestimmte Mindestzeitdauer gewartet wird. Mit anderen Worten wird unabhängig von einem aktuellen Timerzustand sichergestellt, dass die Maximaldauer bis zum Abbrechen des Erkennungsvorgangs zumindest die vorbestimmte Mindestzeitdauer beträgt.In the method according to the invention, it is provided that the first recognition result is received from the first speech recognizer and a desired command domain is determined on the basis of the received first recognition result. The target command domain may be an indication of the command domain that may be provided by the first speech recognizer itself as part of the recognition result. If the speech recognizer recognizes, for example, the word "restaurant" in a speech signal which reads "drive me to the restaurant XY!", The speech recognizer itself can, for example, indicate "navigation" (operation of a navigation device) as the target command domain. Alternatively, a target command domain can also be determined by the operating device itself based on at least one recognized word, for example, "Fahre" and "Restaurant" based on a predetermined assignment rule. The assignment rule can be realized, for example, on the basis of an allocation table. The operating device checks whether a speech recognizer whose recognition result is still outstanding, d. H. has not yet been received, is specialized for the target command domain. In the example described, it is thus checked whether a speech recognizer for command domain "navigation" with the corresponding recognition vocabulary is present among the speech recognizers and no recognition result has yet been received by this specialized speech recognizer. If the recognition result of the specialized speech recognizer is still pending, the described timer means is set such that the outstanding recognition result of the specialized speech recognizer is waited for at least a predetermined minimum time duration. In other words, regardless of a current timer state, it is ensured that the maximum duration until the detection process is interrupted is at least the predetermined minimum time duration.
Durch die Erfindung ergibt sich der Vorteil, dass überprüft wird, ob ein zuverlässigeres oder besseres oder vollständigeres Erkennungsergebnis zu erwarten ist, weil noch ein spezialisierter Spracherkenner läuft und von diesem ein besseres Erkennungsergebnis zu erwarten ist. In dem beschriebenen Beispiel kann es sein, dass von dem ersten Spracherkenner in dem Erkennungsergebnis zwar die Worte „Fahre” und „Restaurant” erkannt werden, aber der spezifische Name des Restaurants, nämlich „XY”, nicht erkannt werden konnte, weil dem ersten Spracherkenner aufgrund seines beschränkten Erkennungsvokabulars der Name des Restaurants unbekannt ist. Dagegen ist die Wahrscheinlichkeit, dass auch der Name des Restaurants erkannt wurde, bei dem Erkennungsergebnis des spezialisierten Spracherkenners größer. Somit ist es sinnvoll, dieses Erkennungsergebnis abzuwarten, anstatt den Benutzer auf der Grundlage des unvollständigen Erkennungsergebnisses des ersten Spracherkenners noch einmal nach dem genauen Namen des Restaurants zu fragen.The invention provides the advantage that it is checked whether a more reliable or better or more complete recognition result is to be expected because a specialized speech recognizer is still running and a better recognition result can be expected from this. In the described example, although the words "drive" and "restaurant" may be recognized by the first speech recognizer in the recognition result, the specific name of the restaurant, namely "XY", could not be recognized because the first speech recognizer Due to its limited recognition vocabulary, the name of the restaurant is unknown. On the other hand, the probability that the name of the restaurant was recognized is greater for the recognition result of the specialized speech recognizer. Thus, it makes sense to wait for this recognition result instead of asking the user again for the exact name of the restaurant based on the incomplete recognition result of the first speech recognizer.
Zu der Erfindung gehören auch vorteilhafte Weiterbildungen, durch deren Merkmale sich zusätzliche Vorteile ergeben.The invention also includes advantageous developments, the characteristics of which provide additional advantages.
Für den Fall, dass der für die Soll-Befehlsdomäne spezialisierte Spracherkenner fehlt, d. h. kein Spracherkenner mit dem entsprechenden Erkennungsvokabular betrieben wird, wird bevorzugt aus dem empfangenen 1. Erkennungsergebnis ein Konfidenzwert entnommen und mit einem Schwellenwert verglichen. Der Konfidenzwert kann beispielsweise eine Likelihood angeben, wie sie durch ein Hidden-Markov-Modell ermittelt werden kann. Der Konfidenzwert kann auch ein sogenannter Score sein wie er auf der Grundlage von mehreren erkannten Worten und einer nachgeschalteten Grammatik in an sich bekannter Weise ermittelt werden kann falls der Konfidenzwert kleiner als der Schwellenwert ist, das heißt das Erkennungsergebnis unsicher ist, wird das Erkennungsergebnis verworfen und auf ein nächstes Erkennungsergebnis gewartet. Dies kann so lange fortgesetzt werden, bis der Restwert der Timereinrichtung abgelaufen ist. Falls auch das nächste Erkennungsergebnis einen Konfidenzwert aufweist, der kleiner als der Schwellenwert ist, so kann dieses ebenfalls verworfen werden und auf ein nächstes Erkennungsergebnis gewartet werden. Falls der Konfidenzwert des ersten Erkennungsergebnisses oder eines nächsten Erkennungsergebnisses größer als der Schwellenwert ist, so kann dieses Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt oder verwendet werden. Das verwendete Erkennungsergebnis wird dann zum Ermitteln oder erzeugen des durch den Sprachbefehl beschriebenen Steuersignals z. B. für das Kraftfahrzeug oder ein anderes Gerät verwendet.In the event that the speech recognizer specialized for the target command domain is missing, ie no speech recognizer is operated with the corresponding recognition vocabulary, it is preferred taken from the received 1st recognition result, a confidence value and compared with a threshold. For example, the confidence value may indicate a likelihood, as determined by a hidden Markov model. The confidence value can also be a so-called score, as it can be determined in a manner known per se on the basis of several recognized words and a subsequent grammar. If the confidence value is less than the threshold value, ie the recognition result is uncertain, the recognition result is discarded and waiting for a next recognition result. This can be continued until the residual value of the timer device has expired. If the next recognition result also has a confidence value which is smaller than the threshold value, then this can also be discarded and the next recognition result can be waited for. If the confidence value of the first recognition result or a next recognition result is greater than the threshold, then this recognition result may be provided or used as a final recognition result. The recognition result used is then used to determine or generate the control signal z described by the voice command. B. used for the motor vehicle or another device.
Falls ein für die Soll-Befehlsdomäne spezialisierte Spracherkenner vorhanden ist, so wird bevorzugt bei noch ausstehendem Erkennungsergebnis des spezialisierten Spracherkenners eine Restzeitdauer der Timereinrichtung auf die Mindestzeitdauer verlängert. Damit wartet die Bedienvorrichtung nicht nur für die beschriebene Maximaldauer auf Erkennungsergebnis, sondern es wird eine längere Mindestzeitdauer eingestellt. Alternativ dazu kann auch vorgesehen sein, dass die Mindestzeitdauer eine relative Zeitangabe ist und die Restzeitdauer der Timereinrichtung nicht auf die Mindestzeitdauer, sondern um die Mindestzeitdauer verlängert wird. Hierdurch ist sichergestellt, dass selbst nach einer längeren Wartezeit auf das 1. Erkennungsergebnis noch mindestens die Mindestzeitdauer abgewartet wird, um auch das Erkennungsergebnis des spezialisierten Spracherkenners zu empfangen.If a speech recognizer specialized for the target command domain is present, it is preferable to extend a remaining time duration of the timer device to the minimum duration if the recognition result of the specialized speech recognizer is still pending. Thus, the operating device waits not only for the described maximum duration on recognition result, but it is set a longer minimum period of time. Alternatively, it can also be provided that the minimum time duration is a relative time specification and the remaining time duration of the timer device is not extended to the minimum time duration but by the minimum time duration. This ensures that even after a long waiting time for the first recognition result, at least the minimum period of time is still waited to receive the recognition result of the specialized speech recognizer.
Wie bereits ausgeführt, kann es sich bei zumindest einem der Spracherkenner um einen vorrichtungsexternen Spracherkenner handeln, der dann zum Beispiel über eine Funkverbindung mit der Bedienvorrichtung gekoppelt sein kann. Deshalb wird nach dem empfangen des ersten Erkennungsergebnisses bevorzugt zunächst überprüft, ob zumindest einer der übrigen Spracherkenner noch über eine jeweilige Kommunikationsverbindung zum empfangen eines Erkennungsergebnisses erreichbar ist. Nur für diesen Fall wird die Soll-Befehlsdomäne ermittelt. Andernfalls, wenn also keiner der übrigen Spracherkenner erreichbar ist, wird das erste Erkennungsergebnis als finales Erkennungsergebnis bereitgestellt.As already stated, at least one of the voice recognizers can be a voice recognizer external to the device, which can then be coupled to the operating device, for example via a radio link. Therefore, after receiving the first recognition result, it is preferably first checked whether at least one of the remaining speech recognizers can still be reached via a respective communication connection for receiving a recognition result. Only in this case the target command domain is determined. Otherwise, if none of the other speech recognizers can be reached, the first recognition result is provided as the final recognition result.
Für den Fall, dass zumindest einer der übrigen Spracherkenner über die jeweilige Kommunikationsverbindung erreichbar ist, wird solange auf zumindest ein weiteres Erkennungsergebnis gewartet, bis eine der beiden folgenden Bedingungen erfüllt ist: Es wird ein weiteres Erkennungsergebnis empfangen, das einen Konfidenzwert aufweist, der größer als ein vorbestimmter Schwellenwert ist, oder die Timereinrichtung signalisiert einen Timerablauf. Bei dem Schwellenwert kann es sich um den bereits beschriebenen Schwellenwert handeln oder um einen anderen Schwellenwert. Es kann also sein, dass selbst das Erkennungsergebnis des spezialisierten Spracherkenners anhand seines Konfidenzwert des über den Schwellenwertvergleich überprüft wird.In the event that at least one of the other speech recognizers can be reached via the respective communication connection, at least one further recognition result is awaited until one of the following two conditions has been fulfilled: A further recognition result is received which has a confidence value greater than is a predetermined threshold, or the timer means signals a timer expiration. The threshold may be the threshold already described or another threshold. It may therefore be that even the recognition result of the specialized speech recognizer is checked on the basis of its confidence value of the threshold comparison.
Wie bereits ausgeführt, handelt es sich bei den Spracherkennern bevorzugt um zumindest einen vorrichtungseigenen oder vorrichtungsinternen Spracherkenner, der in der Bedienvorrichtung betrieben wird, und um zumindest einen vorrichtungsexternen Spracherkenner, an welchen das Sprachsignal ausgesendet wird. Dies kann über die beschriebene Funkverbindung erfolgen, die beispielsweise eine Mobilfunkverbindung oder eine WLAN-Funkverbindung (WLAN-Wireless local area Network) sein kann.As already stated, the speech recognizers are preferably at least one device-specific or device-internal speech recognizer which is operated in the operating device and at least one device-external speech recognizer to which the speech signal is transmitted. This can be done via the radio connection described, which may be, for example, a mobile radio connection or a WLAN wireless connection (WLAN wireless local area network).
Zu der Erfindung gehört auch die beschriebene Bedienvorrichtung zum Bedienen eines Kraftfahrzeugs mittels Sprachbedienung. Die Bedienvorrichtung ist dazu eingerichtet, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Hierzu kann die Bedienvorrichtung eine Prozessoreinrichtung aufweisen, die Programmcode enthält, der bei Ausführen durch die Prozessoreinrichtung eine Ausführungsform des erfindungsgemäßen Verfahrens durchführt. Die Prozessoreinrichtung kann hierzu beispielsweise einen Mikroprozessor oder einen Mikrocontroller aufweisen. Des Weiteren kann die Prozessoreinrichtung einen Speicher aufweisen, in welchem der Programmcode gespeichert ist.The invention also includes the described operating device for operating a motor vehicle by means of voice control. The operating device is set up to carry out an embodiment of the method according to the invention. For this purpose, the operating device may have a processor device which contains program code which, when executed by the processor device, carries out an embodiment of the method according to the invention. For this purpose, the processor device can have, for example, a microprocessor or a microcontroller. Furthermore, the processor device can have a memory in which the program code is stored.
Schließlich gehört zu der Erfindung auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung. Das Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen, ausgestaltet.Finally, the invention also includes a motor vehicle with the operating device according to the invention. The motor vehicle is preferably designed as a motor vehicle, in particular as a passenger car.
Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt:In the following an embodiment of the invention is described. This shows:
Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiment explained below is a preferred embodiment of the invention. In the exemplary embodiment, the described components of the embodiment each represent individual features of the invention that are to be considered independently of one another, which also each independently further develop the invention and thus also individually or in a different combination than the one shown as part of the invention. Furthermore, the described embodiment can also be supplemented by further features of the invention already described.
In den Figuren sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.In the figures, functionally identical elements are each provided with the same reference numerals.
Durch die Bedienvorrichtung
Das Sprachsignal
Jeder der Spracherkenner
Um aus zumindest einem der Erkennungsergebnis
In einem Schritt S1 kann das Sprachsignal
Nachdem der schnellste der Spracherkenner
In einem Schritt S4 kann durch die Bedienvorrichtung
Falls die Kommunikationsverbindung
Falls in dem Schritt S5 erkannt wird, dass kein spezialisierter Spracherkenner vorhanden ist oder falls während des Wartevorgangs
Ist der Konfidenzwert CONF größer als der Schwellenwert C0, (HIGH), so wird in einem Schritt S9 dieses Erkennungsergebnis als finales Erkennungsergebnis FINAL bereitgestellt. Das Finale Erkennungsergebnis FINAL kann zum Erzeugen des Steuersignals
Falls in dem Schritt S4 erkannt wird, dass die Kommunikationsverbindung
Der Schritt S8 kann für das erste Erkennungsergebnis
Der Wartevorgang
Es kann vorgesehen sein, dass das Erkennungsergebnis
Insgesamt zeigt das Beispiel, wie durch die Erfindung in einem Kraftfahrzeug eine verteilte Spracherkennung bereitgestellt werden kann.Overall, the example shows how distributed speech recognition can be provided by the invention in a motor vehicle.
ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- US 2015/0269939 A1 [0003] US 2015/0269939 A1 [0003]
- DE 3928049 A1 [0005] DE 3928049 A1 [0005]
- DE 19942868 A1 [0006] DE 19942868 A1 [0006]
- DE 102013011922 A1 [0007] DE 102013011922 A1 [0007]
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102016005629.0A DE102016005629B4 (en) | 2016-05-06 | 2016-05-06 | Motor vehicle operating device and method for determining at least one recognition result for a speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102016005629.0A DE102016005629B4 (en) | 2016-05-06 | 2016-05-06 | Motor vehicle operating device and method for determining at least one recognition result for a speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102016005629A1 true DE102016005629A1 (en) | 2017-11-09 |
DE102016005629B4 DE102016005629B4 (en) | 2020-06-25 |
Family
ID=60119143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102016005629.0A Expired - Fee Related DE102016005629B4 (en) | 2016-05-06 | 2016-05-06 | Motor vehicle operating device and method for determining at least one recognition result for a speech signal |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102016005629B4 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3928049A1 (en) | 1989-08-25 | 1991-02-28 | Grundig Emv | VOICE-CONTROLLED ARCHIVE SYSTEM |
DE19942868A1 (en) | 1999-09-08 | 2001-03-15 | Volkswagen Ag | Method for operating a multiple microphone arrangement in a motor vehicle and a multiple microphone arrangement itself |
US20020133346A1 (en) * | 2001-03-16 | 2002-09-19 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
US20100312546A1 (en) * | 2009-06-04 | 2010-12-09 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
DE102013011922A1 (en) | 2013-07-17 | 2015-01-22 | Daimler Ag | Method and device for processing a voice utterance of a user in a vehicle |
US20150058018A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
US20150269939A1 (en) | 2012-10-16 | 2015-09-24 | Volkswagen Ag | Speech recognition in a motor vehicle |
-
2016
- 2016-05-06 DE DE102016005629.0A patent/DE102016005629B4/en not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3928049A1 (en) | 1989-08-25 | 1991-02-28 | Grundig Emv | VOICE-CONTROLLED ARCHIVE SYSTEM |
DE19942868A1 (en) | 1999-09-08 | 2001-03-15 | Volkswagen Ag | Method for operating a multiple microphone arrangement in a motor vehicle and a multiple microphone arrangement itself |
US20020133346A1 (en) * | 2001-03-16 | 2002-09-19 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US20100312546A1 (en) * | 2009-06-04 | 2010-12-09 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
US20150269939A1 (en) | 2012-10-16 | 2015-09-24 | Volkswagen Ag | Speech recognition in a motor vehicle |
DE102013011922A1 (en) | 2013-07-17 | 2015-01-22 | Daimler Ag | Method and device for processing a voice utterance of a user in a vehicle |
US20150058018A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
Also Published As
Publication number | Publication date |
---|---|
DE102016005629B4 (en) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3224831B1 (en) | Motor vehicle operating device with a correction strategy for voice recognition | |
DE102013222507B4 (en) | Method for adapting a speech system | |
DE102014017385B4 (en) | Motor vehicle device operation with operator correction | |
DE102009017176A1 (en) | Navigation arrangement for a motor vehicle | |
EP0994461A2 (en) | Method for automatically recognising a spelled speech utterance | |
EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
DE102005018174A1 (en) | Method for the targeted determination of a complete input data record in a speech dialogue 11 | |
DE102016005629B4 (en) | Motor vehicle operating device and method for determining at least one recognition result for a speech signal | |
DE102017211447B4 (en) | Method for selecting a list entry from a selection list of an operating device by means of voice control and operating device | |
EP3115886B1 (en) | Method for operating a voice controlled system and voice controlled system | |
DE102018132160A1 (en) | SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS | |
EP1395979B1 (en) | Voice-recognition method and voice-recognition system | |
WO2014056555A1 (en) | Motor vehicle having a speech translation system | |
DE102016003903A1 (en) | Method for speech recognition in a motor vehicle | |
EP3735688B1 (en) | Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing | |
DE102016005731B4 (en) | Method for operating multiple speech recognizers | |
EP3469581B1 (en) | Method for operating a motor vehicle with an operating device | |
DE102008025532B4 (en) | A communication system and method for performing communication between a user and a communication device | |
DE102016009196B4 (en) | Method for operating multiple speech recognizers | |
DE102015014206B4 (en) | Method and device for selecting a navigation destination from one of several language regions by means of voice input | |
DE102004029873B3 (en) | Method for intelligent input correction for automatic voice dialog system, involves subjecting user answer to confirmation dialog to recognition process | |
EP2945155A1 (en) | Device and method for speech recognition, particularly in a vehicle | |
DE102015007361B3 (en) | Method for operating at least one functional device of a motor vehicle | |
DE102015006662B4 (en) | Method for configuring a voice control device | |
DE102017216513A1 (en) | A method of processing a voice input over which a user specifies a location on an operator terminal, and operating device and motor vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0015220000 Ipc: G10L0015320000 |
|
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |