DE102017211340A1

DE102017211340A1 - Method of operating a voice control system and voice control system

Info

Publication number: DE102017211340A1
Application number: DE102017211340.5A
Authority: DE
Inventors: Spyros Kousidis; David Scheler; Mark Pleschka; Sebastian Varges; Zeno Wolze; Kim Maurice Cedziwoda
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2016-12-22
Filing date: 2017-07-04
Publication date: 2018-07-12

Abstract

Die Erfindung betrifft ein Verfahren zum Betreiben eines Sprachbedienungssystems, bei dem durch ein Mikrofon (1) Sprachausdrücke erfasst und mittels einer ersten Steuervorrichtung (2) in ein speicherbares digitales Audioformat umgewandelt werden. Diese Audiodateien werden anschließend mit Hilfe einer zweiten Steuervorrichtung (3) in Sprachblöcke unterteilt, wobei die einzelnen Sprachblöcke insbesondere anhand eines Startzeitpunktes, eines Endzeitpunktes und einer Statusinformation indexiert werden. Die indexierten Sprachblöcke werden in einem zweiten Speicher (5), der als Ringspeicher ausgeführt ist, abgelegt und mit vordefinierten, hinterlegten Sprachblöcken, welche in einem dritten Speicher (7) gespeichert sind, verglichen. Wird eine Übereinstimmung zwischen den erfassten und den vordefinierten Sprachblöcken festgestellt, wird eine zugeordnete Aktion ausgelöst. Ferner betrifft die Erfindung eine Vorrichtung, mit deren Hilfe das erfindungsgemäße Verfahren ausgeführt werden kann.The invention relates to a method for operating a voice-operated system, in which voice expressions are detected by a microphone (1) and converted by means of a first control device (2) into a storable digital audio format. These audio files are then subdivided into speech blocks with the aid of a second control device (3), wherein the individual speech blocks are indexed in particular on the basis of a start time, an end time and status information. The indexed speech blocks are stored in a second memory (5), which is designed as a ring memory, and compared with predefined, stored speech blocks, which are stored in a third memory (7). If a match is detected between the captured and predefined speech blocks, an associated action is triggered. Furthermore, the invention relates to a device by means of which the method according to the invention can be carried out.

Description

Die Erfindung betrifft ein Verfahren zum Betreiben eines Sprachbedienungssystems sowie ein Sprachbedienungssystem.The invention relates to a method for operating a voice control system and a voice control system.

Moderne technische Einrichtungen weisen heutzutage eine immer größere Funktionsvielfalt auf. Um dennoch eine möglichst einfache und intuitive Bedienung zu ermöglichen, werden in zunehmendem Maße Sprachbedienungssysteme eingesetzt.Modern technical facilities nowadays have an ever greater variety of functions. Nevertheless, in order to enable as simple and intuitive operation as possible, voice control systems are increasingly being used.

Sprachbedienungssysteme bestehen typischerweise aus mindestens einem Mikrofon und mindestens einer Steuervorrichtung. Mit Hilfe des mindestens einen Mikrofons werden beliebige Sprachausdrücke erfasst. Diese Sprachausdrücke werden mit in einem Speicher hinterlegten Sprachausdrücken verglichen. Beim Erkennen einer Übereinstimmung, wird eine mit dem Sprachausdruck verknüpfte Aktion ausgelöst. Eine solche Aktion kann beispielsweise eine Funktionsausführung oder eine Sprachwiedergabe über ein Lautsprecher sein.Speech service systems typically consist of at least one microphone and at least one control device. With the help of the at least one microphone, any language expressions are detected. These language expressions are compared with language stored in a memory. When a match is detected, an action associated with the language expression is triggered. Such an action may be, for example, a function execution or a voice reproduction via a loudspeaker.

Die heute eingesetzten Sprachbedienungssysteme arbeiten vielfach auf Basis einer Einzelworterkennung, die durch einen manuellen Systemstart aktiviert werden muss. Die Sprachausdrücke sind in diesem Fall keine zusammenhängenden Sätze sondern einzelne Worte. Wird das Sprachbedienungssystem beispielsweise zur Bedienung eines Navigationssystems in einem Kraftfahrzeug eingesetzt, handelt es sich bei den Sprachausdrücken typischerweise um Städte- oder Straßennamen, mit denen die Adresseingabe erfolgt.The voice control systems used today often work on the basis of a single-word recognition, which must be activated by a manual system start. The language expressions in this case are not coherent sentences but individual words. If the voice-operated system is used, for example, for operating a navigation system in a motor vehicle, the language expressions are typically city or street names with which the address is input.

Die Sprachbedienung auf Einzelwortbasis hat zwar bereits einen hohen Reifegrad erreicht. Gewünscht ist jedoch vielfach eine dialogorientierte, auf natürlicher Sprache basierende Sprachbedienung. Hierzu müssen nicht nur explizite, einzelne Sprachausdrücke erfasst und ausgewertet werden, sondern auch Sprachausdrücke, die in längeren Sprachsequenzen enthalten sind.The voice operation on a single-word basis has already reached a high degree of maturity. In many cases, however, a dialog-oriented, natural language-based voice service is desired. For this purpose, not only explicit, individual language expressions must be recorded and evaluated, but also language expressions contained in longer language sequences.

Eine Lösung für das Erfassen, Speichern und Auswerten von Sprachbefehlen in einem Sprachbedienungssystem ist in der Schrift DE 10030369 offenbart. Hier wird ein Verfahren beschrieben, das ein verbessertes Erkennen von Spracheingaben ermöglicht. Dabei wird ein Schieberegister zur Pufferung von Sprachausdrücken vorgeschlagen. Betätigt der Benutzer den Startknopf für das Sprachbedienungssystem, nachdem er bereits zuvor ausführungsrelevante Sprachausdrücke geäußert hat, besteht die Möglichkeit, die gepufferten Sequenzen in die Auswertung einzubeziehen. Nicht offenbart in der zitierten Schrift ist jedoch das notwendige Verfahren zur Aufbereitung der erfassten Sprachausdrücke. Vielmehr beschreibt die Erfindung ausschließlich eine Pufferung in einem Umfang von wenigen Millisekunden vor Betätigung des Startknopfes.One solution for capturing, storing and evaluating voice commands in a voice response system is in the Scriptures DE 10030369 disclosed. Here, a method that enables improved recognition of voice input will be described. A shift register is proposed for buffering language expressions. If the user presses the start button for the voice-operated system, after he has previously expressed execution-relevant language expressions, it is possible to include the buffered sequences in the evaluation. However, not disclosed in the cited document is the necessary procedure for processing the acquired language expressions. Rather, the invention exclusively describes a buffering in the range of a few milliseconds before pressing the start button.

In Schrift US 2016/0189716 wird eine Konfiguration aus mehreren Prozessoren und Speicherelementen beschrieben. Hierbei erfolgt durch einen der beiden Prozessoren und dem zugeordneten Speicher eine kontinuierliche Erfassung von Sprachausdrücken. Der zweite Prozessor dient zusammen mit dem dazugehörigen Speicherbaustein ausschließlich dem Erkennen eines Start-Passwortes. Sobald dieses erkannt wird, werden die Informationen in dem anderen Speicher ausgewertet und in ausführbare Befehle umgewandelt.In writing US 2016/0189716 For example, a configuration of multiple processors and memory elements will be described. In this case, one of the two processors and the associated memory is used for continuous detection of speech expressions. The second processor together with the associated memory module only serves to recognize a start password. Once this is detected, the information in the other memory is evaluated and converted into executable instructions.

Es besteht weiterhin die Aufgabe, ein leistungsfähiges Verfahren zur Erfassung, Speicherung und Verarbeitung von Sprache in einem Sprachbedienungssystem sowie eine zur Ausführung des Verfahrens geeignete Vorrichtung zu beschreiben.It is a further object to describe a high-performance method for acquiring, storing and processing speech in a voice-operated system and a device suitable for carrying out the method.

Erfindungsgemäß wird diese Aufgabe durch ein Verfahren gemäß des Anspruches 1 sowie eine Vorrichtung gemäß Anspruch 8 gelöst. Vorteilhafte Ausgestaltungen der Erfindung werden in den Unteransprüchen beschrieben.According to the invention, this object is achieved by a method according to the claim 1 and a device according to claim 8th solved. Advantageous embodiments of the invention are described in the subclaims.

Der mit der offenbarten Lösung erzielbare technische Effekt besteht darin, Sprachausdrücke in einem deutlich erweiterten Umfang erfassen und auswerten zu können. Dadurch wird es möglich, die bisher häufig ausschließlich mit einer Einzelworterkennung arbeitenden Sprachbedienungssysteme hin zur Verarbeitung natürlicher Sprache zu ertüchtigen.The technical effect achievable with the disclosed solution is to be able to record and evaluate language expressions to a significantly expanded extent. This makes it possible, the previously often working exclusively with a single word recognition speech handling systems to process for the processing of natural language.

Das erfindungsgemäße Verfahren sieht vor, daß durch ein Mikrofon oder mehrere Mikrofone Sprachausdrücke zunächst erfasst werden. Unter einem Sprachausdruck wird dabei eine beliebige Wortsequenz in Form menschlicher Sprache verstanden, die von dem Bediener des Sprachbedienungssystems geäußert wird. Dem Wesen der menschlichen Sprache entsprechend, handelt es sich bei solchen Sprachausdrücken insbesondere um Worte, die in einem kausalen Zusammenhang stehen, d.h. üblicherweise in Form von Sätzen geäußert werden. Es ist aber auch der Fall denkbar, daß Phasen der Ruhe, in denen nicht gesprochen wird, oder unvollständige Sätze oder Satzteile erfasst werden. Zeiten des Nicht-Sprechens entstehen insbesondere zwischen einzelnen Worten oder Satzteilen. Aber auch Phasen, in denen aufgrund sonstiger Einflüsse, beispielsweise der notwendigen Konzentration auf das Verkehrsgeschehen, nicht gesprochen wird, sind im Sinne der offenbarten Erfindung Bestandteil eines Sprachausdruckes.The inventive method provides that by a microphone or multiple microphones speech terms are first detected. A speech expression is understood here to be an arbitrary word sequence in the form of human speech, which is uttered by the operator of the voice-operated system. In accordance with the nature of human speech, such language expressions are in particular words which are causally related, i. usually expressed in the form of sentences. But it is also conceivable the case that phases of silence in which is not spoken, or incomplete sentences or phrases are recorded. Times of non-speech arise in particular between individual words or phrases. But even phases in which is not spoken due to other influences, such as the necessary concentration on the traffic, are in the sense of the disclosed invention part of a language expression.

Unter einem Bediener wird jede Person verstanden, deren Sprachausdrücke im Verlauf des Verfahrens erfasst und ausgewertet werden. In einem Kraftfahrzeug können dieses insbesondere der Fahrer oder aber die übrigen Fahrzeuginsassen sein. Grundsätzlich soll das offenbarte Verfahren so gestaltet sein, daß alle Sprachausdrücke unabhängig von ihrer Herkunft als auszuwertende Sprachausdrücke verarbeitbar sind.An operator is understood to be any person whose speech expressions are detected and evaluated in the course of the procedure. In one Motor vehicle may be this particular the driver or the other vehicle occupants. In principle, the disclosed method should be designed so that all language expressions, irrespective of their origin, can be processed as language expressions to be evaluated.

Die von dem Mikrofon oder den Mikrofonen erfassten Sprachausdrücke liegen in einem ersten Schritt in analoger Form vor. Um diese auf einem digitalen Speichermedium ablegen zu können, müssen sie in ein digitales Format umgewandelt werden. Hierfür sieht das erfindungsgemäße Verfahren eine Umwandlung der analogen Sprachausdrücke in zusammenhängende, digitale Sprachblöcke vor. Ein solcher Sprachblock ist als ein zusammenhängender Sprachausdruck mit einer definierten Länge zu verstehen, der in digitalisierter Form vorliegt.The speech expressions detected by the microphone or the microphones are present in an analogous form in a first step. In order to store them on a digital storage medium, they must be converted into a digital format. For this purpose, the method according to the invention provides for conversion of the analog voice expressions into coherent digital speech blocks. Such a speech block is to be understood as a coherent speech expression with a defined length, which exists in digitized form.

Die Länge eines jeden Sprachblocks ist von der Steuervorrichtung vorzugeben. Im Sinne der Erfindung können diese Sprachblöcke eine feste Länge oder eine variable Länge aufweisen. Eine feste Länge der Sprachblöcke bietet sich insbesondere an, wenn längere Phasen der Ruhe aus den Sprachausdrücken herausgefiltert werden müssen. Dieses ist insbesondere unter dem Aspekt des zu begrenzenden Speicherplatzbedarfs von Bedeutung.The length of each speech block is to be specified by the control device. For the purposes of the invention, these speech blocks may have a fixed length or a variable length. A fixed length of the speech blocks is particularly useful when longer phases of silence need to be filtered out of the language expressions. This is particularly important in terms of the storage space requirement to be limited.

Im Verlauf der Umwandlung der analogen Sprachausdrücke in speicherbare digitale Sprachblöcke werden die einzelnen Blöcke indexiert. Hierunter ist zu verstehen, daß jedem Sprachblock Zusatzinformationen, insbesondere ein Startzeitpunkt, ein Endzeitpunkt sowie eine Statusinformation, hinzugefügt werden. Die dabei generierten Indexinformationen werden in vorteilhafter Ausgestaltung der Erfindung in eine tabellarische Form überführt und in einem ersten Speicher abgespeichert. Die digitalisierten Sprachinhalte, d.h. die Sprachblöcke, werden in einem zweiten Speicher abgelegt.As the analog speech expressions are being converted into storable digital speech blocks, the individual blocks are indexed. This is to be understood as meaning that additional information, in particular a start time, an end time and status information, is added to each speech block. The index information generated in this case are converted in an advantageous embodiment of the invention into a tabular form and stored in a first memory. The digitized speech content, i. the speech blocks are stored in a second memory.

Der zweite Speicher zur Speicherung der Sprachblöcke ist erfindungsgemäß als Ringspeicher ausgeführt. Unter einem Ringspeicher ist eine Speichertechnik zu verstehen, bei der der älteste Speicherinhalt nach einem anfänglichen Befüllen durch den jeweils neuesten Speicherinhalt ersetzt werden kann. Diese Logik wird über eine entsprechende Softwareanwendung in einer Steuervorrichtung sichergestellt.The second memory for storing the speech blocks is designed according to the invention as a ring memory. A ring memory is to be understood as a memory technology in which the oldest memory contents can be replaced after an initial filling by the respectively latest memory contents. This logic is ensured via a corresponding software application in a control device.

Die tabellarisch gespeicherten Zusatzinformationen sowie die gespeicherten Sprachblöcke werden in einem weiteren Schritt des erfindungsgemäßen Verfahrens ausgewertet. Hierzu werden die Inhalte der Sprachblöcke mit hinterlegten Sprachblöcken verglichen.The additional information stored in tabular form as well as the stored speech blocks are evaluated in a further step of the method according to the invention. For this purpose, the contents of the speech blocks are compared with stored speech blocks.

Der Start des Auswertevorgangs kann durch das Betätigen eines mechanischen Knopfes oder durch das Sprechen eines Schlüsselwortes, eines sogenannten Wake-Up-Wortes, initiiert werden. Auch eine permanente, im Hintergrund ablaufende automatische Auswertung der Sprachblöcke verbunden mit der Suche nach festgelegten Schlüsselworten ist eine mögliche Auswertelogik. So ist es beispielsweise denkbar, das Wort „Telefon“ und dessen Abwandlungen wie „Telefonieren“ oder „Telefongespräch“ aus den Sprachausdrücken herauszufiltern und als Startsignal für die weitere Abarbeitung des beschriebenen Verfahrens zu nutzen.The start of the evaluation process can be initiated by pressing a mechanical button or by speaking a keyword, a so-called wake-up word. Also, a permanent, running in the background automatic evaluation of the language blocks associated with the search for specified keywords is a possible Auswertelogik. For example, it is conceivable to filter out the word "telephone" and its modifications, such as "telephoning" or "telephone conversation", from the language expressions and to use it as a start signal for further processing of the method described.

In Anschluss an den Start des Auswertevorgangs werden die Sprachblöcke aus dem Speicher ausgelesen und mit in dem Sprachbedienungssystem hinterlegten Sprachblöcken verglichen. Wird eine Übereinstimmung festgestellt, wird eine dem jeweiligen Sprachblock zugeordnete Aktion ausgelöst.Following the start of the evaluation process, the speech blocks are read out of the memory and compared with speech blocks stored in the speech service system. If a match is found, an action associated with the particular speech block is triggered.

In vorteilhaften Ausgestaltungen des Verfahrens handelt es sich bei den ausgelösten Aktionen um Bedienfunktionen und/oder Informationsausgaben. In einem Kraftfahrzeug kann der Bedienwunsch „Bitte die Temperatur erhöhen“ beispielsweise durch die Ausführung der eigentlichen Funktion und die anschließende Informationsausgabe „Temperatur ist erhöht“ umgesetzt werden.In advantageous embodiments of the method, the triggered actions are operator functions and / or information outputs. In a motor vehicle, the control request "please increase the temperature", for example, by the execution of the actual function and the subsequent information output "temperature is increased" are implemented.

In einer weiteren vorteilhaften Ausgestaltung des beschriebenen Verfahrens kommt das Sprachbedienungssystem in einem Fortbewegungsmittel, z.B. einem Kraftfahrzeug, zum Einsatz. Bei den auslösbaren Aktionen kann es sich sowohl um eine das Fortbewegungsmittel betreffende Aktion als auch eine nicht das Fortbewegungsmittel betreffende Aktion handeln. Nicht das Fortbewegungsmittel betreffende Aktionen sind z.B. das Suchen einer Telefonnummer oder einer Einkaufsmöglichkeit in der näheren Umgebung.In a further advantageous embodiment of the described method, the voice control system comes in a means of locomotion, e.g. a motor vehicle, used. The actions that can be triggered may be both an action relating to the means of transportation and an action not involving the means of transportation. Non-locomotive actions are e.g. looking for a phone number or a supermarket in the vicinity.

In einer vorteilhaften Ausgestaltung des beschriebenen Verfahrens sind die zur Durchführung der beschriebenen Verfahrensschritte vorgesehenen Steuervorrichtungen zusammenfasst und als integrierte Steuervorrichtung ausgeführt.In an advantageous embodiment of the method described, the control devices provided for carrying out the method steps described are summarized and designed as an integrated control device.

In einer bevorzugten Ausprägung des beschriebenen Verfahrens sind die zur Speicherung der Informationen notwendigen Speicherelemente physikalisch zusammengefasst, wobei die Ansteuerung der einzelnen Speicherelemente unter Verwendung einer Softwareanwendung erfolgt.In a preferred embodiment of the method described, the storage elements necessary for storing the information are physically combined, wherein the activation of the individual storage elements takes place using a software application.

Sollte trotz Aktivierung des Sprachbedienungssystems keine Übereinstimmung gefunden werden, sieht eine vorteilhafte Ausgestaltung des erfindungsgemäßen Verfahrens die Möglichkeit einer systembasierten Nachfrage vor. So kann das System beispielsweise der Benutzer aufgefordert werden, seinen Wunsch zu wiederholen.Should no match be found despite activation of the voice-operated system, an advantageous embodiment of the method according to the invention provides for the possibility of system-based demand. That's how it works System, for example, the user will be asked to repeat his request.

In einer weiteren vorteilhaften Ausprägung des erfindungsgemäßen Verfahrens erfolgt die Speicherung der Sprachblöcke nicht lokal, z.B. in einem in dem Kraftfahrzeug befindlichen Speicher, sondern in einem Cloud-Speicher, der über eine Datenverbindung angesprochen wird. Vorteil dieser Ausgestaltung ist der möglicherweise größere Speicher.In a further advantageous embodiment of the method according to the invention, the storage of the speech blocks is not carried out locally, e.g. in a memory located in the motor vehicle, but in a cloud memory, which is addressed via a data connection. Advantage of this embodiment is the possibly larger memory.

Die Erfindung betrifft weiterhin eine Vorrichtung, mit deren Hilfe Sprache analysiert werden kann und in Abhängigkeit von dem erkannten Sprachinhalten vordefinierte Aktionen ausgeführt werden können. Die Vorrichtung besteht erfindungsgemäß aus mindestens einem Mikrofon, mindestens einer Steuervorrichtung und mindestens einem Speicher.The invention further relates to a device with the aid of which language can be analyzed and predefined actions can be carried out as a function of the recognized speech content. The device according to the invention consists of at least one microphone, at least one control device and at least one memory.

Mit Hilfe des mindestens einen Mikrofons lassen sich Sprachausdrücke erfassen, die insbesondere von einem Benutzer des Sprachbedienungssystem geäußert werden.With the aid of the at least one microphone, it is possible to record voice expressions which are in particular uttered by a user of the voice control system.

Des Weiteren ist erfindungsgemäß eine erste Steuervorrichtung vorhanden, in der eine Softwareanwendung zur Umwandlung der analogen Signale des Mikrofons in speicherbare, digitale Audioformate implementiert ist. Diese erste Steuervorrichtung kann als eigener Baustein in dem Sprachbedienungssystem realisiert sein. Auch ein Aufbau, bei dem eine solche Steuervorrichtung mit der dazugehörigen Software in einem der Mikrofone integriert ist, ist eine Lösung im Sinne der Erfindung.Furthermore, according to the invention there is a first control device in which a software application for converting the analog signals of the microphone into storable digital audio formats is implemented. This first control device can be implemented as a separate component in the voice control system. A construction in which such a control device is integrated with the associated software in one of the microphones is a solution in the sense of the invention.

Neben der ersten Steuervorrichtung ist eine zweite Steuervorrichtung Bestandteil der offenbarten Vorrichtung, wobei auch hier eine Lösung, bei der beide Steuervorrichtungen in einer Einheit zusammengefasst sind, eine geeignete Ausgestaltung im Sinne der Erfindung darstellt. In der zweiten Steuervorrichtung ist eine Softwarelösung implementiert, mit deren Hilfe die digitalisierten Sprachausdrücke indexiert werden können. Indexierte Sprachausdrücke werden im Sinne der Erfindung als Sprachblöcke bezeichnet.In addition to the first control device, a second control device is part of the disclosed device, wherein here too a solution in which both control devices are combined in one unit, a suitable embodiment according to the invention. In the second control device, a software solution is implemented with the aid of which the digitized language expressions can be indexed. Indexed language expressions are referred to as language blocks in the sense of the invention.

Unter dem Vorgang der Indexierung ist eine Ergänzung der Sprachausdrücke um beschreibende Eigenschaften zu verstehen. Hierbei handelt es sich insbesondere um den Start- und den Endzeitpunkt sowie eine Statusinformation.The process of indexing is to be understood as supplementing the language expressions with descriptive properties. These are in particular the start and the end time as well as a status information.

Zur Speicherung der Indexinformationen ist ein erster Speicher vorgesehen. Die Speicherung der digitalen Sprachblöcke erfolgt in einem zweiten Speicher, wobei dieser zweite Speicher auch mit dem ersten Speicher physikalisch in einer gemeinsamen Speichereinheit zusammengefasst sein kann.For storing the index information, a first memory is provided. The storage of the digital speech blocks takes place in a second memory, wherein this second memory can also be combined with the first memory physically in a common memory unit.

Der zweite Speicher zur Speicherung der Sprachblöcke ist in der offenbarten Vorrichtung als Ringspeicher ausgeführt. Hierunter ist eine Speichertechnik zu verstehen, bei der ein Speicher zunächst mit Informationen gefüllt wird. Nach Erreichen der Kapazitätsgrenze wird zum Speichern von weiteren Inhalten der jeweils älteste Speicherinhalt gelöscht. Sollte die Löschung eines Speicherinhaltes nicht ausreichen, werden weitere Inhalte gelöscht, bis ausreichend Speicherkapazität vorhanden ist.The second memory for storing the speech blocks is implemented in the disclosed apparatus as a ring memory. This is to be understood as a memory technology in which a memory is initially filled with information. Once the capacity limit has been reached, the oldest memory content is deleted for storage of further contents. If the deletion of a memory content is insufficient, further contents are deleted until sufficient memory capacity is available.

Um im Anschluss an die Speicherung die Auswertung der Sprachblöcke vornehmen zu können, sieht die erfindungsgemäße Vorrichtung eine dritte Steuervorrichtung vor. In ihr ist eine Softwareanwendung implementiert, mit deren Verwendung die gespeicherten Sprachblöcke mit Sprachblöcken, die in einem dritten Speicher hinterlegt sind, verglichen werden können. Erkennt die Steuervorrichtung bei einem solchen Vergleich eine Übereinstimmung, wird eine vordefinierte Aktion ausgeführt.In order to be able to carry out the evaluation of the speech blocks following the storage, the device according to the invention provides a third control device. In it, a software application is implemented, with the use of which the stored speech blocks can be compared with speech blocks stored in a third memory. If the controller detects a match in such a comparison, a predefined action is taken.

In einer vorteilhaften Ausgestaltung der offenbarten Erfindung kommt die Vorrichtung in einem Fortbewegungsmittel, insbesondere einem Kraftfahrzeug, zum Einsatz.In an advantageous embodiment of the disclosed invention, the device is used in a means of transportation, in particular a motor vehicle.

In einer weiteren vorteilhaften Ausgestaltung der offenbarten Erfindung handelt es sich bei der Aktion um eine Bedienfunktion und/oder eine Informationsausgabe. Dieses kann beispielsweise die Erhöhung der Innenraumtemperatur oder das von dem Bediener erfragte nächste Restaurant sein.In a further advantageous embodiment of the disclosed invention, the action is an operating function and / or an information output. This may be, for example, the increase in the interior temperature or the next restaurant requested by the operator.

In einer vorteilhaften Ausgestaltung des offenbarten Vorrichtung sind die erste und/oder zweite und/oder dritte Steuervorrichtung zusammenfasst und als integrierte Steuervorrichtung ausgeführt.In an advantageous embodiment of the disclosed device, the first and / or second and / or third control device are combined and designed as an integrated control device.

In einer weiteren vorteilhaften Ausgestaltung des offenbarten Vorrichtung sind der zur Speicherung der Informationen notwendige erste und/oder zweite und/oder dritte Speicher physikalisch zusammengefasst, wobei die Ansteuerung der einzelnen Speicher unter Einsatz einer Softwareanwendung erfolgt.In a further advantageous embodiment of the disclosed device, the first and / or second and / or third memory necessary for the storage of the information are physically combined, wherein the activation of the individual memories takes place using a software application.

In einer weiteren vorteilhaften Ausgestaltung der Vorrichtung ist für den Fall, daß bei dem Vergleich der erfassten und aufbereiteten Sprachausdrücke keine Übereinstimmung mit den vordefinierten, hinterlegten Sprachausdrücken festgestellt werden kann, die Ausführung einer vordefinierten Rückfrage vorgesehen. Hierbei kann es sich beispielsweise um die allgemeine Rückfrage „Ich habe Sie leider nicht verstanden, bitte wiederholen Sie Ihren Wunsch“ handeln. Aber auch eine spezifische Rückfrage wie „Leider kann ich den gewünschten Ort nicht finden. Meinten Sie vielleicht Hamburg als Navigationsziel?“ ist eine Lösung im Sinne der Erfindung.In a further advantageous embodiment of the device, the execution of a predefined inquiry is provided in the event that when comparing the detected and processed language expressions no match with the predefined, stored language expressions can be determined. For example, this may be the general query "I did not understand you, please repeat your request". But also a specific inquiry like "Unfortunately I can not find the desired location. Did you mean Hamburg as a navigation destination? "Is a solution within the meaning of the invention.

In einer vorteilhaften Ausgestaltung der offenbarten Vorrichtung erfolgt die Speicherung der erfassten Sprachblöcke, der hinterlegten Sprachblöcke und/oder der Indexinformationen wahlweise in einem Cloudspeicher. In an advantageous embodiment of the disclosed device, the storage of the acquired speech blocks, the stored speech blocks and / or the index information optionally takes place in a cloud memory.

Nachfolgend werden die Vorrichtung und das Verfahren anhand eines Ausführungsbeispiels mit Bezug zu den 1 und 2 erläutert. In 3 ist die Indexierung der digitalisierten Sprachausdrücke veranschaulicht.Hereinafter, the device and the method using an embodiment with reference to the 1 and 2 explained. In 3 the indexing of digitized language expressions is illustrated.

In 1 ist ein beispielhafter Aufbau des Sprachbedienungssystems dargestellt. Er besteht aus einem einzelnen Mikrofon 1 zum Erfassen von Sprachausdrücken. Zur Umwandlung der Sprachausdrücke in ein speicherbares, digitales Audioformat ist eine erste Steuervorrichtung 2 vorhanden. Zusätzlich ist eine zweite Steuervorrichtung 3 vorgesehen, mit deren Hilfe die Sprachausdrücke indexiert werden.In 1 an exemplary structure of the voice control system is shown. It consists of a single microphone 1 for capturing language expressions. To convert the speech expressions into a storable digital audio format, a first control device 2 is provided. In addition, a second control device 3 provided with the help of which the language expressions are indexed.

Der Vorgang der Indexierung der Sprachausdrücke ist in 3 erläutert. Dargestellt sind hier beliebige Sprachausdrücke, die aus Redeanteilen und Ruheanteilen bestehen. Diese Sprachausdrücke werden unter Einsatz einer Steuervorrichtung aufbereitet. Die dabei gewonnenen Informationen, insbesondere ein Startzeitpunkt, ein Endzeitpunkt sowie eine Statusinformation werden in einer Tabelle 11 gespeichert.The process of indexing the language expressions is in 3 explained. Shown here are any language expressions that consist of speech portions and quiet portions. These language expressions are prepared using a control device. The information obtained, in particular a start time, an end time and status information are stored in a table 11.

Als Speicherelement ist in der dargestellten Ausgestaltung der Erfindung ein erster Speicher 4 vorgesehen. In diesem ersten Speicher 4 sind die erzeugten Indexinformationen tabellarisch speicherbar.As a memory element, a first memory 4 is provided in the illustrated embodiment of the invention. In this first store 4 The generated index information can be stored in a table.

In einem zweiten Speicher 5 sind die zuvor indexierten Sprachblöcke speicherbar. Dieser Speicher 5 ist als Ringspeicher ausgeführt.In a second memory 5 the previously indexed speech blocks are storable. This store 5 is designed as a ring buffer.

In einer weiteren Steuervorrichtung 6 ist eine Softwareanwendung zum Auswerten der erfassten Sprachausdrücke implementiert. Wird bei dieser Auswertung eine Übereinstimmung zwischen dem erfassten Sprachblock und den hinterlegten Sprachblöcken erkannt, kann unter Anwendung einer dritten Steuervorrichtung 6 eine Aktion ausgelöst werden. In dem Ausführungsbeispiel ist als Aktion eine Funktionsausführung eines Bediensystems 8 oder eine Audioausgabe über einen Lautsprecher 9 dargestellt.In another control device 6 a software application for evaluating the captured language expressions is implemented. If a match between the detected speech block and the deposited speech blocks is detected in this evaluation, a third control device can be used 6 an action is triggered. In the exemplary embodiment, the action is a functional design of an operating system 8th or an audio output through a speaker 9 shown.

Der Ablauf des erfindungsgemäßen Verfahrens zum Betreiben eines Sprachbedienungssystems ist in 2 in einer beispielhaften Ausgestaltung veranschaulicht.The sequence of the method according to the invention for operating a voice-operated system is described in 2 illustrated in an exemplary embodiment.

Bei dem Verfahren werden zunächst die Sprachausdrücke eines Bedieners unter Verwendung eines Mikrofons 1 oder mehrerer Mikrofone in einem ersten Verfahrensschritt 100 erfasst. Die Sprachausdrücke liegen dabei zunächst in analoger Form vor. In der beispielhaften Ausgestaltung werden die Sprachausdrücke in einem Verfahrensschritt 200 unter Verwendung einer ersten Steuervorrichtung 2 in ein speicherbares, digitales Dateiformat umgewandelt. In einem Verfahrensschritt 300 werden die damit vorliegenden digitalen Informationen in einzelne Sprachblöcke unterteilt, wobei der Verfahrensschritt unter Einsatz einer zweiten Steuervorrichtung 3 und Verwendung einer darauf befindlichen Software erfolgt. Bei der Unterteilung der Sprachausdrücke werden mit Hilfe der zweiten Steuervorrichtung 3 zusätzlich die notwendigen Indexinformationen (Startzeitpunkt, Endzeitpunkt und/oder Bearbeitungsstatus) generiert. Sowohl die Sprachblöcke als auch die Indexinformationen werden abgespeichert (Schritt 400), wobei der zweite Speicher 5 zur Speicherung der Sprachblöcke als Ringspeicher ausgeführt ist.In the method, first, the speech of an operator using a microphone 1 or more microphones detected in a first method step 100. The language expressions are initially in analog form. In the exemplary embodiment, the language terms become one step 200 using a first controller 2 converted into a storable, digital file format. In one process step 300 the digital information thus present is subdivided into individual speech blocks, the method step using a second control device 3 and use of software located thereon. In the subdivision of the language expressions are using the second control device 3 In addition, the necessary index information (start time, end time and / or processing status) is generated. Both the speech blocks and the index information are saved (step 400 ), the second memory 5 for storing the speech blocks is designed as a ring memory.

Zur Auswertung werden in einem Verfahrensschritt 500 die gespeicherten Sprachblöcke ausgelesen und mit Sprachblöcken verglichen, die in einem dritten Speicher 7 hinterlegt sind (Schritt 600). Die Abarbeitung der einzelnen Sprachblöcke wird durch die hinterlegten Indexinformationen gesteuert.For evaluation, in one process step 500 the stored speech blocks are read out and compared with speech blocks stored in a third memory 7 are deposited (step 600 ). The processing of the individual language blocks is controlled by the stored index information.

Wird zwischen den erfassten und gespeicherten Sprachblöcken und den hinterlegten Sprachblöcken eine Übereinstimmung festgestellt, wird in einem Verfahrensschritt 700 eine zugeordnete Aktion ausgelöst. Bei Verwendung des Sprachbedienungssystem in einem Kraftfahrzeug kann es sich bei der Aktion beispielsweise um eine Funktion in einem Bediensystem 8 oder eine Audioausgabe mittels eines Lautsprechers 9 handeln.If a match is found between the acquired and stored speech blocks and the stored speech blocks, is in one step 700 an associated action is triggered. For example, when using the voice response system in a motor vehicle, the action may be a function in an operator control system 8th or an audio output via a loudspeaker 9 act.

BezugszeichenlisteLIST OF REFERENCE NUMBERS

1.1.: Mikrofonmicrophone
2.Second: Erste SteuervorrichtungFirst control device
3.Third: Zweite SteuervorrichtungSecond control device
4.4th: Erster SpeicherFirst store
5.5th: Zweiter Speicher (Ringspeicher)Second memory (ring memory)
6.6th: Dritte SteuervorrichtungThird control device
7.7th: Dritter SpeicherThird store
8.8th.: Bediensystemoperating system
9.9th: Lautsprecherspeaker
10.10th: Sprachausdrückelanguage expressions
11.11th: Indextabelleindex table
100100: ErfassenTo capture
200200: Digitalisierendigitizing
300300: Umwandeln und IndexierenTransform and Index
400 400: Speichernto save
500500: Auslesenselect
600600: Vergleichento compare
700700: Auslösen eines SteuersignalsTriggering a control signal

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

DE 10030369 [0006]
US 2016/0189716 [0007]

Claims

Method for operating a voice-operated system, in which: a. by means of at least one microphone (1) speech expressions are detected b. the acquired speech terms are converted into a storable digital audio format using a first controller (2), c. by means of a second control device (3) an indexing of the digitized speech expressions and / or parts thereof takes place with a start time, an end time and a status information, d. the formed index information is stored in a first memory (4), e. the indexed language expressions are stored as speech blocks in a second memory (5), this memory (5) being designed as a ring memory, f. the speech blocks stored in the ring buffer (5) are compared using predefined speech blocks stored in a third memory (7) using a third control device (6) and G. when a match is detected, a predefined action is triggered.

Method according to Claim 1 , characterized in that the action carried out is an operating function and / or an information output.

Method according to one of the preceding claims, characterized in that the voice-operated system is used in a means of locomotion.

Method according to one of the preceding claims, characterized in that the first and / or second and / or third control device (2, 3, 6) are integrated in a control device.

Method according to one of the preceding claims, characterized in that the first and / or second and / or third memory (4, 5, 7) are physically combined in a memory unit.

Method according to one of the preceding claims, characterized in that a predefined inquiry can be issued by the voice-operated system in the event that no match of the indexed and stored language expressions with the language expressions stored in the third memory (7) can be determined.

Method according to one of the preceding claims, characterized in that the first and / or the second and / or the third memory (4, 5, 7) are designed as cloud storage.

Apparatus for operating a voice control system, comprising a. at least one microphone (1) for detecting speech expressions, b. at least one first control device (2) for converting the acquired speech expressions into a storable digital audio format, c. at least one second control device (3) for indexing the acquired speech expressions by means of a start time, an end time and a processing status, d. a first memory (4) for storing the generated index information, e. a second memory (5) for storing the indexed language expressions as speech blocks, wherein the memory (5) is designed to store the speech blocks as ring memory, f. a control device (6) for comparing the speech blocks stored in the ring memory (5) with speech blocks which are stored in a third memory (7), wherein when a match is detected, a predefined action is carried out.

Device after Claim 8 , characterized in that the executable action is an operating function and / or an information output.

Device according to one of Claims 8 or 9 , characterized in that the device can be used in a means of locomotion.

Device according to one of Claims 8 to 10 , characterized in that the first and / or second and / or third control device (2, 3, 6) are combined to form an integrated control device.

Device according to one of the claims Claims 8 to 11 , characterized in that the first and / or second and / or third memory (4, 5, 7) are physically combined in an integrated memory unit.

Device according to one of Claims 8 to 12 , characterized in that by means of the voice operation system, a predefined inquiry can be output in the event that no match of the indexed, stored in a second memory (5) speech blocks with the in a third memory (5) stored speech blocks can be determined.

Device according to one of the claims Claims 8 to 13 , characterized in that the first and / or the second and / or the third memory (4, 5, 7) are designed as cloud storage.