DE102017211447B4

DE102017211447B4 - Method for selecting a list entry from a selection list of an operating device by means of voice control and operating device

Info

Publication number: DE102017211447B4
Application number: DE102017211447.9A
Authority: DE
Inventors: Christoph Voigt; Manya Sahakyan
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2021-10-28
Anticipated expiration: 2037-07-06
Also published as: DE102017211447A1

Abstract

Verfahren zum Auswählen eines Listeneintrags (14) aus einer Auswahlliste (13) einer Bedienvorrichtung (10) mittels einer Spracherkennungseinrichtung (18), wobei ein Feldtext (15), der einem Benutzer als ein Bestandteil des Listeneintrags (14) ausgegeben wird, vorgegeben ist, wobei der Feldtext (15) mittels einer vorbestimmten Splitfunktion (22) in Teiltexte (23) aufgeteilt wird und auf der Grundlage zumindest einer von dem Feldtext (15) verschiedenen Kombination zumindest einiger der Teiltexte (23) jeweils ein gültiger Sprachbefehl zum Auswählen des Listeneintrags (14) definiert wird und die Spracherkennungseinrichtung (18) in einer Spracheingabe (16) des Benutzers einen der gültigen Sprachbefehle erkennt und durch die Bedienvorrichtung (10) daraufhin der Listeneintrag (14) ausgewählt wird, dadurch gekennzeichnet, dass die zumindest eine Kombination der Teiltexte (23) eine solche umfasst, bei welcher zumindest zwei der Teiltexte (23) in einer anderen Reihenfolge angeordnet sind als in dem Feldtext (15).Method for selecting a list entry (14) from a selection list (13) of an operating device (10) by means of a speech recognition device (18), whereby a field text (15), which is output to a user as part of the list entry (14), is specified, wherein the field text (15) is divided into partial texts (23) by means of a predetermined split function (22) and on the basis of at least one combination of at least some of the partial texts (23) different from the field text (15) in each case a valid voice command for selecting the list entry ( 14) is defined and the voice recognition device (18) recognizes one of the valid voice commands in a voice input (16) of the user and the list entry (14) is then selected by the operating device (10), characterized in that the at least one combination of the partial texts ( 23) includes one in which at least two of the partial texts (23) are arranged in a different order than in the field text (15).

Description

Die Erfindung betrifft ein Verfahren zum Betreiben einer Bedienvorrichtung, damit die Bedienvorrichtung eine Auswahlliste, beispielsweise ein Bedienmenü, ausgibt und ein Benutzer mittels eines Sprachbefehls einen Listeneintrag der Auswahlliste auswählen kann. Zu der Erfindung gehört auch die entsprechende Bedienvorrichtung. Sie kann beispielsweise in einem Kraftfahrzeug bereitgestellt sein.The invention relates to a method for operating an operating device so that the operating device outputs a selection list, for example an operating menu, and a user can select a list entry from the selection list by means of a voice command. The corresponding operating device also belongs to the invention. It can be provided in a motor vehicle, for example.

Ein Beispiel für eine Bedienvorrichtung ist ein Infotainmentsystem (Information-Unterhaltungssystem), wie es in einem Kraftfahrzeug bereitgestellt sein kann. Allgemein stellt eine Bedienvorrichtung ein HMI dar (HMI - Human Machine Interface). Ein möglicher Bedienvorgang ist das Auswählen eines Listeneintrags aus einer Auswahlliste. Eine solche Auswahlliste kann beispielsweise als Listeneinträge jeweils eine Adresse oder ein mögliches Navigationsziel oder eine Anrufeintrag eines verpassten Anrufs oder einen Radiosender angeben. Eine Möglichkeit zur Auswahl eines Listeneintrags ist durch eine Sprachbedienung der Bedienvorrichtung gegeben. Die Bedienvorrichtung wird also mittels eines Sprachbefehls durch einen Benutzer angewiesen, einen bestimmten Listeneintrag aus der Auswahlliste auszuwählen. Mittels des ausgewählten Listeneintrags kann dann ein Gerät durch die Sprachbedienung angesteuert werden, also beispielsweise ein Radiosender in einem Radio eingestellt werden oder ein Telefonanruf in einem Telefon ausgelöst werden.An example of an operating device is an infotainment system (information entertainment system), as it can be provided in a motor vehicle. In general, an operating device represents an HMI (HMI - Human Machine Interface). One possible operation is to select a list entry from a selection list. Such a selection list can, for example, each specify an address or a possible navigation destination or a call entry of a missed call or a radio station as list entries. One possibility for selecting an entry in the list is provided by voice control of the operating device. The operating device is thus instructed by a user by means of a voice command to select a specific list entry from the selection list. Using the selected list entry, a device can then be controlled by voice control, for example a radio station can be set in a radio or a telephone call can be triggered in a telephone.

Sprachbedienbare Bedienvorrichtungen für Kraftfahrzeuge sind z.B. aus der DE 10 2011 112 887 A1 , der EP 2 909 833 B1 und der DE 10 2009 024 693 A1 bekannt.Voice-operated operating devices for motor vehicles are, for example, from DE 10 2011 112 887 A1 , the EP 2 909 833 B1 and the DE 10 2009 024 693 A1 known.

Aus der US 2003/0078781 A1 ist ein System und ein Verfahren zum sprachaktivierten Navigieren oder Browsen über eine Sprachsteuerschnittstelle bekannt, die in einem sprachaktivierten multifunktionalen Kommunikationssystem verwendet wird. In einer Ausführungsform ist ein Ansatz zum Erweitern der sprachaktivierten Navigation durch Verknüpfen einer Ausgabe eines Spracherkenners mit offenem Vokabular mit einer Internetsuchmaschine bereitgestellt, damit ein Benutzer mehr Optionen zum Suchen von Informationen in Bezug auf seine gesprochenen Befehle haben kann. In einer anderen Ausführungsform sind Mittel bereitgestellt, um es dem Benutzer zu ermöglichen, eine Datenbank über eine Sprachsteuerungsschnittstelle mündlich zu navigieren, wobei die Auswahl und zugehörige Auswahlkriterien in einem hierarchischen Ansichtsmenü organisiert sind. In einer anderen Ausführungsform ist ein Ansatz mit hoher Flexibilität und Genauigkeit bereitgestellt, um den Befehl des Benutzers unter Verwendung einer neuen Grammatikstruktur und eines Übereinstimmungs-Bewertungssystems zu erkennen.From the US 2003/0078781 A1 discloses a system and method for voice-activated navigation or browsing via a voice control interface which is used in a voice-activated multifunctional communication system. In one embodiment, an approach is provided for enhancing voice-activated navigation by associating an output of an open vocabulary recognizer with an Internet search engine so that a user can have more options for searching information related to their spoken commands. In another embodiment, means are provided to enable the user to orally navigate a database via a voice control interface, the selection and associated selection criteria being organized in a hierarchical view menu. In another embodiment, a high flexibility and accuracy approach is provided to recognize the user's command using a new grammar structure and a match scoring system.

Die US 2002/0069059 A1 offenbart ein Verfahren zum Erzeugen einer Spracherkennungsgrammatik zum Interpretieren von Suchanfragen einer Domäne von Elementen. Die Grammatik umfasst sowohl einen Teiltext als auch eine Kombination der Teiltexte, die von Feldtexten einzelner Elementen abgeleitet sind. Die Äußerungen werden teilweise dadurch abgeleitet, dass Ausdrücke, die aus einem Nachrichtentext ausgewählt werden, in ihre individuellen Teiltexten plus alle Vorwärtskombinationen von solchen Teiltexten erweitert werden. Die Vorwärtskombinationen und einzelnen Begriffe, die für den Suchprozess als nicht nützlich erachtet werden, werden aus der Grammatik herausgefiltert. Der Prozess neigt dazu, eine Grammatik zu erzeugen, die die Äußerungen enthält, die am wahrscheinlichsten innerhalb von Sprachabfragen für die Gegenstände auftreten, während eine Grammatikgröße beibehalten wird, die ausreichend klein ist, um eine zuverlässige Spracherkennung bereitzustellen.the US 2002/0069059 A1 discloses a method of generating speech recognition grammar for interpreting search queries of a domain of items. The grammar includes both a partial text and a combination of the partial texts that are derived from field texts of individual elements. The utterances are derived, in part, by expanding expressions selected from a message text into their individual subtexts plus any forward combinations of such subtexts. The forward combinations and individual terms that are not considered useful for the search process are filtered out of the grammar. The process tends to produce a grammar that contains the utterances that are most likely to occur within voice queries for the items while maintaining a grammar size that is sufficiently small to provide reliable speech recognition.

Aus der US5839107 A sind ein Verfahren und eine Vorrichtung zum automatischen Erzeugen eines Spracherkennungsvokabulars für ein Spracherkennungssystem aus einer Auflistung bekannt. Die Auflistung enthält eine Anzahl von Einträgen, wobei jeder Eintrag Mehrwort-Identifikationsdaten enthält, die diesen Eintrag von anderen Einträgen in der Liste unterscheiden. Das Verfahren umfasst die Schritte des Erzeugens einer Vielzahl von Orthographien in dem Spracherkennungsvokabular für jeden Eintrag in dem Verzeichnis, die durch Kombinieren ausgewählter Wörter aus dem Eintrag gebildet werden. Die Wörterkombination wird durch Anwenden eines Heuristikmodells ausgeführt, das die Art nachahmt, wie Benutzer Anforderungen an das automatische Verzeichnisassistenzsystem formulieren.From the US5839107 A a method and a device for automatically generating a speech recognition vocabulary for a speech recognition system from a listing are known. The listing contains a number of entries, each entry containing multi-word identification data that distinguishes this entry from other entries in the list. The method comprises the steps of generating a plurality of orthographies in the speech recognition vocabulary for each entry in the dictionary, which orthographies are formed by combining selected words from the entry. The word combination is carried out by applying a heuristic model that mimics the way users formulate requirements for the automatic directory assistance system.

Da sich Listeneinträge einer Auswahlliste ändern können, weil beispielsweise eine neue Adresse hinzukommen kann, kann vorgesehen sein, eine Auswahlliste dynamisch zu erzeugen, d.h. immer dann die vorhandenen Listeneinträge neu zu sammeln und in der Auswahlliste zusammenzustellen, wenn die Auswahlliste vom Benutzer angefordert wird.Since list entries in a selection list can change, for example because a new address can be added, provision can be made for a selection list to be generated dynamically, i.e. always to collect the existing list entries anew and to compile them in the selection list when the selection list is requested by the user.

Für eine Sprachbedienung muss dann aber für jeden Listeneintrag auch ein gültiger Sprachbefehl bereitgestellt werden, damit eine Spracherkennungseinrichtung der Bedienvorrichtung auch die Auswahl eines Listeneintrags per Sprache ermöglichen kann. Ein Listeneintrag ist aber nicht unbedingt dahingehend abgestimmt oder vorbereitet, dass er als berechenbarer Sprachbefehl formuliert ist. Ein Listeneintrag ist in der Regel als ein Text definiert, der hier als Feldtext bezeichnet ist. Ein Beispiel für einen Feldtext eines Listeneintrags einer Auswahlliste mit Adressen kann sein: „Yachtclub Bregenz (Sporthafen)“. Für einen solchen Listeneintrag muss die sogenannte Listengrammatik oder allgemein das Sprachmodell der Spracherkennungseinrichtung mit dem Feldtext ergänzt werden, damit die dynamischen Inhalte oder Listeneinträge einer Auswahlliste abgedeckt sind und mittels des Erkennungsprozesses der Erkennungseinrichtung erkannt werden können. Wie das Beispiel zeigt, ist ein Feldtext allerdings nicht immer als geeigneter Sprachbefehl formuliert. In dem Fallbeispiel müsste der Benutzer den vollständigen Feldtext „Yachtclub Bregenz (Sporthafen)“ vollständig sprachlich eingeben, um eine Auswahl per Spracherkennung treffen zu können. Andernfalls wird eine Fehlerkennung bzw. eine Zurückweisung der Erkennungshypothesen der Spracherkennungseinrichtung ausgelöst.For voice control, however, a valid voice command must then also be provided for each list entry so that a voice recognition device of the operating device can also enable a list entry to be selected by voice. However, a list entry is not necessarily coordinated or prepared in such a way that it is formulated as a predictable voice command. A list entry is usually defined as text, which is referred to here as field text. An example of a field text a list entry of a selection list with addresses can be: "Yachtclub Bregenz (Sporthafen)". For such a list entry, the so-called list grammar or, in general, the language model of the speech recognition device must be supplemented with the field text so that the dynamic contents or list entries of a selection list are covered and can be recognized by means of the recognition process of the recognition device. As the example shows, a field text is not always formulated as a suitable voice command. In the case study, the user would have to enter the full field text “Yachtclub Bregenz (Sporthafen)” in full language in order to be able to make a selection using voice recognition. Otherwise, a false recognition or a rejection of the recognition hypotheses of the speech recognition device is triggered.

Eine solche Art der Spracheingabe ist aber unkomfortabel für einen Benutzer. Die vollständigen Feldtexte und oder Zeileninhalte müssen eingegeben werden, um eine Zeile oder einen Listeneintrag für die weitere Aktion, d.h. die Auswahl auszulösen. Dies macht einen Dialogverlauf in einem Sprachdialogsystem sehr umständlich. Eine Alternative stellt z.B. ein Sprachbefehl dar, bei welchem die Zeilennummer des Listeneintrags angegeben wird. Dies ist aber insofern umständlich, als dass nur die ersten 3-4 Zeilen einer Auswahlliste sichtbar gemacht werden können, wenn der Bildschirm nicht groß genug ist. Dabei kann aber eine dynamisch generierte HMI-Auswahlliste bis zu 50 Zeilen umfassen.However, such a type of voice input is inconvenient for a user. The complete field texts and / or line contents must be entered in order to trigger a line or a list entry for further action, i.e. the selection. This makes the course of a dialogue in a speech dialogue system very cumbersome. An alternative is, for example, a voice command in which the line number of the list entry is given. However, this is cumbersome in that only the first 3-4 lines of a selection list can be made visible if the screen is not large enough. A dynamically generated HMI selection list can contain up to 50 lines.

Der Erfindung liegt die Aufgabe zugrunde, per Sprachbedienung einen Listeneintrag in einer Auswahlliste einer Bedienvorrichtung auswählen zu können.The invention is based on the object of being able to select a list entry in a selection list of an operating device by voice control.

Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figur beschrieben.The object is achieved by the subjects of the independent claims. Advantageous developments of the invention are described by the dependent claims, the following description and the figure.

Durch die Erfindung ist ein Verfahren zum Auswählen eines Listeneintrags aus einer Auswahlliste einer Bedienvorrichtung bereitgestellt. Die Auswahlliste kann beispielsweise ein Bedienmenü oder eine Favoritenliste oder eine Adressliste oder eine Senderliste oder eine Anrufliste oder eine Navigationszieleliste sein. Die Auswahl kann mittels einer Spracherkennungseinrichtung getroffen werden, die Bestandteil der Bedienvorrichtung sein kann oder die durch die Bedienvorrichtung gesteuert werden kann. Die Erfindung geht davon aus, dass der Listeneintrag zumindest einen Feldtext enthält. Ein Feldtext ist also eine Untereinheit des Listeneintrags. Ein Feldtext kann z.B. ein POI-Name (POI - Point of Interest), ein Straßenname, eine Hausnummer oder ein Stadtname sein. Der Feldtext wird dann als ein Teil des Listeneintrags an einen Benutzer ausgegeben. Der Feldtext kann beispielsweise auf einem Bildschirm oder einer anderen Anzeigeeinrichtung angezeigt werden oder durch ein Sprachdialogsystem als Sprachansage ausgegeben werden. Das Verfahren geht davon aus, dass der Feldtext vorgegeben ist. Der Listentext kann z.B. aus einem Datensatz einer Navigationsdatenbank gebildet sein. Der Datensatz kann z.B. lauten:

{ 1, „Uxbridge“, [ ]},
{ 3, „Halford Road“, [ ]},
{4, „UB10 8“, [ ]},
{17, „United Kingdom“, [ ]},
{ 23, "?street=Halford Road?town=Uxbridge?zipCode=UB10 8", [ ]},
{44, „Vereinigtes Königreich“, „GB“, 1, (null), (null) },

wobei der Datensatz mehrere Felder aufweist (hier jeweils in geschwungene Klammer {} eingefasst). In zumindest einem der Felder kann jeweils ein Feldtext (hier in Anführungsstriche „‟ eingefasst) enthalten sein. Ein Feldtext ist z.B. „Halford Road“. Jeder Feldtext ist monolytisch, d.h. er ist ein Textblock, dessen mögliche Aufteilung in Teiltexte nicht z.B. in dem Datensatz oder in einer anderen Quelle vorgegeben ist. Deshalb ist jeder Feldtext nur als monolytischer Textblock für die Spracherkennungseinrichtung verfügbar. Es kann also zunächst nur der Feldtext selber von der Spracherkennungsrichtung als ein gültiger Sprachbefehl zugrunde gelegt werden.The invention provides a method for selecting a list entry from a selection list of an operating device. The selection list can be, for example, an operating menu or a favorites list or an address list or a station list or a call list or a navigation destination list. The selection can be made by means of a speech recognition device which can be part of the operating device or which can be controlled by the operating device. The invention assumes that the list entry contains at least one field text. A field text is therefore a sub-unit of the list entry. A field text can be, for example, a POI name (POI - Point of Interest), a street name, a house number or a city name. The field text is then output to a user as part of the list entry. The field text can, for example, be displayed on a screen or another display device or output as a voice announcement by a speech dialog system. The procedure assumes that the field text is given. The list text can be formed from a data record from a navigation database, for example. The data record can be, for example:

{1, "Uxbridge", []},
{3, "Halford Road", []},
{4, "UB10 8", []},
{17, "United Kingdom", []},
{23, "? Street = Halford Road? Town = Uxbridge? ZipCode = UB10 8", []},
{44, "United Kingdom", "GB", 1, (null), (null)},

whereby the data record has several fields (here each enclosed in curved brackets {}). At least one of the fields can contain a field text (here enclosed in quotation marks “‟). A field text is, for example, "Halford Road". Each field text is monolithic, ie it is a text block whose possible division into partial texts is not specified, for example, in the data record or in another source. Therefore, each field text is only available as a monolithic text block for the speech recognition device. So initially only the field text itself from the direction of speech recognition can be used as a valid speech command.

Um nun aber per Sprache oder Sprachbefehl eine flexiblere Auswahl des Listeneintrags ermöglichen zu können, wird erfindungsgemäß der Feldtext mittels einer vorbestimmten Splitfunktion oder Aufteilfunktion in Teiltexte aufgeteilt. Auf der Grundlage zumindest eines einzelnen der Teiltexte und/oder auf der Grundlage zumindest einer Kombination zumindest einiger der Teiltexte wird jeweils ein gültiger Sprachbefehl zum Auswählen des Listeneintrags definiert. Die Kombination aus zumindest einigen der Teiltexte sieht dabei vor, dass sich natürlich nicht wieder einfach der Feldtext selbst ergibt, sondern dass jede Kombination von dem Feldtext verschieden ist. Beispielsweise kann die Kombination einiger der Teiltexte kürzer sein als der Feldtext selbst. Ein einzelner Teiltext als Sprachbefehl ist natürlich stets kürzer als der Feldtext, wenn dieser mehrere Teiltexte enthält. Ein Teiltext kann z.B. ein einzelnes Wort des Feldtextes sein oder ein zusammenhängender Name (mit Bindestrich, wie z.B. „Jean-Claude“).However, in order to be able to enable a more flexible selection of the list entry by voice or voice command, the field text is divided into partial texts according to the invention by means of a predetermined split function or division function. On the basis of at least one of the partial texts and / or on the basis of at least one combination of at least some of the partial texts, a valid voice command for selecting the list entry is defined in each case. The combination of at least some of the partial texts provides that the field text itself is of course not simply the result, but that each combination is different from the field text. For example, the combination of some of the partial texts can be shorter than the field text itself. A single partial text as a voice command is of course always shorter than the field text if it contains several partial texts. A partial text can be, for example, a single word in the field text or a coherent name (with a hyphen, such as "Jean-Claude").

Die Spracherkennungseinrichtung erkennt dann in einer Spracheingabe des Benutzers, also in einem von einem Mikrofon oder einer Mikrofonanordnung erfassten Sprachsignal, einen dieser gültigen Sprachbefehle. Bei Erkennen eines gültigen Sprachbefehls wird dann in der Bedienvorrichtung daraufhin der Listeneintrag ausgewählt.The speech recognition device then recognizes in a speech input by the user, that is to say in one of a microphone or one Microphone arrangement detected voice signal, one of these valid voice commands. When a valid voice command is recognized, the list entry is then selected in the operating device.

Durch die Erfindung ergibt sich der Vorteil, dass unabhängig davon, wie der Feldtext sprachlich formuliert ist, gültige Sprachbefehle erzeugt werden können, die sich zur Verwendung in einer Sprachbedienung eignen. Wird beispielsweise der obige Feldtext „Yachtclub Bregenz (Sporthafen)“ zu Grunde gelegt, so können die Teiltexte lauten: „Yachtclub“, „Bregenz“ und „Sporthafen“. Jeder einzelne dieser Teiltexte kann dann als Grundlage für einen Sprachbefehl dienen. Es kann auch eine Kombination zumindest zwei der Teiltexte vorgesehen sein, beispielsweise: „Sporthafen Bregenz“.The invention has the advantage that, regardless of how the field text is formulated linguistically, valid voice commands can be generated which are suitable for use in voice control. If, for example, the above field text "Yachtclub Bregenz (Sporthafen)" is used, the partial texts can be: "Yachtclub", "Bregenz" and "Sporthafen". Each of these partial texts can then serve as the basis for a voice command. A combination of at least two of the partial texts can also be provided, for example: “Sporthafen Bregenz”.

Erfindungsgemäß umfasst die zumindest eine Kombination der Teiltexte eine solche, bei welcher zumindest zwei Teiltexte in einer anderen Reihenfolge angeordnet sind als in dem Feldtext. In der beschriebenen Weise ist somit bei dem obigen Fallbeispiel als gültiger Sprachbefehl folgender möglich: „Sporthafen Bregenz“. Der Benutzer muss sich dann also nicht an die Reihenfolge im Feldtext halten.According to the invention, the at least one combination of the partial texts includes one in which at least two partial texts are arranged in a different order than in the field text. In the manner described, the following is possible as a valid voice command in the above case study: “Sporthafen Bregenz”. The user does not have to stick to the order in the field text.

Zu der Erfindung gehören auch Weiterbildungen, durch die sich zusätzliche Vorteile ergeben.The invention also includes further developments which result in additional advantages.

Um die Spracherkennungseinrichtung dahingehend (bevorzugt zur Laufzeit) zu konfigurieren, dass sie einzelne Teiltexte und/oder Kombinationen aus zumindest zwei Teiltexten als gültigen Sprachbefehl erkennt oder akzeptiert, ist gemäß einer Weiterbildung vorgesehen, dass mittels der Teiltexte ein Sprachmodell der Spracherkennungseinrichtung, insbesondere eine Listengrammatik, konfiguriert wird. Hierdurch ergeben sich aufgrund der Natur eines Sprachmodells und insbesondere einer Listengrammatik selbstständig gültige Sprachbefehle aus der Grundlage einzelner Teiltexte. Auch die Kombinationen ergeben sich von selbst. Eine Listengrammatik ist ein für die Listenauswahl spezialisiertes Sprachmodell. Sprachmodell gibt die für die Spracherkennung gültigen Wörter und ihre möglichen Reihenfolgen an. Aus dem bereits bestehenden Feldtext, der selbst einen gültigen Sprachbefehl darstellt, werden also Alternativen für die Erkennung gebildet, die als eigene gültige Sprachbefehle genutzt werden können. Im Erkennungsvorgang sind also nun beliebige Übergänge zwischen den Teiltexten möglich, während bei ausschließlicher Verwendung des Feldtextes selbst nur die eine, durch den Feldtext vorgegebene Reihenfolge der Teiltexte gültig ist und der Feldtext vollständig ausgesprochen werden muss.In order to configure the speech recognition device (preferably at runtime) in such a way that it recognizes or accepts individual partial texts and / or combinations of at least two partial texts as a valid voice command, a further development provides that a language model of the speech recognition device, in particular a list grammar, configured. Due to the nature of a language model and in particular a list grammar, this results in independently valid language commands from the basis of individual partial texts. The combinations also arise automatically. A list grammar is a language model that is specialized for list selection. Speech model specifies the words that are valid for speech recognition and their possible sequences. Alternatives for the recognition are formed from the already existing field text, which itself represents a valid voice command, which can be used as separate valid voice commands. In the recognition process, any transitions between the partial texts are now possible, while when the field text itself is used only the one sequence of the partial texts specified by the field text is valid and the field text must be pronounced in full.

Eine Weiterbildung sieht vor, dass die Auswahlliste dynamisch erstellt wird, also zur Laufzeit der Bedienvorrichtung. Hierdurch enthält die Auswahlliste stets die aktuell verfügbaren Listeneinträge.A further development provides that the selection list is created dynamically, that is to say at the runtime of the operating device. This means that the selection list always contains the currently available list entries.

Eine Weiterbildung sieht vor, dass der Listeneintrag aus einer Datenbank empfangen wird. Es kann also direkt aus einer Datenbank ein Feldtext empfangen werden, der unabhängig von seiner Formulierung dennoch stets in zumindest einen gültigen, für ein Sprachdialogsystem verwendbaren Sprachbefehl umgewandelt werden kann.A further development provides that the list entry is received from a database. A field text can therefore be received directly from a database which, regardless of its formulation, can nevertheless always be converted into at least one valid voice command that can be used for a voice dialog system.

Eine Weiterbildung sieht vor, dass zum Definieren zumindest eines gültigen Sprachbefehls jeweils weniger Teiltexte (z.B. Worte) verwendet werden als in dem Feldtext enthalten sind. Der Sprachbefehl ist dann also kürzer als der Feldtext. Dies macht ihn einfacher aussprechbar.A further development provides that fewer partial texts (e.g. words) are used to define at least one valid voice command than are contained in the field text. The voice command is then shorter than the field text. This makes it easier to pronounce.

Eine Weiterbildung sieht vor, dass durch die besagte Splitfunktion, mittels welcher der Feldtext in Teiltexte aufgeteilt wird, hierzu in dem Feldtext zumindest ein vorbestimmtes Spezialzeichen gesucht wird und der Feldtext an zumindest einem oder jedem gefundenen Spezialzeichen aufgeteilt wird. Ein jeweiliges Beispiel für Spezialzeichen sind: das Leerzeichen, „/“ „-“, „!“, „(“, „)“. Das Spezialzeichen selbst kann beim Aufteilen verworfen werden.A further development provides that by means of the said split function, by means of which the field text is divided into partial texts, at least one predetermined special character is searched for in the field text and the field text is divided on at least one or every special character found. A respective example of special characters are: the space, "/" "-", "!", "(", ")". The special character itself can be discarded when splitting.

Nicht alle resultierenden Teiltexte ergeben einen sinnvollen Sprachbefehl. Enthält ein Feldtext beispielsweise eine E-Mail-Adresse, so kann ein Teiltext beispielsweise das Symbol „@“ enthalten. Eine Weiterbildung sieht vor, dass während oder nach dem Aufteilen des Feldtextes die resultierenden Teiltexte daraufhin überprüft werden, ob sie ein vorbestimmtes Löschkriterium erfüllen. Das Löschkriterium gibt ein Muster (Pattern) vor, das gelöscht werden muss. Es ergibt sich eine Blacklist von Teiltexten oder Textbestandteilen, die gelöscht werden müssen. Das Löschkriterium umfasst also all diejenigen Textbestandteile oder möglichen Teiltexte, die nicht für einen Sprachbefehl geeignet sind. Jeder das Löschkriterium erfüllende Teiltext wird entsprechend beim Definieren der Sprachbefehle ausgeschlossen. Somit wird also Unaussprechliches gelöscht oder zumindest nicht verwendet. Auch Füllwörter, die ohnehin später für die Spracherkennung automatisch ergänzt werden, können aus einem Teiltext gelöscht werden, damit sie nicht doppelt vorhanden sind (Übergenerierung verhindern). Auch Abkürzungen können gelöscht werden.Not all of the resulting partial texts result in a meaningful voice command. If a field text contains an e-mail address, for example, a partial text can contain the symbol “@”, for example. A further development provides that the resulting partial texts are checked during or after the division of the field text to determine whether they meet a predetermined deletion criterion. The deletion criterion specifies a pattern that must be deleted. The result is a blacklist of partial texts or text components that have to be deleted. The deletion criterion thus includes all those text components or possible partial texts that are not suitable for a voice command. Any partial text that fulfills the deletion criterion is accordingly excluded when defining the voice commands. So the unspeakable is deleted or at least not used. Noise words, which are automatically added later for speech recognition anyway, can be deleted from a partial text so that they are not duplicated (prevent over-generation). Abbreviations can also be deleted.

Alternativ oder zusätzlich zu einem Löschen von Teiltexten oder Textbestandteilen eines Teiltextes kann vorgesehen sein, in zumindest einem der Teiltexte eine Abkürzung zumindest eines Wortes zu erkennen und in dem Teiltext die Abkürzung durch das zumindest eine Wort zu ersetzen. Dies wird auch als Normalisierung bezeichnet. Damit kann also z.B. ein Symbol („@“ steht für das Wort „at“) oder eine andere Abkürzung („Dr.“ steht für „Doktor“) in die vom Benutzer aussprechbare Form gebracht werden.As an alternative or in addition to deleting partial texts or text components of a partial text, provision can be made for an abbreviation of at least one word to be recognized in at least one of the partial texts and for the abbreviation to be replaced by the at least one word in the partial text. This is also known as normalization. This means, for example, that a symbol (“@” stands for the word “at”) or a other abbreviation ("Dr." stands for "Doktor") in the form that can be pronounced by the user.

Um das erfindungsgemäße Verfahren durchzuführen, ist durch die Erfindung auch die Bedienvorrichtung bereitgestellt, die dazu eingerichtet ist, in Abhängigkeit von einem Sprachbefehl eines Benutzers einen Listeneintrag aus einer Auswahlliste auszuwählen. Die erfindungsgemäße Bedienvorrichtung weist eine Prozessoreinrichtung auf, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessoreinrichtung kann hierzu zumindest einen Mikrocontroller und/oder zumindest einen Mikroprozessor aufweisen. Die Prozessoreinrichtung kann einem Programmcode aufweisen, der dazu eingerichtet ist, bei Ausführen durch die Prozessoreinrichtung die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessoreinrichtung gespeichert sein.In order to carry out the method according to the invention, the invention also provides the operating device which is set up to select a list entry from a selection list as a function of a voice command from a user. The operating device according to the invention has a processor device which is set up to carry out an embodiment of the method according to the invention. For this purpose, the processor device can have at least one microcontroller and / or at least one microprocessor. The processor device can have a program code which is set up to carry out the embodiment of the method according to the invention when it is executed by the processor device. The program code can be stored in a data memory of the processor device.

Die Bedienvorrichtung kann beispielsweise als Bedienvorrichtung für ein Kraftfahrzeug, also als sogenanntes HMI oder Infotainmentsystem, ausgestaltet sein. Die Bedienvorrichtung kann auch beispielsweise in einem Smartphone oder in einem Tablet-PC realisiert sein. Die Bedienvorrichtung kann auch durch einen Server des Internets realisiert sein.The operating device can be designed, for example, as an operating device for a motor vehicle, that is to say as a so-called HMI or infotainment system. The operating device can also be implemented, for example, in a smartphone or in a tablet PC. The operating device can also be implemented by a server on the Internet.

Besonders bevorzugt ist die Bedienvorrichtung in einem Kraftfahrzeug bereitgestellt. Die Erfindung umfasst entsprechend auch ein Kraftfahrzeug mit der erfindungsgemäßen Bedienvorrichtung. Das Kraftfahrzeug kann ein Kraftwagen, insbesondere ein Personenkraftwagen oder Lastkraftwagen, sein.The operating device is particularly preferably provided in a motor vehicle. The invention accordingly also comprises a motor vehicle with the operating device according to the invention. The motor vehicle can be a motor vehicle, in particular a passenger car or truck.

Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt die einzige Figur (Fig.) eine schematische Darstellung einer Ausführungsform der erfindungsgemäßen Bedienvorrichtung.An exemplary embodiment of the invention is described below. For this purpose, the single figure (FIG.) Shows a schematic representation of an embodiment of the operating device according to the invention.

Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiments explained below are preferred embodiments of the invention. In the exemplary embodiments, the described components of the embodiments each represent individual features of the invention that are to be considered independently of one another, which also develop the invention independently of one another and are thus also to be regarded as part of the invention individually or in a combination other than the one shown. Furthermore, the described embodiments can also be supplemented by further features of the invention that have already been described.

Die Figur zeigt eine Bedienvorrichtung 10, die beispielsweise als ein Infotainmentsystem in einem Kraftfahrzeug 11 eingebaut sein kann. Die Bedienvorrichtung 10 kann aber beispielsweise auch in einem Smartphone eingebaut sein.The figure shows an operating device 10 for example as an infotainment system in a motor vehicle 11 can be built in. The operating device 10 but can also be built into a smartphone, for example.

Die Bedienvorrichtung 10 kann auf einer Anzeigeeinrichtung 12 eine Auswahlliste 13 darstellen oder anzeigen, die beispielsweise für eine Navigationsassistenz Listeneinträge 14 mit möglichen Navigationszielen enthalten kann. Die Anzeigeeinrichtung 12 kann beispielsweise ein Bildschirm sein. Es kann sich bei den Navigationszielen um vorangegangene, von einem Benutzer bereits schon einmal ausgewählte Navigationsziele handeln. Jeder Listeneintrag 14 kann einen Feldtext 15 aufweisen, der den Listeneintrag beschreibt. In dem dargestellten Beispiel können die Feldtexte 15 lauten: „Ägypten“, „Yachtclub Bregenz (Sporthafen)“, „Straße des 17. Juni 1931“, „Yachtclub Radolfzell E. V. (Sporthafen)“ (Datensatzfeld „POI“). Die Feldtexte 15 sind jeweils monolytisch, also als ein Textblock definiert. Weitere dargestellte Feldtexte sind z.B. „Hechtweg“, „Benin“, „Neuenkirchen“ (Datensatzfeld „Straße“). Diese Feldtexte sind allerdings Ein-Wort-Feldtexte.The operating device 10 can on a display device 12th a selection list 13th represent or display the list entries for a navigation assistant, for example 14th with possible navigation destinations. The display device 12th can be a screen, for example. The navigation destinations can be previous navigation destinations already selected by a user. Every entry in the list 14th can be a field text 15th that describes the list entry. In the example shown, the field texts 15th are: "Egypt", "Yachtclub Bregenz (Sporthafen)", "Straße des 17. Juni 1931", "Yachtclub Radolfzell EV (Sporthafen)" (data record field "POI"). The field texts 15th are each monolithic, i.e. defined as a text block. Other field texts shown are, for example, "Hechtweg", "Benin", "Neuenkirchen" (data record field "Street"). However, these field texts are one-word field texts.

Der Benutzer kann aus der Auswahlliste 13 einen Listeneintrag 14 auswählen, sodass für die Navigationsassistenz dann der ausgewählte Listeneintrag als Navigationsziel 16 für die Navigationsassistenz ausgewählt oder aktiviert oder eingestellt wird.The user can choose from the selection list 13th an entry in the list 14th Select so that the selected list entry is then used as the navigation target for the navigation assistant 16 is selected or activated or set for the navigation assistance.

Bei der Bedienvorrichtung 10 kann der Benutzer die Auswahl mittels eines Sprachbefehls treffen. Der Benutzer kann also aussprechen, welchen Listeneintrag 14 er ausgewählt haben möchte. Eine Spracheingabe 16 des Benutzers kann mittels einer Mikrofoneinrichtung 17 in bekannter Weise erfasst werden. Eine Spracherkennungseinrichtung 18 der Bedienvorrichtung 10 (ASR - Automatic Speech Recognition, automatische Spracherkennung) kann aus dem Sprachsignal der Mikrofoneinrichtung 17 ein Spracherkennungsergebnis 19 erzeugen, welches angibt, welcher Listeneintrag 14 vom Benutzer mittels seine Spracheingabe 16 ausgewählt wurde. Mittels des Spracherkennungsergebnisses 19 kann eine Aktion in dem Kraftfahrzeug oder in einem Gerät ausgelöst werden. Es kann die Nummer des Listeneintrags ermittelt werden und dann mittel des Listeneintrags eine für den aktuellen Bedienkontext (z.B. Navigation, Radiosenderwahl) vorgesehene Aktion ausgelöst werden.At the control device 10 the user can make the selection by means of a voice command. The user can therefore pronounce which list entry 14th he would like to have selected. A voice input 16 of the user can by means of a microphone device 17th can be recorded in a known manner. A speech recognition device 18th the control device 10 (ASR - Automatic Speech Recognition, automatic speech recognition) can be obtained from the speech signal of the microphone device 17th a speech recognition result 19th generate which indicates which list entry 14th by the user using his or her voice input 16 selected. Using the speech recognition result 19th an action can be triggered in the motor vehicle or in a device. The number of the list entry can be determined and then an action provided for the current operating context (eg navigation, radio station selection) can be triggered by means of the list entry.

Die Spracherkennungseinrichtung 18 kann in an sich bekannter Weise z.B. auf der Grundlage von Hidden-Markov-Modelle (HMM) gebildet sein. Die Spracherkennungseinrichtung 18 kann als ein Sprachmodell beispielsweise eine Listengrammatik 20 aufweisen, welche für jeden Listeneintrag 14 definiert, welcher Sprachbefehl jeweils für die Auswahl gültig ist oder zu einer Auswahl führt. Pro Listeneintrag 14 können auch mehrere gültige Sprachbefehle vorgesehen sein.The speech recognition device 18th can be formed in a manner known per se, for example on the basis of hidden Markov models (HMM). The speech recognition device 18th For example, a list grammar can be used as a language model 20th have which for each list entry 14th defines which voice command is valid for the selection or which leads to a selection. Per list entry 14th several valid voice commands can also be provided.

Die gültigen Sprachbefehle können von der Bedienvorrichtung 10 dynamisch zusammen mit einem dynamischen Inhalt der Auswahlliste 13 erzeugt werden. Die Bedienvorrichtung 10 kann beispielsweise aus einer Datenbank 21 jeweiligen Feldtexte 15 empfangen und aus den Feldtexten 15 die Listeneinträge 14 der Auswahlliste 13 zum Anzeigen auf der Anzeigeeinrichtung 12 erzeugen.The valid voice commands can be from the operating device 10 dynamic together with a dynamic content of the selection list 13th be generated. The operating device 10 can for example from a database 21 respective field texts 15th received and from the field texts 15th the list entries 14th the selection list 13th for displaying on the display device 12th produce.

Der Feldtext 15 selbst kann auch als Bestandteil der Listengrammatik 20 bei der Spracherkennungseinrichtung 18 vorgesehen sein. Zusätzlich kann bei der Bedienvorrichtung 10 auch eine auf Teilfunktion oder Splitfunktion 22 vorgesehen sein, welche den Feldtext 15 in Teiltexte 23 aufteilt. Jeder der Teiltexte 23 oder eine Auswahl aus den insgesamt ermittelten Teiltexte 23 kann dann ebenfalls in die Listengrammatik 20 eingetragen werden. Die Listengrammatik 20 kann dann jeden eingetragenen Teiltext 23 als einen gültigen Sprachbefehl erkennen. Zusätzlich kann auch eine Kombination aus 2 oder mehr Teiltexte 23 jeweils wieder als Grundlage für einen gültigen Sprachbefehl durch die Listengrammatik 20 verwendet oder vorgesehen werden. Die Teiltexte 23 können mittels der Listengrammatik 20 mit weiteren Füllwörtern kombiniert werden, um eine sogenannte natürlichsprachliche Auswahl zu ermöglichen. Dies ist aus dem Stand der Technik bekannt.The field text 15th itself can also be used as part of the list grammar 20th at the speech recognition facility 18th be provided. In addition, the control device 10 also one on partial function or split function 22nd be provided which the field text 15th in partial texts 23 divides. Each of the partial texts 23 or a selection from the total determined partial texts 23 can then also be used in the list grammar 20th be entered. The list grammar 20th can then each entered partial text 23 recognize it as a valid voice command. In addition, a combination of 2 or more partial texts 23 again as the basis for a valid voice command through the list grammar 20th used or provided. The partial texts 23 can using the list grammar 20th can be combined with other filler words to enable a so-called natural language selection. This is known from the prior art.

Der Benutzer kann so auch einen gültigen Sprachbefehl aussprechen, der nicht identisch mit dem jeweiligen Feldtext 15 ist, sondern nur einen Teiltext 23 oder eine Kombination aus 2 oder mehr Teiltexte aufweist oder enthält. Auch eine Reihenfolge, in welcher die Teiltexte vom Benutzer gesprochen werden, kann von der Reihenfolge gemäß dem Feldtext 15 abweichen. Abkürzungen, wie beispielsweise das gezeigte „E.V.“ (Eingetragener Verein) können in den Teiltexten 23 aufgelöst oder durch das jeweilige Wort ergänzt oder ersetzt sein.The user can also pronounce a valid voice command that is not identical to the respective field text 15th is, but only part of the text 23 or has or contains a combination of 2 or more partial texts. An order in which the partial texts are spoken by the user can also depend on the order in accordance with the field text 15th differ. Abbreviations, such as the "EV" (registered association) shown, can be used in the partial texts 23 dissolved or supplemented or replaced by the respective word.

Die Listeninhalte oder die sogenannten Feldtexte werden also durch einen Splitfunktion 22 über eine Gruppe von Spezialzeichen z.B. (, /, -, ) aufgeteilt oder gesplittet und als einzelne, kleinere Teiltexte 23 jeweils als zusätzliche Liste für die Erkennung verfügbar gemacht. Dabei werden alle Abkürzungen, wie „Dr.“, „GmbH“, normalisiert, d.h. durch die jeweilige Wortfolge oder das jeweilige abgekürzte Wort ersetzt. Alternativ dazu kann ein Teiltext auch gelöscht werden, wenn er ein entsprechendes Löschkriterium erfüllt, in dem angegeben ist, ob ein solcher Teiltext als ein gültiger Sprachbefehl verwendet werden soll. Durch diese beiden Maßnahmen (Abkürzungen auflösen und/oder löschen) kann eine Fehlerkennung vermieden werden.The list contents or the so-called field texts are thus split by a split function 22nd over a group of special characters e.g. (, /, -,) divided or split and as individual, smaller partial texts 23 each made available as an additional list for detection. All abbreviations, such as "Dr.", "GmbH", are normalized, ie replaced by the respective word sequence or the respective abbreviated word. Alternatively, a partial text can also be deleted if it fulfills a corresponding deletion criterion in which it is specified whether such a partial text should be used as a valid voice command. These two measures (dissolving and / or deleting abbreviations) can avoid incorrect identification.

Der Benutzer kann nun partiell oder frei variabel die Listeninhalte oder Listeneinträge 14 in die Spracherkennungseinrichtung 18 eingeben. Das eingangs genannte Fallbeispiel vom Listeneintrag 14 mit dem Feldtext 15 „Yachtclub Bregenz (Sporthafen)“ kann zu gültigen Sprachbefehlen in der folgenden Form führen: „Yachtclub Bregenz“ oder „Bregenz Yachtclub“ oder nur „Bregenz“ (einzelner Teiltext), die der Benutzer sprachlich eingegeben werden.The user can now partially or freely variable the list contents or list entries 14th into the speech recognition device 18th input. The case study mentioned at the beginning of the list entry 14th with the field text 15th “Yachtclub Bregenz (Sporthafen)” can lead to valid voice commands in the following form: “Yachtclub Bregenz” or “Bregenz Yachtclub” or just “Bregenz” (individual partial text), which the user enters verbally.

Die Sprachbefehle können also ungenau oder „fuzzy“ sein, weil sie sich von dem Feldtext 15 unterscheiden. Dennoch wird die entsprechende Zeile oder der entsprechenden Listeneintrag 14 aus der Auswahlliste 13 (HMI - Liste) für die weitere Verarbeitung in der beschriebenen Weise ausgewählt. So kann beispielsweise eine Zielführung zu die dem Ziel oder dem entsprechenden POI (Point-of-Interest), wie ihn der Listeneintrag 14 beschreibt, gestartet werden.The voice commands can therefore be imprecise or "fuzzy" because they differ from the field text 15th differentiate. Nevertheless, the corresponding line or the corresponding list entry 14th from the selection list 13th (HMI list) selected for further processing in the manner described. For example, route guidance to the destination or the corresponding POI (Point-of-Interest) like the list entry 14th describes to be started.

Besonders ist hierbei, dass „just in time“ oder mit einer Änderung der Auswahlliste ein neuer Erkennerraum errechnet wird, also neue gültige Sprachbefehle entstehen.What is special here is that a new recognition area is calculated “just in time” or with a change in the selection list, ie new valid voice commands are created.

Insgesamt zeigen die Beispiele, wie durch die Erfindung eine fuzzy Spracherkennung einer dynamischen HMI-Liste ermöglicht werden kann.Overall, the examples show how fuzzy speech recognition of a dynamic HMI list can be made possible by the invention.

Claims

Method for selecting a list entry (14) from a selection list (13) of an operating device (10) by means of a speech recognition device (18), with a field text (15) which is output to a user as part of the list entry (14) being specified, wherein the field text (15) is divided into partial texts (23) by means of a predetermined split function (22) and, based on at least one combination of at least some of the partial texts (23) different from the field text (15), a valid voice command for selecting the list entry ( 14) is defined and the voice recognition device (18) recognizes one of the valid voice commands in a voice input (16) of the user and the list entry (14) is then selected by the operating device (10), characterized in that the at least one combination of the partial texts ( 23) includes one in which at least two of the partial texts (23) are arranged in a different order than in the field text (15).

Procedure according to Claim 1 , wherein a language model (20) of the speech recognition device (18) is configured by means of the partial texts (23).

Method according to one of the preceding claims, wherein the selection list (13) is created dynamically.

Method according to one of the preceding claims, wherein the list entry (14) is received from a database (21).

Method according to one of the preceding claims, wherein fewer partial texts (23) are used to define at least one valid voice command than are contained in the field text (15).

Method according to one of the preceding claims, wherein the split function (22) is used to search for at least one predetermined special character in the field text (15) and the field text (15) is divided into at least one or every special character found.

Method according to one of the preceding claims, wherein during or after the division of the field text (15) the resulting partial texts (23) are checked to see whether they meet a predetermined deletion criterion, and each partial text (23) fulfilling the deletion criterion is excluded when defining the voice commands .

Method according to one of the preceding claims, wherein an abbreviation of at least one word is recognized in at least one of the partial texts (23) and the abbreviation is replaced by the at least one word in the partial text (23).

Operating device (10) which is set up to select a list entry (14) from a selection list (13) for a user depending on a voice command of the user, characterized in that the operating device (10) has a processor device which is set up for this purpose to carry out a method according to any one of the preceding claims.