DE102015213722A1 - A method of operating a speech recognition system in a vehicle and speech recognition system - Google Patents

A method of operating a speech recognition system in a vehicle and speech recognition system Download PDF

Info

Publication number
DE102015213722A1
DE102015213722A1 DE102015213722.8A DE102015213722A DE102015213722A1 DE 102015213722 A1 DE102015213722 A1 DE 102015213722A1 DE 102015213722 A DE102015213722 A DE 102015213722A DE 102015213722 A1 DE102015213722 A1 DE 102015213722A1
Authority
DE
Germany
Prior art keywords
text
context
user
data
semantic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102015213722.8A
Other languages
German (de)
Other versions
DE102015213722B4 (en
Inventor
Daniel Lüddecke
Marius Spika
Jens Schneider
Eva BERNER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Priority to DE102015213722.8A priority Critical patent/DE102015213722B4/en
Publication of DE102015213722A1 publication Critical patent/DE102015213722A1/en
Application granted granted Critical
Publication of DE102015213722B4 publication Critical patent/DE102015213722B4/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Betreiben eines Spracherkennungssystems (10) in einem Fahrzeug (6) sowie ein Spracherkennungssystem (10). Bei dem erfindungsgemäßen Verfahren wird zumindest eine Spracheingabe eines Nutzers erfasst wird und es werden Daten zu dem Kontext der Spracheingabe erfasst. Es wird ein erkannter Text der Spracheingabe erzeugt und eine semantische Analyse des erkannten Textes wird erzeugt. Schließlich wird anhand der semantischen Analyse eine Funktion ausgeführt.The invention relates to a method for operating a speech recognition system (10) in a vehicle (6) and to a speech recognition system (10). In the method according to the invention at least one speech input of a user is detected and data on the context of the speech input is detected. A recognized text of the speech input is generated and a semantic analysis of the recognized text is generated. Finally, a function is performed based on the semantic analysis.

Description

Die Erfindung betrifft ein Verfahren zum Betreiben eines Spracherkennungssystems in einem Fahrzeug sowie ein Spracherkennungssystem.The invention relates to a method for operating a speech recognition system in a vehicle and to a speech recognition system.

Spracherkennungssysteme finden ein breites Anwendungsspektrum für Bediensysteme. Dies betrifft gleichermaßen die Bedienung von Geräten sowie die Erledigung fernmündlicher Aufgaben mittels Sprachcomputer, beispielsweise Telefon-Banking. Auch hat sich die Bedienung von Einrichtungen eines Fahrzeugs über Spracheingaben als wesentliches Merkmal aktueller Benutzerschnittstellen im Fahrzeug etabliert. Beispielsweise werden zur Eingabe komplexer Sachverhalte entsprechende Informationen durch ein Sprachdialogsystem sequentiell vom Nutzer abgefragt. Speech recognition systems find a wide range of applications for operating systems. This applies equally to the operation of devices and the completion of telephone tasks using voice computers, such as telephone banking. Also, the operation of facilities of a vehicle via voice inputs has become established as an essential feature of current user interfaces in the vehicle. For example, to input complex facts corresponding information is queried sequentially by a user through a speech dialogue system.

Es ist dabei von entscheidender Bedeutung, dass die Erkennung und Interpretation einer Spracheingabe des Nutzers möglichst fehlerfrei und schnell erfolgt. Hierfür wurden zwar bereits verschiedene Methoden vorgeschlagen, die zur Implementierung notwendige große Rechenkapazität erschwert allerdings häufig den Einsatz, etwa im Bereich mobiler Geräte oder in Fahrzeugen. Ein Ansatz zur Lösung dieses Problems ist, die Rechenaufgaben auf einen über das Internet erreichbaren Server auszulagern. Dies setzt allerdings voraus, dass das Spracherkennungssystem jederzeit Daten mit dem Server austauschen kann, was insbesondere in Gebieten mit lückenhafter Abdeckung durch Mobilfunknetze nicht jederzeit gewährleistet ist. It is of crucial importance that the recognition and interpretation of a user's speech input is as error-free and fast as possible. Although various methods have already been proposed for this, the large computing capacity required for implementation often makes deployment difficult, for example in the field of mobile devices or in vehicles. One approach to solving this problem is to outsource the computational tasks to a server accessible via the Internet. However, this presupposes that the voice recognition system can exchange data with the server at any time, which is not always guaranteed, especially in areas with incomplete coverage by mobile radio networks.

Bei dem in der DE 103 29 546 A1 beschriebenen Mechanismus zur automatischen Spracherkennung werden die Wörter eines Basislexikons in applikations- und benutzerspezifische Wortgruppen unterteilt. Durch den auf diese Weise eingeschränkten Wortschatz wird die Zahl der potentiell zu erkennenden Wörter verringert. In the in the DE 103 29 546 A1 The mechanism for automatic speech recognition described the words of a base lexicon are divided into application and user-specific phrases. The vocabulary restricted in this way reduces the number of words that can potentially be recognized.

Die EP 2 273 491 A1 beschreibt eine Bedienoberfläche zur Steuerung eines Navigationssystems mit natürlicher Sprache. Hierbei können Kontextinformationen berücksichtigt werden, etwa um aus eine Vielzahl von Adressen die sinnvollste Alternative auszuwählen. Die Interpretation der sprachlichen Eingabe kann mit Hilfe von Kontextinformationen und gelerntem Wissen verbessert werden, indem anhand einer ersten, weniger genauen Interpretation ein kontextspezifischer Agent ausgewählt wird und dieser anschließend für eine bessere Interpretation verwendet wird.The EP 2 273 491 A1 describes a user interface for controlling a natural language navigation system. Here, context information can be taken into account, for example to select the most sensible alternative from a large number of addresses. The interpretation of the linguistic input can be improved with the help of contextual information and learned knowledge by selecting a context-specific agent based on a first, less precise interpretation and then using it for a better interpretation.

Die US 2007/0073540 A1 beschreibt eine Spracherkennung, bei der eine Eingabe korrigiert werden kann. Bei der Eingabe zweier Äußerungen wird erkannt, ob die zweite Äußerung zu der gesamten oder teilweisen ersten Äußerung passt, und ein als ähnlich erkannter Teil wird korrigiert. The US 2007/0073540 A1 describes a speech recognition in which an input can be corrected. Upon inputting two utterances, it is recognized whether the second utterance matches the whole or partial first utterance, and a part recognized as being similar is corrected.

Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren zum Betreiben eines Spracherkennungssystems und ein Spracherkennungssystem bereitzustellen, mit denen Spracheingaben schnell und zuverlässig erkannt und interpretiert werden können. It is therefore the object of the present invention to provide a method for operating a speech recognition system and a speech recognition system with which speech inputs can be quickly and reliably recognized and interpreted.

Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1 und ein Spracherkennungssystem mit den Merkmalen des Anspruchs 15 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen. According to the invention, this object is achieved by a method having the features of claim 1 and a speech recognition system having the features of claim 15. Advantageous embodiments and further developments emerge from the dependent claims.

Bei dem erfindungsgemäßen Verfahren wird zumindest eine Spracheingabe eines Nutzers erfasst und es werden Daten zu dem Kontext der Spracheingabe erfasst. Ein erkannter Text der Spracheingabe wird erzeugt und eine semantische Analyse des erkannten Textes wird erzeugt. Anschließend wird anhand der semantischen Analyse eine Funktion ausgeführt.In the method according to the invention, at least one speech input of a user is detected and data relating to the context of the speech input is acquired. A recognized text of the speech input is generated and a semantic analysis of the recognized text is generated. Subsequently, a function is performed based on the semantic analysis.

Insbesondere kann das Spracherkennungssystem in einem Fahrzeug betrieben werden. In particular, the voice recognition system can be operated in a vehicle.

Die Erfassung der Spracheingabe erfolgt dabei durch an sich bekannte Verfahren, etwa mittels eines Mikrofons und einer dazugehörigen Einrichtung zur Speicherung und Verarbeitung des erfassten Signals. Der Benutzer kann dem System beispielsweise den Beginn einer Spracheingabe durch Drücken einer „Push-To-Talk“-Taste (PTT) signalisieren. Die erfassten Audiodaten der Spracheingabe können flüchtig oder nichtflüchtig gespeichert werden und so zu einem späteren Zeitpunkt zur Verfügung stehen.The speech input is detected by methods known per se, for example by means of a microphone and an associated device for storing and processing the detected signal. For example, the user may signal the system to begin voice input by pressing a push-to-talk (PTT) key. The recorded audio data of the voice input can be stored in a volatile or non-volatile manner and thus be available at a later time.

Nach der Erfassung der Spracheingabe wird eine Texterkennung durchgeführt. Dabei wird anhand eines Sprachmodells aus dem erfassten Audiosignal der Spracheingabe ein erkannter Text ermittelt. Dieser wird insbesondere maschinenlesbar erzeugt und kann für die weitere Analyse verwendet werden. Das Sprachmodell kann beispielsweise ein Wörterbuch umfassen. Es kann ferner die Frequenz von Wörtern einzeln oder in Kombination abbilden. Das Spracherkennungssystem kann mehrere Sprachmodelle umfassen, die beispielsweise einen verschieden großen Wortschatz abbilden. After detecting the speech input, a text recognition is performed. In this case, a recognized text is determined on the basis of a speech model from the detected audio signal of the speech input. This is generated in particular machine-readable and can be used for further analysis. The language model may include, for example, a dictionary. It can also map the frequency of words individually or in combination. The speech recognition system may include multiple language models, for example, mapping a different sized vocabulary.

In einem nächsten Schritt wird eine semantische Analyse des erkannten Textes erzeugt, wobei beispielsweise Verfahren aus dem Bereich der „Natural Language Recognition“ angewandt werden. Dies betrifft die Interpretation der Spracheingabe und die Ermittlung der Intention des Nutzers. Mittels der semantischen Analyse des erkannten Textes kann anschließend eine Funktion ausgeführt werden. In a next step, a semantic analysis of the recognized text is generated, using, for example, methods from the field of "Natural Language Recognition". This concerns the interpretation of the speech input and the determination of the intention of the user. By means of semantic analysis of the recognized text can then be performed a function.

Zur Verbesserung dieses Prozesses können die oben genannten, aufeinander aufbauenden Schritte einzeln oder in Kombination miteinander optimiert werden. Eine verbesserte Umwandlung der mündlichen Eingabe des Nutzers in maschinenlesbaren Text wird beispielsweise zu einer zuverlässigeren Interpretation der Spracheingabe führen. Ferner kann die semantische Analyse des erkannten Textes verbessert werden, um die Intention des Nutzers besser zu bestimmen und anschließend zuverlässig eine Funktion entsprechend der Spracheingabe auszuführen.To improve this process, the above-mentioned sequential steps can be optimized individually or in combination with each other. Improved conversion of the user's verbal input into machine-readable text, for example, will result in a more reliable interpretation of the speech input. Further, the semantic analysis of the recognized text can be improved to better determine the intention of the user and then reliably perform a function according to the speech input.

Dabei tragen die erfassten Daten zum Kontext zur Verbesserung verschiedener Schritte bei, indem zusätzliche Informationen bereitgestellt werden. The collected data contributes to the context for improving various steps by providing additional information.

Der „Kontext der Spracheingabe“ stellt erfindungsgemäß die Gesamtheit der Informationen dar, welche die Fahrsituation betreffen, in der die Spracheingabe erfolgt. Die Daten zum Kontext der Spracheingabe können insbesondere Informationen umfassen, die den Kontext zum Zeitpunkt der Spracheingabe betreffen; ferner können Daten zum Kontext in der Vergangenheit umfasst sein. Neben dem zeitlichen Bezug kann auch ein räumlicher Bezug den Kontext erstellen, etwa bei Informationen über die nähere Umgebung des Fahrzeugs. According to the invention, the "context of the speech input" represents the entirety of the information concerning the driving situation in which the speech input takes place. Specifically, the data on the context of the speech input may include information concerning the context at the time of voice input; furthermore, contextual data may be included in the past. In addition to the temporal reference, a spatial reference can also create the context, for example with information about the closer surroundings of the vehicle.

Bei einer Weiterbildung des erfindungsgemäßen Verfahrens betreffen die Daten zu dem Kontext der Spracheingabe Eigenschaften des Fahrzeugs, des Nutzers und/oder der Umgebung des Fahrzeugs. Dadurch können vorteilhafterweise Zusatzinformationen bereitgestellt und die einzelnen Schritte der Spracherkennung verbessert werden. In a development of the method according to the invention, the data relating to the context of the speech input relate to properties of the vehicle, the user and / or the environment of the vehicle. As a result, additional information can advantageously be provided and the individual steps of speech recognition can be improved.

Die erfassten Daten zu dem Kontext können beispielsweise durch die Sensorik des Fahrzeugs zur Verfügung gestellt werden. Ferner können sie beispielsweise durch den Hersteller vorgegeben werden und durch eine Einrichtung des Fahrzeugs, beispielsweise eine Speicher- und Recheneinheit des Fahrzeugs bereitgestellt werden. Sie können ferner von einem Rechner erfasst werden, der beispielsweise durch eine Internetverbindung mit anderen Rechnen verbunden ist oder durch ein lokales Netz beispielsweise mit einem mobilen Nutzergerät des Nutzers Daten austauschen kann. Ferner können Eingaben von dem Benutzer erfasst werden, beispielsweise durch Eingabevorrichtungen des Fahrzeugs. The captured data on the context may be provided, for example, by the sensors of the vehicle. Furthermore, they can be predetermined by the manufacturer, for example, and can be provided by a device of the vehicle, for example a storage and computing unit of the vehicle. They can also be detected by a computer which is connected, for example, by an Internet connection with other arithmetic or can exchange data through a local area network, for example with a mobile user device of the user. Further, inputs may be captured by the user, such as by input devices of the vehicle.

Die Daten über das Fahrzeug können beispielsweise die Geschwindigkeit und die Position des Fahrzeugs betreffen. Ferner können Daten zu konstruktiv bedingten Eigenschaften des Fahrzeugs umfasst sein, etwa der Fahrzeugtyp, die Abmessungen, der benötigte Kraftstofftyp oder die Wartungsintervalle. Auch Informationen über die Nutzung des Fahrzeugs, etwa die innerhalb eines Zeitintervalls gefahrene Strecke, können umfasst sein. For example, the data about the vehicle may relate to the speed and position of the vehicle. Furthermore, data may be included on design-related properties of the vehicle, such as the vehicle type, the dimensions, the required fuel type or the maintenance intervals. Information about the use of the vehicle, such as the distance traveled within a time interval, may also be included.

Der Nutzer des Spracherfassungssystems kann insbesondere der Fahrer des Fahrzeugs sein. Die Daten über den Nutzer können beispielsweise eine Identifikation des Nutzers oder frühere Interaktionen des Nutzers umfassen. Dies ermöglicht nutzerspezifische Anpassungen. Neben dem Nutzer können in einem Fahrzeug auch Daten über weitere Fahrzeuginsassen erfasst werden, beispielsweise deren Identität und Anzahl sowie ihre Interaktionen mit dem Spracherkennungssystem. Die Daten zum Kontext können von verschiedenen Einrichtungen erfasst werden, sie können aber auch von dem Spracherkennungssystem selbst bereitgestellt werden, beispielsweise im Rahmen einer Lernfunktion, bei der vergangene Interaktionen mit dem Nutzer vom Spracherkennungssystem gespeichert werden. The user of the speech detection system may in particular be the driver of the vehicle. The data about the user may include, for example, an identification of the user or previous interactions of the user. This allows user-specific adjustments. In addition to the user, data on further vehicle occupants can also be recorded in a vehicle, for example their identity and number as well as their interactions with the voice recognition system. The data on the context may be captured by various devices, but may also be provided by the speech recognition system itself, for example as part of a learning function in which past interactions with the user are stored by the speech recognition system.

Die Daten über die Umgebung des Fahrzeugs können beispielsweise Informationen über andere Fahrzeuge in der Umgebung des Fahrzeugs umfassen, etwa deren Position und Geschwindigkeit. Auch die Verkehrssituation kann erfasst werden, beispielsweise kann eine Stausituation erkannt werden. Ferner können Informationen über die befahrene Straße erfasst werden, beispielsweise der Straßentyp, die zulässige Höchstgeschwindigkeit, der Zustand des Straßenbelags oder die Dichte des Verkehrs. The data about the environment of the vehicle may, for example, include information about other vehicles in the vicinity of the vehicle, such as their position and speed. Also, the traffic situation can be detected, for example, a traffic jam situation can be detected. Further, information about the traveled road may be detected, such as the road type, the maximum speed allowed, the condition of the road surface or the density of the traffic.

Bei einer Weiterbildung umfassen die Daten zu dem Kontext der Spracheingabe weitere Daten, die durch Einrichtungen erzeugt oder auf ihnen gespeichert sind. Dadurch kann der Kontext vorteilhafterweise durch zusätzliche Informationen angereichert werden. Die Einrichtungen, durch die Daten erzeugt werden oder gespeichert werden können, sind insbesondere Einrichtungen des Fahrzeugs oder mobile Nutzergeräte. Beispielsweise kann erfasst werden, welche Einrichtungen im Moment der Spracheingabe aktiv sind und worauf sich die Spracheingabe bezieht. Daten können beispielsweise von einem elektronischen Kalender, einer Navigationsfunktion, einem Medienabspielgerät oder einer Telefoneinrichtung erfasst werden. In a further development, the data on the context of the speech input comprise further data generated by or stored on devices. As a result, the context can advantageously be enriched by additional information. The devices by which data can be generated or stored are, in particular, devices of the vehicle or mobile user devices. For example, it can be detected which devices are active at the moment of speech input and to which the speech input relates. Data may be collected, for example, from an electronic calendar, a navigation function, a media player or a telephone device.

Insbesondere können auch Bedieneinrichtungen Daten zum Kontext liefern, beispielsweise kann erfasst werden, ob der Nutzer die Bedienung einer bestimmten Einrichtung aktiviert hat und ob er gerade eine Bedienung vornimmt. Ist beispielsweise eine Navigationseinrichtung aktiviert, so kann das System daraus folgern, dass eine Spracheingabe im Zusammenhang mit dieser Einrichtung erfolgt.In particular, operating devices can provide data on the context, for example, it can be detected whether the user has activated the operation of a particular device and whether he is currently performing an operation. If, for example, a navigation device is activated, then the system can conclude that voice input takes place in connection with this device.

Bei einer Ausbildung der Erfindung wird nach der Erzeugung der semantischen Analyse ferner in Abhängigkeit von der semantischen Analyse und von den Daten zu dem Kontext der Spracheingabe eine Erkennungsgüte des erkannten Textes bestimmt und ein Sprachmodell aus einer Vielzahl von Sprachmodellen ausgewählt. Anhand des ausgewählten Sprachmodells wird ein weiterer erkannter Text der Spracheingabe erzeugt. Anschließend wird eine weitere semantische Analyse des weiteren erkannten Textes erzeugt und die genannten Schritte werden wiederholt, bis die Erkennungsgüte einen vorbestimmten Wert überschreitet. Dadurch kann vorteilhafterweise die Spracherkennung optimiert werden. In one embodiment of the invention, after the generation of the semantic analysis, a recognition quality of the recognized text is further determined and a language model selected from a plurality of language models depending on the semantic analysis and the data on the context of the speech input. Based on the selected language model, another recognized text of the speech input is generated. Subsequently, a further semantic analysis of the further recognized text is generated and said steps are repeated until the recognition quality exceeds a predetermined value. As a result, the speech recognition can advantageously be optimized.

Gemäß dieser Ausbildung folgt auf die erste Spracherkennung, durch die ein erkannter Text erzeugt wird, und eine erste semantische Analyse dieses erkannten Textes ein weiterer Schritt, bei dem die Erkennungsgüte des erkannten Textes überprüft wird. Insbesondere erfolgt dabei die erste Texterkennung anhand eines allgemeinen Sprachmodells, das etwa einen Grundwortschatz und grundlegende Satzstrukturen umfassen kann. Es wird daher erwartet, dass die erste Spracherkennung im Allgemeinen nicht optimal durchgeführt werden kann. Es wird eine Erkennungsgüte bestimmt, die ein Maß dafür angibt, wie gut der Text erkannt wurde. Dazu wird die auf diesem Text basierende semantische Analyse in Kombination mit den erfassten Daten über den Kontext der Spracheingabe verwendet. Beispielsweise kann so festgestellt werden, ob der erkannte Text dem Kontext sinngemäß widerspricht. Ferner wird erfindungsgemäß anhand der Daten über den Kontext und der semantischen Analyse ein Sprachmodell bestimmt, das dem ermitteltem Kontext angepasst ist. Beispielsweise kann damit ein Sprachmodell gewählt werden, das der jeweiligen Situation angepasst ist. Zum Beispiel kann anhand der ersten semantischen Analyse erkannt werden, dass der Nutzer im Begriff ist, eine Einkaufsliste einzugeben. Zur Erkennung des nun folgenden Textes kann danach ein Sprachmodell geladen werden, das etwa ein an Lebensmittel angepasstes Vokabular umfasst. Ferner kann beispielsweise bei der Bedienung eines Navigationssystems ein Sprachmodell gewählt werden, bei dem Orts- und Straßennamen bekannt sind. Ferner kann beispielsweise die Fahrsituation zur Bestimmung eines geeigneten Sprachmodells verwendet werden. Wird beispielsweise registriert, dass sich das Fahrzeug in einem Stau befindet, so kann ein Sprachmodell gewählt werden, um Mitteilungen zu erkennen, bei denen eine bevorstehende Verspätung mitgeteilt wird.According to this embodiment, the first speech recognition, by which a recognized text is generated, and a first semantic analysis of this recognized text, are followed by a further step, in which the recognition quality of the recognized text is checked. In particular, the first text recognition takes place on the basis of a general language model, which may include, for example, a basic vocabulary and basic sentence structures. It is therefore expected that the first speech recognition generally can not be performed optimally. A recognition quality is determined, which is a measure of how well the text was recognized. For this purpose, the semantic analysis based on this text is used in combination with the acquired data about the context of the speech input. For example, it can be determined whether the recognized text contradicts the context mutatis mutandis. Furthermore, according to the invention, based on the data on the context and the semantic analysis, a language model is determined which is adapted to the determined context. For example, a language model can be selected that is adapted to the respective situation. For example, it can be recognized from the first semantic analysis that the user is about to enter a shopping list. In order to recognize the text that follows, a language model can then be loaded that includes, for example, a food-adapted vocabulary. Furthermore, for example, in the operation of a navigation system, a language model can be selected in which place and street names are known. Furthermore, for example, the driving situation can be used to determine a suitable language model. For example, if it is registered that the vehicle is in a traffic jam, a voice model may be selected to detect messages announcing an imminent delay.

Anhand des so bestimmten weiteren Sprachmodells wird erneut eine Spracherkennung der Spracheingabe und anschließend eine neue semantische Analyse durchgeführt. In einem iterativen Prozess wird wiederum die Erkennungsgüte bestimmt und ein neues Sprachmodell gewählt, bis ein Text erzeugt wird, der die vorbestimmten Anforderungen an die Erkennungsgüte erfüllt.On the basis of the thus determined further language model, speech recognition of the speech input is again carried out, followed by a new semantic analysis. In an iterative process, in turn, the recognition quality is determined and a new language model is chosen until a text is generated that meets the predetermined recognition quality requirements.

Bei einer Weiterentwicklung wird anhand der semantischen Analyse zumindest eine Nutzerintentionsklasse bestimmt. Die Daten zu dem Kontext der Spracheingabe werden in Abhängigkeit von der Nutzerintentionsklasse erfasst und es wird zumindest eine weitere semantische Analyse in Abhängigkeit von den Daten zu dem Kontext der Spracheingabe erzeugt. Dadurch wird vorteilhafterweise eine verbesserte semantische Analyse erreicht.In a further development, at least one user intervention class is determined on the basis of the semantic analysis. The data on the context of the speech input is detected depending on the user's intention class, and at least one more semantic analysis is generated depending on the data on the context of the speech input. This advantageously achieves an improved semantic analysis.

Insbesondere kann dies iterativ erfolgen, indem die semantische Analyse schrittweise immer weiter durch Einbeziehung des Kontextes spezifiziert und verbessert wird. In particular, this can be done iteratively by gradually specifying and improving the semantic analysis step-by-step by incorporating the context.

Bei der Bestimmung der Nutzerintentionsklasse wird die Eingabeabsicht des Nutzers grob abgeschätzt. Es können nun solche Daten über den Kontext der Spracheingabe erfasst werden, die für Eingaben der ermittelten Nutzerintentionsklasse relevant sind. Beispielsweise kann bei einer Eingabe, die eine Navigationseinrichtung betrifft, erfasst werden, welche Termine in einer Kalendereinrichtung verzeichnet sind, welche Energiereserven des Fahrzeugs verfügbar sind und welche Informationen über die Verkehrssituation in der Umgebung des Fahrzeugs vorliegen. Anhand dieser erfassten, spezifischen Kontextinformationen kann eine weitere semantische Analyse erzeugt werden.In determining the user Intent class, the input intent of the user is roughly estimated. It is now possible to record such data about the context of the speech input that are relevant for inputs of the determined user's intention class. For example, in the case of an input relating to a navigation device, it can be detected which appointments are recorded in a calendar device, which energy reserves of the vehicle are available and what information about the traffic situation in the surroundings of the vehicle is available. On the basis of this collected, specific context information, a further semantic analysis can be generated.

Insbesondere können dabei auch Kontextinformationen erfasst werden, die etwa aus vergangenen Interaktionen des Nutzers mit dem Spracherkennungssystem gespeichert sind. Beispielsweise kann bei mehreren Spracheingaben gespeichert werden, welche Informationen der Nutzer eingegeben oder abgerufen hat. Dies ermöglicht die Auflösung von Rückbezügen, insbesondere deiktischer Ausdrücke. Auf diese Weise kann beispielsweise der Ausdruck „dort“ interpretiert werden, indem aus vergangenen Interaktionsschritten hergeleitet wird, welcher Ort gemeint ist. Beispielsweise kann dies aus vergangenen Anfragen im Navigationssystem ermittelt werden. Ferner kann etwa das Nutzerverhalten in verschiedenen Kontexten gelernt werden. Beispielsweise kann, wenn im Kalender ein kurz bevorstehender Termin erfasst wird, bei der Wahl einer anzufahrenden Tankstelle eine geringe Entfernung höher gewichtet werden als ein geringer Preis. Ferner können beispielsweise in Abhängigkeit von der Wetterlage bestimmte Restaurants höher bewertet werden als andere.In particular, context information can also be recorded that is stored, for example, from past interactions of the user with the speech recognition system. For example, with multiple voice inputs, the information that the user has entered or retrieved may be stored. This allows the resolution of back references, especially deictic expressions. In this way, for example, the term "there" can be interpreted by deducing from past interaction steps which location is meant. For example, this can be determined from past requests in the navigation system. Furthermore, user behavior can be learned in different contexts. For example, when an imminent deadline is recorded in the calendar, a small distance may be weighted higher than a lower price when choosing a gas station to approach. Further, for example, depending on the weather conditions, certain restaurants may be rated higher than others.

Ferner können Mehrdeutigkeiten aufgelöst werden, beispielsweise beim Aufruf eines Telefonbucheintrags, wenn mehrere Personen gleichen Namens gespeichert sind. Die Mehrdeutigkeit kann in diesem Fall zum Beispiel anhand der geographischen Position, etwa am Arbeitsplatz oder am Wohnort, aufgelöst werden.Furthermore, ambiguities can be resolved, for example when calling a Phone book entry, if several persons with the same name are stored. The ambiguity can be resolved in this case, for example, based on the geographical position, such as at work or at the place of residence.

Bei diesem Verfahren wird eine möglichst vollständige semantische Analyse der Spracheingabe vorgenommen, sodass bei späteren Auswertungsschritten, beispielsweise durch eine Dialogfunktion, alle wesentlichen semantischen Informationen bereits erfasst werden und der folgende Analyseaufwand reduziert wird.In this method, as complete a semantic analysis of the speech input is made, so that in subsequent evaluation steps, for example by a dialog function, all essential semantic information is already recorded and the following analysis effort is reduced.

Bei einer Weiterbildung werden semantische Analysen von Spracheingaben gespeichert. Dies erlaubt vorteilhafterweise die Einbeziehung vergangener Sprachinteraktionen in die zukünftigen semantischen Analysen und die Spracherkennung. Es wird also insbesondere eine Lernfunktion ermöglicht.In a further development, semantic analyzes of speech input are stored. This advantageously allows the inclusion of past speech interactions in future semantic analysis and speech recognition. In particular, a learning function is made possible.

Bei einer weiteren Ausgestaltung umfassen die Daten zu dem Kontext der Spracheingabe ferner semantische Analysen früherer Spracheingaben. Dadurch werden vorteilhafterweise frühere Spracheingaben in die semantische Analyse einbezogen. Beispielsweise kann bei kurz aufeinanderfolgenden Spracheingaben der Kontext des gesprochenen Textes erkannt werden. Dies erleichtert ferner die oben genannte Auflösung deiktischer Ausdrücke und Rückbezüge.In a further embodiment, the data on the context of the speech input further comprises semantic analyzes of previous speech inputs. This advantageously includes earlier speech inputs in the semantic analysis. For example, in short successive speech inputs, the context of the spoken text can be recognized. This further facilitates the above resolution of deictic expressions and back references.

Bei einer Weiterbildung des erfindungsgemäßen Verfahrens wird anhand der semantischen Analyse eine Suchfunktion ausgeführt. Der Benutzer kann so vorteilhafterweise durch eine Spracheingabe Informationen suchen.In a further development of the method according to the invention, a search function is carried out on the basis of the semantic analysis. The user can thus advantageously search for information by voice input.

Bei einer Ausbildung werden anhand der semantischen Analyse und der Daten zu dem Kontext der Spracheingabe Suchkriterien bestimmt. Anhand der bestimmten Suchkriterien wird eine Teilmenge von Daten einer Datenbasis bestimmt und die Daten der Teilmenge werden ausgegeben. Damit wird vorteilhafterweise eine Suchfunktion implementiert.In an education, search criteria are determined based on the semantic analysis and data on the context of the speech input. On the basis of the specific search criteria, a subset of data of a database is determined and the data of the subset is output. This advantageously implements a search function.

Es wird eine vorgegebene Datenbasis durchsucht, die beispielsweise durch Einrichtungen im Fahrzeug, durch Nutzereinrichtungen oder durch über ein Rechnernetzwerk verbundene Einrichtungen bereitgestellt wird. Durch die Suche soll eine Teilmenge von Daten aus dieser Datenbasis bestimmt werden, die zur Beantwortung der Spracheingabe relevant sind. Die Spracheingabe ist in diesem Fall eine Suchanfrage. Um die Teilmenge der Daten aus der Datenbasis auszuwählen, werden Suchkriterien bestimmt. Beispielsweise können Schlagworte bestimmt werden, durch die eine Auswahl von Daten aus der Datenbasis erfolgt. Die Bestimmung der Suchkriterien erfolgt insbesondere in Abhängigkeit von den Daten zum Kontext. Dadurch kann beispielsweise eine Suchanfrage präzisiert werden.It searches a given database provided by, for example, in-vehicle facilities, user facilities, or facilities connected through a computer network. The search is intended to determine a subset of data from this database which are relevant for answering the speech input. The speech input is a search query in this case. To select the subset of data from the database, search criteria are determined. For example, keywords can be determined by which a selection of data from the database is made. The determination of the search criteria takes place in particular depending on the data on the context. As a result, for example, a search query can be specified.

Insbesondere wird so eine unvollständige, unterspezifizierte Suchanfrage des Nutzers vervollständigt. Das System kann etwa Informationen hinzufügen, die der Nutzer bei der Eingabe impliziert. Beispielsweise kann erkannt werden, dass bei der Suche nach einer Tankstelle nur solche Orte gemeint sein können, die das Fahrzeug mit den gegenwärtigen Energiereserven erreichen kann.In particular, such an incomplete, underspecified user's search query is completed. For example, the system may add information that the user implies as they type. For example, it can be recognized that in the search for a gas station only those places can be meant that can reach the vehicle with the current energy reserves.

Bei einer Weiterentwicklung werden zu den Daten der Teilmenge Prioritäten erzeugt und die Ausgabe der Daten der Teilmenge erfolgt anhand der ihnen zugeordneten Prioritäten. Dadurch kann vorteilhafterweise bestimmt und für den Nutzer ausgegeben werden, welches etwa die relevantesten Daten zu der Suchanfrage sind. Insbesondere werden umso höhere Prioritäten zugeordnet, je relevanter die Daten sind.In a further development, priorities are generated for the data of the subset and the output of the data of the subset is based on their assigned priorities. As a result, it can be advantageously determined and output for the user, which is about the most relevant data for the search query. In particular, the more relevant the data, the higher priorities are assigned.

Bei einer Ausbildung werden die Suchkriterien ferner anhand früherer Aufrufe der Suchfunktion bestimmt. Damit wird vorteilhafterweise eine Lernfunktion der Suche implementiert.In an education, the search criteria are further determined by previous calls of the search function. This advantageously implements a learning function of the search.

Das Lernen kann beispielsweise mittels neuronaler Netze oder Bayes’scher Netze erfolgen. Dadurch können etwa Korrelationen zwischen bestimmten Informationen über den Kontext und dem Verhalten des Nutzers extrahiert werden. Das System kann somit beispielsweise erkennen, ob der Nutzer unter bestimmten Wetterbedingungen einen Straßentyp meidet oder etwa Lokale mit bestimmten Eigenschaften anfährt. Dies kann genutzt werden, um bei der Zuweisung von Prioritäten zu den Daten der Datenbasis für den Nutzer relevante Ergebnisse höher zu priorisieren als weniger relevante Daten.The learning can be done for example by means of neural networks or Bayesian networks. This can be used to extract correlations between certain information about the context and behavior of the user. The system can thus detect, for example, whether the user avoids a road type under specific weather conditions or approaches restaurants with certain characteristics. This can be used to prioritize results that are more relevant to the user when assigning priorities to the database data than less relevant data.

Beim Lernen anhand früherer Interaktionen des Nutzers mit der Suchfunktion werden verschiedene Strategien einzeln oder in Kombination angewandt. Die Lernfunktion kann etwa anhand positiver, neutraler oder negativer Rückmeldungen die Suchfunktion für die Zukunft anpassen. When learning from previous interactions of the user with the search function, different strategies are applied individually or in combination. The learning function can adjust the search function for the future based on positive, neutral or negative feedback.

Beispielsweise kann als positive Rückmeldung gewertet werden, wenn bei einem Navigationssystem der Nutzer eine vorgeschlagene Adresse auswählt und zum Beispiel die Navigation zu diesem Ort startet. Als weitere positive Eingabe kann gewertet werden, wenn der Nutzer z. B. den vorgeschlagenen Ort tatsächlich anfährt. Geht der Nutzer nicht auf die Ergebnisse der erweiterten Suche ein, formuliert er etwa die Suchanfrage erneut mit spezifischeren Suchbegriffen oder startet er keine Navigation zu dem vorgeschlagenen Ort, so lässt dies auf den Misserfolg der durchgeführten Suche schließen. Ferner kann eine negative Rückmeldung erfasst werden, wenn der Nutzer ein Suchergebnis verwirft, etwa durch die Eingabe einer Ablehnung. Durch das Lernen aus dem vergangenen Nutzerverhalten kann die Erweiterung der Suche durch den Kontext verbessert werden.For example, can be considered as positive feedback, if in a navigation system, the user selects a suggested address and, for example, the navigation to this location starts. As a further positive input can be considered if the user z. B. actually approaches the proposed location. If the user does not respond to the results of the extended search, he formulates the search query again with more specific keywords or if he does not start navigation to the proposed location, this indicates the failure of the search performed. Furthermore, a negative feedback can be recorded when the user discards a search result, such as by entering a rejection. By learning from the past user behavior, the extension of the search by the context can be improved.

Bei einer weiteren Ausbildung werden zumindest zwei Spracheingaben des Nutzers erfasst. Für beide Spracheingaben werden jeweils erkannte Texte erzeugt, die aus geordneten Textfragmenten bestehen, wobei der zu der ersten Spracheingabe erkannte Text der Originaltext ist und der zu der zweiten Spracheingabe erkannte Text der Korrigiertext ist. anhand des Originaltextes und des Korrigiertextes wird ein korrigierter Text erzeugt. Dadurch kann vorteilhafterweise eine Eingabe verbessert werden.In a further embodiment, at least two voice inputs of the user are recorded. For both speech inputs, respectively recognized texts are generated which consist of ordered text fragments, whereby the text recognized for the first speech input is the original text and the text recognized for the second speech input is the correction text. a corrected text is generated based on the original text and the correction text. As a result, an input can advantageously be improved.

Dies betrifft die Korrektur einer falschen Spracheingabe, die zwar richtig durch das System erkannt wurden, bei denen der Nutzer aber eine fehlerhafte Eingabe vorgenommen hat. Die Grundlage für die Korrektur des eingegebenen Textes sind die durch die Spracherkennung erzeugten maschinenlesbaren Texte der beiden Spracheingaben. Durch einen Abgleich von Originaltext und Korrigiertext wird ermittelt, welcher Teil des Originaltextes verbessert werden soll. Mittels des Korrigiertextes wird der Originaltext so verändert, dass ein korrigierter Text erzeugt wird.This concerns the correction of a wrong speech input, which was correctly recognized by the system, but where the user made an incorrect input. The basis for the correction of the entered text are the machine-readable texts of the two speech inputs generated by the speech recognition. A comparison of the original text and the correction text determines which part of the original text should be improved. By means of the correction text, the original text is changed so that a corrected text is generated.

Bei einer Weiterbildung umfasst der Korrigiertext zumindest ein Textfragment, welches den Anfang und/oder das Ende des Korrigiertextes signalisiert. Dies ermöglicht vorteilhafterweise eine Erkennung des Korrigiertextes als solchen. Beispielsweise kann der Nutzer bei der Spracheingabe durch einen definierten Ausdruck den Beginn des Korrigiertextes kennzeichnen. Er kann beispielsweise sagen, dass nun ein Korrigiertext folgt. Er kann beispielsweise auch eine Taste oder ein Bedienelement betätigen. Ferner kann analog das Ende des Korrigiertextes gekennzeichnet werden.In a further development, the correction text comprises at least one text fragment which signals the beginning and / or the end of the correction text. This advantageously makes it possible to recognize the correction text as such. For example, the user can mark the beginning of the correction text by a defined expression when the voice is input. For example, he can say that a correction text now follows. For example, he can also operate a key or a control element. Furthermore, the end of the correction text can be marked analogously.

Bei einer Weiterbildung wird anhand eines Vergleichs des Originaltextes mit dem Korrigiertext die Position zumindest eines Textfragmentes im Originaltext bestimmt, das sowohl von dem Originaltext als auch von dem Korrigiertext umfasst ist. Der korrigierte Text wird anhand der bestimmten Position erzeugt. So kann vorteilhafterweise bestimmt werden, welcher Teil des Originaltextes korrigiert werden soll. In a further development, the position of at least one text fragment in the original text, which is encompassed by both the original text and the correction text, is determined on the basis of a comparison of the original text with the correction text. The corrected text is generated based on the specific position. Thus it can advantageously be determined which part of the original text should be corrected.

Dies geschieht dadurch, dass einzelne Textfragmente, also beispielsweise einzelne Begriffe, sowohl im Originaltext als auch im Korrigiertext vorkommen. Der Nutzer wiederholt also einen Teil der ursprünglichen Eingabe, um die Position der Korrektur zu kennzeichnen. Beispielsweise kann so der Beginn oder das Ende des zu korrigierenden Textes markiert werden. Ferner kann sowohl der Anfang als auch das Ende definiert werden.This happens because individual text fragments, for example individual terms, occur both in the original text and in the correction text. Thus, the user repeats part of the original input to identify the position of the correction. For example, the beginning or the end of the text to be corrected can be marked in this way. Furthermore, both the beginning and the end can be defined.

Bei einer Ausbildung wird ferner zumindest ein Alt-Textfragment des Originaltextes bestimmt und zumindest Neu-Textfragment des Korrigiertextes bestimmt, wobei beim Erzeugen des korrigierten Textes das Alt-Textfragment durch das Neu-Textfragment ausgetauscht wird. Dadurch kann vorteilhafterweise eine definierte Korrektur des Originaltextes erfolgen.In one embodiment, at least one legacy text fragment of the original text is further determined and at least the new text fragment of the correction text is determined, wherein the legacy text fragment is replaced by the new text fragment when the corrected text is generated. This can advantageously be done a defined correction of the original text.

Die Korrektur erfolgt, indem wenigstens ein Textfragment des Originaltextes durch wenigstens ein Textfragment des Korrigiertextes ausgetauscht wird. Der Nutzer verbessert also die ursprüngliche Eingabe, indem er den zu korrigierenden Text spricht und der Originaltext an einer definierten Stelle überschrieben wird. The correction is made by replacing at least one text fragment of the original text with at least one text fragment of the correction text. The user thus improves the original input by speaking the text to be corrected and overwriting the original text at a defined location.

Bei einer weiteren Ausbildung umfasst das zumindest eine Textfragment, das sowohl von dem Originaltext als auch von dem Korrigiertext umfasst ist, das erste und/oder das letzte Textfragment des Korrigiertextes. Dadurch kann vorteilhafterweise das auszutauschende Textfragment besonders leicht angegeben werden.In a further embodiment, the at least one text fragment, which is encompassed by both the original text and the correction text, comprises the first and / or the last text fragment of the correction text. As a result, advantageously the text fragment to be exchanged can be specified particularly easily.

Der Nutzer kann also eine Korrektur vornehmen, indem er einen Teil des Originaltextes wiederholt, der beibehalten werden soll. In diesem Fall kann der Teil des Korrigiertextes, der auf das gemeinsame Textfragment folgt, zum Überschreiben eines Teiles des Originaltextes verwendet werden. Umgekehrt kann der Nutzer am Ende des Korrigiertextes einen Teil des Originaltextes wiederholen, um das Ende des zu korrigierenden Teils zu markieren.The user can thus make a correction by repeating a part of the original text that is to be retained. In this case, the part of the correction text that follows the common text fragment may be used to override a part of the original text. Conversely, at the end of the correction text, the user may repeat part of the original text to mark the end of the part to be corrected.

Bei einer Weiterbildung sind ein erstes und ein zweites Textfragment sowohl von dem Originaltext als auch von dem Korrigiertext umfasst. Dabei ist das erste Textfragment sowohl im Originaltext als auch im Korrigiertext vor dem zweiten Textfragment angeordnet. Anhand des ersten und des zweiten Textfragmentes werden das Alt-Textfragment und das Neu-Textfragment bestimmt. Der auszutauschende Text wird dadurch vorteilhafterweise präzise bestimmt.In a further development, a first and a second text fragment are encompassed by both the original text and the correction text. The first text fragment is arranged in the original text as well as in the correction text in front of the second text fragment. Based on the first and the second text fragment, the legacy text fragment and the new text fragment are determined. The text to be exchanged is thereby advantageously determined precisely.

Auf diese Weise werden etwa Rahmenwörter angegeben, die den auszutauschenden Teil des Originaltextes umrahmen. Möchte der Nutzer einen bestimmten Teil des Originaltextes durch den Korrigiertext austauschen, so wiederholt er zunächst einen Teil des direkt vor dem auszutauschenden Alt-Textfragment liegenden Textes, gibt dann das hier zu verwendende Neu-Textfragment ein und beendet die Eingabe mit einem weiteren Textfragment, das im originalen Wortlaut belassen werden soll. Es kann also ein Rahmen durch vor und nach dem Alt-Textfragment liegende Wörter definiert werden, um eine bestimmte Ersetzung durchzuführen.In this way, for example, frame words are specified, which frame the part of the original text to be exchanged. If the user wishes to exchange a certain part of the original text with the correction text, he first repeats a part of the text lying directly in front of the old text fragment to be exchanged, then enters the new text fragment to be used here and ends the input with another text fragment that should be left in the original wording. So it can be a frame through before and after the old Text fragment words are defined to perform a particular replacement.

Das erfindungsgemäße Spracherkennungssystem in einem Fahrzeug umfasst eine Erfassungseinheit, durch die zumindest eine Spracheingabe eines Nutzers erfassbar ist, und eine Kontexterfassungseinheit, durch die Daten zu dem Kontext der Spracheingabe erfassbar sind. Es umfasst ferner eine Spracherkennungseinheit, durch die ein erkannter Text der Spracheingabe erzeugbar ist, sowie einen Semantikerkenner, durch den eine semantische Analyse des erkannten Textes erzeugbar ist. Es umfasst ferner eine Ausführungseinheit, an die die semantische Analyse übertragbar ist und durch die anhand der semantischen Analyse eine Funktion ausführbar ist. The speech recognition system according to the invention in a vehicle comprises a detection unit, by means of which at least one speech input by a user can be detected, and a context detection unit, by means of which data relating to the context of the speech input can be detected. It also comprises a speech recognition unit, by means of which a recognized text of the speech input can be generated, as well as a semantic recognizer, by means of which a semantic analysis of the recognized text can be generated. It also comprises an execution unit to which the semantic analysis can be transferred and by means of which a function can be executed on the basis of the semantic analysis.

Das erfindungsgemäße Spracherkennungssystem ist insbesondere ausgebildet, das vorstehend beschriebene erfindungsgemäße Verfahren zu implementieren. Es weist somit dieselben Vorteile auf wie das erfindungsgemäße Verfahren.The speech recognition system according to the invention is in particular designed to implement the method according to the invention described above. It thus has the same advantages as the method according to the invention.

Das erfindungsgemäße Spracherkennungssystem ist in einem Fahrzeug angeordnet. Dadurch kann das Spracherkennungssystem vorteilhafterweise zur Steuerung von Einrichtungen des Fahrzeugs genutzt werden und es stehen Kontextinformationen des Fahrzeugs zur Verfügung. The speech recognition system according to the invention is arranged in a vehicle. As a result, the voice recognition system can advantageously be used to control facilities of the vehicle and context information of the vehicle is available.

Die Erfindung wird nun anhand von Ausführungsbeispielen mit Bezug zu den Zeichnungen erläutert.The invention will now be explained by means of embodiments with reference to the drawings.

1 zeigt den allgemeinen Aufbau eines Spracherkennungssystems, 1 shows the general structure of a speech recognition system,

2 zeigt ein erstes Ausführungsbeispiel des erfindungsgemäßen Spracherkennungssystems, 2 shows a first embodiment of the speech recognition system according to the invention,

3 zeigt ein weiteres Ausführungsbeispiel des erfindungsgemäßen Spracherkennungssystems, 3 shows a further embodiment of the speech recognition system according to the invention,

4 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Spracherkennungssystems in einem Fahrzeug, 4 shows an embodiment of the speech recognition system according to the invention in a vehicle,

5 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens, bei dem eine Suchanfrage erfasst und verarbeitet wird, 5 shows an embodiment of the method according to the invention, in which a search request is recorded and processed,

6 zeigt den Lernvorgang bei der kontextsensitiven Suche und 6 shows the learning process in the context-sensitive search and

7A bis 7D zeigen Ausführungsbeispiele des erfindungsgemäßen Verfahrens, wobei eine Spracheingabe korrigiert wird. 7A to 7D show embodiments of the inventive method, wherein a voice input is corrected.

Mit Bezug zu 1 wird der allgemeine Aufbau eines Spracherkennungssystems dargestellt.In reference to 1 the general structure of a speech recognition system is shown.

Das Spracherkennungssystem 10 umfasst eine Erfassungseinheit 1, die wiederum ein Mikrofon 1a umfasst. Diese Erfassungseinheit ist mit einer Spracherkennungseinheit 2 gekoppelt. Hier kann anhand der mit dem Mikrofon 1a erfassten Spracheingabe ein maschinenlesbarer Text erzeugt werden. Dieser Text wird an den Semantikerkenner 3 übertragen, wo eine semantische Analyse erzeugt wird und ein Signal an eine Ausführungseinheit 5 übertragen wird, um eine Funktion auszuführen. The speech recognition system 10 comprises a detection unit 1 which in turn is a microphone 1a includes. This detection unit is equipped with a voice recognition unit 2 coupled. Here can be based on the with the microphone 1a recorded speech input machine-readable text. This text is sent to the semantic expert 3 where a semantic analysis is generated and a signal to an execution unit 5 is transmitted to perform a function.

Der Nutzer kann den Beginn einer Spracheingabe signalisieren, indem er etwa eine Push-To-Talk-Taste (PTT) betätigt. Alternativ oder zusätzlich kann vorgesehen sein, dass das System den Nutzer zu einer Spracheingabe auffordert und der im Anschluss an die Aufforderung gesprochene Text als Spracheingabe behandelt wird.The user can signal the beginning of a voice input, for example by pressing a push-to-talk button (PTT). Alternatively or additionally, it can be provided that the system prompts the user for a voice input and the text spoken after the request is treated as a voice input.

Mit Bezug zu 2 wird ein erstes Ausführungsbeispiel des erfindungsgemäßen Spracherkennungssystems und des erfindungsgemäßen Verfahrens erläutert.In reference to 2 a first embodiment of the speech recognition system according to the invention and the method according to the invention will be explained.

Wie bereits in 1 dargestellt, verfügt das erfindungsgemäße Spracherkennungssystem 10 über die Erfassungseinheit 1 mit dem Mikrofon 1a. Es umfasst ferner die Spracherkennungseinheit 2, den Semantikerkenner 3 und die Ausführungseinheit 5. Erfindungsgemäß ist ferner eine Kontexterfassungseinheit 4 vorgesehen. Diese ist im gezeigten Ausführungsbeispiel mit einer Kontextverarbeitungseinheit 4a gekoppelt, die wiederum mit der Spracherkennungseinheit 2 und dem Semantikerkenner 3 gekoppelt ist. Bei dem gezeigten Ausführungsbeispiel befindet sich das Spracherkennungssystem 10 in einem Fahrzeug 6. As already in 1 represented, has the speech recognition system according to the invention 10 via the registration unit 1 with the microphone 1a , It also comprises the speech recognition unit 2 , the semantic expert 3 and the execution unit 5 , According to the invention, a context detection unit is also provided 4 intended. This is in the embodiment shown with a context processing unit 4a coupled, in turn, with the speech recognition unit 2 and the semantic expert 3 is coupled. In the embodiment shown, the speech recognition system is located 10 in a vehicle 6 ,

Bei dem Verfahren gemäß der Erfindung wird zunächst eine Spracheingabe des Nutzers erfasst. Im gezeigten Ausführungsbeispiel signalisiert der Nutzer den Beginn der Spracheingabe durch Drücken eines PTT und die Erfassungseinheit 1 zeichnet die vom Nutzer gesprochenen Audiodaten auf. Es wird eine Zwischenspeicherung vorgenommen, so dass die Audiodaten für eine weitere Verwendung zur Verfügung stehen.In the method according to the invention, a voice input of the user is first detected. In the embodiment shown, the user signals the beginning of the speech input by pressing a PTT and the detection unit 1 records the audio data spoken by the user. A caching is made so that the audio data is available for further use.

Ferner werden durch die Kontexterfassungseinheit 4 Daten zu dem Kontext der Spracheingabe erfasst. Die Kontextdaten, die durch die Kontexterfassungseinheit 4 erfasst werden, betreffen den Nutzer, das Fahrzeug 6 und die Umgebung des Fahrzeugs 6. Insbesondere werden Daten von anderen Einrichtungen des Fahrzeugs 6 erfasst. Dazu gehören unter anderem die Geschwindigkeit, Beschleunigung und Bewegungsrichtung des Fahrzeugs 6, seine geographische Position, die zur Verfügung stehenden Kraftstoffreserven, der Typ des Fahrzeugs 6, die Art des benötigten Kraftstoffes, die Abmessungen des Fahrzeugs 6 und die für das Fahrzeug 6 vorgesehenen Wartungsintervalle. Zu den Daten über den Nutzer gehört unter anderem eine Identifikation des Nutzers, so dass verschiedene Nutzer erkannt werden können. Ferner werden die Daten des Kalenders des Nutzers erfasst, insbesondere die Zeitpunkte und geographischen Positionen geplanter Termine. Ferner kann zum Beispiel die Sensorik des Fahrzeugs 6 weitere Daten zur Verfügung stellen, beispielsweise die Anzahl der Fahrzeuginsassen, Daten zur Aufmerksamkeit und Müdigkeit des Nutzers und weitere Eigenschaften. Es kann ferner erfasst werden, welche weiteren Einrichtungen aktiviert sind und ob der Nutzer im Begriff ist, eine Einrichtung zu bedienen. Zu den Kontextdaten gehören auch gespeicherte und/oder gelernte Daten über den Nutzer. Dabei können vorangegangene Interaktionen des Nutzers mit dem Spracherkennungssystem gespeichert werden und es können Lernverfahren verwendet werden, um das Verhalten des Nutzers und seine Präferenzen in Abhängigkeit von den weiteren Kontextdaten zu lernen.Further, by the context detection unit 4 Data about the context of the speech input is captured. The context data generated by the context capture unit 4 be detected affect the user, the vehicle 6 and the environment of the vehicle 6 , In particular, data from other facilities of the vehicle 6 detected. These include, among other things, the speed, acceleration and direction of movement of the vehicle 6 . its geographical position, the available fuel reserves, the type of vehicle 6 , the type of fuel needed, the dimensions of the vehicle 6 and for the vehicle 6 scheduled maintenance intervals. Among other things, the data about the user includes an identification of the user, so that different users can be recognized. Furthermore, the data of the calendar of the user is recorded, in particular the dates and geographical positions of planned appointments. Further, for example, the sensor of the vehicle 6 provide additional data, such as the number of vehicle occupants, data on the attention and fatigue of the user and other features. It can also be detected which other devices are activated and whether the user is about to operate a device. The context data also includes stored and / or learned data about the user. In this case, previous interactions of the user with the speech recognition system can be stored and learning methods can be used to learn the behavior of the user and his preferences in dependence on the further context data.

Die Daten zum Kontext über die Umgebung des Nutzers und des Fahrzeugs 6 umfassen insbesondere Daten zu der gegenwärtigen Verkehrssituation. Dazu gehören der Typ und der Zustand der befahrenen Straße, die Position, Geschwindigkeit und Richtung weiterer Fahrzeuge in der Umgebung des Fahrzeugs 6, Verkehrsmeldungen, wie etwa Staumeldungen, die klimatischen Verhältnisse wie Regen und Wind, die Lichtverhältnisse sowie gegebenenfalls Hindernisse auf der befahrenen Strecke. Zur Erfassung dieser Daten können Einrichtungen des Fahrzeugs 6 beitragen, etwa ein Navigationssystem oder die Sensorik des Fahrzeugs 6, oder es können Daten aus entfernten Quellen erfasst werden, beispielsweise über Radio, Mobilfunk oder Internetdienste. Diese Kontextinformationen können ferner so genannte Sonderziele (Points of Interest; POI) betreffen. Dazu gehören beispielsweise Tankstellen, Lokale, Rastplätze, Sehenswürdigkeiten und Orientierungspunkte.The data on the context about the environment of the user and the vehicle 6 include in particular data on the current traffic situation. These include the type and condition of the road being traveled, the position, speed and direction of other vehicles in the vicinity of the vehicle 6 , Traffic reports, such as traffic jams, the climatic conditions such as rain and wind, the lighting conditions and possibly obstacles on the traveled route. To capture this data can be facilities of the vehicle 6 contribute, such as a navigation system or the sensors of the vehicle 6 , or data may be collected from remote sources, such as radio, cellular, or Internet services. This context information may also relate to so-called Points of Interest (POI). These include petrol stations, restaurants, rest areas, sights and landmarks.

Die Kontextverarbeitungseinheit 4a verfügt über Mittel, die von der Kontexterfassungseinheit 4 bereitgestellten Daten für das Spracherkennungssystem 10 aufzubereiten und über eine Schnittstelle zur Verfügung zu stellen.The context processing unit 4a has funds available from the context capture unit 4 provided data for the speech recognition system 10 prepare and provide via an interface.

Bei dem in 2 dargestellten Ausführungsbeispiel werden die Kontextdaten verwendet, um die Spracherkennung zu optimieren. In einem ersten Schritt wird anhand der Spracheingabe eine Spracherkennung durchgeführt und ein maschinenlesbarer Text erkannt. Anhand dieses erkannten Textes wird eine erste semantische Analyse durchgeführt. Für die Spracherkennung wird ein allgemeines Sprachmodell verwendet. Dieses Sprachmodell umfasst einen definierten Wortschatz und statistische Daten über die einzelnen Wörter und ihre Beziehung zueinander. Dieses allgemeine Sprachmodell erlaubt im Allgemeinen keine optimale Erkennung der Spracheingabe. Die Erkennungsgüte wird anhand der semantischen Analyse und anhand des Kontextes bestimmt. Beispielsweise werden hier Widersprüche zwischen dem Kontext und dem erkannten Text bewertet oder der grammatikalische Aufbau des erkannten Textes wird auf seine Plausibilität geprüft. Genügt die Erkennungsgüte den vorgegebenen Bedingungen nicht, so wird anhand des Kontextes und der ersten semantischen Analyse ein anderes Sprachmodell ausgewählt und anhand dieses Sprachmodells und der Spracheingabe wird eine erneute Spracherkennung durchgeführt. Der dabei erzeugte weitere erkannte Text dient als Grundlage für eine weitere semantische Analyse. Es wird wiederum die Erkennungsgüte für den weiteren erkannten Text bestimmt und gegebenenfalls ein neues Sprachmodell bestimmt.At the in 2 In the illustrated embodiment, the context data is used to optimize speech recognition. In a first step, speech recognition is performed based on the speech input and a machine-readable text is recognized. On the basis of this recognized text, a first semantic analysis is performed. Speech recognition uses a common language model. This language model includes a defined vocabulary and statistical data about the individual words and their relationship to each other. This general language model generally does not allow optimal recognition of the speech input. The recognition quality is determined on the basis of the semantic analysis and the context. For example, contradictions between the context and the recognized text are evaluated or the grammatical structure of the recognized text is checked for plausibility. If the recognition quality does not satisfy the given conditions, a different language model is selected on the basis of the context and the first semantic analysis, and speech recognition is carried out on the basis of this language model and the speech input. The resulting recognized text serves as the basis for a further semantic analysis. In turn, the recognition quality for the further recognized text is determined and, if necessary, a new language model is determined.

Bei diesem Verfahren wird iterativ immer wieder ein neues, spezifischeres Sprachmodell ausgewählt, bis die resultierende Spracherkennung entweder den vorbestimmten Anforderungen an die Erkennungsgüte genügt oder eine Abbruchbedingung erfüllt ist. Auf diese Weise wird die Spracherkennung schrittweise verbessert. Gleichzeitig erlaubt die Auswahl immer spezifischerer Sprachmodelle z. B. eine Einschränkung des für die Spracherkennung zur Verfügung stehenden Wortschatzes. Dadurch wird der Rechenaufwand verringert und gleichzeitig die Erkennungsgüte verbessert.In this method, a new, more specific language model is iteratively selected over and over again until the resulting speech recognition either satisfies the predetermined requirements for the recognition quality or an abort condition is met. In this way, the speech recognition is gradually improved. At the same time allows the selection of more specific language models z. B. a limitation of the vocabulary available for speech recognition. This reduces the computational effort while improving the recognition quality.

Beispielsweise kann der Nutzer dem System eine Einkaufsliste diktieren. Mithilfe des allgemeinen Sprachmodells kann aus Signalwörtern, etwa „Einkaufen“ oder „Einkaufsliste“ abgeleitet werden, dass der Nutzer die Intention hat, eine Einkaufsliste zu diktieren. Anhand dieser Kontextinformation kann ein entsprechendes Sprachmodell von der Spracherkennungseinheit 2 geladen werden, das etwa die Namen verschiedener Produkte umfasst. Das Gesprochene kann damit besser erkannt werden als mit dem allgemeinen Sprachmodell. Wird dabei keine ausreichende Erkennungsgüte erreicht, beispielsweise weil die verwendeten Produktnamen aus einem Bereich stammen, der durch das Sprachmodell ungenügend abgedeckt wird, so wird die Neuauswahl des Sprachmodells wiederholt und ein besser geeignetes Sprachmodell geladen. Die Sprachmodelle umfassen dabei auch Satzstrukturen, die für den jeweiligen Kontext typisch sind. Bei dem genannten Beispiel einer Einkaufsliste kann das Sprachmodell auch so gewählt werden, dass weitere Anweisungen, etwa das Erstellen eines Kalendereintrags für den Einkauf oder eine Suche nach einem Geschäft, besser erkannt werden können.For example, the user may dictate to the system a shopping list. Using the general language model, it can be deduced from signal words, such as "shopping" or "shopping list", that the user intends to dictate a shopping list. On the basis of this context information, a corresponding language model of the speech recognition unit 2 which includes, for example, the names of various products. The spoken word can thus be better recognized than with the general language model. If sufficient recognition quality is not achieved, for example because the product names used originate from an area that is insufficiently covered by the language model, the new selection of the language model is repeated and a more suitable language model is loaded. The language models also include sentence structures which are typical for the respective context. In the mentioned example of a shopping list, the language model can also be selected so that further instructions, such as the creation of a calendar entry for shopping or a search for a shop, can be better recognized.

Ein Beispiel, bei dem der Kontext der gegenwärtigen Fahrsituation sich auf die Spracherkennung auswirkt, ist eine Stausituation. Erkennt das System, dass sich das Fahrzeug 6 in einem Stau befindet, beispielsweise anhand von Verkehrsmeldungen oder weil die Geschwindigkeit für den Straßentyp zu gering ist, so kann ein Sprachmodell geladen werden, bei dem beispielsweise der Text einer Mail, die über ein verspätetes Eintreffen informiert, besser erkannt wird. In diesem Fall können beispielsweise Wörter wie „Stau“ oder „Verspätung“ höher priorisiert werden und Satzstrukturen wie „ich werde mich X Minuten verspäten“ bereitgestellt werden. An example in which the context of the current driving situation affects speech recognition is a congestion situation. Detects the system that the vehicle is 6 is in a traffic jam, for example on the basis of traffic reports or because the speed for the road type is too low, then a language model can be loaded in which, for example, the text of an e-mail informing about a delayed arrival is better recognized. In this case, for example, words such as "congestion" or "delay" may be prioritized higher, and sentence structures such as "I'll be delayed X minutes" will be provided.

Die Kontextinformationen tragen also dazu bei, die hohe Komplexität aller möglichen Fahr- und Sprechsituationen auf die konkrete Situation einzuschränken. Insbesondere können der Wortschatz und die zur Verfügung stehenden Satzstrukturen für die Spracherkennung reduziert werden.The context information thus contributes to limiting the high complexity of all possible driving and speech situations to the specific situation. In particular, the vocabulary and the available sentence structures for speech recognition can be reduced.

Mit Bezug zu 3 wird ein weiteres Ausführungsbeispiel des erfindungsgemäßen Spracherkennungssystems und des erfindungsgemäßen Verfahrens erläutert.In reference to 3 a further embodiment of the speech recognition system according to the invention and the method according to the invention will be explained.

Das hier dargestellte Spracherkennungssystem 10 umfasst die gleichen Elemente wie das in 2 dargestellte. Die Kontextverarbeitungseinheit ist hier allerdings mit dem Semantikerkenner 3 gekoppelt. Bei diesem Beispiel wird also der Kontext dazu genutzt, die Semantikerkennung zu optimieren. Es wird bei der hier dargestellten Ausführung davon ausgegangen, dass die Spracherkennung bereits abgeschlossen ist und eine verbesserte Semantikerkennung durchgeführt werden soll.The speech recognition system shown here 10 includes the same elements as the one in 2 shown. However, the context processing unit is here with the semantic recognizer 3 coupled. In this example, the context is used to optimize the semantic recognition. It is assumed in the embodiment shown here that the speech recognition has already been completed and an improved semantic recognition is to be performed.

Anhand einer ersten semantischen Analyse wird ein grundlegendes Verständnis der Nutzerintention etabliert. Typischerweise wird dabei zumindest eine Klasse und Art der Nutzerintention erkannt. Beispielsweise wird erkannt, dass der Nutzer nach einer Tankstelle suchen will. Gleichzeitig werden alle für die so ermittelte Intentionsklasse relevanten Kontextinformationen über den Fahrer, das Fahrzeug und die Umwelt berücksichtigt. Beispielsweise können Informationen über den aktuellen Fahrerzustand (beispielsweise Müdigkeit), Informationen über anstehende Termine, das übliche Verhalten des Nutzers in gleichen oder ähnlichen Situationen und Informationen über die aktuelle Wetterlage einbezogen werden. Diese Kontextdaten werden genutzt, um neue semantische Informationen aus dem Gesprochenen abzuleiten und die bisherigen Ergebnisse aufzuwerten und zu ergänzen.Based on a first semantic analysis, a basic understanding of the user's intention is established. Typically, at least one class and type of user intention are recognized. For example, it is recognized that the user wants to search for a gas station. At the same time, all relevant contextual information about the driver, the vehicle and the environment is taken into account for the intention class thus determined. For example, information about the current driver status (eg, fatigue), information about upcoming appointments, the user's usual behavior in the same or similar situations, and information about the current weather conditions may be included. These contextual data are used to derive new semantic information from the spoken word and to enhance and supplement the previous results.

Über die oben genannten Kontextinformationen hinaus werden auch die vergangenen Interaktionsschritte des Nutzers gespeichert. Dadurch ist es möglich, Referenzen des Nutzers zu Objekten, die Teil der Interaktionshistorie sind, aufzulösen. Darunter fallen insbesondere deiktische Ausdrücke, beispielsweise „dort“ oder „diese“. Beispielsweise kann nach den Preisen „dieser Tankstelle“ gefragt werden, die in einem vorhergehenden Interaktionsschritt als Ergebnis einer Tankstellensuche geliefert wurde. Es können ferner für das Verständnis einer Spracheingabe relevante Informationen ergänzt werden, beispielsweise der vom Fahrzeug benötigte Kraftstofftyp.In addition to the context information mentioned above, the past interaction steps of the user are also stored. This makes it possible to resolve user references to objects that are part of the interaction history. This includes in particular deictic expressions, for example "there" or "this". For example, it is possible to ask for the prices of "this gas station" which was delivered in a previous interaction step as a result of a gas station search. It may also be supplemented for understanding a voice input relevant information, such as the type of fuel required by the vehicle.

Ferner kann eine Disambiguierung vorgenommen werden, beispielsweise wenn ein Name im Adressbuch nicht eindeutig ist. Will der Nutzer eine Person dieses Namens anrufen, so kann bei der semantischen Analyse anhand des Kontextes festgestellt werden, welche der mehreren Personen dieses Namens mit höherer Wahrscheinlichkeit gemeint ist. Beispielsweise können Arbeitskollegen bevorzugt ausgegeben werden, wenn sich der Nutzer am Arbeitsplatz befindet. Umgekehrt können im privaten Bereich private Kontakte bevorzugt werden.Furthermore, a Disambiguierung be made, for example, if a name in the address book is not unique. If the user wants to call a person of this name, semantic analysis based on the context can determine which of the several persons of this name is meant to be more likely. For example, coworkers can be preferred spent when the user is at the workplace. Conversely, private contacts can be preferred in the private sector.

Zu den Kontextinformationen kann auch das übliche Nutzerverhalten in gleichen oder ähnlichen Situationen gehören. Beispielsweise kann der Nutzer in Situationen, in denen ein Termin kurz bevorsteht, die räumliche Nähe von Tankstellen als relevanter bewerten als einen niedrigen Preis. Umgekehrt kann die Kostenersparnis höhere Priorität haben, wenn kein dringender Termin ansteht. Ferner können zum Beispiel bei gutem Wetter solche Restaurants bevorzugt ausgegeben werden, bei denen ein Sitzen im Freien möglich ist. Die Eigenschaften von POIs können also in Abhängigkeit vom Kontext der Spracheingabe gewichtet werden und zur semantischen Analyse der Spracheingabe beitragen. Dies führt insbesondere dazu, dass das Ergebnis der semantischen Analyse ein weitergehendes Verständnis der Nutzerintention umfasst, als dies von anderen Semantikerkennern bekannt ist. Dadurch wird der Analyseaufwand für weitere Einrichtungen, an die beispielsweise eine Anfrage des Nutzers weitergeleitet wird, verringert.The context information may also include the usual user behavior in the same or similar situations. For example, in situations where an appointment is imminent, the user may rate the proximity of gas stations as more relevant than a low price. Conversely, the cost savings can have higher priority, if no urgent date is pending. Further, for example, in good weather, those restaurants may be preferred in which outdoor seating is possible. The properties of POIs can thus be weighted depending on the context of the speech input and contribute to the semantic analysis of speech input. This leads in particular to the result of the semantic analysis comprising a further understanding of the user intention than is known from other semantic experts. As a result, the analysis effort for other facilities, to which, for example, a request of the user is forwarded, is reduced.

Die oben beschriebenen Verfahren zur Optimierung der Spracherkennung und der semantischen Analyse können einzeln oder in Kombination implementiert sein. The methods described above for optimizing speech recognition and semantic analysis may be implemented individually or in combination.

Mit Bezug zu 4 wird ein Ausführungsbeispiel des erfindungsgemäßen Spracherkennungssystems in einem Fahrzeug erläutert.In reference to 4 an embodiment of the speech recognition system according to the invention is explained in a vehicle.

Das Spracherkennungssystem 10 ist in dem Fahrzeug 6 angeordnet. Über eine Schnittstelle sind weitere Einrichtungen des Fahrzeugs 6 mit dem Spracherkennungssystem 10 gekoppelt: ein Navigationssystem 7, ein Medienabspielgerät 8 und ein Fahrzeuginformationssystem 9. Letzteres umfasst insbesondere Sensoren, die Eigenschaften des Fahrzeugs, des Nutzers und der Umwelt detektieren. Das Spracherkennungssystem 10 ist ferner datentechnisch mit weiteren Einrichtungen gekoppelt, insbesondere mit dem Internetserver 11 und dem mobilen Nutzergerät 12. Das Spracherkennungssystem 10 erfasst Daten über den Kontext einer Spracheingabe von den mit ihm gekoppelten Einrichtungen und kann umgekehrt Signale an diese anderen Einrichtungen übertragen. Beispielsweise können Informationen des Navigationsgeräts, etwa die zu fahrende Route, als Kontextinformationen verwendet werden, aber das Spracherkennungssystem 10 kann auch als Eingabeeinrichtung für das Navigationssystem 7 dienen. Analog gilt dies auch für die anderen gezeigten Einrichtungen.The speech recognition system 10 is in the vehicle 6 arranged. Via an interface are other facilities of the vehicle 6 with the speech recognition system 10 coupled: a navigation system 7 , a media player 8th and a vehicle information system 9 , The latter includes in particular sensors that detect properties of the vehicle, the user and the environment. The speech recognition system 10 is also data technology coupled with other facilities, in particular with the Internet server 11 and the mobile user device 12 , The speech recognition system 10 collects data about the context of a voice input from the devices coupled to it and conversely can transmit signals to these other devices. For example, information of the navigation device, such as the route to be traveled, can be used as context information, but the speech recognition system 10 Can also be used as an input device for the navigation system 7 serve. Analogously, this also applies to the other devices shown.

Das Spracherkennungssystem 10 kann hier eine Kombination der in den 2 und 3 dargestellten Systeme sein. Insbesondere werden durch das erfindungsgemäße Verfahren sowohl die Spracherkennung als auch die semantische Analyse optimiert.The speech recognition system 10 Here is a combination of the in the 2 and 3 be shown systems. In particular, both the speech recognition and the semantic analysis are optimized by the method according to the invention.

Mit Bezug zu 5 wird ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens erläutert, bei dem eine Suchanfrage erfasst und verarbeitet wird.In reference to 5 a further embodiment of the method according to the invention is explained, in which a search request is detected and processed.

Bei diesem Ausführungsbeispiel wird vorausgesetzt, dass die Spracherkennung und die semantische Analyse wie oben dargestellt durchgeführt werden. Insbesondere wird von dem in 4 dargestellten Spracherkennungssystem 10 in dem Fahrzeug 6 ausgegangen. Mittels der semantischen Analyse wird eine Funktion ausgeführt wird, die im dargestellten Fall eine Suchfunktion ist. Dabei können die ersten Schritte beispielsweise durch Systeme wie die in den 2 bis 4 dargestellten Spracherkennungssysteme 10 durchgeführt werden. Anhand der semantischen Analyse wird nun eine Suchfunktion ausgeführt.In this embodiment, it is assumed that the speech recognition and the semantic analysis are performed as shown above. In particular, from the in 4 represented speech recognition system 10 in the vehicle 6 went out. By means of the semantic analysis, a function is carried out, which is a search function in the case shown. The first steps, for example, by systems such as in the 2 to 4 illustrated speech recognition systems 10 be performed. Based on the semantic analysis, a search function is now executed.

Insbesondere ist im dargestellten Fall das Ergebnis der semantischen Analyse eine Suchanfrage 13. Ferner stehen Daten über den Kontext der Spracheingabe, die Kontextdaten 14, zur Verfügung. Anhand der Suchanfrage 13 und der Kontextdaten 14 werden Suchkriterien 15 bestimmt. Anhand der so bestimmten Suchkriterien wird eine Teilmenge 17 aus der Datenbasis 16 bestimmt. Insbesondere ist im dargestellten Fall die Teilmenge 17 geordnet, d.h. den einzelnen Daten sind Prioritäten zugeordnet.In particular, in the case shown, the result of the semantic analysis is a search query 13 , There is also data about the context of the speech input, the context data 14 , to disposal. Based on the search query 13 and the context data 14 become search criteria 15 certainly. Based on the search criteria thus determined becomes a subset 17 from the database 16 certainly. In particular, in the case shown, the subset 17 ordered, ie the individual data are assigned priorities.

Die Datenbasis 16 umfasst die Menge aller möglichen Suchergebnisse, beispielsweise bereitgestellt durch das Navigationssystem 7 des Fahrzeugs 6 mit Daten über POIs, mögliche Routen und durch die Einträge in einem Adressbuch. Die Datenbasis kann ferner alle Dateneinträge umfassen, die beispielsweise durch ein Rechnersystem, etwa den Internetserver 11, bereitgestellt werden.The database 16 includes the set of all possible search results, for example provided by the navigation system 7 of the vehicle 6 with data about POIs, possible routes and entries in an address book. The database may further include all data entries, for example, by a computer system, such as the Internet server 11 , to be provided.

Bei der Bestimmung der Suchkriterien 15 wird ferner das gelernte Wissen 18 berücksichtigt. Dabei hat das System aus vergangenen Suchanfragen mittels Verfahren der künstlichen Intelligenz, beispielsweise durch neuronale oder Bayes’sche Netze, die Präferenzen des Nutzers in bestimmten Situationen und Kontexten gelernt. Insbesondere wird dieses gelernte Wissen 18 mit der Zeit immer weiter an den einzelnen Nutzer angepasst.When determining the search criteria 15 also becomes the learned knowledge 18 considered. In the process, the system has learned from past search queries using artificial intelligence methods, for example neural or Bayesian networks, the preferences of the user in certain situations and contexts. In particular, this learned knowledge 18 over time adapted to the individual user.

Die Hauptaufgabe bei der Bestimmung der Suchkriterien 15 besteht darin, eine unvollständige Suchanfrage 13 zu vervollständigen, sodass die resultierende Teilmenge 17 möglichst relevant ist und den Erwartungen des Nutzers entspricht. Dazu werden die Suchanfrage 13, die Kontextdaten 14 und das gelernte Wissen 18 verknüpft. Dies wird nun an Beispielen dargestellt.The main task in determining the search criteria 15 is an incomplete search 13 to complete, so the resulting subset 17 is as relevant as possible and meets the expectations of the user. This will be the search query 13 , the context data 14 and the learned knowledge 18 connected. This will now be illustrated by examples.

Bei einem ersten Beispiel lautet die Eingabe des Nutzers „Suche Tankstelle“. Zu den ferner erfassten Kontextdaten 14 gehört ein dringender Termin im Terminkalender des Nutzers. Ferner ist aus dem gelernten Wissen 18 bekannt, dass der Nutzer bei einem kurz bevorstehenden Termin eine kurze Entfernung der Tankstelle wichtiger bewertet als einen niedrigen Kraftstoffpreis. Gesucht werden also Tankstellen in möglichst geringem Abstand zur befahrenen Strecke. Umgekehrt ist aus dem gelernten Wissen 18 bekannt, dass, wenn kein dringender Termin bevorsteht, eine möglichst kostengünstige Tankstelle gesucht werden soll. Die Priorisierung der Daten der Teilmenge 17 erfolgt in diesem Fall nicht nach kurzem Abstand, sondern nach geringem Preis. Beim Lernen von Nutzerpräferenzen spielt der Kontext also dadurch eine entscheidende Rolle, dass der Nutzer in unterschiedlichen Situationen und Kontexten unterschiedliche Präferenzen haben kann.In a first example, the user's input is "Search Gas Station". To the collected context data 14 is an urgent appointment in the user's calendar. Further, from the learned knowledge 18 It is known that the user rates a short distance of the gas station more important than a low fuel price in the case of an imminent appointment. Wanted, therefore, gas stations in the shortest possible distance to the traveled route. Conversely, from the learned knowledge 18 known that if no urgent date is imminent, a cheap gas station should be sought. The prioritization of the data of the subset 17 takes place in this case not after a short distance, but after low price. In learning user preferences, context therefore plays a crucial role in allowing the user to have different preferences in different situations and contexts.

Bei einem weiteren Beispiel lautet die Spracheingabe des Nutzers „Suche Restaurant“. Aus den Kontextdaten ist bekannt, dass der Kalender keinen dringenden Termin enthält und das Wetter gut ist. In Kombination dieser Suchanfrage 13 und der Kontextdaten 14 ist aus dem gelernten Wissen 18 bekannt, dass der Nutzer bei gutem Wetter und ohne Termindruck solche Restaurants bevorzugt, die gut bewertet sind und bei denen ein Sitzen im Freien möglich ist. Diese Informationen werden kombiniert zu Suchkriterien, durch die solche Restaurants aus der Datenbasis 16 ausgewählt und in der Teilmenge 17 mit hoher Prioritäten ausgegeben werden. Umgekehrt kann beispielsweise das gelernte Wissen 18 Informationen darüber umfassen, dass bei schlechtem Wetter die Möglichkeit zum Speisen im Inneren des Restaurants präferiert wird und dass bei Termindruck die räumliche Nähe höher wiegt als die Güte der Bewertungen. In another example, the user's voice input is "Search Restaurant". From the context data is known that the calendar contains no urgent appointment and the weather is good. In combination of this search query 13 and the context data 14 is from the learned knowledge 18 known that the user in good weather and without deadline preferred restaurants that are well rated and where an outdoor sitting is possible. This information is combined to search criteria by which such restaurants from the database 16 selected and in the subset 17 with high priorities. Conversely, for example, the learned knowledge 18 Information about the fact that in bad weather the possibility to dine inside the restaurant is preferred and that in case of deadline The spatial proximity outweighs the quality of the reviews.

Mit Bezug zu 6 wird der Lernvorgang bei der kontextsensitiven Suche erläutert.In reference to 6 explains the learning process in the context-sensitive search.

Wie bereits in 5 dargestellt, wird eine Bestimmung von Suchkriterien 15 durchgeführt. Dies erfolgt auf Basis der (unvollständigen) Suchanfrage 13, es werden Kontextdaten 14 abgefragt und es werden kontextsensitiv gelernte Suchpräferenzen aus dem gelernten Wissen 18 abgerufen. Dies erfolgt im gezeigten Beispiel durch eine Lerneinheit 18a. Anhand der Suchkriterien 15 wird eine erweiterte Suchanfrage 15a erzeugt. Im nächsten Schritt wird eine Suche durchgeführt und ermittelt, ob die erweiterte Suchanfrage 15 der Intention des Nutzers entspricht. Ist dies der Fall, so fließt diese Information über die Lerneinheit 18a in das gelernte Wissen 18 ein. Andernfalls wird die erweiterte Suchanfrage 15a verworfen.As already in 5 shown, becomes a determination of search criteria 15 carried out. This is done on the basis of the (incomplete) search query 13 , it will be contextual data 14 are queried and there are context-sensitive learning preferences from the learned knowledge 18 accessed. This is done in the example shown by a learning unit 18a , Based on the search criteria 15 becomes an advanced search query 15a generated. In the next step, a search is performed and determines whether the extended search 15 corresponds to the intention of the user. If so, this information flows through the lesson 18a into the learned knowledge 18 one. Otherwise, the extended search will be 15a discarded.

Die Entscheidung, ob die erweiterte Suchanfrage 15a angenommen oder verworfen wird, kann auf verschiedene Weisen erfolgen. Beispielsweise kann eine Suchanfrage als angenommen gewertet werden, wenn der Nutzer ein anhand der erweiterten Suchanfrage 15a bestimmtes Ziel für eine Navigation auswählt. Dies wird als positive Rückmeldung gewertet und gelernt. Als weitere positive Bestätigung der Nutzerpräferenz kann beispielsweise gelten, dass der Fahrer das Ziel tatsächlich anfährt. Andererseits ist es auch möglich, dass der Fahrer die Navigation beginnt, jedoch später wieder abbricht oder ändert. Geht der Fahrer auf die Suchergebnisse auf Basis der erweiterten Suchanfrage 15a nicht ein, sondern präzisiert er beispielsweise die Suchanfrage 13, so kann dies einen Misserfolg der Erweiterung der Suchanfrage 13 bedeuten. Ferner kann auch negatives Lernen implementiert werden, beispielsweise wenn der Nutzer auf eine bestimmte Art deutlich macht, dass er die Ergebnisse ablehnt. Dies kann etwa eine negative Korrelation für das gelernte Wissen 18 bedeuten.The decision, whether the extended search 15a can be accepted or rejected in various ways. For example, a search query may be considered accepted if the user enters on the basis of the extended search query 15a selects specific destination for a navigation. This is evaluated as positive feedback and learned. As a further positive confirmation of the user preference can for example apply that the driver actually approaches the destination. On the other hand, it is also possible that the driver starts the navigation, but later breaks off or changes. The driver goes to the search results based on the extended search 15a not one, but he specifies, for example, the search 13 So this may be a failure of the extension of the search query 13 mean. Furthermore, negative learning can also be implemented, for example if the user makes it clear in a certain way that he rejects the results. This can be a negative correlation for the learned knowledge 18 mean.

Mit Bezug zu den 7A bis 7D werden Ausführungsbeispiele des erfindungsgemäßen Verfahrens erläutert, wobei eine Spracheingabe korrigiert wird.Related to the 7A to 7D Embodiments of the method according to the invention are explained, wherein a voice input is corrected.

In einem ersten Schritt werden zwei Spracheingaben des Nutzers erfasst und es wird eine Texterkennung für beide Spracheingaben durchgeführt. Der für die erste Spracheingabe erkannte Text ist der Originaltext 20 und der für die zweite Spracheingabe erkannte Text ist der Korrigiertext 21. Beide Texte bestehen aus geordneten Textfragmenten, insbesondere einzelnen Wörtern. Anhand des Originaltextes 20 und des Korrigiertextes 21 wird ein korrigierter Text 22 erzeugt.In a first step, two voice inputs of the user are detected and a text recognition is performed for both voice inputs. The text recognized for the first voice input is the original text 20 and the text recognized for the second voice input is the correction text 21 , Both texts consist of ordered text fragments, in particular individual words. Based on the original text 20 and the correction text 21 becomes a corrected text 22 generated.

Bei dem in 7A dargestellten Beispiel lautet der Originaltext 20: „Mein kleiner Sohn ist krank. Ich bin auf dem Weg.“ Der Korrigiertext lautet: „kleiner Tom ist krank“. Nachdem diese beiden Texte erkannt worden sind, werden Rahmenwörter gesucht, durch die der zu korrigierende Text definiert wird. Im gezeigten Beispiel ergibt ein Textvergleich, dass das Textfragment 21a „kleiner“ des Korrigiertextes 21 dem Textfragment 20b „kleiner“ im Originaltext 20 entspricht. Ferner entsprechen die Textfragmente 21c und 21d „ist krank“ des Korrigiertextes 21 den Textfragmenten 20d und 20e „ist krank“ des Originaltextes 20. Auf diese Weise werden das Textfragment „kleiner“ als Rahmenvorwort und das Textfragment „ist krank“ als Rahmennachwort erkannt. Dazwischen liegt im Originaltext 20 das Textfragment 20c „Sohn“ und im Korrigiertext 21 das Textfragment 21b „Tom“. Das Textfragment 20c „Sohn“ soll also durch das Textfragment 21b „Tom“ ersetzt werden. Der korrigierte Text 22 lautet daher: „Mein kleiner Tom ist krank. Ich bin auf dem Weg.“At the in 7A example shown is the original text 20 : "My little son is ill. I'm on my way. "The correction text reads:" little Tom is sick ". After these two texts have been recognized, frame words are searched, by which the text to be corrected is defined. In the example shown, a text comparison results in the text fragment 21a "Smaller" of the correction text 21 the text fragment 20b "Smaller" in the original text 20 equivalent. Furthermore, the text fragments correspond 21c and 21d "Is sick" of the correction text 21 the text fragments 20d and 20e "Is sick" of the original text 20 , In this way, the text fragment "smaller" is recognized as the frame preface and the text fragment "is sick" as the frame post-word. In between lies in the original text 20 the text fragment 20c "Son" and in the correction text 21 the text fragment 21b "Tom". The text fragment 20c So "son" should be through the text fragment 21b "Tom" to be replaced. The corrected text 22 is therefore: "My little Tom is sick. I am on the way."

Als Textfragmente können einzelne Wörter definiert sein, allerdings können auch Kombinationen mehrerer aufeinanderfolgender Wörter als ein Textfragment betrachtet werden. Insbesondere ist es bei diesem Verfahren möglich, dass mehrere aufeinanderfolgende Wörter ein Rahmenvorwort bilden und mehrere aufeinanderfolgende Wörter ein Rahmennachwort. Ebenso kann der Korrekturteil aus mehreren aufeinanderfolgenden Wörtern bestehen, die vom Rahmenvorwort und Rahmennachwort definiert sind. Beispielsweise kann auf diese Art ein einzelnes Wort im Originaltext 20 durch eine Abfolge mehrerer aufeinanderfolgender Wörter im Korrigiertext 21 ersetzt werden. Ebenso kann umgekehrt eine Abfolge mehrerer aufeinanderfolgender Wörter im Originaltext 20 durch ein einzelnes oder eine andere Anzahl Wörter im Korrigiertext 21 ersetzt werden. Das heißt, die Anzahl der Textfragmente im Originaltext 20 und im korrigierten Text 22 ist nicht notwendigerweise gleich.Individual words can be defined as text fragments, but combinations of several consecutive words can also be considered as a text fragment. In particular, it is possible in this method that a plurality of consecutive words constitute a frame prefix and a plurality of consecutive words form a frame postword. Likewise, the correction part may consist of several consecutive words defined by the frame prefix and frame afterword. For example, in this way, a single word in the original text 20 by a succession of successive words in the correction text 21 be replaced. Likewise, conversely, a sequence of several consecutive words in the original text 20 by a single or a different number of words in the correction text 21 be replaced. That is, the number of text fragments in the original text 20 and in the corrected text 22 is not necessarily the same.

Der korrigierte Text 22 kann erzeugt werden, indem lediglich der zwischen den Rahmenworten befindliche Text des Korrigiertextes 21 den zwischen den entsprechenden Rahmenworten befindlichen Text des Originaltextes 20 überschreibt. Ferner können auch die Rahmenworte selbst überschrieben werden. Im dargestellten Beispiel entspricht dies einer Ersetzung des Wortes „Sohn“ durch das Wort „Tom“, bzw. die Ersetzung der Worte „kleiner Sohn ist krank“ durch die Worte „kleiner Tom ist krank“. Das Ergebnis beider Vorgehensweisen ist äquivalent.The corrected text 22 can be generated by only the text of the correction text between the frame words 21 the text of the original text between the corresponding frame words 20 overrides. Furthermore, the frame words themselves can also be overwritten. In the example shown this corresponds to a replacement of the word "son" by the word "Tom", or the replacement of the words "little son is sick" by the words "little Tom is sick". The result of both approaches is equivalent.

7B zeigt ein Beispiel, bei dem der Korrigiertext 21 lediglich ein Rahmenvorwort 21a „kleiner“ umfasst. Ein Rahmennachwort ist nicht vorhanden. Durch das Rahmenvorwort 21a „kleiner“ im Korrigiertext 21 kann das korrespondierende Rahmenvorwort 20b „kleiner“ im Originaltext 20 bestimmt werden. Entsprechend wird das darauffolgende Textfragment 20c „Sohn“ im Originaltext 20 durch das auf das Rahmenvorwort 21a folgende Textfragment 21b „Tom“ ersetzt. 7B shows an example in which the correction text 21 only a frame foreword 21a Includes "smaller". A frame afterword is missing. Through the frame foreword 21a "Smaller" in the correction text 21 can the corresponding Rahmenvorwort 20b "Smaller" in the original text 20 be determined. Accordingly, the subsequent text fragment becomes 20c "Son" in the original text 20 through that on the frame foreword 21a following text fragment 21b "Tom" replaced.

Ist lediglich das Rahmenvorwort vorhanden, so können entweder die darauffolgenden Textfragmente im Korrigiertext 21 die gleiche Anzahl Textfragmente im Originaltext 20 ersetzen, oder die im Korrigiertext 21 auf das Rahmenvorwort folgenden Textfragmente können an entsprechender Stelle im Originaltext 20 eingefügt werden.If only the frame prefix is available, then either the subsequent text fragments in the correction text 21 the same number of text fragments in the original text 20 replace, or in the correction text 21 Text fragments following the framework foreword can be found in the original text at the appropriate place 20 be inserted.

7c stellt den entsprechenden Fall dar, wobei im Unterschied zu 7b lediglich das Rahmennachwort vorhanden ist. Dieses besteht im gezeigten Fall aus den Textfragmenten 21b bis 21c „ist krank“. Dadurch wird das davor liegende Textfragment 21a „Tom“ als Korrekturteil definiert. Entsprechend ist im Originaltext 20 das vor den Textfragmenten 20d bis 20e „ist krank“ befindliche Textfragment 20c „Sohn“ als Korrekturteil definiert. Es wird also „Sohn“ durch „Tom“ ersetzt. Analog zu dem mit Bezug zu 7b beschriebenen Verfahren können auch hier entweder die gleiche Anzahl Textfragmente im Originaltext 20 durch die entsprechenden Textfragmente im Korrigiertext 21 überschrieben werden oder es kann ein Einfügen vorgenommen werden. 7c represents the corresponding case, in contrast to 7b only the frame afterword is present. This consists in the case shown from the text fragments 21b to 21c "is sick". This will cause the text fragment in front of it 21a "Tom" defined as a correction part. Accordingly, in the original text 20 that before the text fragments 20d to 20e "Is sick" text fragment 20c "Son" is defined as a correction part. So "son" is replaced by "Tom". Analogous to that related to 7b Here too, either the same number of text fragments in the original text can be used 20 through the corresponding text fragments in the correction text 21 be overwritten or an insertion can be made.

Bei dem in 7d dargestellten Fall enthält der Korrigiertext 21 lediglich ein Rahmenvorwort, hier das Textfragment 21a „Sohn“. Die darauffolgenden Textfragmente 21b bis 21c „hat Fieber“ bilden den Korrekturteil. Der in 7d dargestellte korrigierte Text 22 „Mein kleiner Sohn hat Fieber“ wird erzeugt, indem die Textfragmente 20d bis 20j („ist krank. Ich bin auf dem Weg.“) durch die Textfragmente 21b bis 21c („hat Fieber.“) ersetzt werden. In diesem Fall wird also der gesamte Text ersetzt, der nach dem Rahmenvorwort angeordnet ist.At the in 7d the case shown contains the correction text 21 only a frame preface, here the text fragment 21a "Son". The following text fragments 21b to 21c "Has fever" make up the correction part. The in 7d illustrated corrected text 22 "My little son has a fever" is generated by the text fragments 20d to 20j ("I'm sick, I'm on my way.") Through the text fragments 21b to 21c ("Has fever.") To be replaced. In this case, the entire text that is arranged after the frame prefix is therefore replaced.

Zur Bestimmung des zu korrigierenden Textes können alternativ oder zusätzlich weitere Verfahren angewandt werden. Beispielsweise kann durch ein Textdistanzverfahren (etwa die Levenshtein-Distanz) die Position im Originaltext gefunden werden, welche die geringste Distanz zum Korrigiertext aufweist. Ferner kann das System erkennen, ob ein Text mit hoher Erkennungsgüte oder Konfidenz erkannt wurde. Wurde ein Text nicht oder nur ungenügend erkannt, so kann dies dem Nutzer, etwa graphisch oder per Sprachausgabe, mitgeteilt werden. Eine neue Spracheingabe des Nutzers wird als Korrektur dieses Wortes oder Satzteils interpretiert und entsprechend der korrigierte Text erzeugt. Ferner kann die Suche nach ähnlichen Passagen im Originaltext erfolgen, indem Worte mit unverwechselbar vielen Silben, also ein ähnlich langes Wort, gefunden wird, indem Worte mit ähnlichen Silben und Phonemen, also ähnlich klingende Worte, ermittelt werden oder indem Textpassagen, deren Worte jeweils dieselbe Anzahl an Silben haben, ermittelt werden.To determine the text to be corrected, other methods can be used alternatively or additionally. For example, a text distance method (such as the Levenshtein distance) can be used to find the position in the original text that has the smallest distance to the corrected text. Furthermore, the system can detect whether a text with high recognition quality or confidence was detected. If a text was not or only insufficiently recognized, this can be communicated to the user, for example graphically or by voice output. A new speech input from the user is interpreted as a correction of that word or phrase, and the corrected text is generated accordingly. Furthermore, the search for similar passages in the original text can be done by finding words with a distinctive number of syllables, ie a similarly long word, by finding words with similar syllables and phonemes, ie similar-sounding words, or by text passages whose words are the same Number of syllables have to be determined.

Die oben beschriebenen Ausführungsbeispiele des erfindungsgemäßen Spracherkennungssystems und Verfahren können miteinander beliebig kombiniert werden. Beispielsweise kann lediglich die Spracherkennung oder lediglich die Semantikerkennung durch die Kontextdaten angereichert werden. Auch die Erweiterung unterspezifizierter Suchanfragen kann unabhängig davon erfolgen. Selbiges gilt für die Korrektur von Spracheingaben, die auch in Kombination oder isoliert durchgeführt werden kann. The above-described embodiments of the speech recognition system and method according to the invention can be combined with each other as desired. For example, only the speech recognition or only the semantic recognition can be enriched by the context data. The extension of underspecified searches can also be done independently. The same applies to the correction of voice inputs, which can also be performed in combination or in isolation.

BezugszeichenlisteLIST OF REFERENCE NUMBERS

11
Erfassungseinheit acquisition unit
1a1a
Mikrofon microphone
22
Spracherkennungseinheit Voice recognition unit
33
Semantikerkenner Semantikerkenner
44
Kontexterfassungseinheit Context sensing unit
4a4a
Kontextverarbeitungseinheit Context processing unit
55
Ausführungseinheit  execution unit
66
Fahrzeug vehicle
77
Navigationssystem navigation system
88th
Medienabspielgerät media player
99
Fahrzeuginformationssystem (mit Sensoren) Vehicle information system (with sensors)
1010
Spracherkennungssystem Voice recognition system
1111
Internetserver Internet server
1212
Mobiles Nutzergerät Mobile user device
1313
Suchanfrage search query
1414
Kontextdaten context data
1515
Suchkriterien search criteria
15a15a
Erweiterte Suchanfrage Extended search
1616
Datenbasis database
1717
Geordnete Teilmenge Ordered subset
1818
Gelerntes Wissen Learned knowledge
18a18a
Lerneinheit lesson
1919
Verwerfen discard
2020
Originaltext original
20a–20j20a-20j
Textfragmente (Originaltext) Text fragments (original text)
2121
Korrigiertext Korrigiertext
21a–21d21a-21d
Textfragmente (Korrigiertext) Text fragments (correction text)
2222
Korrigierter Text Corrected text
22a–22j22a-22j
Textfragmente (korrigierter Text) Text fragments (corrected text)

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

  • DE 10329546 A1 [0004] DE 10329546 A1 [0004]
  • EP 2273491 A1 [0005] EP 2273491 A1 [0005]
  • US 2007/0073540 A1 [0006] US 2007/0073540 A1 [0006]

Claims (15)

Verfahren zum Betreiben eines Spracherkennungssystems (10) in einem Fahrzeug (6), bei dem a) zumindest eine Spracheingabe eines Nutzers erfasst wird, b) Daten zu dem Kontext der Spracheingabe erfasst werden, c) ein erkannter Text der Spracheingabe erzeugt wird, d) eine semantische Analyse des erkannten Textes erzeugt wird und e) anhand der semantischen Analyse eine Funktion ausgeführt wird. Method for operating a speech recognition system ( 10 ) in a vehicle ( 6 ), in which a) at least one speech input of a user is detected, b) data on the context of the speech input are detected, c) a recognized text of the speech input is generated, d) a semantic analysis of the recognized text is generated, and e) on the basis of semantic analysis performs a function. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Daten zu dem Kontext der Spracheingabe Eigenschaften des Fahrzeugs (6), des Nutzers und/oder der Umgebung des Fahrzeugs (6) betreffen. Method according to claim 1, characterized in that the data relating to the context of the speech input characteristics of the vehicle ( 6 ), the user and / or the environment of the vehicle ( 6 ) affect. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass nach der Erzeugung der semantischen Analyse ferner i. in Abhängigkeit von der semantischen Analyse und von den Daten zu dem Kontext der Spracheingabe eine Erkennungsgüte des erkannten Textes bestimmt wird und ein Sprachmodell aus einer Vielzahl von Sprachmodellen ausgewählt wird, ii. anhand des ausgewählten Sprachmodells ein weiterer erkannter Text der Spracheingabe erzeugt wird, iii. eine weitere semantische Analyse des weiteren erkannten Textes erzeugt wird und iv. die Schritte i. bis iii. wiederholt werden, bis die Erkennungsgüte einen vorbestimmten Wert überschreitet. Method according to one of the preceding claims, characterized in that further after the generation of the semantic analysis i. depending on the semantic analysis and the data on the context of the speech input, a recognition quality of the recognized text is determined and a language model is selected from a plurality of language models, ii. Based on the selected language model, another recognized text of the speech input is generated, iii. a further semantic analysis of the further recognized text is generated and iv. the steps i. to iii. be repeated until the recognition quality exceeds a predetermined value. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass anhand der semantischen Analyse zumindest eine Nutzerintentionsklasse bestimmt wird, die Daten zu dem Kontext der Spracheingabe in Abhängigkeit von der Nutzerintentionsklasse erfasst werden und zumindest eine weitere semantische Analyse in Abhängigkeit von den Daten zu dem Kontext der Spracheingabe erzeugt wird. Method according to one of the preceding claims, characterized in that, based on the semantic analysis, at least one user intervention class is determined, the data relating to the context of the speech input is detected as a function of the user initiation class and at least one further semantic analysis depending on the data relating to the context of the Voice input is generated. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass semantische Analysen von Spracheingaben gespeichert werden. A method according to claim 4, characterized in that semantic analyzes of speech inputs are stored. Verfahren nach einem dem Ansprüche 5, dadurch gekennzeichnet, dass die Daten zu dem Kontext der Spracheingabe ferner semantische Analysen früherer Spracheingaben umfassen. A method according to any one of claims 5, characterized in that the data on the context of the speech input further comprises semantic analyzes of previous speech inputs. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass anhand der semantischen Analyse ein Suchfunktion ausgeführt wird. Method according to one of the preceding claims, characterized in that based on the semantic analysis, a search function is performed. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass anhand der semantischen Analyse und der Daten zu dem Kontext der Spracheingabe Suchkriterien bestimmt werden und anhand der bestimmten Suchkriterien eine Teilmenge von Daten einer Datenbasis bestimmt wird und die Daten der Teilmenge ausgegeben werden.A method according to claim 7, characterized in that based on the semantic analysis and the data on the context of the voice input search criteria are determined and based on the specific search criteria, a subset of data of a database is determined and the data of the subset are output. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass zu den Daten der Teilmenge Prioritäten erzeugt werden und die Ausgabe der Daten der Teilmenge anhand der ihnen zugeordneten Prioritäten erfolgt.A method according to claim 8, characterized in that the data of the subset of priorities are generated and the output of the data of the subset based on the priorities assigned to them. Verfahren nach einem der Ansprüche 8 und 9, dadurch gekennzeichnet, dass die Suchkriterien ferner anhand früherer Aufrufe der Suchfunktion bestimmt werden.Method according to one of claims 8 and 9, characterized in that the search criteria are further determined by previous calls of the search function. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zumindest zwei Spracheingaben des Nutzers erfasst werden, für beide Spracheingaben jeweils erkannte Texte (20, 21) erzeugt werden, die aus geordneten Textfragmenten (20a20j, 21a21d) bestehen, wobei der zu der ersten Spracheingabe erkannte Text der Originaltext (20) ist und der zu der zweiten Spracheingabe erkannte Text der Korrigiertext (21) ist, und anhand des Originaltextes (20) und des Korrigiertextes (21) ein korrigierter Text (22) erzeugt wird. Method according to one of the preceding claims, characterized in that at least two voice inputs of the user are detected, for each voice input respectively recognized texts ( 20 . 21 ), which consist of ordered text fragments ( 20a - 20j . 21a - 21d ), the text recognized for the first voice input being the original text ( 20 ) and the text recognized for the second voice input is the correction text ( 21 ), and from the original text ( 20 ) and the correction text ( 21 ) a corrected text ( 22 ) is produced. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass der Korrigiertext (21) zumindest ein Textfragment umfasst, welches den Anfang und/oder das Ende des Korrigiertextes (21) signalisiert. Method according to claim 11, characterized in that the correction text ( 21 ) comprises at least one text fragment indicating the beginning and / or the end of the correction text ( 21 ) signals. Verfahren nach einem der Ansprüche 11 und 12, dadurch gekennzeichnet, dass anhand eines Vergleichs des Originaltextes (20) mit dem Korrigiertext (21) die Position zumindest eines Textfragmentes im Originaltext (20) bestimmt wird, das sowohl von dem Originaltext (20) als auch von dem Korrigiertext (21) umfasst ist, und der korrigierte Text (22) anhand der bestimmten Position erzeugt wird. Method according to one of claims 11 and 12, characterized in that based on a comparison of the original text ( 20 ) with the correction text ( 21 ) the position of at least one text fragment in the original text ( 20 ), both from the original text ( 20 ) as well as the correction text ( 21 ) and the corrected text ( 22 ) is generated based on the determined position. Verfahren nach einem der Ansprüche 11 bis 13, dadurch gekennzeichnet, dass ferner zumindest ein Alt-Textfragment des Originaltextes (20) bestimmt wird und zumindest ein Neu-Textfragment des Korrigiertextes (21) bestimmt wird, wobei beim Erzeugen des korrigierten Textes (22) das Alt-Textfragment durch das Neu-Textfragment ausgetauscht wird.Method according to one of claims 11 to 13, characterized in that further comprises at least one legacy text fragment of the original text ( 20 ) and at least one new text fragment of the correction text ( 21 ), wherein when generating the corrected text ( 22 ) the old text fragment is replaced by the new text fragment. Spracherkennungssystem (10) in einem Fahrzeug (6) mit – einer Erfassungseinheit (1), durch die zumindest eine Spracheingabe eines Nutzers erfassbar ist, – einer Kontexterfassungseinheit (4), durch die Daten zu dem Kontext der Spracheingabe erfassbar sind, – einer Spracherkennungseinheit (2), durch die ein erkannter Text der Spracheingabe erzeugbar ist, – einem Semantikerkenner (3), durch den eine semantische Analyse des erkannten Textes erzeugbar ist und – einer Ausführungseinheit (5), an die die semantische Analyse übertragbar ist und durch die anhand der semantischen Analyse eine Funktion ausführbar ist. Speech recognition system ( 10 ) in a vehicle ( 6 ) with - a registration unit ( 1 ), by which at least one user's voice input is detectable, - a context capture unit ( 4 ), by which data relating to the context of the speech input are detectable, - a speech recognition unit ( 2 ), by which a recognized text of the speech input can be generated, - a semantic expert ( 3 ), by means of which a semantic analysis of the recognized text can be generated, and - an execution unit ( 5 ), to which the semantic analysis is transferable and by means of which semantic analysis a function is executable.
DE102015213722.8A 2015-07-21 2015-07-21 Method for operating a voice recognition system in a vehicle and voice recognition system Active DE102015213722B4 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102015213722.8A DE102015213722B4 (en) 2015-07-21 2015-07-21 Method for operating a voice recognition system in a vehicle and voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102015213722.8A DE102015213722B4 (en) 2015-07-21 2015-07-21 Method for operating a voice recognition system in a vehicle and voice recognition system

Publications (2)

Publication Number Publication Date
DE102015213722A1 true DE102015213722A1 (en) 2017-01-26
DE102015213722B4 DE102015213722B4 (en) 2020-01-23

Family

ID=57739002

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015213722.8A Active DE102015213722B4 (en) 2015-07-21 2015-07-21 Method for operating a voice recognition system in a vehicle and voice recognition system

Country Status (1)

Country Link
DE (1) DE102015213722B4 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016218270A1 (en) * 2016-09-22 2018-03-22 Audi Ag Method for operating a motor vehicle operating device with speech recognizer, operating device and motor vehicle
DE102017213241A1 (en) * 2017-08-01 2019-02-07 Bayerische Motoren Werke Aktiengesellschaft Method, device, mobile user device, computer program for controlling an audio system of a vehicle
DE102017213249A1 (en) * 2017-08-01 2019-02-07 Bayerische Motoren Werke Aktiengesellschaft Method and system for generating an auditory message in an interior of a vehicle
DE102018200088B3 (en) 2018-01-04 2019-06-13 Volkswagen Aktiengesellschaft Method, device and computer-readable storage medium with instructions for processing a voice input, motor vehicle and user terminal with a voice processing
DE102018215293A1 (en) * 2018-09-07 2020-03-12 Bayerische Motoren Werke Aktiengesellschaft Multimodal communication with a vehicle
CN111583919A (en) * 2020-04-15 2020-08-25 北京小米松果电子有限公司 Information processing method, device and storage medium
CN113168833A (en) * 2018-12-13 2021-07-23 大众汽车股份公司 Method for operating an interactive information system of a vehicle and vehicle
WO2022263179A1 (en) * 2021-06-15 2022-12-22 Mercedes-Benz Group AG Method and device for generating voice outputs in a vehicle
DE102021120246A1 (en) 2021-08-04 2023-02-09 Bayerische Motoren Werke Aktiengesellschaft voice recognition system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030216912A1 (en) * 2002-04-24 2003-11-20 Tetsuro Chino Speech recognition method and speech recognition apparatus
DE10329546A1 (en) 2003-06-30 2005-01-20 Daimlerchrysler Ag Lexicon driver past language model mechanism e.g. for automatic language detection, involves recognizing pure phonetic inputs which are compared for respective application and or respective user relevant words against specific encyclopedias
US20070073540A1 (en) 2005-09-27 2007-03-29 Hideki Hirakawa Apparatus, method, and computer program product for speech recognition allowing for recognition of character string in speech input
US20090150156A1 (en) * 2007-12-11 2009-06-11 Kennewick Michael R System and method for providing a natural language voice user interface in an integrated voice navigation services environment
DE102012019178A1 (en) * 2011-09-30 2013-04-04 Apple Inc. Use of context information to facilitate the handling of commands in a virtual assistant

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030216912A1 (en) * 2002-04-24 2003-11-20 Tetsuro Chino Speech recognition method and speech recognition apparatus
DE10329546A1 (en) 2003-06-30 2005-01-20 Daimlerchrysler Ag Lexicon driver past language model mechanism e.g. for automatic language detection, involves recognizing pure phonetic inputs which are compared for respective application and or respective user relevant words against specific encyclopedias
US20070073540A1 (en) 2005-09-27 2007-03-29 Hideki Hirakawa Apparatus, method, and computer program product for speech recognition allowing for recognition of character string in speech input
US20090150156A1 (en) * 2007-12-11 2009-06-11 Kennewick Michael R System and method for providing a natural language voice user interface in an integrated voice navigation services environment
EP2273491A1 (en) 2007-12-11 2011-01-12 Voicebox Technologies, Inc. Providing a natural language voice user interface in an integrated voice navigation services environment
DE102012019178A1 (en) * 2011-09-30 2013-04-04 Apple Inc. Use of context information to facilitate the handling of commands in a virtual assistant

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016218270A1 (en) * 2016-09-22 2018-03-22 Audi Ag Method for operating a motor vehicle operating device with speech recognizer, operating device and motor vehicle
DE102016218270B4 (en) 2016-09-22 2018-04-26 Audi Ag Method for operating a motor vehicle operating device with speech recognizer, operating device and motor vehicle
US11122367B2 (en) 2017-08-01 2021-09-14 Bayerische Motoren Werke Aktiengesellschaft Method, device, mobile user apparatus and computer program for controlling an audio system of a vehicle
DE102017213249A1 (en) * 2017-08-01 2019-02-07 Bayerische Motoren Werke Aktiengesellschaft Method and system for generating an auditory message in an interior of a vehicle
DE102017213241A1 (en) * 2017-08-01 2019-02-07 Bayerische Motoren Werke Aktiengesellschaft Method, device, mobile user device, computer program for controlling an audio system of a vehicle
DE102018200088B3 (en) 2018-01-04 2019-06-13 Volkswagen Aktiengesellschaft Method, device and computer-readable storage medium with instructions for processing a voice input, motor vehicle and user terminal with a voice processing
WO2019134774A1 (en) 2018-01-04 2019-07-11 Volkswagen Aktiengesellschaft Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing
US11646031B2 (en) 2018-01-04 2023-05-09 Volkswagen Aktiengesellschaft Method, device and computer-readable storage medium having instructions for processing a speech input, transportation vehicle, and user terminal with speech processing
DE102018215293A1 (en) * 2018-09-07 2020-03-12 Bayerische Motoren Werke Aktiengesellschaft Multimodal communication with a vehicle
CN113168833A (en) * 2018-12-13 2021-07-23 大众汽车股份公司 Method for operating an interactive information system of a vehicle and vehicle
CN111583919A (en) * 2020-04-15 2020-08-25 北京小米松果电子有限公司 Information processing method, device and storage medium
CN111583919B (en) * 2020-04-15 2023-10-13 北京小米松果电子有限公司 Information processing method, device and storage medium
WO2022263179A1 (en) * 2021-06-15 2022-12-22 Mercedes-Benz Group AG Method and device for generating voice outputs in a vehicle
DE102021120246A1 (en) 2021-08-04 2023-02-09 Bayerische Motoren Werke Aktiengesellschaft voice recognition system

Also Published As

Publication number Publication date
DE102015213722B4 (en) 2020-01-23

Similar Documents

Publication Publication Date Title
DE102015213722B4 (en) Method for operating a voice recognition system in a vehicle and voice recognition system
DE19709518C1 (en) Speech entering method as motor vehicle destination address in real time
DE102009017177B4 (en) Speech recognition arrangement and method for acoustically operating a function of a motor vehicle
EP1176395B1 (en) Method for the selection of the designation of a place in a system of navigation via voice input
DE102013223036B4 (en) Adaptation methods for language systems
EP0905662A2 (en) Input system for at least locality and street names
DE102013222507A1 (en) Adaptation methods and systems for speech systems
DE102015211101A1 (en) Speech recognition system and method for operating a speech recognition system with a mobile unit and an external server
EP3152753A1 (en) Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules
DE102014211834A1 (en) Method and device for correcting a control parameter for an automatic cruise control device of a vehicle
DE102009030263A1 (en) Method for controlling menu-based operation and information system of vehicle, involves displaying menu and forming controlling element for controlling menu
WO2008052823A1 (en) Method for selecting a destination
EP1330817A1 (en) Robust voice recognition with data bank organisation
DE10129005B4 (en) Method for speech recognition and speech recognition system
DE102015015486B3 (en) Method for automatic routing of a motor vehicle and motor vehicle with navigation system
DE102016218270B4 (en) Method for operating a motor vehicle operating device with speech recognizer, operating device and motor vehicle
DE102019217751A1 (en) Method for operating a speech dialogue system and speech dialogue system
EP3735688B1 (en) Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing
WO2014108232A1 (en) Method and device for providing navigation destinations for a motor vehicle
EP4124211B1 (en) Method and device for generating voice outputs in a vehicle
DE102018221712B4 (en) Method for operating an interactive information system for a vehicle, and a vehicle
WO2023152003A1 (en) Driver assistance system, means of locomotion and method for operating a driver assistance system
DE102016009196A1 (en) Method for operating a plurality of speech recognizers and speech recognition apparatus
WO2023148063A1 (en) Method for processing speech inputs and operating device for controlling vehicle functions
DE102016005731A1 (en) Method for operating multiple speech recognizers

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0015183000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final