DE102015107601A1 - Device and method for speech recognition, in particular in a vehicle - Google Patents
Device and method for speech recognition, in particular in a vehicle Download PDFInfo
- Publication number
- DE102015107601A1 DE102015107601A1 DE102015107601.2A DE102015107601A DE102015107601A1 DE 102015107601 A1 DE102015107601 A1 DE 102015107601A1 DE 102015107601 A DE102015107601 A DE 102015107601A DE 102015107601 A1 DE102015107601 A1 DE 102015107601A1
- Authority
- DE
- Germany
- Prior art keywords
- user
- profile
- speech
- processing unit
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Abstract
Die Erfindung betrifft Vorrichtung und ein Verfahren zur Spracherkennung, insbesondere in einem Fahrzeug, mit einer Verarbeitungseinheit zur Verarbeitung von Audiosignalen eines Benutzers auf Basis eines diesem Benutzer zugeordneten Benutzersprachprofils, wobei die Vorrichtung dazu konfiguriert ist, folgende Schritte durchzuführen: Speichern des Benutzersprachprofils in einem nur diesem Benutzer zugeordneten, außerhalb der Verarbeitungseinheit befindlichen externen Speicher, und automatisches Abrufen des in diesem externen Speicher gespeicherten Benutzersprachprofils bei jedem Neustart der Vorrichtung, wobei das automatisch abgerufene Benutzersprachprofil an die Verarbeitungseinheit zur Verwendung bei der Verarbeitung künftiger Audiosignale des Benutzers übermittelt wird, wobei der dem Benutzer zugeordnete Speicher in einer mobilen und tragbaren Speichervorrichtung angeordnet ist.The invention relates to a device and a method for speech recognition, in particular in a vehicle, having a processing unit for processing audio signals of a user on the basis of a user speech profile assigned to this user, the device being configured to perform the following steps: storing the user speech profile in only one of these User-assigned external memory external to the processing unit, and automatically retrieving the user voice profile stored in this external memory at each reboot of the device, wherein the automatically retrieved user voice profile is transmitted to the processing unit for use in processing the user's future audio signals, the user associated memory is arranged in a mobile and portable storage device.
Description
Die Erfindung betrifft eine Vorrichtung und Verfahren zur Spracherkennung, insbesondere in einem Fahrzeug. The invention relates to a device and method for speech recognition, in particular in a vehicle.
Spracherkennungssysteme verwenden i.d.R. ein gegebenes, spezifisches Benutzersprachprofil, um Audiosignale eines bestimmten Benutzers verarbeiten zu können. Dabei werden die Phoneme, wie sie von dem betreffenden Benutzer gesprochen werden, identifiziert, so dass die Erkennung der Phoneme in Anpassung an den Benutzer bzw. dessen Sprechweise oder Sprachmuster erfolgen kann. Phoneme stellen die kleinsten bedeutungsunterscheidenden Lauteinheiten einer Sprache dar, wobei z.B. in der deutschen Sprache ca. 40 unterschiedliche Phoneme verwendet werden. Speech recognition systems use i.d.R. a given, specific user speech profile to process audio signals of a particular user. In this case, the phonemes, as they are spoken by the user in question, are identified, so that the recognition of the phonemes in adaptation to the user or his speech or speech pattern can be done. Phones represent the smallest meaningful sound units of a language, e.g. in the German language about 40 different phonemes are used.
Die Identifizierung der Phoneme erfolgt typischerweise unter Verwendung diverser Filter, über welche die jeweiligen Eingangssignale mit unterschiedlichen Frequenz- und Zeitgrenzen verarbeitet werden. Die Resultate werden als Parameter in dem Spracherkennungssystem verwendet, wobei z.B. ein Hidden-Markov-Modells (HMM) oder künstliche neuronale Netze verwendet werden. Im Ergebnis kann eine spezifische Reaktion auf den betreffenden Nutzer und eine Anpassung an dessen jeweiligen Aussprache sowie etwaige Sprachbesonderheiten wie z.B. einen Dialekt oder Akzent, die Aussprache eines Muttersprachlers etc. erfolgen. The identification of the phonemes is typically done using various filters through which the respective input signals are processed with different frequency and time limits. The results are used as parameters in the speech recognition system, e.g. a hidden Markov model (HMM) or artificial neural networks are used. As a result, a specific response to the user concerned and an adaptation to their respective pronunciation as well as any language features such as e.g. a dialect or accent, the pronunciation of a native speaker, etc.
Bei der Nutzung von Spracherkennungssystemen tritt das Problem auf, dass bei Beginn der Verwendung eines neuen Systems i.d.R. eine gewisse Zeit für die Anpassung an den Benutzer benötigt wird, was sich insbesondere z.B. bei der Spracherkennung in einem Fahrzeug dann als umständlich oder lästig erweist, wenn diese Anpassung bei jedem Neustart eines Fahrzeuges von Neuem erfolgen muss. Zudem ist die erforderliche Lernphase insofern für den Benutzer beschwerlich, als dieser gegebenenfalls Befehle wiederholt erteilen muss oder sich falschen oder nicht erwünschten Systemreaktionen ausgesetzt sieht, wobei mitunter auch die wiederholte Erteilung einer Reihe von Befehlen erforderlich werden kann. When using speech recognition systems, the problem arises that when starting to use a new system, i.d.R. a certain amount of time is needed to adapt to the user, which is particularly important e.g. when speech recognition in a vehicle then proves to be cumbersome or annoying when this adjustment must be made every time a vehicle is restarted. In addition, the required learning phase is cumbersome for the user in that he may need to repeatedly issue commands or face false or undesirable system responses, sometimes requiring the repetitive issuance of a series of commands.
Aus
Zum weiteren Stand der Technik wird lediglich beispielhaft auf
Es ist eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung und ein Verfahren zur Spracherkennung, insbesondere in einem Fahrzeug, bereitzustellen, welche eine zuverlässige Spracherkennung unter Vermeidung der Notwendigkeit wiederholter Lernphasen ermöglichen. It is an object of the present invention to provide a speech recognition apparatus and method, particularly in a vehicle, which enable reliable speech recognition while avoiding the need for repeated learning phases.
Diese Aufgabe wird durch die Vorrichtung gemäß den Merkmalen des unabhängigen Patentanspruchs 1 bzw. das Verfahren gemäß den Merkmalen des nebengeordneten Patentanspruchs 11 gelöst. This object is achieved by the device according to the features of the independent patent claim 1 and the method according to the features of the independent claim 11.
Eine erfindungsgemäße Vorrichtung zur Spracherkennung, insbesondere in einem Fahrzeug, mit einer Verarbeitungseinheit zur Verarbeitung von Audiosignalen eines Benutzers auf Basis eines diesem Benutzer zugeordneten Benutzersprachprofils, ist dazu konfiguriert, folgende Schritte durchzuführen:
- – Speichern des Benutzersprachprofils in einem nur diesem Benutzer zugeordneten, außerhalb der Verarbeitungseinheit befindlichen externen Speicher; und
- – Automatisches Abrufen des in diesem externen Speicher gespeicherten Benutzersprachprofils bei jedem Neustart der Vorrichtung, wobei das automatisch abgerufene Benutzersprachprofil an die Verarbeitungseinheit zur Verwendung bei der Verarbeitung künftiger Audiosignale des Benutzers übermittelt wird, wobei der dem Benutzer zugeordnete Speicher in einer mobilen und tragbaren Speichervorrichtung angeordnet ist.
- Storing the user speech profile in an external memory allocated only to this user and located outside the processing unit; and
- Automatically retrieving the user speech profile stored in this external memory each time the device is rebooted, the automatically retrieved user speech profile being communicated to the processing unit for use in processing the user's future audio signals, the memory associated with the user being located in a mobile and portable storage device ,
Bei der mobilen und tragbaren Speichervorrichtung kann es sich insbesondere um einen Fahrzeugschlüssel, einen Schlüsselanhänger, ein Speicherarmband oder dergleichen handeln. In particular, the mobile and portable storage device may be a vehicle key, a key fob, a storage wristband, or the like.
Gemäß einer Ausführungsform weist das Benutzersprachprofil einen Phoneme des Benutzers enthaltenden Parametersatz auf. Dabei kann das Benutzersprachprofil insbesondere ausschließlich aus den Phonemen des Benutzers bzw. dem entsprechenden Parametersatz bestehen. According to one embodiment, the user speech profile comprises a phoneme of the user-containing parameter set. In this case, the user speech profile can in particular consist exclusively of the phonemes of the user or the corresponding parameter set.
Der vorliegenden Erfindung liegt insbesondere das Konzept zugrunde, ein Benutzersprachprofil, welches zuvor erlernte und die Aussprache bzw. das Sprachmuster eines bestimmten Benutzers betreffende Parameter umfasst, in einem nur diesem Benutzer zugeordneten, außerhalb der Verarbeitungseinheit befindlichen externen Speicher (welcher gewissermaßen ein "personalisiertes System" bzw. einen "personalisierten Speicher" darstellt) zu speichern. Dieses personalisierte System kann die betreffenden Parameter dann an die Verarbeitungseinheit der Vorrichtung zur Spracherkennung bei jedem Neustart (also z.B. insbesondere nach Motorstart eines Kraftfahrzeuges) übertragen, so dass die Notwendigkeit eines wiederholten "Trainings" der Vorrichtung zur Spracherkennung entfällt. In particular, the present invention is based on the concept of a user speech profile which comprises previously learned parameters relating to the pronunciation or speech pattern of a particular user, in only one of these User assigned external memory external to the processing unit (which effectively represents a "personalized system" or "personalized memory"). This personalized system can then transmit the relevant parameters to the processing unit of the speech recognition device at each restart (that is to say in particular after the engine has been started up), thus eliminating the need for repeated "training" of the speech recognition device.
Das erfindungsgemäß in dem „personalisierten System“ bzw. „personalisierten Speicher“ gespeicherte Benutzersprachprofil stellt hierbei einen Parametersatz dar, welcher aus den Phonemen des betreffenden Benutzers bzw. Individuums besteht. Diese Phoneme werden erfindungsgemäß genutzt, da sie sprechertypisch sind und eine Identifikation des Sprechers bzw. Benutzers und somit auch eine Anpassung der Verarbeitungseinheit in der Vorrichtung zur Spracherkennung an den jeweiligen Sprecher bzw. Benutzer erlauben. Vorzugsweise sind dabei die kompletten Phoneme bzw. Parameter in dem erfindungsgemäß gespeicherten Benutzersprachprofil enthalten. Hierdurch wird es ermöglicht, den Benutzer zu identifizieren und die Spracherkennung bzw. -verarbeitung gezielt auf diesen Benutzer abzustimmen. The user speech profile stored according to the invention in the "personalized system" or "personalized memory" represents a parameter set which consists of the phonemes of the respective user or individual. These phonemes are used according to the invention, since they are typical of a speaker and allow an identification of the speaker or user and thus also an adaptation of the processing unit in the device for speech recognition to the respective speaker or user. Preferably, the complete phonemes or parameters are contained in the user speech profile stored in accordance with the invention. This makes it possible to identify the user and to specifically tune the speech recognition or processing to this user.
Das erfindungsgemäße Konzept unterscheidet sich insbesondere von Ansätzen, bei denen ein komplettes akustisches Modell identifiziert wird, um sodann die differentiellen Änderungen bzw. Unterschiede zu einem Referenzmodell zur Sprecheridentifikation zu nutzen und zu speichern (wie z.B. in
Aufgrund des geringen Speicherbedarfs des erfindungsgemäß in dem personalisierten Speicher abgespeicherten Benutzersprachprofils bzw. Parametersatzes wird weiter die Mitführung der betreffenden Parameter auf tragbaren Speichern wie z.B. einem USB-Stick, einem Mobiltelefon oder einem anderen portablen Speicher ermöglicht. Die erfindungsgemäße Anordnung des Speichers in einer mobilen und tragbaren Speichervorrichtung hat (etwa im Vergleich zur Auslagerung von Daten in einer Cloud) insbesondere Vorteile einer jederzeit gewährleisteten Verfügbarkeit der betreffenden Daten, einer vergleichsweise hohen Geschwindigkeit der Datenübertragung sowie gegebenenfalls auch einer erhöhten Datensicherheit. Due to the small memory requirement of the user speech profile or parameter set stored according to the invention in the personalized memory, the entrainment of the relevant parameters on portable memories, such as the memory device, is further enhanced. a USB stick, a mobile phone or other portable storage. The inventive arrangement of the memory in a mobile and portable storage device has (for example in comparison to the outsourcing of data in a cloud) in particular advantages of always guaranteed availability of the relevant data, a comparatively high speed of data transmission and optionally also increased data security.
Ein weiterer Vorteil der erfindungsgemäßen Speicherung von Phonemen im Vergleich zu einer Verwendung von Differenzen zwischen einem akustischen Modell und einem Referenzmodell (etwa gemäß
Das in dem externen Speicher gespeicherte Benutzersprachprofil kann in vorteilhafter Weise fortwährend angepasst (adaptiert) werden, wenn sich z.B. signifikante bzw. zu starke Unterschiede zwischen den im gespeicherten Benutzersprachprofil enthaltenen Sprachmustern und dem jeweilig aktuell festgestellten Sprechverhalten des Benutzers ergeben, wobei solche Veränderungen z.B. auf Stress, Müdigkeit oder Krankheit des Benutzers zurückzuführen sein können. Solche Anpassungen können erfindungsgemäß besonders rasch erfolgen, da nach erstmaliger Speicherung des Benutzersprachprofils bereits ein Basissatz von zuvor erlernten Phonemen verfügbar ist und lediglich bei jedem erneuten Systemstart aus dem externen Speicher bzw. dem personalisierten System abgerufen werden muss. Etwaige Änderungen bzw. Anpassungen können in einem "Unterraum" bzw. einer Teilmenge des eigentlichen "Phonem-Raumes" vorgenommen werden, wobei dieser Unterraum wesentlich kleiner als der dieser insgesamt verfügbare "Phonem-Raum" ist, so dass die Anpassung wesentlich rascher und für den Benutzer nahezu unmerklich erfolgen kann. The user speech profile stored in the external memory may advantageously be continually adapted (adapted) when e.g. result in significant or excessive differences between the speech patterns contained in the stored user speech profile and the user's current speech behavior, such changes being e.g. may be due to stress, fatigue or illness of the user. According to the invention, such adaptations can be made particularly rapidly, since, after initial storage of the user speech profile, a basic set of previously learned phonemes is already available and only has to be called up from the external memory or the personalized system upon each new system start. Any changes or adjustments can be made in a "subspace" or a subset of the actual "phoneme room", this subspace is much smaller than this total available "phoneme room", so that the adaptation much faster and for the user can be done almost imperceptibly.
Da es sich bei dem externen Speicher bzw. personalisierten System, in welchem die erlernten Sprachparameter bzw. Phoneme (d.h. das jeweilige Benutzersprachprofil) abgespeichert werden und aus dem sie bei jedem Neustart abgerufen werden, um ein tragbares Gerät handelt, wird durch die Erfindung die Möglichkeit geschaffen, beliebige Spracherkennungssysteme sowie z.B. hiermit ausgestattete Fahrzeuge unter Nutzung der jeweiligen Parameter an den betreffenden Benutzer zu adaptieren. Es liegt somit insbesondere keine Beschränkung etwa auf ein bestimmtes Fahrzeug vor, sondern die jeweilige Anpassung sowie die entsprechende Spracherkennung können auch jederzeit in einem beliebigen anderen Fahrzeug auf robuste, zuverlässige sowie für den jeweiligen Benutzer komfortable Weise erfolgen. Dies ermöglicht insbesondere eine Anwendung in Mietfahrzeugen, Firmenfahrzeugen, beim sogenannten "Carsharing" usw. Das jeweilige Spracherkennungssystem wird hierbei in die Lage versetzt, die jeweiligen Befehle des Fahrers bzw. Benutzers ohne vorherige Trainingsphase direkt und komfortabel zu befolgen. Since the external memory or personalized system in which the learned speech parameters or phonemes (ie the respective user speech profile) are stored and from which they are retrieved each time they are restarted is a portable device, the invention makes it possible created to adapt any speech recognition systems and eg equipped hereby vehicles using the respective parameters to the user in question. There is therefore no limitation in particular to a particular vehicle before, but the respective adjustment and the corresponding speech recognition can also be done at any time in any other vehicle on robust, reliable and comfortable for each user. This allows in particular an application in rental vehicles, company vehicles, the so-called "car sharing", etc. The respective speech recognition system is hereby able to follow the respective commands of the driver or user without previous training phase directly and comfortably.
Ein weiterer Vorteil der Erfindung besteht darin, dass die Realisierung ohne zusätzlichen Hardwareaufwand und damit verbundene Kosten erfolgen kann, da bereits verfügbare Datentransfermodule genutzt werden können und die Verarbeitung der jeweiligen Phoneme bereits Bestandteil des jeweiligen vorhandenen Spracherkennungssystems ist. Another advantage of the invention is that the implementation can be done without additional hardware and associated costs, since already available data transfer modules can be used and the processing of the respective phonemes is already part of the respective existing speech recognition system.
Gemäß der Erfindung ist der dem Benutzer zugeordnete Speicher in einer mobilen und tragbaren Speichervorrichtung, insbesondere einem Fahrzeugschlüssel, Schlüsselanhänger, Speicherarmband oder dergleichen angeordnet. According to the invention, the memory associated with the user is arranged in a mobile and portable storage device, in particular a vehicle key, key fob, storage wristband or the like.
In weiteren Ausführungsformen kann das Speichern des Benutzersprachprofils ferner in einem Cloud-Speicher erfolgen. In further embodiments, storing the user voice profile may further be done in cloud storage.
Gemäß einer Ausführungsform ist die Vorrichtung ferner dazu konfiguriert, das Speichern des Benutzersprachprofils und/oder das Abrufen des Benutzersprachprofils über eine drahtlose Datenübertragung vorzunehmen, was weiter insbesondere auch jeweils unter Nutzung eines Verschlüsselungs- und/oder Passwortschutzes erfolgen kann. Der Datentransfer kann hierbei auf eine begrenzte Zahl von Phonemen beschränkt werden, um eine Überschreitung der Kapazität der jeweiligen Kommunikation bzw. Datenübertragungskanäle zu vermeiden. According to one embodiment, the device is further configured to store the user voice profile and / or the retrieval of the user voice profile via a wireless data transmission, which can also be done in particular in each case using an encryption and / or password protection. The data transfer can be limited to a limited number of phonemes in order to avoid exceeding the capacity of the respective communication or data transmission channels.
Gemäß einer Ausführungsform ist die Vorrichtung ferner dazu konfiguriert, eine automatische Anpassung des Benutzersprachprofils an ein aktuelles Sprachmuster des Benutzers vorzunehmen. In one embodiment, the device is further configured to automatically adapt the user voice profile to a current voice pattern of the user.
Gemäß einer Ausführungsform ist die Vorrichtung ferner dazu konfiguriert, das an die Verarbeitungseinheit zur Verwendung bei der Verarbeitung künftiger Audiosignale des Benutzers übermittelte Benutzersprachprofil in Abhängigkeit von einem erfassten aktuellen Zustand des Benutzers anzupassen. In one embodiment, the device is further configured to adjust the user speech profile provided to the processing unit for use in processing future audio signals of the user in response to a detected current state of the user.
Gemäß einer Ausführungsform ist die Vorrichtung ferner dazu konfiguriert, das an die Verarbeitungseinheit zur Verwendung bei der Verarbeitung künftiger Audiosignale des Benutzers übermittelte Benutzersprachprofil anzupassen, wenn bei der Verarbeitung von Audiosignalen des Benutzers eine verminderte Separierbarkeit aufeinanderfolgender Phoneme und/oder eine Abnahme der Erkennungsrate von Phonemen festgestellt wird. According to one embodiment, the apparatus is further configured to adjust the user speech profile communicated to the processing unit for use in processing future audio signals of the user when degrading successive phonemes and / or decreasing the recognition rate of phonemes during processing of the user's audio signals becomes.
Gemäß einer Ausführungsform ist die Vorrichtung ferner dazu konfiguriert, auf Basis einer Abweichung zwischen dem im externen Speicher gespeicherten Benutzersprachprofil und einem aktuellen Sprachmuster des Benutzers die Erzeugung eines Warnsignals zu veranlassen. In one embodiment, the device is further configured to cause the generation of a warning signal based on a deviation between the user speech profile stored in the external memory and a current speech pattern of the user.
Die Erfindung betrifft weiter auch ein Verfahren zur Spracherkennung, insbesondere in einem Fahrzeug, mit einer Verarbeitungseinheit zur Verarbeitung von Audiosignalen eines Benutzers auf Basis eines diesem Benutzer zugeordneten Benutzersprachprofils, wobei das Verfahren folgende Schritte aufweist:
- – Speichern des Benutzersprachprofils in einem nur diesem Benutzer zugeordneten, außerhalb der Verarbeitungseinheit befindlichen externen Speicher; und
- – Automatisches Abrufen des in diesem externen Speicher gespeicherten Benutzersprachprofils bei jedem Neustart der Vorrichtung, wobei das automatisch abgerufene Benutzersprachprofil an die Verarbeitungseinheit zur Verwendung bei der Verarbeitung künftiger Audiosignale des Benutzers übermittelt wird, wobei der dem Benutzer zugeordnete Speicher in dieser mobilen und tragbaren Speichervorrichtung angeordnet ist.
- Storing the user speech profile in an external memory allocated only to this user and located outside the processing unit; and
- Automatically retrieving the user speech profile stored in this external memory each time the device is restarted, wherein the automatically retrieved user speech profile is communicated to the processing unit for use in processing future audio signals of the user, the memory associated with the user being located in that mobile and portable storage device ,
Zu Vorteilen sowie bevorzugten Ausgestaltungen des Verfahrens wird auf die vorstehenden Ausführungen im Zusammenhang mit der erfindungsgemäßen Vorrichtung Bezug genommen. For advantages and preferred embodiments of the method, reference is made to the above statements in connection with the device according to the invention.
Weitere Ausgestaltungen der Erfindung sind der Beschreibung sowie den Unteransprüchen zu entnehmen. Further embodiments of the invention are described in the description and the dependent claims.
Die Erfindung wird nachstehend anhand eines in der beigefügten Abbildung dargestellten Ausführungsbeispiels näher erläutert. The invention is explained below with reference to an embodiment shown in the accompanying figure.
Die einzige
Die erfindungsgemäße Vorrichtung zur Spracherkennung weist zunächst eine Verarbeitungseinheit zur Verarbeitung von Audiosignalen eines Benutzers auf Basis eines diesem Benutzer zugeordneten Benutzersprachprofils auf. Diese Verarbeitungseinheit kann gemäß
Erfindungsgemäß werden diese Phoneme in einem nur diesem Benutzer zugeordneten, außerhalb der Verarbeitungseinheit befindlichen externen Speicher (also gewissermaßen einem "personalisierten System" bzw. "personalisierten Speicher") gespeichert, wobei es sich bei dieser personalisierten Vorrichtung beispielsweise, wie in
Die in der betreffenden personalisierten Vorrichtung bzw. dem personalisierten externen Speicher abgespeicherten Phoneme werden sodann bei jedem Neustart der Vorrichtung zur Spracherkennung bzw. des Fahrzeugs
Im Betrieb kann eine kontinuierliche Anpassung der Phoneme erfolgen, um z.B. etwaigen Änderungen in der Zeit/Frequenz-Charakteristik der Aussprache des betreffenden Benutzers bzw. Fahrers Rechnung zu tragen. Insbesondere kann auch eine automatische Anpassung des Benutzersprachprofils erfolgen, wenn sich zu starke Veränderungen bzw. Abweichungen zwischen den gespeicherten Sprachmustern und den aktuellen Sprachmustern des jeweiligen Benutzers (z.B. infolge von Stress, Müdigkeit oder Krankheit) ergeben oder wenn eine zunehmende Einschränkung der Separierbarkeit aufeinanderfolgender Phoneme und/oder eine geringere Erkennungsrate etwa infolge Krankheit oder Übermüdung des Benutzers bzw. Fahrers festgestellt wird. In operation, a continuous adjustment of the phonemes may be carried out, e.g. to take account of any changes in the time / frequency characteristics of the pronunciation of the user or driver concerned. In particular, an automatic adaptation of the user speech profile can also take place if there are excessive changes or deviations between the stored speech patterns and the current speech patterns of the respective user (eg as a result of stress, fatigue or illness) or if there is an increasing limitation on the separability of successive phonemes and speech / or a lower detection rate is determined, for example due to illness or fatigue of the user or driver.
In Ausführungsformen der Erfindung kann auf Basis der jeweiligen Abweichungen zwischen den abgespeicherten Sprachmustern und den aktuellen Sprachmustern des betreffenden Benutzers auch auf den Zustand des Benutzers bzw. Fahrers geschlossen werden, wobei auch entsprechende Warnungen (z.B. hinsichtlich einer Übermüdung des Fahrers) generiert oder unterstützt werden können. In embodiments of the invention, based on the respective deviations between the stored speech patterns and the current speech patterns of the user in question can also be concluded on the state of the user or driver, with corresponding warnings (eg in terms of fatigue of the driver) can be generated or supported ,
In weiteren Ausführungsformen der Erfindung kann auch ein bestimmter Satz von Phonemen basierend auf dem zuvor ermittelten Fahrerzustand (z.B. "krank", "gestresst", "übermüdet", "normal" etc.) automatisch und "intelligent" ausgewählt werden, wobei in diesem Falle eine vorherige Erfassung des Fahrerzustandes (z.B. auf Basis einer spektralen und/oder cepstralen Analyse) erfolgen kann. In further embodiments of the invention, a particular set of phonemes may also be automatically and "intelligently" selected based on the previously determined driver state (eg, "sick," "stressed," "fatigued," "normal," etc.), in which case a prior detection of the driver state (eg based on a spectral and / or cepstral analysis) can be done.
ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- EP 1678008 B1 [0005] EP 1678008 B1 [0005]
- US 8447598 B2 [0006] US 8447598 B2 [0006]
- DE 102006056286 A1 [0006] DE 102006056286 A1 [0006]
- WO 2013/169232 A1 [0006] WO 2013/169232 A1 [0006]
- US 2014/0039881 A1 [0006] US 2014/0039881 A1 [0006]
- WO 2003/169232 A1 [0014, 0016] WO 2003/169232 A1 [0014, 0016]
Zitierte Nicht-PatentliteraturCited non-patent literature
- „Comparison of Grapheme and Phoneme Based Acoustic Modeling in LVCSR Task in Slovak“ Lecture Notes in Computer Science Volume 5398, 2009, S. 242–247, Michal Mirilovic et al. [0014] "Comparison of Grapheme and Phoneme Based Acoustic Modeling in LVCSR Task in Slovak" Lecture Notes in Computer Science Volume 5398, 2009, pp. 242-247, Michal Mirilovic et al. [0014]
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102015107601.2A DE102015107601A1 (en) | 2014-05-16 | 2015-05-13 | Device and method for speech recognition, in particular in a vehicle |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102014209360 | 2014-05-16 | ||
DE102014209360.0 | 2014-05-16 | ||
DE102015107601.2A DE102015107601A1 (en) | 2014-05-16 | 2015-05-13 | Device and method for speech recognition, in particular in a vehicle |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102015107601A1 true DE102015107601A1 (en) | 2015-11-19 |
Family
ID=54361839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102015107601.2A Ceased DE102015107601A1 (en) | 2014-05-16 | 2015-05-13 | Device and method for speech recognition, in particular in a vehicle |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102015107601A1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006056286A1 (en) | 2006-11-29 | 2008-06-12 | Audi Ag | A method of reproducing text information by voice in a vehicle |
EP1678008B1 (en) | 2003-10-21 | 2009-03-25 | Johnson Controls Technology Company | System and method for selecting a user speech profile for a device in a vehicle |
US8447598B2 (en) | 2007-12-05 | 2013-05-21 | Johnson Controls Technology Company | Vehicle user interface systems and methods |
WO2013169232A1 (en) | 2012-05-08 | 2013-11-14 | Nuance Communications, Inc. | Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition |
US20140039881A1 (en) | 2012-05-31 | 2014-02-06 | Elwha LLC, a limited liability company of the State of Delaware | Speech recognition adaptation systems based on adaptation data |
-
2015
- 2015-05-13 DE DE102015107601.2A patent/DE102015107601A1/en not_active Ceased
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1678008B1 (en) | 2003-10-21 | 2009-03-25 | Johnson Controls Technology Company | System and method for selecting a user speech profile for a device in a vehicle |
DE102006056286A1 (en) | 2006-11-29 | 2008-06-12 | Audi Ag | A method of reproducing text information by voice in a vehicle |
US8447598B2 (en) | 2007-12-05 | 2013-05-21 | Johnson Controls Technology Company | Vehicle user interface systems and methods |
WO2013169232A1 (en) | 2012-05-08 | 2013-11-14 | Nuance Communications, Inc. | Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition |
US20140039881A1 (en) | 2012-05-31 | 2014-02-06 | Elwha LLC, a limited liability company of the State of Delaware | Speech recognition adaptation systems based on adaptation data |
Non-Patent Citations (1)
Title |
---|
"Comparison of Grapheme and Phoneme Based Acoustic Modeling in LVCSR Task in Slovak" Lecture Notes in Computer Science Volume 5398, 2009, S. 242-247, Michal Mirilovic et al. |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102019119171A1 (en) | VOICE RECOGNITION FOR VEHICLE VOICE COMMANDS | |
DE102014109121A1 (en) | Systems and methods for arbitrating a voice dialogue service | |
DE102018113034A1 (en) | VOICE RECOGNITION SYSTEM AND VOICE RECOGNITION METHOD FOR ANALYZING A COMMAND WHICH HAS MULTIPLE INTENTIONS | |
DE102010034433B4 (en) | Method of recognizing speech | |
DE112015006831T5 (en) | Dynamic acoustic model for vehicle | |
WO2014166601A1 (en) | Method and device for proactive dialogue guidance | |
DE102015106280B4 (en) | Systems and methods for compensating for speech artifacts in speech recognition systems | |
EP3095114B1 (en) | Method and system for generating a control command | |
DE102015121098A1 (en) | Multimodal answer to a multimodal search | |
EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
EP1182646A2 (en) | Classification method of phonemes | |
DE112008001763T5 (en) | Speech recognition device and navigation system | |
WO2001086634A1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
DE102018219290A1 (en) | Method for teaching a personalized headlight device of a motor vehicle | |
DE102013219649A1 (en) | Method and system for creating or supplementing a user-specific language model in a local data memory connectable to a terminal | |
DE102014209358A1 (en) | Device and method for speech recognition, in particular in a vehicle | |
DE102005030965A1 (en) | Extension of the dynamic vocabulary of a speech recognition system by further voice enrollments | |
DE102015107601A1 (en) | Device and method for speech recognition, in particular in a vehicle | |
DE102018126056A1 (en) | Method and computer program for transcribing a recorded voice communication | |
EP3735688B1 (en) | Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing | |
DE102016008862A1 (en) | Method for configuring a voice-controlled operating device, voice-controlled operating device and motor vehicle | |
EP3115886A1 (en) | Method for operating a voice controlled system and voice controlled system | |
DE102017213946A1 (en) | A method of rendering a recognition result of an automatic online speech recognizer for a mobile terminal and a mediation apparatus | |
DE102020129604A1 (en) | METHOD OF VOICE CONTROL OF TECHNICAL EQUIPMENT | |
DE102023112333A1 (en) | METHOD FOR VOICE CONTROL OF TECHNICAL DEVICES |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0015220000 Ipc: G10L0015070000 |
|
R016 | Response to examination communication | ||
R002 | Refusal decision in examination/registration proceedings | ||
R003 | Refusal decision now final |