DE102018133694A1 - Method for improving the speech recognition of a user interface - Google Patents
Method for improving the speech recognition of a user interface Download PDFInfo
- Publication number
- DE102018133694A1 DE102018133694A1 DE102018133694.2A DE102018133694A DE102018133694A1 DE 102018133694 A1 DE102018133694 A1 DE 102018133694A1 DE 102018133694 A DE102018133694 A DE 102018133694A DE 102018133694 A1 DE102018133694 A1 DE 102018133694A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- prosodic
- procedure according
- text
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
Die Erfindung betrifft ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle (Mensch-Maschine-Schnittstelle), welches die Schritte umfasst: Aufnehmen von menschlicher Sprache über ein oder mehrere Mikrophone, Erfassen von einem oder mehreren prosodischen Merkmalen der aufgenommenen Sprache, Umwandeln der aufgenommen Sprache in Text, Erkennen des Inhalts des umgewandelten Textes, wobei das Verfahren dadurch gekennzeichnet ist, dass man die erfassten prosodischen Merkmale zur Verbesserung der Genauigkeit bei der Umwandlung der aufgenommenen Sprache in Text und bei der Erkennung des Inhaltes des umgewandelten Textes verwendet.The invention relates to a method for improving the speech recognition of a user interface (human-machine interface), which comprises the steps: recording human speech via one or more microphones, recording one or more prosodic features of the recorded speech, converting the recorded speech into Text, recognizing the content of the converted text, the method being characterized in that the detected prosodic features are used to improve the accuracy in converting the recorded speech into text and in recognizing the content of the converted text.
Description
Die vorliegende Erfindung betrifft ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle, insbesondere die Verbesserung der Spracherkennung der Dialogschnittstelle eines Fahrerinformationssystems oder, allgemeiner, eines Nutzerinformationssystems von Kraftfahrzeugen.The present invention relates to a method for improving the speech recognition of a user interface, in particular the improvement of the speech recognition of the dialog interface of a driver information system or, more generally, a user information system of motor vehicles.
Die Benutzerschnittstellen zwischen einem menschlichen Benutzer und einem Datenverarbeitungssystem (Mensch-Maschine-Schnittstelle), bei dem Nutzereingaben mittels gesprochener Sprache erfolgen, weisen ein Spracherkennungssystem auf, bei dem Spracheingaben über ein oder mehrere Mikrofone als Audiosignale aufgenommen werden, die aufgenommene Sprache in Text umgewandelt wird und der Inhalt des umgewandelten Textes erkannt wird. Die Texterkennung zielt insbesondere darauf ab, Befehle, Fragen usw. des Nutzers zu erkennen. In einfachen Spracherkennungssystemen wird der erkannte Text mit einer vorgegebenen Datenbank von bekannten Befehlen, Fragen usw. abgeglichen. Moderne Spracherkennungssysteme nutzen darüber hinaus Konzepte der Artificial Intelligence (AI) bei denen die Spracherkennung beispielsweise durch selbstlernende neuronale Netzwerke verbessert wird. Moderne Spracherkennungssysteme unterziehen das Sprachsignal zunächst einer Signalanalyse, dann werden mittels Unit Matching einzelnen Sprachbauteile identifiziert, die anschließend lexikalische dekodiert werden. Nach einer syntaktische und semantischen Analyse bei denen die Interpretationsmöglichkeiten auf syntaktisch und semantisch korrekte Aussagen reduziert werden, wird die erkannte Wortfolge generiert.The user interfaces between a human user and a data processing system (human-machine interface), in which user input takes place by means of spoken language, have a speech recognition system in which voice inputs are recorded as audio signals via one or more microphones, and the recorded speech is converted into text and the content of the converted text is recognized. The text recognition aims in particular to recognize commands, questions, etc. of the user. In simple speech recognition systems, the recognized text is compared with a predefined database of known commands, questions, etc. Modern speech recognition systems also use artificial intelligence (AI) concepts in which speech recognition is improved, for example, by self-learning neural networks. Modern speech recognition systems first subject the speech signal to a signal analysis, then individual speech components are identified using unit matching, which are then decoded lexically. After a syntactic and semantic analysis in which the possibilities of interpretation are reduced to syntactically and semantically correct statements, the recognized word sequence is generated.
Insbesondere im Kontext von Fahrerinformationssystemen von Kraftfahrzeugen stellt die Spracherkennung eine besondere Herausforderung dar, da einerseits bereits die Umwandlung der aufgenommenen Sprache in Text auf Grund von Nebengeräuschen schwierig ist und da andererseits das Hauptaugenmerk des Nutzers, typischerweise des Fahrer des Kraftfahrzeugs, nicht auf dem Dialog mit der Benutzerschnittstelle, sondern auf das Führen des Kraftfahrzeugs gerichtet ist. Spracheingaben im Fahrzeugumfeld folgen daher typischerweise nicht mit der gleichen Genauigkeit wie in einem ruhigeren Umfeld.In particular in the context of driver information systems of motor vehicles, speech recognition represents a particular challenge, since on the one hand the conversion of the recorded speech into text is difficult due to background noise and on the other hand the main focus of the user, typically the driver of the motor vehicle, is not on the dialogue with the user interface, but is directed to driving the motor vehicle. Voice inputs in the vehicle environment therefore typically do not follow with the same accuracy as in a quieter environment.
Aus dem Stand der Technik sind bereits Vorschläge zur Verbesserung der Spracherkennung in Kraftfahrzeugen bekannt. In der US-Patentanmeldung
In der internationalen Patentanmeldung
Unter prosodischen Merkmalen bezeichnet man dabei in der Linguistik typischerweise die Gesamtheit derjenigen lautlichen Eigenschaften einer Sprache, die nicht an einen Laut bzw. an ein Phonem als minimales Segment, sondern an umfassendere lautliche Einheiten gebunden sind. Dazu gehören die Wort- und Satzakzente, der auf Wortsilben ruhende lexikalische Ton, die Intonation von lautlichen Einheiten von mehr als Silben umfassen und Satzmelodie, die Quantität aller lautlichen Einheiten, vor allem derjenigen von mehr als Segmentumfang sowie Sprachtempo, Sprachrhythmus und Sprechpausen. Prosodische Merkmale wie Intonation, Sprechrhythmus und Akzent sind typische mit psychoakustischen Merkmale und können prinzipiell durch physikalisch messbaren Merkmalen beschrieben werden.In linguistics, prosodic characteristics typically refer to the entirety of the phonetic properties of a language that are not bound to a sound or a phoneme as a minimal segment, but to more extensive phonetic units. This includes the accents of words and sentences, the lexical sound based on word syllables, the intonation of phonetic units of more than syllables and sentence melody, the quantity of all phonetic units, especially those of more than segment size, as well as the pace, rhythm and pauses of speech. Prosodic features such as intonation, speaking rhythm and accent are typical with psychoacoustic features and can in principle be described by physically measurable features.
Da bestimmte prosodische Merkmale für unterschiedliche Sprachen unterschiedlich ausgeprägt sind, wird in
Der vorliegenden Erfindung liegt das technische Problem zu Grunde, die Spracherkennung einer zur Benutzerschnittstelle, insbesondere einer Benutzerschnittstelle eines Fahrerinformationssystems weiter zu verbessern.The present invention is based on the technical problem of further improving the speech recognition of a user interface, in particular a user interface, of a driver information system.
Gelöst wird dieses technische Problem durch das Verfahren des Anspruchs 1. Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens sind Gegenstand der abhängigen Patentansprüche.This technical problem is solved by the method of claim 1. Advantageous developments of the method according to the invention are the subject of the dependent claims.
Die Erfindung betrifft demnach ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle (Mensch-Maschine-Schnittstelle), welches die Schritte umfasst:
- Aufnehmen von menschlicher Sprache über ein oder mehrere Mikrofone, Erfassen von einem oder mehrere prosodischen Merkmalen der aufgenommenen Sprache, Umwandeln der aufgenommenen Sprache in Text, Erkennen des Inhalts des umgewandelten Textes, wobei das erfindungsgemäße Verfahren dadurch gekennzeichnet ist, dass man die erfassten prosodischen Merkmale nicht nur bei der Verbesserung der Genauigkeit bei der Umwandlung der aufgenommenen Sprache in Text, sondern auch bei der Erkennung des Inhalts des umgewandelten Textes verwendet.
- Recording human speech through one or more microphones, detecting one or more prosodic features of the recorded speech, converting the recorded speech into text, recognizing the content of the converted text, the The method according to the invention is characterized in that the detected prosodic features are used not only to improve the accuracy in converting the recorded speech into text, but also to recognize the content of the converted text.
Im Gegensatz zum Verfahren der
Gemäß einer bevorzugten Ausführungsform der Erfindung werden prosodische Merkmale zur Interpunktionserkennung herangezogen, beispielsweise zur Erkennung von Kommata und anderen Satzzeichen. Geeignete prosodische Elemente zur Interpunktionserkennung sind beispielsweise der Tonhöhenverlauf und die Verteilung von Sprechpausen.According to a preferred embodiment of the invention, prosodic features are used for punctuation recognition, for example for recognizing commas and other punctuation marks. Suitable prosodic elements for punctuation recognition are, for example, the pitch curve and the distribution of pauses in speech.
Gemäß einer weiteren Ausführungsform der Erfindung werden prosodische Elemente zur Bestimmung eines Satztyps (Adherence-Form) herangezogen. Bevorzugt wird dabei insbesondere zwischen Fragen, Aussagen und Kommandos unterschieden. Als geeignete prosodische Elemente werden dabei die relative Tonhöhe, beispielsweise am Satzende, der relative Tonhöhenverlauf sowie die relative Lautstärkenverteilung herangezogen. Vorzugsweise werden die erfassten prosodischen Elemente zu einem einzelnen Wert (Score) zusammengefasst, der einen vorgegebenen Wertebereich annehmen kann und dabei die Wahrscheinlichkeit ausdrückt, dass es sich bei einem bestimmten Satz um einen Fragesatz, eine Aussage oder um ein Kommando handelt. Beispielsweise kann ein Kommando einem Score-Wert von -10 zugeordnet werden, eine Frage einem Score von +10 und eine Aussage einen Score von 0.According to a further embodiment of the invention, prosodic elements are used to determine a sentence type (adherence form). A distinction is made in particular between questions, statements and commands. The relative pitch, for example at the end of the sentence, the relative pitch and the relative volume distribution are used as suitable prosodic elements. The detected prosodic elements are preferably combined into a single value (score) which can assume a predetermined value range and thereby express the probability that a certain sentence is a question sentence, a statement or a command. For example, a command can be assigned a score of -10, a question a score of +10 and a statement a score of 0.
Gemäß einer weiteren Variante des Verfahrens werden prosodische Merkmale ausgewertet, um einzelnen Wörtern oder Satzbestandteilen einen Nachdruck-Wert (Emphasis) zuzuordnen. Als prosodische Merkmale können relative Tonhöhe, relative Lautstärke sowie eine Reduktion der Sprechgeschwindigkeit und/oder eine Pause herangezogen werden. Eine derartige Auswertung erlaubt es beispielsweise identische Sätze auf Grund unterschiedliche Emphasis-Werte unterschiedlich zu bearbeiten. Beispielsweise kann in dem Satz „ What do you mean?“ eine erkannte Betonung auf „what“ als akustisches Verständigungsproblem interpretiert werden, während eine Betonung auf „mean“ als semantisches Verständigungsproblem interpretiert werden kann. So kann die Nutzerschnittstelle im ersten Fall eine identische Ausgabe lauter und/oder langsamer wiederholen, während im zweiten Fall eine zusätzliche Erläuterung ausgegeben werden kann.According to a further variant of the method, prosodic features are evaluated in order to assign a emphasis value (emphasis) to individual words or parts of sentences. Relative pitch, relative volume as well as a reduction in speech speed and / or a pause can be used as prosodic features. Such an evaluation allows, for example, identical sentences to be processed differently on the basis of different emphasis values. For example, in the sentence "What do you mean?", A recognized emphasis on "what" can be interpreted as an acoustic communication problem, while an emphasis on "mean" can be interpreted as a semantic communication problem. In the first case, the user interface can repeat an identical output louder and / or more slowly, while in the second case an additional explanation can be output.
Gemäß einer weiteren Variante des erfindungsgemäßen Verfahrens werden prosodische Merkmale zur Identifikation von Sprachpartikeln herangezogen. Die Identifikation von Sprachpartikeln nutzt ähnliche prosodische Merkmale wie die Interpunktionserkennung und kann besonders bevorzugt parallel zur Interpunktionserkennung stattfinden. Identifizierte Sprachpartikel können einerseits in vielen Fällen für die rein semantische Erkennung eines Satzes weggelassen werden, können andererseits aber auch für eine tiefer gehende Interpretation der Intension des Sprechers herangezogen werden. Ferner sind viele Fahrerinformationssysteme von Kraftfahrzeugen dialogische Systeme, d. h. es werden nicht nur Kommandos des Nutzers erfasst, sondern es werden auch Antworten des Fahrerinformationssystems generiert.According to a further variant of the method according to the invention, prosodic features are used to identify speech particles. The identification of speech particles uses similar prosodic features as the punctuation recognition and can particularly preferably take place parallel to the punctuation recognition. On the one hand, identified speech particles can be omitted in many cases for the purely semantic recognition of a sentence, but on the other hand they can also be used for a more in-depth interpretation of the speaker's intent. Furthermore, many driver information systems of motor vehicles are dialogical systems, i. H. Not only are commands from the user recorded, but responses from the driver information system are also generated.
Wenn das erfindungsgemäße Verfahren außerdem ein Modul zur Erzeugung eines Dialogs aufweist, können bei der Umwandlung von Text in Sprache, die dann typischerweise über Lautsprecher ausgegeben wird, die bei der Spracherkennung identifizierten Sprachpartikel verwendet werden, um eine individuelle Sprechweise des Nutzers auch bei der Sprachausgabe zu imitieren. Der Nutzer findet so seine eigene Sprechweise in der computergenerierten Sprachausgabe des Fahrerinformationssystems wieder was meist einen vertrauensvolleren Umgang mit dem technischen System begünstigt. Eine derartige Rückkopplung eine technischen Systems auf emotionaler Ebene wird insbesondere dann wichtig, wenn Fahrzeuge ein höheres Niveau an Autonomie erhalten und immer mehr Aufgaben des Nutzers/Fahrers übernehmen.If the method according to the invention also has a module for generating a dialog, when converting text into speech, which is then typically output via loudspeakers, the speech particles identified in the speech recognition can be used in order to allow the user to speak individually, even when speaking imitate. The user thus finds his own way of speaking in the computer-generated voice output of the driver information system, which usually favors a more trusting handling of the technical system. Such a feedback of a technical system on an emotional level becomes particularly important when vehicles receive a higher level of autonomy and take on more and more tasks of the user / driver.
Gemäß einer weiteren Variante der Erfindung werden prosodische Elemente zur Auswertung der Sprechgeschwindigkeit herangezogen. Typischerweise können aus dem erkannten Text Werte wie Buchstaben pro Minute/Worte pro Minute/Sätze pro Minute ausgewertet werden. Auch typische Satzlängen (Worte pro Satz) können erfasst werden. Die erkannte Sprechgeschwindigkeit ist einerseits häufig ein Maß für die Dringlichkeit einer Nutzeranfrage oder eines Nutzerkommandos, insbesondere wenn die Sprechgeschwindigkeit höher als die durchschnittliche Sprechgeschwindigkeit des spezifischen Nutzers ist. Andererseits kann auch die durchschnittliche Sprechgeschwindigkeit eines Nutzers herangezogen werden, um entsprechende Sprachausgaben des Systems an die typische Sprechgeschwindigkeit des Nutzers anzupassen, da eine besonders hohe beziehungsweise besonders niedrige Sprechgeschwindigkeit typischerweise auch mit einer entsprechenden Erwartungshaltung bei der Erfassung der vom System wiedergegebenen Sprachinformationen korrigiert.According to a further variant of the invention, prosodic elements are used to evaluate the speaking speed. Typically, values such as letters per minute / words per minute / sentences per minute can be evaluated from the recognized text. Typical sentence lengths (words per sentence) can also be recorded. On the one hand, the recognized speech speed is often a measure of the urgency of a user request or a user command, in particular if the speech speed is higher than the average speech speed of the specific user. On the other hand, the average speech speed of a user can also be used to adapt the corresponding speech outputs of the system to the typical speech speed of the user, since a particularly high or particularly low speech speed typically also with a corresponding expectation when recording the Corrected voice information reproduced by the system.
Gemäß einer weiteren Variante des erfindungsgemäßen Verfahrens wird aus dem prosodischen Sprachelement ein Aufmerksamkeitswert (Focus-Score) des Nutzers generiert, d. h. es wird ermittelt, in welchem Ausmaß der Nutzer seine Aufmerksamkeit den Dialog mit dem Fahrerinformationssystem zuwendet beziehungsweise zuwenden kann. Hierzu können beispielsweise die Anzahl der Sprachpartikel in einer bestimmten Zeiteinheit, Sprechpausen und wiederum die Sprechgeschwindigkeit ausgewertet werden.According to a further variant of the method according to the invention, an attention value (focus score) of the user is generated from the prosodic speech element, ie. H. It is determined to what extent the user turns his or her attention to the dialogue with the driver information system. For this purpose, for example, the number of speech particles in a certain time unit, pauses in speech and, in turn, the speaking speed can be evaluated.
Gemäß einer Variante des erfindungsgemäßen Verfahrens werden die Erfassung von prosodischen Merkmalen mit der Erfassung von nicht sprachlichen Merkmalen des Nutzers kombiniert. Beispielsweise kann eine Kamera vorgesehen sein, um Geschlecht und/oder Alter des Nutzers zu bestimmen.According to a variant of the method according to the invention, the detection of prosodic features is combined with the detection of non-linguistic features of the user. For example, a camera can be provided to determine the gender and / or age of the user.
Gemäß einer Variante des Verfahrens wird die erkannte Sprache in einem Dialogmodul verarbeitet, welches aus der Spracherkennung eine kontextsensitive Antwort auf Nutzereingaben generiert. Das Dialogmodul umfasst einen Sprachgenerator zur Erzeugung einer natürlichen Sprache, der zunächst eine textbasierte Antwort generiert, welche von den eigentlichen Sprachmodulen in gesprochene Sprache umgewandelt wurde. Die gesprochene Sprache wird dann über ein oder mehrere Lautsprecher ausgegeben. Außerdem kann bei der Spracherkennung eine Emotionserkennung vorgesehen sein, die durch Analyse der in Text umgewandelten Sprache, wie auch der aufgezeichneten Sprache selbst einen Emotionalitätswert des Sprechers festlegt. Beispielsweise kann aus verwendeten Begriffen (beispielsweise bei der Verwendung von Schimpfwörtern) ermittelt werden, ob der Nutzer wütend ist. Ferner kann auch Tonhöhe und relative Lautstärke in die Erfassung des Emotionswertes einfließen.According to a variant of the method, the recognized language is processed in a dialog module, which generates a context-sensitive response to user input from the speech recognition. The dialog module comprises a language generator for generating a natural language, which first generates a text-based answer which has been converted into spoken language by the actual language modules. The spoken language is then output through one or more speakers. In addition, emotion recognition can be provided in speech recognition, which determines an emotional value of the speaker by analyzing the speech converted into text, as well as the recorded speech itself. For example, terms used (for example when using swear words) can be used to determine whether the user is angry. Pitch and relative volume can also be included in the recording of the emotional value.
Die erfindungsgemäße ebenfalls vorgesehene prosodische Analyse kann sowohl in die Spracherkennung, in die Emotionserfassung als auch auf der Ausgabenseite in die Sprachgenerierung einfließen.The prosodic analysis according to the invention, which is also provided, can flow into speech recognition, emotion detection and, on the expenditure side, into speech generation.
Das erfindungsgemäße Verfahren kann in unterschiedlichsten Benutzerschnittstellen zu Geräten, die eine Spracheingabe erwarten oder ermöglichen, implementiert sein. Besonders bevorzugt wird das erfindungsgemäße Verfahren in Fahrerinformationssystemen von Kraftfahrzeugen implementiert. Ebenso lässt sich das erfindungsgemäße Verfahren auf jedem Mobiltelefon, Tablet oder Laptopcomputer oder auch auf stationären Systemen wie Desktopcomputern oder anderen Systemen mit sprachgesteuerter Nutzerschnittstelle, wie beispielsweise Bushaltestellen, Tankstellen, an Mautstationen und Ähnlichem implementieren.The method according to the invention can be implemented in a wide variety of user interfaces to devices that expect or enable voice input. The method according to the invention is particularly preferably implemented in driver information systems of motor vehicles. The method according to the invention can also be implemented on any mobile phone, tablet or laptop computer or on stationary systems such as desktop computers or other systems with a voice-controlled user interface, such as bus stops, petrol stations, at toll stations and the like.
Die Erfindung wird im Folgenden anhand der beigefügten Zeichnung näher erläutert.The invention is explained in more detail below with reference to the accompanying drawing.
In der Zeichnung zeigt:
-
1 ein schematischen Diagramms der Spracherfassung und Generierung näher erläutert.
-
1 a schematic diagram of language acquisition and generation explained in more detail.
Im Diagramm der
Wie dargestellt fließen die Ergebnisse der Prosodie-Analyse in das Sprachsynthese-Modul
BezugszeichenlisteReference list
- 1010th
- NutzerUsers
- 1111
- Mikrophonmicrophone
- 1212th
- Sprache-in-Text-KonverterSpeech to text converter
- 1313
- SpracherkennungsmodulSpeech recognition module
- 1414
- Emotionsanalyse-ModulEmotion analysis module
- 1515
- Prosodie-ModulProsody module
- 16 16
- Dialog-ModulDialog module
- 1717th
- SprachsynthesmodulSpeech synthesis module
- 1818th
- Text-in-Sprache-KonverterText to speech converter
- 1919th
- Lautsprecherspeaker
ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant has been generated automatically and is only included for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent literature cited
- US 2017/0229120 A1 [0004]US 2017/0229120 A1 [0004]
- WO 2016/012108 A1 [0005, 0007, 0011]WO 2016/012108 A1 [0005, 0007, 0011]
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102018133694.2A DE102018133694B4 (en) | 2018-12-28 | 2018-12-28 | Method for improving the speech recognition of a user interface |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102018133694.2A DE102018133694B4 (en) | 2018-12-28 | 2018-12-28 | Method for improving the speech recognition of a user interface |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102018133694A1 true DE102018133694A1 (en) | 2020-07-02 |
DE102018133694B4 DE102018133694B4 (en) | 2023-09-07 |
Family
ID=71079505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102018133694.2A Active DE102018133694B4 (en) | 2018-12-28 | 2018-12-28 | Method for improving the speech recognition of a user interface |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102018133694B4 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6721706B1 (en) * | 2000-10-30 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Environment-responsive user interface/entertainment device that simulates personal interaction |
US20050182619A1 (en) * | 2004-02-18 | 2005-08-18 | Fuji Xerox Co., Ltd. | Systems and methods for resolving ambiguity |
US20120316875A1 (en) * | 2011-06-10 | 2012-12-13 | Red Shift Company, Llc | Hosted speech handling |
US20150120281A1 (en) * | 2013-10-30 | 2015-04-30 | Lenovo (Singapore) Pte. Ltd. | Automatic sentence punctuation |
WO2016012108A1 (en) | 2014-07-23 | 2016-01-28 | Bayerische Motoren Werke Aktiengesellschaft | Improvement of voice recognition in a vehicle |
US20170229120A1 (en) | 2014-11-24 | 2017-08-10 | Audi Ag | Motor vehicle operating device with a correction strategy for voice recognition |
DE102016204315A1 (en) * | 2016-03-16 | 2017-09-21 | Bayerische Motoren Werke Aktiengesellschaft | Means of transport, system and method for adjusting a length of a permitted speech break in the context of a voice input |
-
2018
- 2018-12-28 DE DE102018133694.2A patent/DE102018133694B4/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6721706B1 (en) * | 2000-10-30 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Environment-responsive user interface/entertainment device that simulates personal interaction |
US20050182619A1 (en) * | 2004-02-18 | 2005-08-18 | Fuji Xerox Co., Ltd. | Systems and methods for resolving ambiguity |
US20120316875A1 (en) * | 2011-06-10 | 2012-12-13 | Red Shift Company, Llc | Hosted speech handling |
US20150120281A1 (en) * | 2013-10-30 | 2015-04-30 | Lenovo (Singapore) Pte. Ltd. | Automatic sentence punctuation |
WO2016012108A1 (en) | 2014-07-23 | 2016-01-28 | Bayerische Motoren Werke Aktiengesellschaft | Improvement of voice recognition in a vehicle |
US20170229120A1 (en) | 2014-11-24 | 2017-08-10 | Audi Ag | Motor vehicle operating device with a correction strategy for voice recognition |
DE102016204315A1 (en) * | 2016-03-16 | 2017-09-21 | Bayerische Motoren Werke Aktiengesellschaft | Means of transport, system and method for adjusting a length of a permitted speech break in the context of a voice input |
Also Published As
Publication number | Publication date |
---|---|
DE102018133694B4 (en) | 2023-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Delić et al. | Speech technology progress based on new machine learning paradigm | |
DE60216069T2 (en) | LANGUAGE-TO-LANGUAGE GENERATION SYSTEM AND METHOD | |
DE60125542T2 (en) | SYSTEM AND METHOD FOR VOICE RECOGNITION WITH A VARIETY OF LANGUAGE RECOGNITION DEVICES | |
DE60201262T2 (en) | HIERARCHICAL LANGUAGE MODELS | |
EP0925578B1 (en) | Speech-processing system and method | |
EP1892700A1 (en) | Method for speech recognition and speech reproduction | |
DE10334400A1 (en) | Method for speech recognition and communication device | |
EP1466317A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
DE112004000187T5 (en) | Method and apparatus of prosodic simulation synthesis | |
DE112021000959T5 (en) | Synthetic Language Processing | |
DE102015106280B4 (en) | Systems and methods for compensating for speech artifacts in speech recognition systems | |
EP3010014B1 (en) | Method for interpretation of automatic speech recognition | |
CN111326178A (en) | Multi-mode speech emotion recognition system and method based on convolutional neural network | |
EP1081683A1 (en) | Speech recognition method and device | |
EP0987682B1 (en) | Method for adapting linguistic language models | |
WO2017157684A1 (en) | Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input | |
EP0633559A2 (en) | Method and device for speech recognition | |
DE60014583T2 (en) | METHOD AND DEVICE FOR INTEGRITY TESTING OF USER INTERFACES OF VOICE CONTROLLED EQUIPMENT | |
DE102018133694B4 (en) | Method for improving the speech recognition of a user interface | |
Shechtman et al. | Emphatic speech prosody prediction with deep lstm networks | |
DE69723449T2 (en) | METHOD AND SYSTEM FOR LANGUAGE-TO-LANGUAGE IMPLEMENTATION | |
EP1659573A2 (en) | Method and apparatus for evaluating the emotional state of a person from speech utterances | |
EP1445759B1 (en) | User adaptive method for modeling of background noise in speech recognition | |
DE10308611A1 (en) | Determination of the likelihood of confusion between vocabulary entries in phoneme-based speech recognition | |
Yamashita et al. | DNN-based speech synthesis using abundant tags of spontaneous speech corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division |