DE102018133694A1

DE102018133694A1 - Method for improving the speech recognition of a user interface

Info

Publication number: DE102018133694A1
Application number: DE102018133694.2A
Authority: DE
Inventors: Martin Stelter
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-07-02
Anticipated expiration: 2038-12-29
Also published as: DE102018133694B4

Abstract

Die Erfindung betrifft ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle (Mensch-Maschine-Schnittstelle), welches die Schritte umfasst: Aufnehmen von menschlicher Sprache über ein oder mehrere Mikrophone, Erfassen von einem oder mehreren prosodischen Merkmalen der aufgenommenen Sprache, Umwandeln der aufgenommen Sprache in Text, Erkennen des Inhalts des umgewandelten Textes, wobei das Verfahren dadurch gekennzeichnet ist, dass man die erfassten prosodischen Merkmale zur Verbesserung der Genauigkeit bei der Umwandlung der aufgenommenen Sprache in Text und bei der Erkennung des Inhaltes des umgewandelten Textes verwendet.The invention relates to a method for improving the speech recognition of a user interface (human-machine interface), which comprises the steps: recording human speech via one or more microphones, recording one or more prosodic features of the recorded speech, converting the recorded speech into Text, recognizing the content of the converted text, the method being characterized in that the detected prosodic features are used to improve the accuracy in converting the recorded speech into text and in recognizing the content of the converted text.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle, insbesondere die Verbesserung der Spracherkennung der Dialogschnittstelle eines Fahrerinformationssystems oder, allgemeiner, eines Nutzerinformationssystems von Kraftfahrzeugen.The present invention relates to a method for improving the speech recognition of a user interface, in particular the improvement of the speech recognition of the dialog interface of a driver information system or, more generally, a user information system of motor vehicles.

Die Benutzerschnittstellen zwischen einem menschlichen Benutzer und einem Datenverarbeitungssystem (Mensch-Maschine-Schnittstelle), bei dem Nutzereingaben mittels gesprochener Sprache erfolgen, weisen ein Spracherkennungssystem auf, bei dem Spracheingaben über ein oder mehrere Mikrofone als Audiosignale aufgenommen werden, die aufgenommene Sprache in Text umgewandelt wird und der Inhalt des umgewandelten Textes erkannt wird. Die Texterkennung zielt insbesondere darauf ab, Befehle, Fragen usw. des Nutzers zu erkennen. In einfachen Spracherkennungssystemen wird der erkannte Text mit einer vorgegebenen Datenbank von bekannten Befehlen, Fragen usw. abgeglichen. Moderne Spracherkennungssysteme nutzen darüber hinaus Konzepte der Artificial Intelligence (AI) bei denen die Spracherkennung beispielsweise durch selbstlernende neuronale Netzwerke verbessert wird. Moderne Spracherkennungssysteme unterziehen das Sprachsignal zunächst einer Signalanalyse, dann werden mittels Unit Matching einzelnen Sprachbauteile identifiziert, die anschließend lexikalische dekodiert werden. Nach einer syntaktische und semantischen Analyse bei denen die Interpretationsmöglichkeiten auf syntaktisch und semantisch korrekte Aussagen reduziert werden, wird die erkannte Wortfolge generiert.The user interfaces between a human user and a data processing system (human-machine interface), in which user input takes place by means of spoken language, have a speech recognition system in which voice inputs are recorded as audio signals via one or more microphones, and the recorded speech is converted into text and the content of the converted text is recognized. The text recognition aims in particular to recognize commands, questions, etc. of the user. In simple speech recognition systems, the recognized text is compared with a predefined database of known commands, questions, etc. Modern speech recognition systems also use artificial intelligence (AI) concepts in which speech recognition is improved, for example, by self-learning neural networks. Modern speech recognition systems first subject the speech signal to a signal analysis, then individual speech components are identified using unit matching, which are then decoded lexically. After a syntactic and semantic analysis in which the possibilities of interpretation are reduced to syntactically and semantically correct statements, the recognized word sequence is generated.

Insbesondere im Kontext von Fahrerinformationssystemen von Kraftfahrzeugen stellt die Spracherkennung eine besondere Herausforderung dar, da einerseits bereits die Umwandlung der aufgenommenen Sprache in Text auf Grund von Nebengeräuschen schwierig ist und da andererseits das Hauptaugenmerk des Nutzers, typischerweise des Fahrer des Kraftfahrzeugs, nicht auf dem Dialog mit der Benutzerschnittstelle, sondern auf das Führen des Kraftfahrzeugs gerichtet ist. Spracheingaben im Fahrzeugumfeld folgen daher typischerweise nicht mit der gleichen Genauigkeit wie in einem ruhigeren Umfeld.In particular in the context of driver information systems of motor vehicles, speech recognition represents a particular challenge, since on the one hand the conversion of the recorded speech into text is difficult due to background noise and on the other hand the main focus of the user, typically the driver of the motor vehicle, is not on the dialogue with the user interface, but is directed to driving the motor vehicle. Voice inputs in the vehicle environment therefore typically do not follow with the same accuracy as in a quieter environment.

Aus dem Stand der Technik sind bereits Vorschläge zur Verbesserung der Spracherkennung in Kraftfahrzeugen bekannt. In der US-Patentanmeldung US 2017/0229120 A1 wird ein Spracherkennungssystem für Kraftfahrzeuge beschrieben, bei dem Wiederholungen von Spracheingaben erkannt und in der Wiederholung Korrektursequenzen und überflüssige Sequenzen detektiert werden.Proposals for improving speech recognition in motor vehicles are already known from the prior art. In the U.S. patent application US 2017/0229120 A1 describes a speech recognition system for motor vehicles, in which repetitions of speech inputs are recognized and correction sequences and superfluous sequences are detected in the repetition.

In der internationalen Patentanmeldung WO 2016/012108 A1 wird ein Verfahren zur Verbesserung der Spracherkennung in einem Fahrzeug beschrieben, bei dem in den aufgenommenen Spracheingaben ein oder mehrere prosodische Merkmale erfasst werden.In the international patent application WO 2016/012108 A1 describes a method for improving speech recognition in a vehicle, in which one or more prosodic features are recorded in the recorded speech inputs.

Unter prosodischen Merkmalen bezeichnet man dabei in der Linguistik typischerweise die Gesamtheit derjenigen lautlichen Eigenschaften einer Sprache, die nicht an einen Laut bzw. an ein Phonem als minimales Segment, sondern an umfassendere lautliche Einheiten gebunden sind. Dazu gehören die Wort- und Satzakzente, der auf Wortsilben ruhende lexikalische Ton, die Intonation von lautlichen Einheiten von mehr als Silben umfassen und Satzmelodie, die Quantität aller lautlichen Einheiten, vor allem derjenigen von mehr als Segmentumfang sowie Sprachtempo, Sprachrhythmus und Sprechpausen. Prosodische Merkmale wie Intonation, Sprechrhythmus und Akzent sind typische mit psychoakustischen Merkmale und können prinzipiell durch physikalisch messbaren Merkmalen beschrieben werden.In linguistics, prosodic characteristics typically refer to the entirety of the phonetic properties of a language that are not bound to a sound or a phoneme as a minimal segment, but to more extensive phonetic units. This includes the accents of words and sentences, the lexical sound based on word syllables, the intonation of phonetic units of more than syllables and sentence melody, the quantity of all phonetic units, especially those of more than segment size, as well as the pace, rhythm and pauses of speech. Prosodic features such as intonation, speaking rhythm and accent are typical with psychoacoustic features and can in principle be described by physically measurable features.

Da bestimmte prosodische Merkmale für unterschiedliche Sprachen unterschiedlich ausgeprägt sind, wird in WO 2016/012108 A1 vorgeschlagen, die erfassten prosodischen Merkmale heranzuziehen, um festzustellen, ob in der Spracheingabe lediglich Worte einer Sprache oder Worte mehrerer Sprachen verwendet werden. Wenn auf Grund der prosodischen Analyse erkannt wird, dass Worte von mehr als einer Sprache verwendet werden kann zur Umwandlung der aufgenommenen Sprache in Text nicht nur ein Wörterbuch einer Sprache sondern auch ein Wörterbuch einer weiteren Sprache herangezogen werden, um so die Umwandlung der aufgenommenen Sprache in Text zu verbessern.Since certain prosodic features are different for different languages, in WO 2016/012108 A1 proposed to use the acquired prosodic features to determine whether only words from one language or words from multiple languages are used in the speech input. If, on the basis of the prosodic analysis, it is recognized that words from more than one language can be used to convert the recorded language into text, not only a dictionary of one language but also a dictionary of another language, in order to convert the recorded language into Improve text.

Der vorliegenden Erfindung liegt das technische Problem zu Grunde, die Spracherkennung einer zur Benutzerschnittstelle, insbesondere einer Benutzerschnittstelle eines Fahrerinformationssystems weiter zu verbessern.The present invention is based on the technical problem of further improving the speech recognition of a user interface, in particular a user interface, of a driver information system.

Gelöst wird dieses technische Problem durch das Verfahren des Anspruchs 1. Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens sind Gegenstand der abhängigen Patentansprüche.This technical problem is solved by the method of claim 1. Advantageous developments of the method according to the invention are the subject of the dependent claims.

Die Erfindung betrifft demnach ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle (Mensch-Maschine-Schnittstelle), welches die Schritte umfasst:

Aufnehmen von menschlicher Sprache über ein oder mehrere Mikrofone, Erfassen von einem oder mehrere prosodischen Merkmalen der aufgenommenen Sprache, Umwandeln der aufgenommenen Sprache in Text, Erkennen des Inhalts des umgewandelten Textes, wobei das erfindungsgemäße Verfahren dadurch gekennzeichnet ist, dass man die erfassten prosodischen Merkmale nicht nur bei der Verbesserung der Genauigkeit bei der Umwandlung der aufgenommenen Sprache in Text, sondern auch bei der Erkennung des Inhalts des umgewandelten Textes verwendet.

The invention accordingly relates to a method for improving the speech recognition of a user interface (human-machine interface), which comprises the steps:

Recording human speech through one or more microphones, detecting one or more prosodic features of the recorded speech, converting the recorded speech into text, recognizing the content of the converted text, the The method according to the invention is characterized in that the detected prosodic features are used not only to improve the accuracy in converting the recorded speech into text, but also to recognize the content of the converted text.

Im Gegensatz zum Verfahren der WO 2016/012108 A1 werden prosodische Merkmale der aufgenommenen Sprache nicht nur zur Unterscheidung unterschiedlicher Sprachen herangezogen, sondern auch zur Verbesserung der Umwandlung von Sprache zu Text innerhalb einer Sprache beziehungsweise zur Verbesserung der Erkennung des Inhalts eines Textes innerhalb einer Sprache.In contrast to the process of WO 2016/012108 A1 prosodic features of the recorded language are not only used to differentiate between different languages, but also to improve the conversion from speech to text within a language or to improve the recognition of the content of a text within a language.

Gemäß einer bevorzugten Ausführungsform der Erfindung werden prosodische Merkmale zur Interpunktionserkennung herangezogen, beispielsweise zur Erkennung von Kommata und anderen Satzzeichen. Geeignete prosodische Elemente zur Interpunktionserkennung sind beispielsweise der Tonhöhenverlauf und die Verteilung von Sprechpausen.According to a preferred embodiment of the invention, prosodic features are used for punctuation recognition, for example for recognizing commas and other punctuation marks. Suitable prosodic elements for punctuation recognition are, for example, the pitch curve and the distribution of pauses in speech.

Gemäß einer weiteren Ausführungsform der Erfindung werden prosodische Elemente zur Bestimmung eines Satztyps (Adherence-Form) herangezogen. Bevorzugt wird dabei insbesondere zwischen Fragen, Aussagen und Kommandos unterschieden. Als geeignete prosodische Elemente werden dabei die relative Tonhöhe, beispielsweise am Satzende, der relative Tonhöhenverlauf sowie die relative Lautstärkenverteilung herangezogen. Vorzugsweise werden die erfassten prosodischen Elemente zu einem einzelnen Wert (Score) zusammengefasst, der einen vorgegebenen Wertebereich annehmen kann und dabei die Wahrscheinlichkeit ausdrückt, dass es sich bei einem bestimmten Satz um einen Fragesatz, eine Aussage oder um ein Kommando handelt. Beispielsweise kann ein Kommando einem Score-Wert von -10 zugeordnet werden, eine Frage einem Score von +10 und eine Aussage einen Score von 0.According to a further embodiment of the invention, prosodic elements are used to determine a sentence type (adherence form). A distinction is made in particular between questions, statements and commands. The relative pitch, for example at the end of the sentence, the relative pitch and the relative volume distribution are used as suitable prosodic elements. The detected prosodic elements are preferably combined into a single value (score) which can assume a predetermined value range and thereby express the probability that a certain sentence is a question sentence, a statement or a command. For example, a command can be assigned a score of -10, a question a score of +10 and a statement a score of 0.

Gemäß einer weiteren Variante des Verfahrens werden prosodische Merkmale ausgewertet, um einzelnen Wörtern oder Satzbestandteilen einen Nachdruck-Wert (Emphasis) zuzuordnen. Als prosodische Merkmale können relative Tonhöhe, relative Lautstärke sowie eine Reduktion der Sprechgeschwindigkeit und/oder eine Pause herangezogen werden. Eine derartige Auswertung erlaubt es beispielsweise identische Sätze auf Grund unterschiedliche Emphasis-Werte unterschiedlich zu bearbeiten. Beispielsweise kann in dem Satz „ What do you mean?“ eine erkannte Betonung auf „what“ als akustisches Verständigungsproblem interpretiert werden, während eine Betonung auf „mean“ als semantisches Verständigungsproblem interpretiert werden kann. So kann die Nutzerschnittstelle im ersten Fall eine identische Ausgabe lauter und/oder langsamer wiederholen, während im zweiten Fall eine zusätzliche Erläuterung ausgegeben werden kann.According to a further variant of the method, prosodic features are evaluated in order to assign a emphasis value (emphasis) to individual words or parts of sentences. Relative pitch, relative volume as well as a reduction in speech speed and / or a pause can be used as prosodic features. Such an evaluation allows, for example, identical sentences to be processed differently on the basis of different emphasis values. For example, in the sentence "What do you mean?", A recognized emphasis on "what" can be interpreted as an acoustic communication problem, while an emphasis on "mean" can be interpreted as a semantic communication problem. In the first case, the user interface can repeat an identical output louder and / or more slowly, while in the second case an additional explanation can be output.

Gemäß einer weiteren Variante des erfindungsgemäßen Verfahrens werden prosodische Merkmale zur Identifikation von Sprachpartikeln herangezogen. Die Identifikation von Sprachpartikeln nutzt ähnliche prosodische Merkmale wie die Interpunktionserkennung und kann besonders bevorzugt parallel zur Interpunktionserkennung stattfinden. Identifizierte Sprachpartikel können einerseits in vielen Fällen für die rein semantische Erkennung eines Satzes weggelassen werden, können andererseits aber auch für eine tiefer gehende Interpretation der Intension des Sprechers herangezogen werden. Ferner sind viele Fahrerinformationssysteme von Kraftfahrzeugen dialogische Systeme, d. h. es werden nicht nur Kommandos des Nutzers erfasst, sondern es werden auch Antworten des Fahrerinformationssystems generiert.According to a further variant of the method according to the invention, prosodic features are used to identify speech particles. The identification of speech particles uses similar prosodic features as the punctuation recognition and can particularly preferably take place parallel to the punctuation recognition. On the one hand, identified speech particles can be omitted in many cases for the purely semantic recognition of a sentence, but on the other hand they can also be used for a more in-depth interpretation of the speaker's intent. Furthermore, many driver information systems of motor vehicles are dialogical systems, i. H. Not only are commands from the user recorded, but responses from the driver information system are also generated.

Wenn das erfindungsgemäße Verfahren außerdem ein Modul zur Erzeugung eines Dialogs aufweist, können bei der Umwandlung von Text in Sprache, die dann typischerweise über Lautsprecher ausgegeben wird, die bei der Spracherkennung identifizierten Sprachpartikel verwendet werden, um eine individuelle Sprechweise des Nutzers auch bei der Sprachausgabe zu imitieren. Der Nutzer findet so seine eigene Sprechweise in der computergenerierten Sprachausgabe des Fahrerinformationssystems wieder was meist einen vertrauensvolleren Umgang mit dem technischen System begünstigt. Eine derartige Rückkopplung eine technischen Systems auf emotionaler Ebene wird insbesondere dann wichtig, wenn Fahrzeuge ein höheres Niveau an Autonomie erhalten und immer mehr Aufgaben des Nutzers/Fahrers übernehmen.If the method according to the invention also has a module for generating a dialog, when converting text into speech, which is then typically output via loudspeakers, the speech particles identified in the speech recognition can be used in order to allow the user to speak individually, even when speaking imitate. The user thus finds his own way of speaking in the computer-generated voice output of the driver information system, which usually favors a more trusting handling of the technical system. Such a feedback of a technical system on an emotional level becomes particularly important when vehicles receive a higher level of autonomy and take on more and more tasks of the user / driver.

Gemäß einer weiteren Variante der Erfindung werden prosodische Elemente zur Auswertung der Sprechgeschwindigkeit herangezogen. Typischerweise können aus dem erkannten Text Werte wie Buchstaben pro Minute/Worte pro Minute/Sätze pro Minute ausgewertet werden. Auch typische Satzlängen (Worte pro Satz) können erfasst werden. Die erkannte Sprechgeschwindigkeit ist einerseits häufig ein Maß für die Dringlichkeit einer Nutzeranfrage oder eines Nutzerkommandos, insbesondere wenn die Sprechgeschwindigkeit höher als die durchschnittliche Sprechgeschwindigkeit des spezifischen Nutzers ist. Andererseits kann auch die durchschnittliche Sprechgeschwindigkeit eines Nutzers herangezogen werden, um entsprechende Sprachausgaben des Systems an die typische Sprechgeschwindigkeit des Nutzers anzupassen, da eine besonders hohe beziehungsweise besonders niedrige Sprechgeschwindigkeit typischerweise auch mit einer entsprechenden Erwartungshaltung bei der Erfassung der vom System wiedergegebenen Sprachinformationen korrigiert.According to a further variant of the invention, prosodic elements are used to evaluate the speaking speed. Typically, values such as letters per minute / words per minute / sentences per minute can be evaluated from the recognized text. Typical sentence lengths (words per sentence) can also be recorded. On the one hand, the recognized speech speed is often a measure of the urgency of a user request or a user command, in particular if the speech speed is higher than the average speech speed of the specific user. On the other hand, the average speech speed of a user can also be used to adapt the corresponding speech outputs of the system to the typical speech speed of the user, since a particularly high or particularly low speech speed typically also with a corresponding expectation when recording the Corrected voice information reproduced by the system.

Gemäß einer weiteren Variante des erfindungsgemäßen Verfahrens wird aus dem prosodischen Sprachelement ein Aufmerksamkeitswert (Focus-Score) des Nutzers generiert, d. h. es wird ermittelt, in welchem Ausmaß der Nutzer seine Aufmerksamkeit den Dialog mit dem Fahrerinformationssystem zuwendet beziehungsweise zuwenden kann. Hierzu können beispielsweise die Anzahl der Sprachpartikel in einer bestimmten Zeiteinheit, Sprechpausen und wiederum die Sprechgeschwindigkeit ausgewertet werden.According to a further variant of the method according to the invention, an attention value (focus score) of the user is generated from the prosodic speech element, ie. H. It is determined to what extent the user turns his or her attention to the dialogue with the driver information system. For this purpose, for example, the number of speech particles in a certain time unit, pauses in speech and, in turn, the speaking speed can be evaluated.

Gemäß einer Variante des erfindungsgemäßen Verfahrens werden die Erfassung von prosodischen Merkmalen mit der Erfassung von nicht sprachlichen Merkmalen des Nutzers kombiniert. Beispielsweise kann eine Kamera vorgesehen sein, um Geschlecht und/oder Alter des Nutzers zu bestimmen.According to a variant of the method according to the invention, the detection of prosodic features is combined with the detection of non-linguistic features of the user. For example, a camera can be provided to determine the gender and / or age of the user.

Gemäß einer Variante des Verfahrens wird die erkannte Sprache in einem Dialogmodul verarbeitet, welches aus der Spracherkennung eine kontextsensitive Antwort auf Nutzereingaben generiert. Das Dialogmodul umfasst einen Sprachgenerator zur Erzeugung einer natürlichen Sprache, der zunächst eine textbasierte Antwort generiert, welche von den eigentlichen Sprachmodulen in gesprochene Sprache umgewandelt wurde. Die gesprochene Sprache wird dann über ein oder mehrere Lautsprecher ausgegeben. Außerdem kann bei der Spracherkennung eine Emotionserkennung vorgesehen sein, die durch Analyse der in Text umgewandelten Sprache, wie auch der aufgezeichneten Sprache selbst einen Emotionalitätswert des Sprechers festlegt. Beispielsweise kann aus verwendeten Begriffen (beispielsweise bei der Verwendung von Schimpfwörtern) ermittelt werden, ob der Nutzer wütend ist. Ferner kann auch Tonhöhe und relative Lautstärke in die Erfassung des Emotionswertes einfließen.According to a variant of the method, the recognized language is processed in a dialog module, which generates a context-sensitive response to user input from the speech recognition. The dialog module comprises a language generator for generating a natural language, which first generates a text-based answer which has been converted into spoken language by the actual language modules. The spoken language is then output through one or more speakers. In addition, emotion recognition can be provided in speech recognition, which determines an emotional value of the speaker by analyzing the speech converted into text, as well as the recorded speech itself. For example, terms used (for example when using swear words) can be used to determine whether the user is angry. Pitch and relative volume can also be included in the recording of the emotional value.

Die erfindungsgemäße ebenfalls vorgesehene prosodische Analyse kann sowohl in die Spracherkennung, in die Emotionserfassung als auch auf der Ausgabenseite in die Sprachgenerierung einfließen.The prosodic analysis according to the invention, which is also provided, can flow into speech recognition, emotion detection and, on the expenditure side, into speech generation.

Das erfindungsgemäße Verfahren kann in unterschiedlichsten Benutzerschnittstellen zu Geräten, die eine Spracheingabe erwarten oder ermöglichen, implementiert sein. Besonders bevorzugt wird das erfindungsgemäße Verfahren in Fahrerinformationssystemen von Kraftfahrzeugen implementiert. Ebenso lässt sich das erfindungsgemäße Verfahren auf jedem Mobiltelefon, Tablet oder Laptopcomputer oder auch auf stationären Systemen wie Desktopcomputern oder anderen Systemen mit sprachgesteuerter Nutzerschnittstelle, wie beispielsweise Bushaltestellen, Tankstellen, an Mautstationen und Ähnlichem implementieren.The method according to the invention can be implemented in a wide variety of user interfaces to devices that expect or enable voice input. The method according to the invention is particularly preferably implemented in driver information systems of motor vehicles. The method according to the invention can also be implemented on any mobile phone, tablet or laptop computer or on stationary systems such as desktop computers or other systems with a voice-controlled user interface, such as bus stops, petrol stations, at toll stations and the like.

Die Erfindung wird im Folgenden anhand der beigefügten Zeichnung näher erläutert.The invention is explained in more detail below with reference to the accompanying drawing.

In der Zeichnung zeigt:

1 ein schematischen Diagramms der Spracherfassung und Generierung näher erläutert.

The drawing shows:

1 a schematic diagram of language acquisition and generation explained in more detail.

Im Diagramm der 1 ist ein Nutzer 10 dargestellt, der über ein Mikrofon 11 Spracheingaben macht, die von einem „Sprache-in-Text“-Konverter 12 in einen maschinenlesbaren Rohtext umgewandelt werden. Ein Sprachverarbeitungsmodul 13 für natürliche Sprache analysiert sowohl den Rohtext als auch das Audiosignal und versucht durch syntaktische und semantische Analyse der Spracheingabe das Anliegen des Nutzers 10 zu ermitteln. Sowohl aus dem Text, wie auch aus dem Sprachsignal selbst wird über ein Emotionsanalyse-Modul 14 ein Emotionszustand des Nutzers 10 ermittelt. Ferner wird der umgewandelte Text, wie auch das Sprachsignal selbst über das erfindungsgemäße Prosodie-Modul 15 ausgewertet. Auf der Grundlage der Prosodieanalyse kann sowohl die Umwandlung in Text in Sprache, die Spracherkennung und die Emotions-Analyse. Im dargestellten Beispiel fließen die Ergebnisse der Sprachverarbeitung und der Emotionsanalyse in das Dialogmodul 16 ein, welches kontextsensitiv geeignete Ausgaben des Systems, insbesondere sprachliche Antworten an den des Systems an den Nutzer, generiert. Die Daten des Dialogmoduls werden über einen Sprachsynthese-Modul 17 für natürliche Sprache in einen verständlichen Text übersetzt. In die Text-in-Sprache-Konverters 18 wird der erzeugte Text in ein entsprechendes Audiosignal umgewenalt, dass über einen Lautsprecher 19 ausgegeben wird.In the diagram of the 1 is a user 10th represented by a microphone 11 Voice input made by a "speech-to-text" converter 12th be converted into a machine-readable raw text. A language processing module 13 for natural language analyzes both the raw text and the audio signal and tries to concern the user through syntactic and semantic analysis of the speech input 10th to investigate. Both the text and the speech signal itself are transformed into an emotion analysis module 14 an emotional state of the user 10th determined. Furthermore, the converted text, like the speech signal itself, is transmitted via the prosody module according to the invention 15 evaluated. On the basis of prosody analysis can both the conversion into text into speech, the speech recognition and the emotion analysis. In the example shown, the results of language processing and emotion analysis flow into the dialog module 16 a, which generates context-sensitive suitable outputs of the system, in particular linguistic responses to those of the system to the user. The data of the dialogue module are transmitted via a speech synthesis module 17th translated into understandable text for natural language. Into the text-to-speech converter 18th the generated text is converted into a corresponding audio signal, that over a loudspeaker 19th is issued.

Wie dargestellt fließen die Ergebnisse der Prosodie-Analyse in das Sprachsynthese-Modul 17 ein, beispielsweise bei der Generierung von Satzpartikeln, bei der Festlegung der Komplexität der generierten Sätze und Ähnlichem. Auch in die generierte Sprachausgabe des Text-in-Sprache Konverters 17 kann die Prosodie-Analyse einfließen, beispielsweise bei der Festlegung der Sprechgeschwindigkeit.As shown, the results of prosody analysis flow into the speech synthesis module 17th a, for example when generating sentence particles, when determining the complexity of the generated sentences and the like. Also in the generated speech output of the text-to-speech converter 17th the prosody analysis can be used, for example when determining the speaking speed.

BezugszeichenlisteReference list

1010th: NutzerUsers
1111: Mikrophonmicrophone
1212th: Sprache-in-Text-KonverterSpeech to text converter
1313: SpracherkennungsmodulSpeech recognition module
1414: Emotionsanalyse-ModulEmotion analysis module
1515: Prosodie-ModulProsody module
16 16: Dialog-ModulDialog module
1717th: SprachsynthesmodulSpeech synthesis module
1818th: Text-in-Sprache-KonverterText to speech converter
1919th: Lautsprecherspeaker

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant has been generated automatically and is only included for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent literature cited

US 2017/0229120 A1 [0004]
WO 2016/012108 A1 [0005, 0007, 0011]

Claims

A method for improving the speech recognition of a human-machine interface, comprising the steps of: recording human speech via one or more microphones, recording one or more prosodic features of the recorded speech, converting the recorded speech into text, recognizing the content of the converted Text, characterized in that the detected prosodic features are used to improve the accuracy in converting the recorded speech into text and in recognizing the content of the converted text.

Procedure according to Claim 1 , characterized in that prosodic features are used for punctuation detection.

Procedure according to Claim 2 , characterized in that the prosodic features for punctuation recognition include the relative pitch and the distribution of pauses in speech.

Procedure according to a Claims 1 to 3rd , characterized in that prosodic elements are used to determine a sentence type.

Procedure according to Claim 4 , characterized in that the prosodic elements for determining the sentence type include the relative pitch at the beginning and / or end of a sentence, the relative pitch profile and the relative volume distribution.

Procedure according to a Claims 1 to 5 , characterized in that prosodic elements are used to determine a reprint value for individual words or parts of sentences.

Procedure according to Claim 6 , characterized in that the prosodic elements for determining the emphasis value comprise the relative pitch, the relative volume, a reduction in the speaking speed and / or a pause in speaking.

Procedure according to a Claims 1 to 7 , characterized in that prosodic elements are used to identify speech particles.

Procedure according to Claim 8 , characterized in that the prosodic elements for the identification of speech particles include the relative pitch and the distribution of pauses in speech.

Procedure according to a Claims 1 to 9 , characterized in that prosodic elements comprise the evaluation of the speaking speed.

Procedure according to a Claims 1 to 10th , characterized in that prosodic elements are used to determine a user's attention value.

Procedure according to Claim 11 , characterized in that the prosodic elements for determining the attention value comprise the number of speech particles in a certain time unit, pauses in speech and the speech speed.

Method according to one of the Claims 1 to 12th , characterized in that one combines the detection of prosodic features with the detection of non-linguistic features of the user such as gender and / or age of the user.

Method according to one of the Claims 1 to 13 , characterized in that the method is implemented in a user dialog system of a motor vehicle.