DE102018133694A1 - Method for improving the speech recognition of a user interface - Google Patents

Method for improving the speech recognition of a user interface Download PDF

Info

Publication number
DE102018133694A1
DE102018133694A1 DE102018133694.2A DE102018133694A DE102018133694A1 DE 102018133694 A1 DE102018133694 A1 DE 102018133694A1 DE 102018133694 A DE102018133694 A DE 102018133694A DE 102018133694 A1 DE102018133694 A1 DE 102018133694A1
Authority
DE
Germany
Prior art keywords
speech
prosodic
procedure according
text
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102018133694.2A
Other languages
German (de)
Other versions
DE102018133694B4 (en
Inventor
Martin Stelter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Priority to DE102018133694.2A priority Critical patent/DE102018133694B4/en
Publication of DE102018133694A1 publication Critical patent/DE102018133694A1/en
Application granted granted Critical
Publication of DE102018133694B4 publication Critical patent/DE102018133694B4/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

Die Erfindung betrifft ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle (Mensch-Maschine-Schnittstelle), welches die Schritte umfasst: Aufnehmen von menschlicher Sprache über ein oder mehrere Mikrophone, Erfassen von einem oder mehreren prosodischen Merkmalen der aufgenommenen Sprache, Umwandeln der aufgenommen Sprache in Text, Erkennen des Inhalts des umgewandelten Textes, wobei das Verfahren dadurch gekennzeichnet ist, dass man die erfassten prosodischen Merkmale zur Verbesserung der Genauigkeit bei der Umwandlung der aufgenommenen Sprache in Text und bei der Erkennung des Inhaltes des umgewandelten Textes verwendet.The invention relates to a method for improving the speech recognition of a user interface (human-machine interface), which comprises the steps: recording human speech via one or more microphones, recording one or more prosodic features of the recorded speech, converting the recorded speech into Text, recognizing the content of the converted text, the method being characterized in that the detected prosodic features are used to improve the accuracy in converting the recorded speech into text and in recognizing the content of the converted text.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle, insbesondere die Verbesserung der Spracherkennung der Dialogschnittstelle eines Fahrerinformationssystems oder, allgemeiner, eines Nutzerinformationssystems von Kraftfahrzeugen.The present invention relates to a method for improving the speech recognition of a user interface, in particular the improvement of the speech recognition of the dialog interface of a driver information system or, more generally, a user information system of motor vehicles.

Die Benutzerschnittstellen zwischen einem menschlichen Benutzer und einem Datenverarbeitungssystem (Mensch-Maschine-Schnittstelle), bei dem Nutzereingaben mittels gesprochener Sprache erfolgen, weisen ein Spracherkennungssystem auf, bei dem Spracheingaben über ein oder mehrere Mikrofone als Audiosignale aufgenommen werden, die aufgenommene Sprache in Text umgewandelt wird und der Inhalt des umgewandelten Textes erkannt wird. Die Texterkennung zielt insbesondere darauf ab, Befehle, Fragen usw. des Nutzers zu erkennen. In einfachen Spracherkennungssystemen wird der erkannte Text mit einer vorgegebenen Datenbank von bekannten Befehlen, Fragen usw. abgeglichen. Moderne Spracherkennungssysteme nutzen darüber hinaus Konzepte der Artificial Intelligence (AI) bei denen die Spracherkennung beispielsweise durch selbstlernende neuronale Netzwerke verbessert wird. Moderne Spracherkennungssysteme unterziehen das Sprachsignal zunächst einer Signalanalyse, dann werden mittels Unit Matching einzelnen Sprachbauteile identifiziert, die anschließend lexikalische dekodiert werden. Nach einer syntaktische und semantischen Analyse bei denen die Interpretationsmöglichkeiten auf syntaktisch und semantisch korrekte Aussagen reduziert werden, wird die erkannte Wortfolge generiert.The user interfaces between a human user and a data processing system (human-machine interface), in which user input takes place by means of spoken language, have a speech recognition system in which voice inputs are recorded as audio signals via one or more microphones, and the recorded speech is converted into text and the content of the converted text is recognized. The text recognition aims in particular to recognize commands, questions, etc. of the user. In simple speech recognition systems, the recognized text is compared with a predefined database of known commands, questions, etc. Modern speech recognition systems also use artificial intelligence (AI) concepts in which speech recognition is improved, for example, by self-learning neural networks. Modern speech recognition systems first subject the speech signal to a signal analysis, then individual speech components are identified using unit matching, which are then decoded lexically. After a syntactic and semantic analysis in which the possibilities of interpretation are reduced to syntactically and semantically correct statements, the recognized word sequence is generated.

Insbesondere im Kontext von Fahrerinformationssystemen von Kraftfahrzeugen stellt die Spracherkennung eine besondere Herausforderung dar, da einerseits bereits die Umwandlung der aufgenommenen Sprache in Text auf Grund von Nebengeräuschen schwierig ist und da andererseits das Hauptaugenmerk des Nutzers, typischerweise des Fahrer des Kraftfahrzeugs, nicht auf dem Dialog mit der Benutzerschnittstelle, sondern auf das Führen des Kraftfahrzeugs gerichtet ist. Spracheingaben im Fahrzeugumfeld folgen daher typischerweise nicht mit der gleichen Genauigkeit wie in einem ruhigeren Umfeld.In particular in the context of driver information systems of motor vehicles, speech recognition represents a particular challenge, since on the one hand the conversion of the recorded speech into text is difficult due to background noise and on the other hand the main focus of the user, typically the driver of the motor vehicle, is not on the dialogue with the user interface, but is directed to driving the motor vehicle. Voice inputs in the vehicle environment therefore typically do not follow with the same accuracy as in a quieter environment.

Aus dem Stand der Technik sind bereits Vorschläge zur Verbesserung der Spracherkennung in Kraftfahrzeugen bekannt. In der US-Patentanmeldung US 2017/0229120 A1 wird ein Spracherkennungssystem für Kraftfahrzeuge beschrieben, bei dem Wiederholungen von Spracheingaben erkannt und in der Wiederholung Korrektursequenzen und überflüssige Sequenzen detektiert werden.Proposals for improving speech recognition in motor vehicles are already known from the prior art. In the U.S. patent application US 2017/0229120 A1 describes a speech recognition system for motor vehicles, in which repetitions of speech inputs are recognized and correction sequences and superfluous sequences are detected in the repetition.

In der internationalen Patentanmeldung WO 2016/012108 A1 wird ein Verfahren zur Verbesserung der Spracherkennung in einem Fahrzeug beschrieben, bei dem in den aufgenommenen Spracheingaben ein oder mehrere prosodische Merkmale erfasst werden.In the international patent application WO 2016/012108 A1 describes a method for improving speech recognition in a vehicle, in which one or more prosodic features are recorded in the recorded speech inputs.

Unter prosodischen Merkmalen bezeichnet man dabei in der Linguistik typischerweise die Gesamtheit derjenigen lautlichen Eigenschaften einer Sprache, die nicht an einen Laut bzw. an ein Phonem als minimales Segment, sondern an umfassendere lautliche Einheiten gebunden sind. Dazu gehören die Wort- und Satzakzente, der auf Wortsilben ruhende lexikalische Ton, die Intonation von lautlichen Einheiten von mehr als Silben umfassen und Satzmelodie, die Quantität aller lautlichen Einheiten, vor allem derjenigen von mehr als Segmentumfang sowie Sprachtempo, Sprachrhythmus und Sprechpausen. Prosodische Merkmale wie Intonation, Sprechrhythmus und Akzent sind typische mit psychoakustischen Merkmale und können prinzipiell durch physikalisch messbaren Merkmalen beschrieben werden.In linguistics, prosodic characteristics typically refer to the entirety of the phonetic properties of a language that are not bound to a sound or a phoneme as a minimal segment, but to more extensive phonetic units. This includes the accents of words and sentences, the lexical sound based on word syllables, the intonation of phonetic units of more than syllables and sentence melody, the quantity of all phonetic units, especially those of more than segment size, as well as the pace, rhythm and pauses of speech. Prosodic features such as intonation, speaking rhythm and accent are typical with psychoacoustic features and can in principle be described by physically measurable features.

Da bestimmte prosodische Merkmale für unterschiedliche Sprachen unterschiedlich ausgeprägt sind, wird in WO 2016/012108 A1 vorgeschlagen, die erfassten prosodischen Merkmale heranzuziehen, um festzustellen, ob in der Spracheingabe lediglich Worte einer Sprache oder Worte mehrerer Sprachen verwendet werden. Wenn auf Grund der prosodischen Analyse erkannt wird, dass Worte von mehr als einer Sprache verwendet werden kann zur Umwandlung der aufgenommenen Sprache in Text nicht nur ein Wörterbuch einer Sprache sondern auch ein Wörterbuch einer weiteren Sprache herangezogen werden, um so die Umwandlung der aufgenommenen Sprache in Text zu verbessern.Since certain prosodic features are different for different languages, in WO 2016/012108 A1 proposed to use the acquired prosodic features to determine whether only words from one language or words from multiple languages are used in the speech input. If, on the basis of the prosodic analysis, it is recognized that words from more than one language can be used to convert the recorded language into text, not only a dictionary of one language but also a dictionary of another language, in order to convert the recorded language into Improve text.

Der vorliegenden Erfindung liegt das technische Problem zu Grunde, die Spracherkennung einer zur Benutzerschnittstelle, insbesondere einer Benutzerschnittstelle eines Fahrerinformationssystems weiter zu verbessern.The present invention is based on the technical problem of further improving the speech recognition of a user interface, in particular a user interface, of a driver information system.

Gelöst wird dieses technische Problem durch das Verfahren des Anspruchs 1. Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens sind Gegenstand der abhängigen Patentansprüche.This technical problem is solved by the method of claim 1. Advantageous developments of the method according to the invention are the subject of the dependent claims.

Die Erfindung betrifft demnach ein Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle (Mensch-Maschine-Schnittstelle), welches die Schritte umfasst:

  • Aufnehmen von menschlicher Sprache über ein oder mehrere Mikrofone, Erfassen von einem oder mehrere prosodischen Merkmalen der aufgenommenen Sprache, Umwandeln der aufgenommenen Sprache in Text, Erkennen des Inhalts des umgewandelten Textes, wobei das erfindungsgemäße Verfahren dadurch gekennzeichnet ist, dass man die erfassten prosodischen Merkmale nicht nur bei der Verbesserung der Genauigkeit bei der Umwandlung der aufgenommenen Sprache in Text, sondern auch bei der Erkennung des Inhalts des umgewandelten Textes verwendet.
The invention accordingly relates to a method for improving the speech recognition of a user interface (human-machine interface), which comprises the steps:
  • Recording human speech through one or more microphones, detecting one or more prosodic features of the recorded speech, converting the recorded speech into text, recognizing the content of the converted text, the The method according to the invention is characterized in that the detected prosodic features are used not only to improve the accuracy in converting the recorded speech into text, but also to recognize the content of the converted text.

Im Gegensatz zum Verfahren der WO 2016/012108 A1 werden prosodische Merkmale der aufgenommenen Sprache nicht nur zur Unterscheidung unterschiedlicher Sprachen herangezogen, sondern auch zur Verbesserung der Umwandlung von Sprache zu Text innerhalb einer Sprache beziehungsweise zur Verbesserung der Erkennung des Inhalts eines Textes innerhalb einer Sprache.In contrast to the process of WO 2016/012108 A1 prosodic features of the recorded language are not only used to differentiate between different languages, but also to improve the conversion from speech to text within a language or to improve the recognition of the content of a text within a language.

Gemäß einer bevorzugten Ausführungsform der Erfindung werden prosodische Merkmale zur Interpunktionserkennung herangezogen, beispielsweise zur Erkennung von Kommata und anderen Satzzeichen. Geeignete prosodische Elemente zur Interpunktionserkennung sind beispielsweise der Tonhöhenverlauf und die Verteilung von Sprechpausen.According to a preferred embodiment of the invention, prosodic features are used for punctuation recognition, for example for recognizing commas and other punctuation marks. Suitable prosodic elements for punctuation recognition are, for example, the pitch curve and the distribution of pauses in speech.

Gemäß einer weiteren Ausführungsform der Erfindung werden prosodische Elemente zur Bestimmung eines Satztyps (Adherence-Form) herangezogen. Bevorzugt wird dabei insbesondere zwischen Fragen, Aussagen und Kommandos unterschieden. Als geeignete prosodische Elemente werden dabei die relative Tonhöhe, beispielsweise am Satzende, der relative Tonhöhenverlauf sowie die relative Lautstärkenverteilung herangezogen. Vorzugsweise werden die erfassten prosodischen Elemente zu einem einzelnen Wert (Score) zusammengefasst, der einen vorgegebenen Wertebereich annehmen kann und dabei die Wahrscheinlichkeit ausdrückt, dass es sich bei einem bestimmten Satz um einen Fragesatz, eine Aussage oder um ein Kommando handelt. Beispielsweise kann ein Kommando einem Score-Wert von -10 zugeordnet werden, eine Frage einem Score von +10 und eine Aussage einen Score von 0.According to a further embodiment of the invention, prosodic elements are used to determine a sentence type (adherence form). A distinction is made in particular between questions, statements and commands. The relative pitch, for example at the end of the sentence, the relative pitch and the relative volume distribution are used as suitable prosodic elements. The detected prosodic elements are preferably combined into a single value (score) which can assume a predetermined value range and thereby express the probability that a certain sentence is a question sentence, a statement or a command. For example, a command can be assigned a score of -10, a question a score of +10 and a statement a score of 0.

Gemäß einer weiteren Variante des Verfahrens werden prosodische Merkmale ausgewertet, um einzelnen Wörtern oder Satzbestandteilen einen Nachdruck-Wert (Emphasis) zuzuordnen. Als prosodische Merkmale können relative Tonhöhe, relative Lautstärke sowie eine Reduktion der Sprechgeschwindigkeit und/oder eine Pause herangezogen werden. Eine derartige Auswertung erlaubt es beispielsweise identische Sätze auf Grund unterschiedliche Emphasis-Werte unterschiedlich zu bearbeiten. Beispielsweise kann in dem Satz „ What do you mean?“ eine erkannte Betonung auf „what“ als akustisches Verständigungsproblem interpretiert werden, während eine Betonung auf „mean“ als semantisches Verständigungsproblem interpretiert werden kann. So kann die Nutzerschnittstelle im ersten Fall eine identische Ausgabe lauter und/oder langsamer wiederholen, während im zweiten Fall eine zusätzliche Erläuterung ausgegeben werden kann.According to a further variant of the method, prosodic features are evaluated in order to assign a emphasis value (emphasis) to individual words or parts of sentences. Relative pitch, relative volume as well as a reduction in speech speed and / or a pause can be used as prosodic features. Such an evaluation allows, for example, identical sentences to be processed differently on the basis of different emphasis values. For example, in the sentence "What do you mean?", A recognized emphasis on "what" can be interpreted as an acoustic communication problem, while an emphasis on "mean" can be interpreted as a semantic communication problem. In the first case, the user interface can repeat an identical output louder and / or more slowly, while in the second case an additional explanation can be output.

Gemäß einer weiteren Variante des erfindungsgemäßen Verfahrens werden prosodische Merkmale zur Identifikation von Sprachpartikeln herangezogen. Die Identifikation von Sprachpartikeln nutzt ähnliche prosodische Merkmale wie die Interpunktionserkennung und kann besonders bevorzugt parallel zur Interpunktionserkennung stattfinden. Identifizierte Sprachpartikel können einerseits in vielen Fällen für die rein semantische Erkennung eines Satzes weggelassen werden, können andererseits aber auch für eine tiefer gehende Interpretation der Intension des Sprechers herangezogen werden. Ferner sind viele Fahrerinformationssysteme von Kraftfahrzeugen dialogische Systeme, d. h. es werden nicht nur Kommandos des Nutzers erfasst, sondern es werden auch Antworten des Fahrerinformationssystems generiert.According to a further variant of the method according to the invention, prosodic features are used to identify speech particles. The identification of speech particles uses similar prosodic features as the punctuation recognition and can particularly preferably take place parallel to the punctuation recognition. On the one hand, identified speech particles can be omitted in many cases for the purely semantic recognition of a sentence, but on the other hand they can also be used for a more in-depth interpretation of the speaker's intent. Furthermore, many driver information systems of motor vehicles are dialogical systems, i. H. Not only are commands from the user recorded, but responses from the driver information system are also generated.

Wenn das erfindungsgemäße Verfahren außerdem ein Modul zur Erzeugung eines Dialogs aufweist, können bei der Umwandlung von Text in Sprache, die dann typischerweise über Lautsprecher ausgegeben wird, die bei der Spracherkennung identifizierten Sprachpartikel verwendet werden, um eine individuelle Sprechweise des Nutzers auch bei der Sprachausgabe zu imitieren. Der Nutzer findet so seine eigene Sprechweise in der computergenerierten Sprachausgabe des Fahrerinformationssystems wieder was meist einen vertrauensvolleren Umgang mit dem technischen System begünstigt. Eine derartige Rückkopplung eine technischen Systems auf emotionaler Ebene wird insbesondere dann wichtig, wenn Fahrzeuge ein höheres Niveau an Autonomie erhalten und immer mehr Aufgaben des Nutzers/Fahrers übernehmen.If the method according to the invention also has a module for generating a dialog, when converting text into speech, which is then typically output via loudspeakers, the speech particles identified in the speech recognition can be used in order to allow the user to speak individually, even when speaking imitate. The user thus finds his own way of speaking in the computer-generated voice output of the driver information system, which usually favors a more trusting handling of the technical system. Such a feedback of a technical system on an emotional level becomes particularly important when vehicles receive a higher level of autonomy and take on more and more tasks of the user / driver.

Gemäß einer weiteren Variante der Erfindung werden prosodische Elemente zur Auswertung der Sprechgeschwindigkeit herangezogen. Typischerweise können aus dem erkannten Text Werte wie Buchstaben pro Minute/Worte pro Minute/Sätze pro Minute ausgewertet werden. Auch typische Satzlängen (Worte pro Satz) können erfasst werden. Die erkannte Sprechgeschwindigkeit ist einerseits häufig ein Maß für die Dringlichkeit einer Nutzeranfrage oder eines Nutzerkommandos, insbesondere wenn die Sprechgeschwindigkeit höher als die durchschnittliche Sprechgeschwindigkeit des spezifischen Nutzers ist. Andererseits kann auch die durchschnittliche Sprechgeschwindigkeit eines Nutzers herangezogen werden, um entsprechende Sprachausgaben des Systems an die typische Sprechgeschwindigkeit des Nutzers anzupassen, da eine besonders hohe beziehungsweise besonders niedrige Sprechgeschwindigkeit typischerweise auch mit einer entsprechenden Erwartungshaltung bei der Erfassung der vom System wiedergegebenen Sprachinformationen korrigiert.According to a further variant of the invention, prosodic elements are used to evaluate the speaking speed. Typically, values such as letters per minute / words per minute / sentences per minute can be evaluated from the recognized text. Typical sentence lengths (words per sentence) can also be recorded. On the one hand, the recognized speech speed is often a measure of the urgency of a user request or a user command, in particular if the speech speed is higher than the average speech speed of the specific user. On the other hand, the average speech speed of a user can also be used to adapt the corresponding speech outputs of the system to the typical speech speed of the user, since a particularly high or particularly low speech speed typically also with a corresponding expectation when recording the Corrected voice information reproduced by the system.

Gemäß einer weiteren Variante des erfindungsgemäßen Verfahrens wird aus dem prosodischen Sprachelement ein Aufmerksamkeitswert (Focus-Score) des Nutzers generiert, d. h. es wird ermittelt, in welchem Ausmaß der Nutzer seine Aufmerksamkeit den Dialog mit dem Fahrerinformationssystem zuwendet beziehungsweise zuwenden kann. Hierzu können beispielsweise die Anzahl der Sprachpartikel in einer bestimmten Zeiteinheit, Sprechpausen und wiederum die Sprechgeschwindigkeit ausgewertet werden.According to a further variant of the method according to the invention, an attention value (focus score) of the user is generated from the prosodic speech element, ie. H. It is determined to what extent the user turns his or her attention to the dialogue with the driver information system. For this purpose, for example, the number of speech particles in a certain time unit, pauses in speech and, in turn, the speaking speed can be evaluated.

Gemäß einer Variante des erfindungsgemäßen Verfahrens werden die Erfassung von prosodischen Merkmalen mit der Erfassung von nicht sprachlichen Merkmalen des Nutzers kombiniert. Beispielsweise kann eine Kamera vorgesehen sein, um Geschlecht und/oder Alter des Nutzers zu bestimmen.According to a variant of the method according to the invention, the detection of prosodic features is combined with the detection of non-linguistic features of the user. For example, a camera can be provided to determine the gender and / or age of the user.

Gemäß einer Variante des Verfahrens wird die erkannte Sprache in einem Dialogmodul verarbeitet, welches aus der Spracherkennung eine kontextsensitive Antwort auf Nutzereingaben generiert. Das Dialogmodul umfasst einen Sprachgenerator zur Erzeugung einer natürlichen Sprache, der zunächst eine textbasierte Antwort generiert, welche von den eigentlichen Sprachmodulen in gesprochene Sprache umgewandelt wurde. Die gesprochene Sprache wird dann über ein oder mehrere Lautsprecher ausgegeben. Außerdem kann bei der Spracherkennung eine Emotionserkennung vorgesehen sein, die durch Analyse der in Text umgewandelten Sprache, wie auch der aufgezeichneten Sprache selbst einen Emotionalitätswert des Sprechers festlegt. Beispielsweise kann aus verwendeten Begriffen (beispielsweise bei der Verwendung von Schimpfwörtern) ermittelt werden, ob der Nutzer wütend ist. Ferner kann auch Tonhöhe und relative Lautstärke in die Erfassung des Emotionswertes einfließen.According to a variant of the method, the recognized language is processed in a dialog module, which generates a context-sensitive response to user input from the speech recognition. The dialog module comprises a language generator for generating a natural language, which first generates a text-based answer which has been converted into spoken language by the actual language modules. The spoken language is then output through one or more speakers. In addition, emotion recognition can be provided in speech recognition, which determines an emotional value of the speaker by analyzing the speech converted into text, as well as the recorded speech itself. For example, terms used (for example when using swear words) can be used to determine whether the user is angry. Pitch and relative volume can also be included in the recording of the emotional value.

Die erfindungsgemäße ebenfalls vorgesehene prosodische Analyse kann sowohl in die Spracherkennung, in die Emotionserfassung als auch auf der Ausgabenseite in die Sprachgenerierung einfließen.The prosodic analysis according to the invention, which is also provided, can flow into speech recognition, emotion detection and, on the expenditure side, into speech generation.

Das erfindungsgemäße Verfahren kann in unterschiedlichsten Benutzerschnittstellen zu Geräten, die eine Spracheingabe erwarten oder ermöglichen, implementiert sein. Besonders bevorzugt wird das erfindungsgemäße Verfahren in Fahrerinformationssystemen von Kraftfahrzeugen implementiert. Ebenso lässt sich das erfindungsgemäße Verfahren auf jedem Mobiltelefon, Tablet oder Laptopcomputer oder auch auf stationären Systemen wie Desktopcomputern oder anderen Systemen mit sprachgesteuerter Nutzerschnittstelle, wie beispielsweise Bushaltestellen, Tankstellen, an Mautstationen und Ähnlichem implementieren.The method according to the invention can be implemented in a wide variety of user interfaces to devices that expect or enable voice input. The method according to the invention is particularly preferably implemented in driver information systems of motor vehicles. The method according to the invention can also be implemented on any mobile phone, tablet or laptop computer or on stationary systems such as desktop computers or other systems with a voice-controlled user interface, such as bus stops, petrol stations, at toll stations and the like.

Die Erfindung wird im Folgenden anhand der beigefügten Zeichnung näher erläutert.The invention is explained in more detail below with reference to the accompanying drawing.

In der Zeichnung zeigt:

  • 1 ein schematischen Diagramms der Spracherfassung und Generierung näher erläutert.
The drawing shows:
  • 1 a schematic diagram of language acquisition and generation explained in more detail.

Im Diagramm der 1 ist ein Nutzer 10 dargestellt, der über ein Mikrofon 11 Spracheingaben macht, die von einem „Sprache-in-Text“-Konverter 12 in einen maschinenlesbaren Rohtext umgewandelt werden. Ein Sprachverarbeitungsmodul 13 für natürliche Sprache analysiert sowohl den Rohtext als auch das Audiosignal und versucht durch syntaktische und semantische Analyse der Spracheingabe das Anliegen des Nutzers 10 zu ermitteln. Sowohl aus dem Text, wie auch aus dem Sprachsignal selbst wird über ein Emotionsanalyse-Modul 14 ein Emotionszustand des Nutzers 10 ermittelt. Ferner wird der umgewandelte Text, wie auch das Sprachsignal selbst über das erfindungsgemäße Prosodie-Modul 15 ausgewertet. Auf der Grundlage der Prosodieanalyse kann sowohl die Umwandlung in Text in Sprache, die Spracherkennung und die Emotions-Analyse. Im dargestellten Beispiel fließen die Ergebnisse der Sprachverarbeitung und der Emotionsanalyse in das Dialogmodul 16 ein, welches kontextsensitiv geeignete Ausgaben des Systems, insbesondere sprachliche Antworten an den des Systems an den Nutzer, generiert. Die Daten des Dialogmoduls werden über einen Sprachsynthese-Modul 17 für natürliche Sprache in einen verständlichen Text übersetzt. In die Text-in-Sprache-Konverters 18 wird der erzeugte Text in ein entsprechendes Audiosignal umgewenalt, dass über einen Lautsprecher 19 ausgegeben wird.In the diagram of the 1 is a user 10th represented by a microphone 11 Voice input made by a "speech-to-text" converter 12th be converted into a machine-readable raw text. A language processing module 13 for natural language analyzes both the raw text and the audio signal and tries to concern the user through syntactic and semantic analysis of the speech input 10th to investigate. Both the text and the speech signal itself are transformed into an emotion analysis module 14 an emotional state of the user 10th determined. Furthermore, the converted text, like the speech signal itself, is transmitted via the prosody module according to the invention 15 evaluated. On the basis of prosody analysis can both the conversion into text into speech, the speech recognition and the emotion analysis. In the example shown, the results of language processing and emotion analysis flow into the dialog module 16 a, which generates context-sensitive suitable outputs of the system, in particular linguistic responses to those of the system to the user. The data of the dialogue module are transmitted via a speech synthesis module 17th translated into understandable text for natural language. Into the text-to-speech converter 18th the generated text is converted into a corresponding audio signal, that over a loudspeaker 19th is issued.

Wie dargestellt fließen die Ergebnisse der Prosodie-Analyse in das Sprachsynthese-Modul 17 ein, beispielsweise bei der Generierung von Satzpartikeln, bei der Festlegung der Komplexität der generierten Sätze und Ähnlichem. Auch in die generierte Sprachausgabe des Text-in-Sprache Konverters 17 kann die Prosodie-Analyse einfließen, beispielsweise bei der Festlegung der Sprechgeschwindigkeit.As shown, the results of prosody analysis flow into the speech synthesis module 17th a, for example when generating sentence particles, when determining the complexity of the generated sentences and the like. Also in the generated speech output of the text-to-speech converter 17th the prosody analysis can be used, for example when determining the speaking speed.

BezugszeichenlisteReference list

1010th
NutzerUsers
1111
Mikrophonmicrophone
1212th
Sprache-in-Text-KonverterSpeech to text converter
1313
SpracherkennungsmodulSpeech recognition module
1414
Emotionsanalyse-ModulEmotion analysis module
1515
Prosodie-ModulProsody module
16 16
Dialog-ModulDialog module
1717th
SprachsynthesmodulSpeech synthesis module
1818th
Text-in-Sprache-KonverterText to speech converter
1919th
Lautsprecherspeaker

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant has been generated automatically and is only included for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent literature cited

  • US 2017/0229120 A1 [0004]US 2017/0229120 A1 [0004]
  • WO 2016/012108 A1 [0005, 0007, 0011]WO 2016/012108 A1 [0005, 0007, 0011]

Claims (14)

Verfahren zur Verbesserung der Spracherkennung einer Mensch-Maschine-Schnittstelle, welches die Schritte umfasst: Aufnehmen von menschlicher Sprache über ein oder mehrere Mikrophone, Erfassen von einem oder mehreren prosodischen Merkmalen der aufgenommenen Sprache, Umwandeln der aufgenommen Sprache in Text, Erkennen des Inhalts des umgewandelten Textes, dadurch gekennzeichnet, dass man die erfassten prosodischen Merkmale zur Verbesserung der Genauigkeit bei der Umwandlung der aufgenommenen Sprache in Text und bei der Erkennung des Inhaltes des umgewandelten Textes verwendet.A method for improving the speech recognition of a human-machine interface, comprising the steps of: recording human speech via one or more microphones, recording one or more prosodic features of the recorded speech, converting the recorded speech into text, recognizing the content of the converted Text, characterized in that the detected prosodic features are used to improve the accuracy in converting the recorded speech into text and in recognizing the content of the converted text. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass prosodische Merkmale zur Interpunktionserkennung verwendet werden.Procedure according to Claim 1 , characterized in that prosodic features are used for punctuation detection. Verfahren gemäß Anspruch 2, dadurch gekennzeichnet, dass die prosodischen Merkmale zur Interpunktionserkennung den relativen Tonhöhenverlauf und die Verteilung von Sprechpausen umfassen.Procedure according to Claim 2 , characterized in that the prosodic features for punctuation recognition include the relative pitch and the distribution of pauses in speech. Verfahren gemäß einem Ansprüche 1 bis 3, dadurch gekennzeichnet, dass prosodische Elemente zur Bestimmung eines Satztyps verwendet werden.Procedure according to a Claims 1 to 3rd , characterized in that prosodic elements are used to determine a sentence type. Verfahren gemäß Anspruch 4, dadurch gekennzeichnet, dass die prosodischen Elemente zur Bestimmung des Satztyps die relative Tonhöhe am Anfang und/oder Ende eines Satzes, den relativen Tonhöhenverlauf sowie die relative Lautstärkenverteilung umfassen.Procedure according to Claim 4 , characterized in that the prosodic elements for determining the sentence type include the relative pitch at the beginning and / or end of a sentence, the relative pitch profile and the relative volume distribution. Verfahren gemäß einem Ansprüche 1 bis 5, dadurch gekennzeichnet, dass prosodische Elemente zur Bestimmung einen Nachdruck-Werts für einzelnen Wörter oder Satzbestandteilen verwendet werden.Procedure according to a Claims 1 to 5 , characterized in that prosodic elements are used to determine a reprint value for individual words or parts of sentences. Verfahren gemäß Anspruch 6, dadurch gekennzeichnet, dass die prosodischen Elemente zur Bestimmung des Nachdruck-Werts die relative Tonhöhe, die relative Lautstärke, eine Reduktion der Sprechgeschwindigkeit und/oder eine Sprechpause umfassen.Procedure according to Claim 6 , characterized in that the prosodic elements for determining the emphasis value comprise the relative pitch, the relative volume, a reduction in the speaking speed and / or a pause in speaking. Verfahren gemäß einem Ansprüche 1 bis 7, dadurch gekennzeichnet, dass prosodische Elemente zur Identifikation von Sprachpartikeln verwendet werden.Procedure according to a Claims 1 to 7 , characterized in that prosodic elements are used to identify speech particles. Verfahren gemäß Anspruch 8, dadurch gekennzeichnet, dass die prosodischen Elemente zur Identifikation von Sprachpartikeln den relativen Tonhöhenverlauf und die Verteilung von Sprechpausen umfassen.Procedure according to Claim 8 , characterized in that the prosodic elements for the identification of speech particles include the relative pitch and the distribution of pauses in speech. Verfahren gemäß einem Ansprüche 1 bis 9, dadurch gekennzeichnet, dass prosodische Elemente die Auswertung der Sprechgeschwindigkeit umfassen.Procedure according to a Claims 1 to 9 , characterized in that prosodic elements comprise the evaluation of the speaking speed. Verfahren gemäß einem Ansprüche 1 bis 10, dadurch gekennzeichnet, dass prosodische Elemente zur Bestimmung eines Aufmerksamkeitswerts des Nutzers verwendet werden.Procedure according to a Claims 1 to 10th , characterized in that prosodic elements are used to determine a user's attention value. Verfahren gemäß Anspruch 11, dadurch gekennzeichnet, dass die prosodischen Elemente zur Bestimmung des Aufmerksamkeitswerts die Anzahl der Sprachpartikel in einer bestimmten Zeiteinheit, Sprechpausen und die Sprachgeschwindigkeit umfassen.Procedure according to Claim 11 , characterized in that the prosodic elements for determining the attention value comprise the number of speech particles in a certain time unit, pauses in speech and the speech speed. Verfahren gemäß einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass man die Erfassung von prosodischen Merkmalen mit der Erfassung von nicht sprachlichen Merkmalen des Nutzers wie Geschlecht und/oder Alter des Nutzers kombiniert.Method according to one of the Claims 1 to 12th , characterized in that one combines the detection of prosodic features with the detection of non-linguistic features of the user such as gender and / or age of the user. Verfahren gemäß einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, dass das Verfahren in einem Nutzerdialogsystem eines Kraftfahrzeugs implementiert ist.Method according to one of the Claims 1 to 13 , characterized in that the method is implemented in a user dialog system of a motor vehicle.
DE102018133694.2A 2018-12-28 2018-12-28 Method for improving the speech recognition of a user interface Active DE102018133694B4 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102018133694.2A DE102018133694B4 (en) 2018-12-28 2018-12-28 Method for improving the speech recognition of a user interface

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102018133694.2A DE102018133694B4 (en) 2018-12-28 2018-12-28 Method for improving the speech recognition of a user interface

Publications (2)

Publication Number Publication Date
DE102018133694A1 true DE102018133694A1 (en) 2020-07-02
DE102018133694B4 DE102018133694B4 (en) 2023-09-07

Family

ID=71079505

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018133694.2A Active DE102018133694B4 (en) 2018-12-28 2018-12-28 Method for improving the speech recognition of a user interface

Country Status (1)

Country Link
DE (1) DE102018133694B4 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US20050182619A1 (en) * 2004-02-18 2005-08-18 Fuji Xerox Co., Ltd. Systems and methods for resolving ambiguity
US20120316875A1 (en) * 2011-06-10 2012-12-13 Red Shift Company, Llc Hosted speech handling
US20150120281A1 (en) * 2013-10-30 2015-04-30 Lenovo (Singapore) Pte. Ltd. Automatic sentence punctuation
WO2016012108A1 (en) 2014-07-23 2016-01-28 Bayerische Motoren Werke Aktiengesellschaft Improvement of voice recognition in a vehicle
US20170229120A1 (en) 2014-11-24 2017-08-10 Audi Ag Motor vehicle operating device with a correction strategy for voice recognition
DE102016204315A1 (en) * 2016-03-16 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Means of transport, system and method for adjusting a length of a permitted speech break in the context of a voice input

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US20050182619A1 (en) * 2004-02-18 2005-08-18 Fuji Xerox Co., Ltd. Systems and methods for resolving ambiguity
US20120316875A1 (en) * 2011-06-10 2012-12-13 Red Shift Company, Llc Hosted speech handling
US20150120281A1 (en) * 2013-10-30 2015-04-30 Lenovo (Singapore) Pte. Ltd. Automatic sentence punctuation
WO2016012108A1 (en) 2014-07-23 2016-01-28 Bayerische Motoren Werke Aktiengesellschaft Improvement of voice recognition in a vehicle
US20170229120A1 (en) 2014-11-24 2017-08-10 Audi Ag Motor vehicle operating device with a correction strategy for voice recognition
DE102016204315A1 (en) * 2016-03-16 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Means of transport, system and method for adjusting a length of a permitted speech break in the context of a voice input

Also Published As

Publication number Publication date
DE102018133694B4 (en) 2023-09-07

Similar Documents

Publication Publication Date Title
Delić et al. Speech technology progress based on new machine learning paradigm
DE60216069T2 (en) LANGUAGE-TO-LANGUAGE GENERATION SYSTEM AND METHOD
DE60125542T2 (en) SYSTEM AND METHOD FOR VOICE RECOGNITION WITH A VARIETY OF LANGUAGE RECOGNITION DEVICES
DE60201262T2 (en) HIERARCHICAL LANGUAGE MODELS
EP0925578B1 (en) Speech-processing system and method
EP1892700A1 (en) Method for speech recognition and speech reproduction
DE10334400A1 (en) Method for speech recognition and communication device
EP1466317A1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
DE112004000187T5 (en) Method and apparatus of prosodic simulation synthesis
DE112021000959T5 (en) Synthetic Language Processing
DE102015106280B4 (en) Systems and methods for compensating for speech artifacts in speech recognition systems
EP3010014B1 (en) Method for interpretation of automatic speech recognition
CN111326178A (en) Multi-mode speech emotion recognition system and method based on convolutional neural network
EP1081683A1 (en) Speech recognition method and device
EP0987682B1 (en) Method for adapting linguistic language models
WO2017157684A1 (en) Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input
EP0633559A2 (en) Method and device for speech recognition
DE60014583T2 (en) METHOD AND DEVICE FOR INTEGRITY TESTING OF USER INTERFACES OF VOICE CONTROLLED EQUIPMENT
DE102018133694B4 (en) Method for improving the speech recognition of a user interface
Shechtman et al. Emphatic speech prosody prediction with deep lstm networks
DE69723449T2 (en) METHOD AND SYSTEM FOR LANGUAGE-TO-LANGUAGE IMPLEMENTATION
EP1659573A2 (en) Method and apparatus for evaluating the emotional state of a person from speech utterances
EP1445759B1 (en) User adaptive method for modeling of background noise in speech recognition
DE10308611A1 (en) Determination of the likelihood of confusion between vocabulary entries in phoneme-based speech recognition
Yamashita et al. DNN-based speech synthesis using abundant tags of spontaneous speech corpus

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division