DE102013200378A1

DE102013200378A1 - Verfahren und System zum Verwenden einer mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation zum Verbessern einer Spracherkennung

Info

Publication number: DE102013200378A1
Application number: DE102013200378A
Authority: DE
Inventors: Eli Tzirkel-Hancock; Omer Tsimhoni
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2012-01-17
Filing date: 2013-01-14
Publication date: 2013-07-18
Also published as: US9263040B2; CN103208284A; US20130185065A1

Abstract

In einem einem Fahrzeug zugehörigen Prozessor kann ein Audiosignal empfangen werden. Eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation, die ein oder mehrere Geräusche darstellt, kann durch den Prozessor empfangen werden. Die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation kann ein Audiosignal umfassen, muss jedoch nicht. Ein Spracherkennungsprozess oder -system kann auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation modifiziert werden.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf das Verbessern einer Fahrzeugspracherkennung unter Verwendung von beispielsweise einer Kombination aus einer mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation, einer Signalverarbeitung und anderen Operationen oder Informationen.
HINTERGRUND DER ERFINDUNG
Viele Fahrzeuge sind mit Fahrzeugsystemen eines gesprochenen Dialogs, sprachbetätigten oder sprachgesteuerten Fahrzeugsystemen ausgestattet. Systeme eines gesprochenen Dialogs können auf der Grundlage von verbalen Befehlen Funktionen ausführen, eine Information bereitstellen und/oder Reaktionen bereitstellen. Ein System eines gesprochenen Dialogs kann Geräusche (z. B. Sprache, die durch einen Fahrzeuginsassen erzeugt wird) von einem Mikrofon verarbeiten und in ein Audiosignal umwandeln. Es kann eine Spracherkennung auf das Audiosignal angewandt werden, und die identifizierte Sprache kann durch eine Semantikinterpretationseinrichtung verarbeitet werden. Auf der Grundlage der Interpretation des verbalen Befehls kann ein System, wie beispielsweise ein Dialogsteuersystem, eine Aktion durchführen, eine Reaktion erzeugen oder andere Funktionen ausführen. Eine Reaktion kann beispielsweise in Form eines visuellen Signals, eines Audiosignals, eines Text-in-Sprache-Signals, einer Aktion, die durch ein Fahrzeugsystem ausgeführt wird, oder einer anderen Benachrichtigung für Fahrzeuginsassen vorliegen.
Die Klarheit und Dechiffrierbarkeit von Sprachbefehlen kann die Funktion eines sprachbetätigten Fahrzeugsystems beeinflussen. Allerdings kann ein Mikrofon oftmals ein Signal mit mit Sprache in Zusammenhang stehenden und nicht mit Sprache in Zusammenhang stehenden Geräuschen empfangen, was die Klarheit von Sprachbefehlen reduziert. Nicht mit Sprache in Zusammenhang stehende Geräusche können mit dem Fahrzeug in Zusammenhang stehende Störgeräusche (z. B. ein Motorstörgeräusch, ein Kühlsystemstörgeräusch, etc.), ein nicht mit dem Fahrzeug in Zusammenhang stehendes Störgeräusch (z. B. Störgeräusche von außerhalb des Fahrzeugs), Audiosystemgeräusche (z. B. Musik, mit dem Radio in Zusammenhang stehende Geräusche) und andere Geräusche umfassen. Die nicht mit Sprache in Zusammenhang stehenden Geräusche können oftmals lauter als Sprachbefehle sein, diese übertönen und/oder verzerren. Folglich arbeitet ein Spracherkennungssystem oder -verfahren möglicherweise nicht korrekt, wenn nicht mit Sprache in Zusammenhang stehende Geräusche Sprachbefehle verzerren. Gleichermaßen kann die Genauigkeit eines Systems, wie beispielsweise eines Dialogsteuersystems, beim Erzeugen von Reaktionen auf Sprachbefehle durch nicht mit Sprache in Zusammenhang stehende Geräusche reduziert werden. Nicht mit Sprache in Zusammenhang stehende Geräusche können beispielsweise Text-in-Sprache-Reaktionen, eine Audio- und eine andere Signalausgabe von einem System eines gesprochenen Dialogs und/oder anderen Systemen verzerren oder übertönen. Somit ist ein System oder ein Verfahren zum Verbessern von Spracherkennungs-, Dialogsteuer- und/oder Sprachaufforderungssystemen auf der Grundlage von mit einem Geräusch oder Akustik in Zusammenhang stehenden Fahrzeuginformationen erforderlich.
ZUSAMMENFASSUNG DER ERFINDUNG
Ein Audiosignal kann in einem einem Fahrzeug zugehörigen Prozessor empfangen werden. Eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation, die ein oder mehrere Geräusche darstellt, kann durch den Prozessor empfangen werden. Die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation kann ein Audiosignal umfassen, muss jedoch nicht. Ein Spracherkennungsprozess oder -system kann auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation modifiziert werden.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Der als Erfindung betrachtete Gegenstand ist im abschließenden Teil der Anmeldung genau dargelegt und deutlich beansprucht. Die Erfindung kann jedoch sowohl bezüglich Organisation als auch Verfahren des Betriebs zusammen mit Objekten, Merkmalen und Vorteilen hiervon am besten in Bezug auf die folgende detaillierte Beschreibung verstanden werden, wenn sie zusammen mit den begleitenden Zeichnungen gelesen wird, in denen:
1 eine schematische Darstellung eines Fahrzeugs mit einem System einer automatischen Spracherkennung gemäß einer Ausführungsform der vorliegenden Erfindung ist;
2 eine schematische Darstellung eines Systems einer automatischen Spracherkennung gemäß Ausführungsformen der vorliegenden Erfindung ist;
3 ein Blockdiagramm eines Systems eines gesprochenen Dialogs gemäß Ausführungsformen der vorliegenden Erfindung ist;
4 ein Blockdiagramm eines Systems einer automatischen Spracherkennung gemäß Ausführungsformen der vorliegenden Erfindung ist;
5 ein Blockdiagramm eines Aufforderungssystems eines gesprochenen Dialogs gemäß Ausführungsformen der vorliegenden Erfindung ist;
6 ein Blockdiagramm eines Systems eines gesprochenen Dialogs gemäß Ausführungsformen der vorliegenden Erfindung ist; und
7 ein Flussdiagramm eines Verfahrens gemäß Ausführungsformen der vorliegenden Erfindung ist.
Es sei angemerkt, dass die in den Figuren gezeigten Elemente zur Vereinfachung und Verdeutlichung der Darstellung nicht notwendigerweise maßstabsgetreu dargestellt wurden. Beispielsweise können die Abmessungen einiger der Elemente zur Verdeutlichung in Bezug auf andere Elemente übertrieben sein. Ferner ist es möglich, dass Bezugszeichen, wenn dies als angemessen betrachtet wird, in den Figuren wiederholt werden, um entsprechende oder analoge Elemente anzugeben.
DETAILLIERTE BESCHREIBUNG DER VORLIEGENDEN ERFINDUNG
In der folgenden detaillierten Beschreibung sind zahlreiche spezifische Details ausgeführt, um ein gründliches Verständnis der Ausführungsformen der Erfindung bereitzustellen. Fachleute werden jedoch verstehen, dass die Ausführungsformen der vorliegenden Erfindung ohne diese spezifischen Details ausgeführt werden können. In anderen Fällen wurden möglicherweise weithin bekannte Verfahren, Prozeduren, Komponenten und Schaltkreise nicht ausführlich beschrieben, um die vorliegende Erfindung nicht undurchsichtig zu machen.
Wenn es nicht ausdrücklich anders angegeben ist, beziehen sich, wie es aus den folgenden Erläuterungen deutlich wird, in der Beschreibung Erläuterungen, die Begriffe wie beispielsweise ”verarbeiten”, ”berechnen”, ”speichern”, ”ermitteln” oder dergleichen verwenden, auf die Aktion und/oder die Prozesse eines Computers oder Rechensystems oder einer ähnlichen elektronischen Recheneinrichtung, die Daten, die als physikalische, wie beispielsweise elektronische, Quantitäten in den Registern und/oder Speichern des Rechensystems dargestellt sind, bearbeitet und/oder in andere Daten transformiert, die auf ähnliche Weise als physikalische Quantitäten in den Speichern, Registern oder anderen derartigen Informationsspeicher-, -übertragungs- oder -anzeigeeinrichtungen des Rechensystems dargestellt sind.
Ausführungsformen der vorliegenden Erfindung können eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation (z. B. eine Information über Fahrzeugsysteme, die sich auf Geräusche in dem Fahrzeug bezieht, jedoch selbst keine Geräuschsignale oder -aufzeichnungen oder Audiosignale oder -aufzeichnungen umfasst), Signale oder eine Information, die mit dem Betrieb der Fahrzeugsysteme in Zusammenhang stehen/steht, die ein Geräusch erzeugen oder verursachen, eine mit Akustik in Zusammenhang stehende Fahrzeuginformation oder eine Interferenzgeräuschinformation (z. B. Daten, die eine Fensterstellung, die Motordrehzahl (Motor-RPM von engine rotations per minute), die Fahrzeuggeschwindigkeit, (eine) Heizungs-, Lüftungs- und Klimatisierungssystemlüftereinstellung(en) (HLK-Systemlüftereinstellung(en)), das Audioniveau oder andere Parameter angeben); externe Geräuschmessungen; und andere Informationen verwenden, um eine Spracherkennung, eine Aufforderung, beispielsweise unter Verwendung eines gesprochenen Dialogs, eine Dialogsteuerung und/oder andere Systeme oder Verfahren eines gesprochenen Dialogs zu verbessern. Eine Aufforderung kann beispielsweise eine Information, Sprache oder andere Audiosignale, die an einen Benutzer von einem System eines gesprochenen Dialogs ausgegeben werden, umfassen. Eine mit einem Geräusch oder Akustik in Zusammenhang stehende Fahrzeuginformation muss selbst keine Geräuschsignale umfassen. Beispielsweise kann eine mit einem Geräusch oder Akustik in Zusammenhang stehende Information eine Motor-RPM darstellen (z. B. eine Information darüber umfassen), jedoch kein Signal, das das Geräusch darstellt, das der Motor erzeugt. Eine mit einem Geräusch oder Akustik in Zusammenhang stehende Information kann die Tatsache, dass ein Fenster geöffnet ist (oder zu einem gewissen Umfang geöffnet ist) darstellen (z. B. eine Information darüber umfassen), jedoch kein Signal, das das Geräusch darstellt, das der Wind durch das offene Fenster erzeugt. Eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation kann Fahrzeugparameter darstellen oder umfassen, die den Zustand des Fahrzeugs oder von Fahrzeugsystemen beschreiben.
Eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation oder mit einem Geräusch in Zusammenhang stehende Fahrzeugsignale oder eine mit dem Betrieb von Fahrzeugsystemen, die ein Geräusch erzeugen oder verursachen, in Zusammenhang stehende Information können verwendet werden, um einen Interferenzprofildatensatz (IPR von interference profile record) zu erzeugen. Ein Interferenzprofildatensatz kann beispielsweise Störgeräusch- oder Geräuschtypparameter, Störgeräuschniveau- oder Geräuschintensitätsparameter und andere Informationen umfassen. (Bei einigen Ausführungsformen kann eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation Störgeräuschtypparameter und/oder Störgeräuschniveauparameter umfassen.) Störgeräuschtypparameter können beispielsweise eine mit einem Geräuschtyp in Zusammenhang stehende Fahrzeuginformation (z. B. eine Motor-RPM, (eine) HLK-Lüftereinstellung(en), eine Fensterstellung, ein Audiowiedergabeniveau, eine Fahrzeuggeschwindigkeit oder eine andere Information) oder eine mit Kombinationen von Geräuschtypen in Zusammenhang stehende Fahrzeuginformation darstellen oder darauf basieren. Beispielsweise kann ein Störgeräuschtypparameter eine Angabe umfassen, ob oder wie weit ein Fenster geöffnet ist (jedoch nicht ein Signal umfassen, das das Geräusch von Wind darstellt). Störgeräuschniveauparameter können das Intensitätsniveau einer mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation (z. B. HLK-Lüftereinstellung hoch, mittel, niedrig oder aus; Audiowiedergabeniveau hoch, mittel, niedrig oder aus; oder einer anderen mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation) oder Kombinationen einer mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation (z. B. geöffnete Fenster und eine Geschwindigkeit über einer Schwellenwertgeschwindigkeit können als Störgeräuschtypparameter Wind und Störgeräuschniveauparameter hoch dargestellt werden) darstellen. Beispielsweise kann ein Störgeräuschniveauparameter eine Angabe umfassen, ob und wie stark ein Lüfter läuft (jedoch nicht ein Signal umfassen, das das Geräusch des Lüfters darstellt). Interferenzprofildatensätze können bei einigen Ausführungsformen eine ganze Zahl (z. B. eine ganze Zahl mit 8 Bit oder ein anderer Typ von ganzer Zahl), ein Prozentsatz, ein Wertebereich oder andere Daten oder Informationen sein oder umfassen.
Bei einigen Ausführungsformen können Interferenzprofildatensätze (z. B. Störgeräuschtypparameter, Störgeräuschniveauparameter und/oder andere Parameter) verwendet werden, um die Spracherkennung zu verbessern. Der Interferenzprofildatensatz kann beispielsweise durch ein Spracherkennungssystem oder einen Spracherkennungsprozess verwendet werden (z. B. das oder der einen Signalprozessor, ein System einer automatischen Spracherkennung (ASR-System von automatic speech recognition system) oder ein anderes System/andere Systeme oder ein anderes Verfahren/andere Verfahren umfasst), um ein Geräuschsignal zu modifizieren oder zu andern, um die Decodierung des Spracherkennungssystems oder -prozesses zu verbessern. Bei einem Beispiel kann ein Signalprozessor, ein ASR oder ein anderes System auf der Grundlage von Interferenzprofildatensätzen (z. B. Störgeräuschtypparameter und Störgeräuschniveauparameter) ein vorab trainiertes Filter (z. B. ein Weiner-Filter, ein Kammfilter oder ein anderes Filter für elektronische Signale) anwenden, um das Eingangssignal zu modifizieren oder zu andern, um ein Störgeräusch einzuschränken oder zu entfernen und die Spracherkennung zu verbessern. Beispielsweise kann auf der Grundlage von Störgeräuschtypparametern ein Typ von vorab trainiertem Filter angewandt werden und können auf der Grundlage von Störgeräuschniveauparametern Filtereinstellungen oder -parameter ermittelt und/oder angewandt werden. Filtereinstellungen oder -parameter können beispielsweise einen Umfang oder ein Niveau oder eine Filterung, gefilterte Frequenzen oder andere Attribute eines Filters steuern oder darstellen. Ein Niveau der Filterung (z. B. ein Umfang an Filterung), gefilterte Frequenzen und andere Filterattribute können beispielsweise auf Störgeräuschniveauparametern basieren, die eine Fensterstellung (z. B. einen Prozentsatz, wie weit ein Fenster geöffnet ist), die Motordrehzahl (RPM), die Fahrzeuggeschwindigkeit, die Umgebungssteuerungslüftereinstellung, das Audiowiedergabeniveau oder andere Fahrzeugparameter darstellen können. Wenn beispielsweise ein Störgeräuschniveauparameter ein hohes Störgeräuschniveau anstatt eines niedrigen Störgeräuschniveaus angibt, kann ein höheres Niveau oder ein höherer Umfang an Filterung, anstatt eines niedrigeren Niveaus, auf das Eingangssignal angewandt werden. Natürlich können verschiedene Kombinationen von Filterniveaus und Störgeräuschniveauparametern verwendet werden. Es können auch andere Signalverarbeitungsverfahren und/oder -module verwendet werden.
Bei einem Beispiel kann ein ASR oder ein anderes System basierend auf Interferenzprofildatensätzen (z. B. Störgeräuschtypparameter und Störgeräuschniveauparameter) ein vorab trainiertes Akustikmodell anwenden, um die Spracherkennung zu verbessern. Ein Typ von vorab trainiertem Akustikmodell (z. B. unter mehreren Akustikmodellen) kann auf der Grundlage von Interferenzprofildatensätzen (z. B. Störgeräuschtypparameter, Störgeräuschniveauparameter und/oder andere Parameter) ausgewählt werden. Bei einigen Ausführungsformen kann ein Typ von Akustikmodell einem oder mehreren Interferenzprofildatensätzen entsprechen. Beispielsweise kann ein vorbestimmtes Akustikmodell verwendet werden, wenn vorbestimmte Interferenzprofildatensätze auf der Grundlage einer mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation erzeugt werden.
Gemäß einigen Ausführungsformen kann eine Modifikation eines Spracherkennungsprozesses auf der Grundlage von Interferenzprofildatensätzen angepasst werden. Bei einer Anpassungsoperation kann ein überwachtes Lernen verwendet werden, um Signalmodifikationsparameter (z. B. Filterparameter oder andere Parameter) anzupassen oder zu verändern, Akustikmodelltransformationsmatrizen anzupassen oder zu trainieren, anzupassen oder zu verändern, welches vorab trainierte Akustikmodell verwendet wird, oder andere Merkmale eines Systems eines gesprochenen Dialogs anzupassen. Bei einer Anpassungsoperation kann die Auswirkung von Signalmodifikationsparametern beispielsweise überwacht oder gemessen werden, indem der Erfolg oder die Effektivität eines ASR oder von anderen Komponenten eines Spracherkennungssystems beim Identifizieren von Sprache (z. B. Wörter, Phrasen und anderen Sprachteilen) ermittelt wird. Auf der Grundlage der Messungen können beispielsweise Signalmodifikationsparameter angepasst oder verändert werden, um die Funktion oder den Erfolg der Spracherkennung und des Systems eines gesprochenen Dialogs zu verbessern. Bei einem Beispiel kann ein vordefiniertes Filter (z. B. ein Weiner-Filter, ein Kammfilter oder ein anderes Filter), das mit einem gegebenen Satz von Filterparametern arbeitet, auf der Grundlage eines gegebenen Satzes von Störgeräuschtypparametern und Störgeräuschniveauparametern angewandt werden. Ein Anpassungsmodul kann beispielsweise messen, wie effektiv oder erfolgreich ein Filter, das mit einem gegebenen Satz von Parametern auf der Grundlage von Störgeräuschtypparametern und Störgeräuschniveauparametern arbeitet, beim Verbessern oder Optimieren der Spracherkennung ist. Auf der Grundlage der Messung können die Filterparameter angepasst oder verändert werden, um die Spracherkennung zu optimieren oder zu verbessern. Es können andere Signalmodifikationsparameter angepasst werden.
Bei einigen Ausführungsformen können Interferenzprofildatensätze (z. B. Störgeräuschtypparameter, Störgeräuschniveauparameter und/oder andere Parameter) durch Text-in-Sprache-, Audioverarbeitungs- oder andere Module oder Verfahren verwendet werden, um eine Sprachaufforderung oder einen gesprochenen Dialog, eine Audioausgabe oder eine andere Audiosignalausgabe, typischerweise für Fahrgäste, zu verbessern. Ein Audioverarbeitungsmodul oder ein anderes System kann beispielsweise, basierend auf Störgeräuschtypparametern, Störgeräuschniveauparametern und/oder anderen Parametern, ein Aufforderungsniveau erhöhen oder verringern, das Aufforderungsspektrum formen oder neu formen, einen Aufforderungsabstand modifizieren oder eine Aufforderung auf andere Weise ändern. Ein Audioverarbeitungsmodul kann beispielsweise ein Audioausgabelautstärkeniveau erhöhen, ein Audiospektrum (z. B. ein Audiowiedergabespektrum) formen oder neu formen, einen Audiowiedergabeabstand modifizieren und/oder Audio oder Geräusche auf andere Weise ändern. Ein Text-in-Sprache-Modul oder ein anderes System kann beispielsweise die Sprachgeschwindigkeit, die Silbendauer oder andere mit Sprache in Zusammenhang stehende Parameter basierend auf Störgeräuschtypparametern, Störgeräuschniveauparametern und/oder anderen Parametern modifizieren oder ändern.
Gemäß einigen Ausführungsformen kann die Modifikation der Sprachaufforderung, der Audioausgabe oder einer anderen Audiosignalausgabe basierend auf Interferenzprofildatensätzen angepasst werden. Bei einer Anpassungsoperation kann ein überwachtes Lernen verwendet werden, um Parameter, die einem Erhöhen oder Verringern eines Aufforderungsniveaus zugehörig sind, Parameter, die verwendet werden, um das Aufforderungsspektrum zu formen oder neu zu formen, Parameter, die verwendet werden, um den Aufforderungsabstand zu modifizieren und/oder andere Parameter anzupassen oder zu verändern. Bei einer Anpassungsoperation kann die Auswirkung von Parametern, die verwendet werden, um ein Aufforderungsniveau zu erhöhen oder zu verringern, Parametern, die verwendet werden, um das Aufforderungsspektrum neu zu formen, Parametern, die verwendet werden, um den Aufforderungsabstand zu modifizieren und/oder anderen Parameter gemessen werden. Die Substanz oder der Inhalt von Sprache oder Audioaufforderungen kann geändert werden. Auf der Grundlage der Messung können die Parameter, die verwendet werden, um ein Aufforderungsniveau zu erhöhen oder zu verringern, die Parameter, die verwendet werden, um das Aufforderungsspektrum neu zu formen, die Parameter, die verwendet werden, um den Aufforderungsabstand zu modifizieren und/oder andere Parameter angepasst oder verändert werden, um eine Aufforderungs- oder eine Audioausgabefunktion zu optimieren oder zu verbessern.
Bei einigen Ausführungsformen können Interferenzprofildatensätze (z. B. Störgeräuschtypparameter, Störgeräuschniveauparameter und/oder andere Parameter) beispielsweise durch ein Dialogsteuermodul oder ein anderes System oder Verfahren verwendet werden, um die Fahrzeuginsasseninteraktion mit dem System eines gesprochenen Dialogs zu verbessern. Ein Steuermodul eines gesprochenen Dialogs oder ein anderes System kann beispielsweise, basierend auf Störgeräuschtypparametern, Störgeräuschniveauparametern und/oder anderen Parametern, die Dialogsteuerung modifizieren, Aufforderungen einführen (z. B. Einführungsaufforderungen), Audioaufforderungen modifizieren, die Substanz oder den Inhalt der ausgegebenen Sprache modifizieren, den Dialogstil modifizieren, auf eine Benutzerirritation hören oder reagieren, einen Multimodusdialog modifizieren, eine Backend-Anwendungsfunktionalität modifizieren und/oder andere Operationen durchführen.
Gemäß einigen Ausführungsformen kann die Modifikation der Steuerung eines gesprochenen Dialogs auf der Grundlage von Interferenzprofildatensätzen angepasst werden. Bei einer Anpassungsoperation kann ein überwachtes Lernen verwendet werden, um Parameter anzupassen oder zu verändern, die bei einer Dialogsteuerung, einer Aufforderungseinführung, einer Aufforderungsmodifikation, einer Dialogstilmodifikation, einer Benutzerirritationsreaktion, einer Multimodusdialogmodifikation, einer Backend-Anwendungsfunktionalitätsmodifikation und/oder anderen Operationen verwendet werden. Bei einer Anpassungsoperation kann die Auswirkung von Parametern, die bei einer Dialogsteuerung, einer Aufforderungseinführung, einer Aufforderungsmodifikation, einer Dialogstilmodifikation, einer Benutzerirritationsreaktion, einer Multimodusdialogmodifikation, einer Backend-Anwendungsfunktionalitätsmodifikation und/oder anderen Operationen verwendet werden, gemessen werden. Auf der Grundlage der Messung können die Parameter, die bei einer Dialogsteuerung, einer Aufforderungseinführung, einer Aufforderungsmodifikation, einer Dialogstilmodifikation, einer Benutzerirritationsreaktion, einer Multimodusdialogmodifikation, einer Backend-Anwendungsfunktionalitätsmodifikation und/oder anderen Operationen verwendet werden, angepasst oder verändert werden, um die Funktion eines Systems eines gesprochenen Dialogs zu optimieren oder zu verbessern.
Ein System oder Verfahren eines gesprochenen Dialogs gemäß Ausführungsformen der vorliegenden Erfindung kann insbesondere nützlich sein, indem eine automatische Spracherkennung, eine Audioaufforderung, eine Dialogsteuerung und/oder andere Operationen auf der Grundlage einer genau zeitlich festgelegten mit einem Fahrzeuggeräusch in Zusammenhang stehenden Information oder einer mit einem Fahrzeuggeräusch in Zusammenhang stehenden Echtzeitinformation, eines a-priori-Verständnisses von Störgeräuscheigenschaften und anderer Informationen modifiziert oder geändert werden. Ferner können die Parameter, die verwendet werden, um eine automatische Spracherkennung, eine Aufforderung, eine Dialogsteuerung und/oder andere Operationen zu modifizieren oder zu ändern, angepasst oder verändert werden, um die Funktion des Systems eines gesprochenen Dialogs über die Lebensdauer des Systems eines gesprochenen Dialogs zu optimieren. Durch Ausführungsformen der vorliegenden Erfindung können andere und verschiedene Vorteile erkannt werden.
1 ist eine schematische Darstellung eines Fahrzeugs mit einem System einer automatischen Spracherkennung gemäß einer Ausführungsform der vorliegenden Erfindung. Ein Fahrzeug 10 (z. B. ein Auto, ein Lastwagen oder ein anderes Fahrzeug) kann ein System 100 eines gesprochenen Dialogs umfassen oder mit diesem verbunden sein. Ein oder mehrere Mikrofon(e) 20 kann/können zu dem System 100 gehören, und die Mikrofone 20 können Sprache, ein Umgebungsstörgeräusch, ein Fahrzeugstörgeräusch, Audiosignale und andere Geräusche empfangen oder aufzeichnen. Die Mikrofone 20 können sich in dem Fahrgastraum 22 des Fahrzeugs, außerhalb des Fahrgastraums 22 des Fahrzeugs oder an einem anderen Ort befinden. Beispielsweise kann sich ein Mikrofon 20 in dem Fahrgastraum 22 des Fahrzeugs befinden und kann es Sprache, nicht mit Sprache in Zusammenhang stehende Geräusche, ein Störgeräusch und/oder Geräusche in dem Fahrgastraum 22 empfangen oder aufzeichnen. Nicht mit Sprache in Zusammenhang stehende Geräusche können beispielsweise mit dem Fahrzeug 10 in Zusammenhang stehende Störgeräusche (z. B. ein Motorstörgeräusch, ein Heizungs-, Lüftungs- und Klimatisierungssystemstörgeräusch (HLK-Systemstörgeräusch), etc.), ein nicht mit dem Fahrzeug in Zusammenhang stehendes Störgeräusch (z. B. Störgeräusche von außerhalb des Fahrzeugs), Audiosystemgeräusche (z. B. Musik, mit dem Radio in Zusammenhang stehende Geräusche) und andere Geräusche umfassen. Ein oder mehrere Außenmikrofon(e) 24 kann/können sich beispielsweise außerhalb des Fahrgastraums 22 des Fahrzeugs befinden (z. B. an der Fahrzeugkarosserie, der Stoßstange, dem Kofferraum, der Frontscheibe oder einem anderen Ort).
Ein oder mehrere Sensoren kann/können an dem Fahrzeug 10 angebracht oder diesem zugehörig sein. Ein Fensterstellungssensor 60, ein Motordrehzahlsensor (Motor-RPM-Sensor) 26, ein Fahrzeuggeschwindigkeitssensor 28 (z. B. ein Tachometer), ein HLK-Sensor 30 (z. B. ein HLK-Lüftereinstellungssensor), ein Audioniveausensor 32 (z. B. Audiosystemlautstärkeniveau), Außenmikrofone 24 und andere oder verschiedene Sensoren, wie beispielsweise Scheibenwischersensoren, können eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation, Fahrzeugparameter, Fahrzeugbedingungen, ein Störgeräusch außerhalb des Fahrzeugs oder eine mit dem Fahrzeug in Zusammenhang stehende Information messen. Eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation oder eine Interferenzgeräuschinformation kann beispielsweise über eine Drahtverbindung 50 (z. B. einen Datenbus, einen Controller Area Network-Bus (CAN-Bus), Flexray, Ethernet) oder eine drahtlose Verbindung an das System 100 übertragen werden. Die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation kann durch das System 100 oder ein anderes System verwendet werden, um einen Interferenzprofildatensatz (z. B. einen Störgeräuschprofildatensatz) oder andere Daten, die die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation darstellen, zu ermitteln. Es können andere oder verschiedene Sensoren oder Informationen verwendet werden.
Bei einer Ausführungsform der vorliegenden Erfindung kann das System 100 eines gesprochenen Dialogs eine Recheneinrichtung sein oder umfassen, die an dem Armaturenbrett oder in einem Steuerpult des Fahrzeugs, in der Fahrgastzelle 22 oder in dem Kofferraum angebracht ist. Bei alternativen Ausführungsformen kann sich das System 100 eines gesprochenen Dialogs in einem anderen Teil des Fahrzeugs befinden, kann es sich in mehreren Teilen des Fahrzeugs befinden oder kann seine gesamte Funktionalität oder ein Teil dieser entfernt angeordnet sein (z. B. in einem entfernten Server oder in einer tragbaren Recheneinrichtung, wie beispielsweise einem Mobiltelefon). Das System 100 eines gesprochenen Dialogs kann beispielsweise ein Ausgeben von Aufforderungen eines gesprochenen Dialogs oder Audioaufforderungen an Fahrzeuginsassen und/oder ein Eingeben einer Audioinformation, die Sprache darstellt, von Fahrzeuginsassen durchführen.
Gemäß einigen Ausführungsformen kann ein Lautsprecher, eine Lautsprecherbox, ein elektroakustischer Wandler, ein Kopfhörer oder eine andere Einrichtung 40 Audioaufforderungen oder Reaktionen eines gesprochenen Dialogs auf Sprachbefehle, Sprachreaktionen, Audiobefehle, Audioalarme, Anforderungen hinsichtlich einer Information oder andere Audiosignale ausgeben, rundsenden oder übertragen. Audioaufforderungen und/oder Reaktionen auf Sprachbefehle können beispielsweise in Ansprechen auf Sprachbefehle, Anforderungen oder Reaktionen von einem Fahrgast des Fahrzeugs ausgegeben werden. Eine Aufforderung kann beispielsweise eine Information bezüglich der Funktionalität des Systems 100, der Fahrzeugfunktionalität, eine Frage/Fragen, die eine Information von einem Benutzer (z. B. einem Fahrgast des Fahrzeugs) anfordert/anfordern, eine Information, die von einem Benutzer angefordert wird oder eine andere Information umfassen. Aufforderungen und eine Spracheingabe können bei einigen Ausführungsformen in einem Fahrzeug auf andere Weisen verwendet werden.
Eine Anzeige, ein Bildschirm oder eine andere Bild- oder Videoausgabeeinrichtung 42 kann bei einigen Ausführungsformen eine Information, Alarme, ein Video, Bilder oder andere Daten an Insassen in dem Fahrzeug 10 ausgeben. Eine an der Anzeige 42 angezeigte Information kann beispielsweise in Ansprechen auf Anforderungen hinsichtlich einer Information durch einen Fahrer oder andere Insassen in dem Fahrzeug 10 angezeigt werden.
Das Fahrzeug 10 kann bei einigen Ausführungsformen Eingabeeinrichtungen oder (einen) -bereich/-bereiche 44 umfassen, die von den Mikrofonen 20 getrennt sind oder diesen zugehörig sind. Eingabeeinrichtungen oder taktile Einrichtungen 44 können beispielsweise Touchscreens, Tastaturen, Zeigereinrichtungen, Blinker oder andere Einrichtungen sein. Die Eingabeeinrichtungen 44 können beispielsweise verwendet werden, um Einstellungen des Systems 100 eines gesprochenen Dialogs freizugeben, zu sperren oder abzugleichen.
Während verschiedene Sensoren und Eingänge erläutert werden, kann bei bestimmten Ausführungsformen nur eine Teilmenge (z. B. einer oder eine andere Anzahl) eines Sensors/von Sensoren oder Eingaben verwendet werden.
2 ist eine schematische Darstellung eines Systems eines gesprochenen Dialogs gemäß Ausführungsformen der vorliegenden Erfindung. Das System 100 eines gesprochenen Dialogs kann einen oder mehrere Prozessor(en) oder Controller 110, einen Speicher 120, einen Langzeitspeicher 130, (eine/n) Eingabeeinrichtung(en) oder -bereich(e) 44 und (eine/n) Ausgabeeinrichtung(en) oder -bereich(e) 42 umfassen. Die/Der Eingabeeinrichtung(en) oder -bereich(e) 140 und Ausgabeeinrichtung(en) oder -bereich(e) 150 können beispielsweise zu einer Touchscreen-Anzeige und einer Eingabe kombiniert werden, die Teil des Systems 100 sein können.
Das System 100 kann eine oder mehrere Datenbanken 150 umfassen, die beispielsweise eine mit einem Geräusch oder Akustik in Zusammenhang stehende Fahrzeuginformation 160 (z. B. eine Interferenzgeräuschinformation), Interferenzprofildatensätze (IPRs) 180, Ontologien 170 eines Systems eines gesprochenen Dialogs und andere Informationen umfassen kann/können. Die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 kann beispielsweise Fahrzeugparameter, aufgezeichnete Geräusche und/oder andere Informationen umfassen. Die Datenbanken 150 können beispielsweise Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter, Störgeräuschniveauparameter und/oder andere Informationen), Störgeräuschprofile, Störgeräuschprofildatensätze und/oder andere Daten, die die Fahrzeugparameter darstellen, und/oder andere Informationen umfassen. Die Datenbanken 150 können vollständig oder teilweise in dem Speicher 120 und/oder dem Langzeitspeicher 130 oder in einer anderen Einrichtung gespeichert sein.
Der Prozessor oder Controller 110 kann beispielsweise eine zentrale Verarbeitungseinheit (CPU von central processing unit), ein Chip oder eine beliebige geeignete Rechen- oder Berechnungseinrichtung sein. Der Prozessor oder Controller 110 kann mehrere Prozessoren umfassen und kann Universalprozessoren und/oder dedizierte Prozessoren, wie beispielsweise Graphikverarbeitungschips, umfassen. Der Prozessor 110 kann Code oder Anweisungen, die beispielsweise in dem Speicher 120 oder dem Langzeitspeicher 130 gespeichert sind, ausführen, um die Ausführungsformen der vorliegenden Erfindung durchzuführen.
Der Speicher 120 kann beispielsweise ein Direktzugriffsspeicher (RAM von Random Access Memory), ein Nur-Lese-Speicher (ROM von read only memory), ein dynamischer RAM (DRAM von Dynamic RAM), ein synchroner DRAM (SD-RAM von Synchronous DRAM), ein Speicherchip mit doppelter Datenrate (DDR von double data rate), ein Flash-Speicher, ein flüchtiger Speicher, ein nichtflüchtiger Speicher, ein Cache-Speicher, ein Puffer, eine Kurzzeitspeichereinheit, eine Langzeitspeichereinheit oder andere geeignete Speichereinheiten darstellen oder umfassen. Der Speicher 120 kann mehrere Speichereinheiten darstellen oder umfassen.
Der Langzeitspeicher 130 kann beispielsweise ein Festplattenlaufwerk, ein Diskettenlaufwerk, ein Compact Disk-Laufwerk (CD-Laufwerk), ein Laufwerk für eine beschreibbare CD (CD-R-Laufwerk von CD-Recordable drive), eine Einrichtung eines universellen seriellen Busses (USB-Einrichtung von universal serial bus device) oder eine andere geeignete entfernbare und/oder feste Speichereinheit darstellen oder umfassen und kann mehrere oder eine Kombination solcher Einheiten umfassen.
3 ist ein Blockdiagramm eines Systems eines gesprochenen Dialogs gemäß Ausführungsformen der vorliegenden Erfindung. Das System von 3 kann beispielsweise Teil des Systems von 2 oder anderer Systeme, und seine Funktionalität kann durch das System von 2 oder durch andere Systeme ausgeführt werden. Die Komponenten des Systems von 3 können beispielsweise dedizierte Hardwarekomponenten sein oder können alle oder teilweise Code umfassen, der durch den Prozessor 110 ausgeführt wird. Das Mikrofon 20 oder eine andere Eingabeeinrichtung kann Geräusche, ein Störgeräusch und/oder Sprache in dem Fahrzeug empfangen, aufzeichnen oder messen. Die Geräusche können Sprache, Sprachbefehle, verbale Befehle oder einen anderen Ausdruck von einem Insassen in dem Fahrzeug 10 umfassen. Das Mikrofon 20 kann ein Audiosignal oder ein Signal 200, das die Eingangsgeräusche darstellt, einschließlich eines Sprachbefehls/Sprachbefehle, an das System 100, das Spracherkennungssystem oder den -prozess 201 oder ein anderes Modul oder System übertragen oder transferieren. Das Spracherkennungssystem oder der -prozess 201 kann beispielsweise einen Signalprozessor 202 (z. B. Frontend-Spracherkennung), ein Spracherkennungsmodul 204 und andere Systeme oder Module umfassen. Das Audiosignal 200, das die Eingangsgeräusche einschließlich eines Sprachbefehls/Sprachbefehle darstellt, kann an ein System 201 einer automatischen Spracherkennung, einen Signalprozessor oder eine Signalverarbeitungs- oder -verbesserungseinrichtung 202, die dem System 100 zugehörig ist, ein Anpassungsmodul oder eine andere Einrichtung ausgegeben werden. Der Signalprozessor 202 kann beispielsweise das Audiosignal empfangen. Der Signalprozessor 202 kann das Signal 200 beispielsweise filtern, verstärken, digitalisieren oder auf andere Weise transformieren. Der Signalprozessor 202 kann das Signal 200 an ein Spracherkennungsmodul oder eine Spracherkennungseinrichtung 204 übertragen. Das Modul einer automatischen Spracherkennung (ASR-Modul) oder Spracherkennungsmodul 204. kann Wörter, Phrasen, Sprache, Phoneme oder Geräuschmuster aus dem Signal 200 extrahieren, identifizieren oder ermitteln. Wörter können extrahiert werden, indem beispielsweise das Audiosignal mit Akustikmodellen, Listen oder Datenbanken von bekannten Wörtern, Phonemen und/oder Phrasen verglichen wird. Auf der Grundlage des Vergleichs können mögliche identifizierte Wörter oder Phrasen auf der Grundlage einer höchsten Wahrscheinlichkeit und/oder Probabilität einer Übereinstimmung klassifiziert werden. Das ASR-Modul 204 kann ein Signal 200, das identifizierte Wörter oder Phrasen darstellt, an eine Semantikinterpretationseinrichtung 206 ausgeben oder übertragen.
Gemäß einigen Ausführungsformen kann ein Fahrzeuginsasse einen Befehl oder eine Information in eine Eingabeeinrichtung 44 eingeben. Die Eingabeeinrichtung 44 kann ein Signal, das den Befehl oder die Information darstellt, an das Modul 208 zur Erkennung einer taktilen Eingabe übertragen oder ausgeben. Das Modul 208 zur Erkennung einer taktilen Eingabe kann Wörter, Phrasen, Sprache oder Phoneme in oder aus dem Signal identifizieren, decodieren, extrahieren oder ermitteln. Das Modul 208 zur Erkennung einer taktilen Eingabe kann beispielsweise Wörter, Phrasen, Sprache oder Phoneme in dem Signal identifizieren, indem das Signal von der Eingabe 44 mit Statistikmodellen, Datenbanken, Wörterbüchern oder Listen von Wörtern, Phrasen, Sprache oder Phonemen verglichen wird. Das Modul 208 zur Erkennung einer taktilen Eingabe kann ein Signal, das identifizierte Wörter oder Phrasen darstellt, an die Semantikinterpretationseinrichtung 206 ausgeben oder transferieren. Das taktile Signal kann beispielsweise mit dem Signal 200 von dem ASR-Modul 204 in der Semantikinterpretationseinrichtung 206 kombiniert oder verglichen werden.
Gemäß einigen Ausführungsformen kann die Semantikinterpretationseinrichtung 206 eine Bedeutung aus den Wörtern, Phrasen, der Sprache oder dem Phonem in dem Signal ermitteln, das von dem ASR-Modul 204, dem Modul 208 zur Erkennung einer taktilen Eingabe und/oder einer anderen Einrichtung oder einem anderen Modul ausgegeben wird. Die Semantikinterpretationseinrichtung 206 kann beispielsweise ein Parser (z. B. ein Semantikparser) sein. Die Semantikinterpretationseinrichtung 206 kann beispielsweise eine erkannte Wortfolge auf Dialogvorgänge abbilden, die eine Bedeutung darstellen können. Dialogvorgänge können sich beispielsweise auf die Ontologie einer Anwendung beziehen (z. B. Komponenten einer Anwendungsontologie). Beispielsweise kann ein Benutzer einen Sprachbefehl oder eine Wortfolge (z. B. ”Suche ein Hotel”) bereitstellen und kann die Semantikinterpretationseinrichtung 206 die Wortfolge in einen Dialogvorgang parsen oder auf diesen abbilden (z. B. Inform (Typ = Hotel). Die Semantikinterpretationseinrichtung 206 kann beispielsweise ein Modell verwenden, das Wörter mit der Anwendungsontologie in Zusammenhang bringt (z. B. Dialogvorgänge in der Anwendungsontologie). Das Modell kann beispielsweise in einer Spracherkennungsgrammatik (z. B. in der Datenbank 150, dem Speicher 120 oder an einem anderen Ort) und/oder an anderen Orten umfasst sein. Das Spracherkennungsmodul 204 kann die Wörter in der Aussage identifizieren und ein Signal, das die Wörter darstellt, an die Semantikinterpretationseinrichtung 206 übertragen. Dialogvorgänge, eine Information, die gesprochene Befehle darstellt, und/oder andere Informationen oder Signale können an ein Dialogsteuermodul 210 ausgegeben werden.
Das Dialogsteuermodul 210 kann bei einigen Ausführungsformen eine Reaktion auf die Dialogvorgänge erzeugen, berechnen oder ermitteln. Wenn beispielsweise ein Dialogvorgang eine Anforderung hinsichtlich einer Information ist (z. B. Inform (Typ = Hotel)), kann das Dialogsteuermodul 210 eine Reaktion auf die Anforderung, die eine Information bereitstellt (z. B. einen Ort eines Hotels), eine Reaktion, die eine weitere Information anfordert (z. B. ”In welchem Preisbereich?”) oder eine andere Reaktion ermitteln. Das Dialogsteuermodul 210 kann in Verbindung mit einer Backend-Anwendung 212 arbeiten oder dieser zugehörig sein. Eine Backend-Anwendung 212 kann beispielsweise eine Datensuche (z. B. eine Suchmaschine), eine Navigation, eine Stereo- oder Radiosteuerung, ein Abrufen von Musik oder ein anderer Typ von Anwendung sein.
Gemäß einigen Ausführungsformen kann ein Reaktionsgenerator oder ein Reaktionserzeugungsmodul 214 beispielsweise eine Reaktionsinformation von dem Dialogsteuermodul 210 empfangen. Das Reaktionserzeugungsmodul 214 kann beispielsweise einen Text, eine Formulierung oder einen Wortlaut (z. B. Formulieren eines Satzes) für die Reaktion für eine Ausgabe für einen Fahrzeuginsassen formulieren oder erzeugen.
Ein visuelles Rendering-Modul 216 kann ein Bild, eine Reihe von Bildern oder ein Video erzeugen, die die Textreaktion anzeigen, die durch das Reaktionserzeugungsmodul 214 ausgegeben wird. Das visuelle Rendering-Modul 216 kann das Bild, die Reihe von Bildern oder das Video an die Anzeigen 44 oder andere Einrichtungen ausgeben.
Ein Text-in-Sprache-Modul 218 kann den Text von dem Reaktionserzeugungsmodul 214 in Sprache, eine Audiosignalausgabe oder eine Akustiksignalausgabe umwandeln. Das Sprachsignal kann von dem Text-in-Sprache-Modul 218 an den Audiosignalprozessor 220 ausgegeben werden. Der Audiosignalprozessor 220 kann das Signal von Digital in Audio umwandeln, das Signal verstärken, das Signal dekomprimieren und/oder das Signal auf andere Weise modifizieren oder transformieren. Das Audiosignal kann an die Lautsprecher 40 ausgegeben werden. Die Lautsprecher 40 können die Reaktion an die Fahrzeuginsassen rundsenden.
Ein Interferenzprofilmodul 222 kann die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160, Fahrzeugparameter, empfangene Geräuschsignale und/oder andere Informationen, die ein oder mehrere Geräusche darstellen, von einem Datenbus 50 oder anderen Quellen empfangen. Bei einigen Ausführungsformen kann der Datenbus 50 die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 an das dem System 100 eines gesprochenen Dialogs zugehörige Interferenzprofilmodul 222 oder ein anderes Modul oder eine andere Einrichtung, das oder die dem System 100 zugehörig ist, übertragen oder transferieren.
Die Interferenzprofildatensätze (IPR) 180 können durch das Interferenzprofilmodul 222 auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation 160 erzeugt, ermittelt oder berechnet werden. Die Interferenzprofildatensätze 180 können Störgeräuschniveauparameter (z. B. Geräuschintensitätsparameter), Störgeräusch- oder Geräuschtypparameter und/oder andere Informationen umfassen. Störgeräuschniveauparameter, Störgeräuschtypparameter und/oder andere Parameter können auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation 160, von empfangenen Geräuschen und/oder anderen Informationen, die Geräusche oder ein Störgeräusch darstellen, ermittelt werden. Beispielsweise kann die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 angeben oder darstellen, dass ein Heizungs-, Lüftungs- und Klimatisierungssystemlüfter (HLK-Systemlüfter) eingeschaltet ist und mit einer hohen Einstellung arbeitet. Ein IPR 180, der einen Störgeräuschtypparameterlüfter (z. B. Störgeräuschtyp = Lüfter) und einen Störgeräuschniveauparameter hoch (z. B. Störgeräuschniveau = hoch) umfasst, kann beispielsweise erzeugt werden, um eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 darzustellen, die angibt, dass ein HLK-Lüfter auf hoch eingestellt ist. Es können andere IPRs 180 erzeugt werden, die Störgeräuschtypparameter, Störgeräuschniveauparameter und andere Parameter umfassen. Störgeräuschniveauparameter und Störgeräuschtypparameter können ein Störgeräusch oder ein Geräusch in einem Fahrzeug oder das wahrscheinliche Vorhandensein eines Störgeräuschs oder Geräuschs in einem Fahrzeug darstellen, umfassen jedoch typischerweise keine Audiosignale oder Aufzeichnungen des tatsächlichen Störgeräuschs oder Geräuschs.
Gemäß einigen Ausführungsformen können ein Modifikationsmodul oder Schritte 224 auf der Grundlage von Störgeräuschniveauparametern, Störgeräuschtypparametern und/oder anderen Parametern das Audiosignal 200 andern oder modifizieren, ein Störgeräusch filtern und/oder eine automatisierte Spracherkennung auf andere Weise modifizieren. Das Modifikationsmodul 224 kann bei einigen Ausführungsformen ein Audiosignal 200 modifizieren, indem ein Filter auf das Audiosignal 200 angewandt wird, ein Akustikmodell zur Verwendung bei der Spracherkennung ermittelt wird und/oder die Signalverarbeitung 202, die Spracherkennung 204 oder Spracherkennungsschritte oder -prozesse auf andere Weise verbessert werden.
Gemäß einigen Ausführungsformen kann ein Interferenzprofildatensatz beispielsweise durch Text-in-Sprache 218, die Audioverarbeitung 220 oder andere Module oder Verfahren verwendet werden, um eine Audiosprachaufforderung, eine Audioausgabe oder andere Geräusche oder Rundsendungen, die von dem System 100 ausgegeben werden, zu verbessern. Die Parameter oder die Ausgabe von Text-in-Sprache 218 können modifiziert werden (z. B. durch das Modifikationsmodul 224), indem die Sprachgeschwindigkeit erhöht oder verringert wird, die Silbendauer erhöht oder verringert wird und/oder die Sprachausgabe von dem System 100 (z. B. über den Lautsprecher 40) auf andere Weise modifiziert wird. Die der Audioverarbeitung 220 zugehörigen Parameter (z. B. Aufforderungsniveau, Aufforderungsspektrum, Audiowiedergabe oder andere Parameter) können auf der Grundlage eines Interferenzprofildatensatzes (z. B. Störgeräuschtypparameter, Störgeräuschniveauparameter und andere Parameter) modifiziert werden. Die Audioausgabe von dem System kann beispielsweise modifiziert werden, indem ein Aufforderungsniveau (z. B. Lautstärke) erhöht wird, ein Aufforderungsabstand geändert wird, ein Aufforderungsspektrum geformt oder neu geformt wird (z. B. um den Rauschabstand zu erhöhen), die Audiowiedergabe verbessert wird (z. B. Stereowiedergabe) und/oder die Audioausgabe von dem System 100 (z. B. über den Lautsprecher 40) auf andere Weise verbessert oder geändert wird.
Es kann eine Kombination von Text-in-Sprache 218, Audioverarbeitung 220 und/oder anderen Typen von Sprachaufforderung oder Audioausgabemodifikation 224 verwendet werden. Beispielsweise kann eine Lombard- oder ein anderer Typ von Sprachmodifikation verwendet werden. Eine Lombard-Modifikation kann beispielsweise menschliche Sprache in einer lauten Umgebung, einer Umgebung mit Hintergrundstörgeräusch oder an einem Ort, an dem eine Kommunikation schwierig sein kann, modellieren. Eine Lombard-Modifikation kann beispielsweise das Audiospektrum, den Abstand, die Sprachgeschwindigkeit, die Silbendauer und andere Audioeigenschaften unter Verwendung von Audioverarbeitung 220, Text-in-Sprache 218 oder anderen Modulen und/oder Operationen modifizieren.
Gemäß einigen Ausführungsformen können auf der Grundlage der Störgeräuschniveauparameter, der Störgeräuschtypparameter und/oder anderer Parameter die Dialogsteuerung 210 oder andere Systeme oder Prozesse, die zu dem System 100 eines gesprochenen Dialogs gehören, modifiziert und/oder geändert werden. Die Dialogsteuerung 210 kann beispielsweise modifiziert oder geändert werden (z. B. durch das Modifikationsmodul 224), indem Verdeutlichungsvorgänge (z. B. Fragen eines Benutzers nach expliziter Bestätigung einer Eingabe, nach Wiederholung einer Eingabe oder anderen Verdeutlichungen) realisiert oder auferlegt werden, einführende Audioaufforderungen (z. B. Auffordern eines Benutzers unter Verwendung von ausgegebener Sprache, dass die Spracherkennung mit geöffneten Fenstern, einer hohen Motor-RPM oder auf der Grundlage eines anderen Fahrzeugparameters/anderer Fahrzeugparameter schwierig sein kann) ermittelt und ausgegeben werden, Aufforderungen modifiziert werden (z. B. Steuern des Tempos oder des Timing von Aufforderungen), der Dialogstil modifiziert wird (z. B. Auffordern eines Benutzers hinsichtlich eines einzelnen Einschubs oder einer einfachen Information anstatt einer komplexen Information, Erzwingen einer exakten Formulierung, Vermeiden einer gemischten Initiative und anderer Modifikationen), eine Benutzerirritation überwacht wird und auf diese reagiert wird und/oder die Dialogsteuerung 210 auf andere Weise modifiziert wird. Bei einigen Ausführungsformen kann ein Multimodusdialog (z. B. gesprochener Dialog kombiniert mit taktilem, visuellem oder anderem Dialog) beispielsweise modifiziert werden (z. B. durch das Modifikationsmodul 224). Der Multimodusdialog kann beispielsweise modifiziert werden, indem auf eine visuelle Anzeige im Gegensatz zu einer Sprachaufforderung zurückgegriffen wird, diese gewichtet oder favorisiert wird, indem auf eine visuelle Anzeige von Systemhypothesen zurückgegriffen wird (z. B. Fragen, Anforderungen hinsichtlich einer Information und andere Aufforderungen), eine taktile Bestätigung von einem Benutzer aufgefordert oder angefordert wird (z. B. Auffordern eines. Benutzers, eine Reaktion aus einer Liste von Reaktionen auszuwählen; die an einem Touchscreen oder einer anderen Ausgabeeinrichtung angezeigt wird), die Verwendung einer taktilen Modalität angeregt wird (z. B. Reduzieren von der Semantikinterpretationseinrichtung 206 zugehörigen Vertrauensniveaus), für eine Teilmenge von Anwendungsfunktionen von sprachbasierten zu anderen Modalitäten gewechselt wird (z. B. einfacher Befehl und einfache Steuerung durch taktile Mittel) oder andere Modifikationen. Die Backend-Anwendungsfunktionalität kann auf der Grundlage der Interferenzprofildatensätze modifiziert werden (z. B. durch das Modifikationsmodul 224). Beispielsweise kann die Funktionalität von Backend-Anwendungsdiensten oder -merkmalen blockiert, reduziert oder auf andere Weise modifiziert werden (z. B. Blockieren von Sprachsuche, Zulassen von Radiosteuerung und andere Dienste).
4 ist ein Blockdiagramm eines Systems einer automatischen Spracherkennung gemäß Ausführungsformen der vorliegenden Erfindung. Gemäß einigen Ausführungsformen kann ein Interferenzprofilmodul 222 eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160, die beispielsweise Fahrzeugparameter und eine andere Information umfasst oder darstellt, von einem Datenbus 50 empfangen. Fahrzeugparameter können beispielsweise eine Fensterstellung (z. B. geöffnet oder geschlossen, einen bestimmten Umfang geöffnet, etc.), Motoreinstellungen (z. B. Motordrehzahl (Motor-RPM)), Fahrzeuggeschwindigkeit, HLK-Lüftereinstellungen (z. B. aus, niedrig, mittel, hoch), Audiowiedergabeniveaus oder andere mit dem Fahrzeug in Zusammenhang stehende Parameter umfassen. Gemäß einigen Ausführungsformen kann das Interferenzprofilmodul 222 die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 von Mikrofonen (z. B. Außenmikrofonen 24, Innenmikrofonen 20 oder anderen Mikrofonen) empfangen. Die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 von Mikrofonen kann bei einigen Ausführungsformen nicht mit Sprache in Zusammenhang stehende Geräusche, mit dem Fahrzeug in Zusammenhang stehende Geräusche, nicht mit dem Fahrzeug in Zusammenhang stehende Geräusche, Infrastrukturgeräusche, ein Windstörgeräusch, ein Straßenstörgeräusch, ein Gespräch von Menschen außerhalb des Fahrgastraums des Fahrzeugs, Umgebungsgeräusche umfassen. Das Interferenzmodul 222 kann beispielsweise basierend auf der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation 160 Interferenzprofildatensätze (IPR) 180 erzeugen.
Die Interferenzprofildatensätze 180 können beispielsweise eine Tabelle, ein Datensatz, eine Datenbank oder ein anderer Satz von Informationen sein. Jeder IPR 180 kann beispielsweise eine Darstellung der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation 160 sein (z. B. Fahrzeugparameter und andere Geräusche oder eine andere Information). Ein IPR 180 kann beispielsweise einen Störgeräuschniveauparameter 304 (z. B. einen Geräuschintensitätsparameter), einen Störgeräuschtypparameter 306 (z. B. einen Geräuschtypparameter oder einen Störgeräuschklassifikationsparameter) und andere Parameter umfassen, die die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 darstellen. Bei einigen Ausführungsformen können der Störgeräuschniveauparameter 304, der Störgeräuschtypparameter 306 und andere Parameter eine Kombination von Kategorien eines Geräuschs darstellen, das mit der Fahrzeuginformation 160 in Zusammenhang steht (z. B. Fahrzeugparameter, empfangene Geräusche und/oder andere Geräusche oder eine andere Information). Ein IPR 180, der Störgeräuschniveauparameter 304, Störgeräuschtypparameter 306 und/oder andere Parameter umfasst, kann beispielsweise Fahrzeugparameter (z. B. Motor-RPM, HLK-Lüftereinstellung, Fensterstellung, etc.) oder mit dem Fahrzeug in Zusammenhang stehende Geräusche in Echtzeit, kontinuierlich oder über eine vorbestimmte Zeitdauer darstellen. Die Interferenzprofildatensätze 180 können beispielsweise kontinuierlich, in Echtzeit, wenn das System 100 eines gesprochenen Dialogs aktiviert ist, jedes Mal, wenn das Fahrzeug eingeschaltet wird, oder zu anderen Zeiten erzeugt werden.
Der Störgeräuschtypparameter 306 kann beispielsweise eine Klassifikation, eine Kategorisierung, eine Kennzeichnung, ein Tag oder eine Information sein, die oder das die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 einschließlich Fahrzeugparameter (z. B. Motor-RPM, Fensterstellung, HLK-Lüftereinstellung, Fahrzeuggeschwindigkeit, Audiowiedergabeniveau und andere Parameter) und/oder andere Informationen darstellt oder hiervon abgeleitet ist. Die Störgeräusch- oder Geräuschtypparameter 306 können beispielsweise auf der Grundlage von Signalen (z. B. der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation 160), die von dem CAN-Bus 50 empfangen werden, ermittelt, erzeugt oder zugeordnet werden. Die Signale, die von dem CAN-Bus 50 empfangen werden, können beispielsweise die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 darstellen oder umfassen, die Fahrzeugparameter (z. B. die Fahrzeugfensterstellung, die Motor-RPM, die Fahrzeuggeschwindigkeit, die HLK-Lüftereinstellung, das Audiowiedergabeniveau und andere Parameter) und/oder andere Informationen darstellen kann. Die Störgeräuschtypparameter 306 können beispielsweise einen Fahrzeugparameter, vordefinierte Kombinationen von Fahrzeugparametern oder eine andere Information, die von dem CAN-Bus 50 empfangen wird, darstellen. Wenn beispielsweise ein Signal von dem CAN-Bus 50 empfangen wird, das angibt, dass die Motor-RPM höher als ein Schwellenwert-RPM-Wert ist, kann ein Störgeräuschtypparameter 306 Motor erzeugt oder zugeordnet werden (z. B. Störgeräusch_Typ = Motor). Beispielsweise kann ein Signal, das über den CAN-Bus 50 empfangen wird und angibt, dass ein HLK-System eine bestimmte Einstellung hat, zu der Erzeugung oder Zuordnung eines Störgeräusch- oder Geräuschtypparameters 306 Lüfter führen (z. B. Störgeräusch_Typ = Lüfter). Beispielsweise kann die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160, die angibt, dass ein Fenster geöffnet ist, zu der Zuordnung eines Störgeräuschtypparameters 306 Fenster führen (z. B. Störgeräusch_Typ = Fenster). Es können andere Ermittlungen, Zuordnungen und Klassifikationen des Störgeräuschtypparameters 306 verwendet werden.
Die Störgeräuschniveauparameter 304 können beispielsweise von Fahrzeugparametern abgeleitet werden, die (z. B. die Lüfterwahl- oder -eingabeeinstellung, die HLK-Systemeinstellung, die Motor-RPM, die Fahrzeuggeschwindigkeit, das Audiowiedergabeniveau und/oder andere Fahrzeugparameter) umfassen. Die Störgeräuschniveauparameter 304 können beispielsweise eine Darstellung des Geräuschniveaus (z. B. das Dezibel-Niveau (dB-Niveau) des Geräuschs) oder ein anderes Geräuschniveau- oder Merkmalsmaß sein. Die Störgeräuschniveauparameter 304 können beispielsweise niedrig, mittel, hoch oder andere Parameter sein und können Geräuschintensitätsbereiche darstellen oder quantifizieren.
Die Interferenzprofildatensätze 180 (z. B. die Störgeräuschniveauparameter 304 und die Störgeräuschtypparameter 306) können bei einigen Ausführungsformen unter Verwendung einer Logik (z. B. unter Verwendung von Metrik oder Schwellenwerten), mathematischen Ansätzen, einer Tabelle (z. B. einer Nachschlagetabelle) oder anderen Optionen ermittelt, erzeugt oder berechnet werden. Wenn beispielsweise die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 angibt, dass eine Motor-RPM über einem vordefinierten Schwellenwert liegt, können ein Störgeräuschtypparameter 306 Motor (z. B. Störgeräusch_Typ = Motor) und ein Störgeräuschniveauparameter 304 hoch (z. B. Störgeräusch_Niveau = hoch) ermittelt oder erzeugt werden. Wenn beispielsweise Fahrzeugparameter von einem Datenbus angeben, dass ein HLK-Lüfter auf hoch eingestellt ist, können ein Störgeräuschtypparameter 306 gleich Lüfter (z. B. Störgeräusch_Typ = Lüfter), ein Störgeräuschniveauparameter 304 hoch (z. B. Störgeräusch_Niveau = hoch) und/oder andere Parameter zugeordnet werden. Es können andere Operationen verwendet werden. Typischerweise ist ein Störgeräuschtypparameter ein diskreter Parameter, der aus einer Liste, z. B. Motor, Fenster offen, Lüfter, Wind, Audio, Audio etc., ausgewählt wird. Es können jedoch andere Störgeräuschtypparameter verwendet werden. Ein Störgeräuschtypparameter und ein Störgeräuschniveauparameter umfassen typischerweise keine Geräuschaufzeichnung oder andere direkte Information bezüglich des tatsächlichen erzeugten Störgeräuschs.
Bei einigen Ausführungsformen können Kombinationen einer mit mehreren Geräuschtypen in Zusammenhang stehenden Fahrzeuginformation 160 (z. B. Fahrzeugparameter, gemessene Geräusche und andere Geräusche oder Informationen) bei einigen Ausführungsformen bei Logikoperationen und/oder anderen mathematischen Operationen verwendet werden, um Interferenzprofildatensätze 180 (z. B. Störgeräuschniveauparameter 304 und Störgeräuschtypparameter 306) zu ermitteln oder zu berechnen. Wenn beispielsweise die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 von dem Datenbus angibt, dass eine Geschwindigkeit größer als eine Schwellenwertgeschwindigkeit ist (z. B. 113 Kilometer pro Stunde (km/h) (70 Meilen pro Stunde (mph)) oder eine andere Geschwindigkeit) und die Fensterstellung jenseits eines Schwellenwerts liegt (z. B. mehr als 25% geöffnet oder ein anderer Schwellenwert), können ein Störgeräuschniveauparameter 304 hoch (z. B. Störgeräusch_Niveau = hoch) und ein Störgeräuschtypparameter 306 gleich Wind (z. B. Störgeräusch_Typ = Wind) ermittelt, zugeordnet oder erzeugt werden. Es können andere Schwellenwerte und Parameter verwendet werden.
Die Interferenzprofildatensätze 180 können bei einigen Ausführungsformen unter Verwendung einer Quantisierung oder anderer Operationen ermittelt, erzeugt oder berechnet werden. Die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160, Fahrzeugparameter, gemessene Geräusche oder andere Informationen können beispielsweise quantisiert werden, um Werte des Störgeräuschniveauparameters 304 und Werte des Störgeräuschtypparameters 306 zu ermitteln. Beispielsweise können Motor-RPM-Werte in ganzzahlige Werte des Störgeräuschniveauparameters 304 mit 8 Bit oder einer anderen Größe quantisiert werden. Der Störgeräuschniveauparameter 304 (z. B. eine ganze Zahl mit 8 Bit, die ein Motorstörgeräusch darstellt) kann beispielsweise eine Information über eine Motoreigenschaft umfassen (z. B. Motorgrundfrequenzen und -oberwellen). Audiowiedergabeniveaus können beispielsweise in ganze Zahlen mit 8 Bit oder einer anderen Größe quantisiert werden. Jede ganze Zahl mit 8 Bit kann beispielsweise einen Interferenzprofildatensatz 180 darstellen (z. B. einen Störgeräuschniveauparameter 304). Es können andere Quantisierungsschritte verwendet werden.
Gemäß einigen Ausführungsformen können das Modifikationsmodul oder die Prozesse 224 auf der Grundlage von Interferenzprofildatensätzen 180 Audiosignale 200 modifizieren, ein Störgeräusch filtern und die Funktion des Systems 100 eines gesprochenen Dialogs verbessern. Das Modifikationsmodul oder die Prozesse 224 können bei einigen Ausführungsformen unabhängig von der Spracherkennungseinrichtung 300 (z. B. vor der Spracherkennung 204), in Abhängigkeit von der Spracherkennung 302 (z. B. während der Spracherkennung 204 unter Verwendung von beispielsweise einer Frontend-ASR 314) oder während anderen Schritten oder Prozessen ein Audiosignal 200 modifizieren, ein Störgeräusch filtern, Merkmale eines Audiosignals 200 modifizieren und/oder ein Audiosignal 200 auf andere Weise andern.
Bei einigen Ausführungsformen kann ein Audiosignal 200 (z. B. ausgegeben von dem Mikrofon 20) unabhängig 300 von oder vor dem Empfangen in dem Spracherkennungsmodul 204 modifiziert, gefiltert oder geändert werden. Das System 100 kann beispielsweise mehrere Filter 312 umfassen (z. B. Weiner-Filter, Kammfilter, analoge, digitale, passive, aktive, zeitdiskrete, zeitkontinuierliche und andere Typen von Filtern) umfassen, und jedes Filter 312 kann Filterparameter 320 umfassen. Die Filter 312 können beispielsweise in dem Speicher 120, der Datenbank 150, dem Langzeitspeicher 130 oder in einer ähnlichen Speichereinrichtung gespeichert sein. Jedes Filter 312 und die Filterparameter 320 können beispielsweise am besten beim Filtern bestimmter Störgeräuschniveauparameter 304 und Störgeräuschtypparameter 306 funktionieren. Das Audiosignal 200 kann beispielsweise während der Signalverarbeitung 202 modifiziert und/oder geändert werden. Das Audiosignal 200 kann während der Signalverarbeitung 202 auf der Grundlage von Interferenzprofildatensätzen 180 modifiziert werden (z. B. Störgeräuschtypparameter 306 und Störgeräuschniveauparameter 304). Auf der Grundlage der Störgeräuschtypparameter 306 kann das Modifikationsmodul 310 beispielsweise ein Filter 312 (z. B. ein Weiner-Filter, ein Kammfilter, ein Tiefpassfilter, ein Hochpassfilter, ein Bandpassfilter oder einen anderen Typ von Filter) oder ein anderes Modul oder eine andere Einrichtung zum Filtern, Einschränken oder Reduzieren eines Interferenzstörgeräuschs ermitteln. Die Filterparameter 322 (z. B. Frequenzen, Amplitude, Oberwellen, Abstimmungen oder andere Parameter) können beispielsweise auf der Grundlage der Störgeräuschniveauparameter 304 ermittelt werden. Das Filter 312 kann auf ein Eingangssignal, das Audiosignal 200 oder einen anderen Typ von Signal in dem Signalprozessor 202 oder in einem anderen Modul oder Schritt angewandt werden.
Gemäß einigen Ausführungsformen kann, wenn die IPRs 180 angeben, dass ein Windstörgeräusch (z. B. Störgeräusch_Typ = Wind) vorhanden sein kann, ein Filter 312 (z. B. Weiner-Filter) durch den Signalprozessor 202 angewandt werden, um ein Windstörgeräusch in dem Audiosignal 200 zu filtern oder zu reduzieren. Weiner-Filterparameter 320 können bei einigen Ausführungsformen auf der Grundlage von Störgeräuschniveauparametern 304 (z. B. Störgeräusch_Niveau = hoch, mittel, niedrig oder aus), Störgeräuschtypparametern 306 und anderen Parametern ermittelt werden. Beispielsweise kann das Modifikationsmodul 224 vorbestimmte Weiner-Filterparameter 320 zur Anwendung während der Signalverarbeitung 202 auf der Grundlage eines gegebenen Störgeräuschniveauparameters 304 umfassen. Nach der Anwendung des Filters 312 (z. B. Weiner-Filter) kann beispielsweise das Audiosignal 200 an das Modul 204 einer automatisierten Spracherkennung (ASR) mit reduziertem oder eingeschränktem Windstörgeräusch in dem Signal ausgegeben werden.
Gemäß einigen Ausführungsformen kann, wenn IPRs 180 angeben, dass ein Motorstörgeräusch (z. B. Störgeräusch_Typ = Motor) vorliegen kann, ein zeitabhängiges Kammfilter 312 während der Signalverarbeitung 202 angewandt werden, um das Motorstörgeräusch herauszufiltern. Die Parameter des zeitabhängigen Kammfilters 312 können beispielsweise auf der Grundlage des Störgeräuschniveauparameters 304 (z. B. ganze Zahlen mit 8 Bit, die das Motorstörgeräusch darstellen), ermittelt werden. Der Störgeräuschniveauparameter 304 (z. B. eine ganze Zahl mit 8 Bit, die das Motorstörgeräusch darstellt) kann beispielsweise eine Information über die Motoreigenschaften umfassen (z. B. Motorgrundfrequenzen und Oberwellen). Auf der Grundlage des Störgeräuschniveauparameters 304 können beispielsweise Parameter des zeitabhängigen Kammfilters 312 ermittelt werden. Die Parameter 322 des zeitabhängigen Kammfilters können beispielsweise derart ermittelt werden, dass das Kammfilter in dem Motorstörgeräuschabschnitt des Audiosignals 200 mit Grundfrequenzen und Oberwellen ausgerichtet wird. Das zeitabhängige Kammfilter mit den Parametern 322, die in dem Motorstörgeräuschabschnitt eines Audiosignals 200 mit Grundfrequenzen und Oberwellen ausgerichtet sind, kann die Intensität der Motorgrundfrequenzen und -oberwellen in einer Transformation des Audiosignals 200 (z. B. einer Signal-Fourier-Transformation) dämpfen oder reduzieren. Ein Signal 200 mit gedämpften oder reduzierten Motorgrundfrequenzen und Amplituden kann beispielsweise an einen Decodierer 316 einer automatisierten Spracherkennung ausgegeben werden. Der Decodierer 316 einer automatisierten Spracherkennung kann Sprache, Befehle oder eine andere Information in dem Audiosignal 200 interpretieren.
Gemäß einigen Ausführungsformen kann der Erfolg der Spracherkennungsmodifikation auf der Grundlage der Störgeräuschtypparameter und der Störgeräuschniveauparameter mit wachsender Spracherkennungsfunktionalität gemessen werden. Auf der Grundlage des Maßes Erfolg kann die Spracherkennungsmodifikation angepasst werden (z. B. während einer Operation eines Lernens oder eines überwachten Lernens).
Gemäß einigen Ausführungsformen können die Filterparameter 322 (z. B. Weiner-Filter, Kammfilter, etc.), die mit gegebenen Interferenzprofildatensätzen 180 (z. B. Störgeräuschtypparameter 306 und Störgeräuschniveauparameter 304) verwendet werden, während der Herstellung, während eines Anpassungsprozesses 320 (z. B. einer Operation eines Lernens oder eines überwachten Lernens) oder zu einem anderen Zeitpunkt definiert werden. Die Filterparameter 322 können beispielsweise derart ermittelt werden, dass das Filter 312 beim Entfernen eines Störgeräuschs von einem Audiosignal 200 am effektivsten ist. Während eines Anpassungsprozesses 320 können ein Signal 200 und ein dem Signal 200 zugehöriger IPR 180/dem Signal 200 zugehörige IPRs 180 an dem System 100 empfangen werden (z. B. an einem Anpassungsmodul 320). Das Signal 200 kann beispielsweise Sprache, ein Störgeräusch und möglicherweise andere Geräusche umfassen. Der dem Signal 200 zugehörige Interferenzprofildatensatz 180 kann/die dem Signal 200 zugehörigen Interferenzprofildatensätze 180 können beispielsweise von dem Datenbus 50 gleichzeitig mit dem Empfangen des Signals 200 oder ungefähr zur gleichen Zeit ausgegeben werden. Ein Anpassungsmodul 320 kann beispielsweise messen, wie effektiv die Filterparameter 322 (z. B. abgeleitet von oder ermittelt basierend auf den IPRs 180) beim Entfernen eines Störgeräuschs von dem Signal 200 sind, indem das Signal 200 mit einer Signalausgabe von dem Filter 312 (z. B. das mit den vordefinierten Filterparametern 320 arbeitet) verglichen wird oder andere Verfahren verwendet werden. Der Erfolg der [engl.: ”or”] Filterparameter 322 beim Verbessern der Spracherkennung kann unter Verwendung von anderen Ansätzen und/oder Maßen gemessen werden. Das Anpassungsmodul 320 kann auf der Messungsänderung basieren oder Filterparameter 322 anpassen, um ein Störgeräusch effektiver von den einem gegebenen IPR 180 (z. B. gegebene Störgeräuschtypparameter 306 und Störgeräuschniveauparameter 304) zugehörigen Signalen 200 zu entfernen. Die Anpassungsschritte 320 können beispielsweise durchgeführt werden, während ein Fahrzeug von einem Fahrer gefahren wird, oder zu anderen Zeitpunkten, und die Filterparameter 322 können auf der Grundlage des überwachten Lernens oder anderer Verfahren angepasst werden.
Beispielsweise kann ein Fahrzeug während eines Anpassungsprozesses 320 oberhalb einer vordefinierten Schwellenwertgeschwindigkeit gefahren werden, wobei die Fenster geöffnet sind und ein Störgeräuschniveauparameter 304 hoch und ein Störgeräuschtypparameter 306 Wind (z. B. Störgeräusch_Typ = Wind) erzeugt werden können. Die Signale 200, die Sprache und ein anderes Störgeräusch (z. B. mit dem Fahrzeug in Zusammenhang stehende Störgeräusche) umfassen, können an dem System 100 (z. B. von dem Mikrofon 20) während der Anpassungsoperation 320 empfangen werden. Ein Anpassungsmodul 320 kann beispielsweise messen, wie effektiv die Filterparameter 322 (z. B. basierend auf den Störgeräuschtypparametern 306 und den Störgeräuschniveauparametern 304) beim Entfernen eines Störgeräuschs von dem Signal 200 sind. Bei einigen Ausführungsformen kann gemessen werden, wie effektiv die Filterparameter 322 beim Entfernen eines Störgeräuschs von dem Signal 200 sind, indem das Signal 200 mit einer Signalausgabe von dem Filter 312 (z. B. das mit vordefinierten Filterparametern 320 betrieben wird) verglichen wird oder andere Verfahren verwendet werden. Die den Störgeräuschtypparametern 306 und den Störgeräuschniveauparametern 304 zugehörigen Filterparameter 322 können beispielsweise angepasst oder geändert werden, um ein Störgeräusch effektiver von dem Signal 200 zu filtern oder zu entfernen. Die den Störgeräuschtypparametern 306 und den Störgeräuschniveauparametern 304 zugehörigen Filterparameter 322 müssen bei einigen Ausführungsformen nicht geändert oder angepasst werden, wenn die gemessenen Filterparameter 322 beim Entfernen eines Störgeräuschs von dem Signal effektiv oder erfolgreich sind. Der Erfolg oder die Effektivität der Filterparameter 322 kann beispielsweise ermittelt werden, indem das Leistungsvermögen oder die Funktion der Spracherkennung 204 mit gegebenen Filterparametern 322 bewertet wird. Es können andere Ansätze und Maße verwendet werden.
Gemäß einigen Ausführungsformen kann das Modifikationsmodul 310 ein Audiosignal 200 in Modulen und/oder Einrichtungen in dem Spracherkennungsmodul 204 modifizieren. Das Audiosignal 200 kann beispielsweise von dem Mikrofon 20 oder einer ähnlichen Einrichtung empfangen werden und kann Sprache von Fahrzeuginsassen (z. B. Fahrgästen, Fahrern, etc.) und andere Geräusche (z. B. ein Hintergrundstörgeräusch, mit dem Fahrzeug in Zusammenhang stehende Geräusche und andere Geräusche) umfassen. Das Spracherkennungsmodul 204 kann beispielsweise eine automatische Frontend-Spracherkennung (Frontend-ASR) 314 umfassen. Auf der Grundlage der IPRs 180 können Signale an der Frontend-ASR 314 modifiziert werden, um ein Störgeräusch (z. B. ein Windstörgeräusch, ein Motorstörgeräusch oder einen anderen Typ von Störgeräusch) herauszufiltern oder das Audiosignal 200 auf andere Weise zu modifizieren. Ein Filter 312 (z. B. ein Weiner-Filter) kann beispielsweise in der Frontend-ASR 314 auf das Signal 200 angewandt werden, um ein Windstörgeräusch aus einem Audiosignal 200 zu filtern. Der Typ von Filter 312 und die Filterparameter 322 können auf der Grundlage des Störgeräuschtypparameters 306 und des Störgeräuschniveauparameters 304 ermittelt werden. Beispielsweise kann ein Fahrzeug 10 mit einer Geschwindigkeit oberhalb einer Schwellenwertgeschwindigkeit mit offenen Fenstern fahren und können der Störgeräuschtypparameter 306 Wind und der Störgeräuschniveauparameter 304 hoch erzeugt werden. Auf der Grundlage des Störgeräuschtypparameters 306 Wind und des Störgeräuschniveauparameters 304 hoch kann ein Filter 312 (z. B. ein Weiner-Filter) mit vordefinierten Filterparametern 322 auf das Signal 200 in der Frontend-ASR 314 angewandt werden.
Gemäß einigen Ausführungsformen kann das Modul 204 einer automatischen Spracherkennung Akustikmodelle 318 umfassen. Während einer Geräuschanalyse kann ein spezifisches zuvor erzeugtes Akustikmodell aus mehreren Akustikmodellen 318 ausgewählt werden, um Sprache zu decodieren, wobei das Modell in Abhängigkeit von beispielsweise Interferenzprofildatensätzen 180 (z. B. Störgeräuschniveauparameter 304 und/oder Störgeräuschtypparameter 306) ausgewählt wird. Die Akustikmodelle 318 können Statistikmodelle (z. B. Hidden Markov Model-Statistikmodelle (HMM-Statistikmodelle) oder andere Statistikmodelle) sein oder umfassen, die die Beziehung zwischen Phonemen, Geräuschen, Wörtern, Phrasen oder anderen Elementen der Sprache und deren zugehörige oder repräsentative Wellenformen darstellen.
Gemäß einigen Ausführungsformen können IPRs 180 (z. B. Störgeräuschniveauparameter 304, Störgeräuschtypparameter 306 oder andere Parameter) verwendet werden, um zu ermitteln, zu wählen oder auszuwählen, welches Akustikmodell 318 bei einer Spracherkennungsoperation verwendet werden soll. Beispielsweise kann ein IPR 180 (z. B. ein Störgeräuschniveauparameter 304 hoch und ein Störgeräuschtypparameter 306 Fenster) ein starkes Fensterstörgeräusch in einem Signal angeben. Das Modifikationsmodul 310 kann basierend darauf, dass der IPR 180 ein starkes Fensterstörgeräusch angibt, ein Akustikmodell 318 aus verschiedenen Akustikmodellen 318 auswählen oder ermitteln, das am besten geeignet ist, um Sprache in einem Signal mit einem starken Fensterstörgeräusch zu decodieren.
Die Akustikmodelle 318 können beispielsweise während einer Anpassungsoperation 320, während der Herstellung, des Testens oder zu einem anderen Zeitpunkt angepasst, trainiert oder aus Sprachabtastwerten erzeugt werden. Die Akustikmodelle 318 können beispielsweise während der Anpassungsoperation 320 (z. B. einer Operation eines überwachten Lernens) auf der Grundlage der Störgeräuschniveauparameter 304 und der Störgeräuschtypparameter 306 angepasst werden. Ein Anpassungsmodul 320 kann beispielsweise Messen, wie effektiv ein Akustikmodell 322 (z. B. ermittelt auf der Grundlage der IPRs 180) beim Decodieren von Sprache von dem Signal 200 ist. Der Erfolg eines Akustikmodells 322 (das z. B. vordefinierte Akustikmodelltransformationsmatrizen umfasst) beim Verbessern einer Spracherkennung kann gemessen werden, und ein Akustikmodell 322 kann auf der Grundlage der Messung angepasst werden. Das Akustikmodell 322 kann beispielsweise unter Verwendung einer linearen Regression mit maximaler Wahrscheinlichkeit oder anderer mathematischer Ansätze angepasst werden, um Akustikmodelltransformationsmatrizen, die in Verbindung mit vordefinierten Störgeräuschtypparametern 306 und Störgeräuschniveauparametern 304 verwendet werden, anzupassen oder zu trainieren.
Beispielsweise kann das Fahrzeug 10 während einer Anpassungs- oder Trainingsoperation oberhalb einer Schwellenwertgeschwindigkeit mit offenen Fenstern gefahren werden. Ein Störgeräuschniveauparameter 304 hoch und ein Störgeräuschtypparameter 306 Wind (z. B. Störgeräusch_Typ = Wind) können erzeugt und an das Anpassungsmodul 320 ausgegeben werden. Die Sprache und andere Störgeräusche können (z. B. durch das Mikrofon 20) aufgezeichnet werden, und ein Signal 200, das Sprache umfasst, kann an das Anpassungsmodul 320 ausgegeben werden. Der Erfolg des Akustikmodells 318 beim Decodieren von Sprache auf der Grundlage des Störgeräuschtypparameters 306 Wind (z. B. Störgeräusch_Typ = Wind) und des Störgeräuschniveauparameters 304 hoch (z. B. Störgeräusch_Niveau = hoch) kann gemessen werden. Auf der Grundlage der Messungen können Akustikmodelltransformationsmatrizen unter Verwendung von Techniken einer linearen Regression mit maximaler Wahrscheinlichkeit oder anderen mathematischen oder statistischen Ansätzen erzeugt oder angepasst werden. Ein Akustikmodell 318 mit angepassten Akustikmodelltransformationsmatrizen kann beispielsweise bei dem nachfolgenden Betrieb des Systems 100 verwendet werden, wenn Interferenzprofildatensätze 180, die ein starkes Windstörgeräusch angeben (z. B. Störgeräuschtypparameter 306 Wind und Störgeräuschniveauparameter 304 hoch) erzeugt werden.
Die Anpassung 320 (die z. B. ein überwachtes Lernen umfasst) kann beispielsweise durchgeführt werden, während das Fahrzeug 10 von einem Fahrer gefahren wird, und die Akustikmodelle 318 können auf der Grundlage des überwachten Lernens geändert oder modifiziert werden. Ein Akustikmodell 318, das am besten zum Decodieren von Sprache in einem Signal mit einem starken Fensterstörgeräusch geeignet ist, kann beispielsweise während einer Operation eines überwachten Lernens mit einem starken Windstörgeräusch trainiert oder definiert worden sein.
5 ist ein Blockdiagramm eines verbesserten Audioaufforderungssystems eines gesprochenen Dialogs gemäß Ausführungsformen der vorliegenden Erfindung. Gemäß einigen Ausführungsformen können Interferenzprofildatensätze 180 (die z. B. Störgeräuschtypparameter 306 und Störgeräuschniveauparameter 304 umfassen) verwendet werden, um ein Audiosignal 400 zu modifizieren (das z. B. von dem System 100 ausgegeben wird). Die Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306 und Störgeräuschniveauparameter 304) können durch Text-in-Sprache 218, die Audioverarbeitung 220 oder andere Module oder Verfahren verwendet werden, um eine Sprachaufforderung, eine Audioausgabe oder Rundsendungen, die von dem System 100 ausgegeben werden, zu verbessern.
Gemäß einigen Ausführungsformen kann das Modifikationsmodul 224 der Audioverarbeitung 220 zugehörige Parameter (z. B. Aufforderungsniveau, Aufforderungsspektrum, Aufforderungsabstand, Audiospektrum, Audioniveau oder andere Parameter) auf der Grundlage von Interferenzprofildatensätzen 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und andere Parameter) modifizieren. Das Modifikationsmodul 224 kann beispielsweise das Aufforderungsniveau (z. B. die Lautstärke) erhöhen, den Aufforderungsabstand ändern, das Aufforderungsspektrum formen und/oder neu formen (z. B. um den Rauschabstand zu erhöhen), die Audiowiedergabe verbessern (z. B. Stereowiedergabe) und/oder die Audioausgabe von dem System 100 auf andere Weise zu verbessern oder zu andern (z. B. über den Lautsprecher 40). Wenn beispielsweise Störgeräuschniveauparameter 304 angeben, dass ein Störgeräusch in dem Signal 400 über einem Schwellenwertniveau (z. B. einem dB-Niveau) liegt, kann das Aufforderungsniveau-Audioniveau 407 (z. B. ausgegeben von dem Lautsprecher 40) erhöht werden.
Bei einigen Ausführungsformen kann ein Aufforderungsspektrum 402 beispielsweise modifiziert, geformt oder neu geformt werden. Eine Aufforderung kann eine Audio- oder Geräuschausgabe von dem System 100 sein, die beispielsweise Sprache umfasst, die sich an Fahrzeuginsassen richtet, und ein Aufforderungsspektrum 402 kann beispielsweise ein Audiospektrum sein, das einen Bereich von Frequenzen, Intensitäten, Geräuschdrücken, Geräuschenergien und/oder andere mit einem Geräusch in Zusammenhang stehende Parameter umfasst. Das Aufforderungsspektrum 402 kann beispielsweise modifiziert, geformt oder neu geformt werden, um den Rauschabstand in dem Fahrzeug 10 zu erhöhen (z. B. im Inneren des Fahrzeugs oder in der Nähe der Fahrzeuginsassen). Das Aufforderungsspektrum 402 kann beispielsweise modifiziert werden, um das Aufforderungsspektrum 402 in Abschnitten des Spektrums (z. B. Frequenzspektrum, Energiespektrum oder ein anderes mit einem Geräuschtyp in Zusammenhang stehendes Spektrum), die einer hohen Störgeräuschenergie von mit dem Fahrzeug in Zusammenhang stehenden Geräuschen (z. B. Motorstörgeräusch, Windstörgeräusch, Lüfterstörgeräusch und andere Geräusche) entsprechen, hervorzuheben oder zu verstärken. Das Aufforderungsspektrum 402 kann beispielsweise in einem Abschnitt des Spektrums mit hoher Störgeräuschenergie verstärkt werden, um den Rauschabstand zu erhöhen, was das Verhältnis von Aufforderungsgeräuschniveau (z. B. eine von dem System 100 ausgegebene Aufforderung) zu Störgeräuschniveau im Inneren des Fahrzeugs (z. B. Motorstörgeräusch, Windstörgeräusch, HLK-Lüfterstörgeräusch und anderes Störgeräusch) darstellen kann. Das Aufforderungsspektrum 402 kann beispielsweise unter Verwendung des Audioprozessormoduls 220, des Text-in-Sprache-Moduls 218 oder eines anderen Systems oder Moduls modifiziert werden.
Bei einer Ausführungsform können die Störgeräuschtypparameter 306 ein Motorstörgeräusch (z. B. Störgeräusch_Typparameter = Motor) angeben und können die Störgeräuschniveauparameter 304 ein Niveau des Motorstörgeräuschs darstellen. Die Störgeräuschniveauparameter 304 können beispielsweise eine quantisierte Darstellung der Motor-RPM sein (z. B. eine ganze Zahl mit 8 Bit oder eine andere ganze Zahl, die eine Motor-RPM darstellt). Auf der Grundlage der Störgeräuschniveauparameter 304 (z. B. eine quantisierte Darstellung der Motor-RPM) kann das Modifikationsmodul 224 vordefinierte Abschnitte des Aufforderungsspektrums 402 verstärken oder hervorheben. Beispielsweise können die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 einer hohen Störgeräuschenergie in einem Abschnitt einer niedrigen Frequenz eines Geräuschspektrums (z. B. unter 1000 Hertz (Hz) oder einer anderen Frequenz) und einer niedrigen Störgeräuschenergie in einem Abschnitt einer hohen Frequenz des Spektrums (z. B. über 1000 Hertz (Hz) oder einer anderen Frequenz) entsprechen. Der Abschnitt einer niedrigen Frequenz des Aufforderungsfrequenzspektrums 402 (z. B. unter 1000 Hertz oder einer anderen Frequenz) kann verstärkt oder hervorgehoben werden, um das Verhältnis von Aufforderung zu Motorstörgeräusch bei niedrigen Frequenzen zu erhöhen.
Bei einigen Ausführungsformen kann das Audiospektrum 404 (z. B. von einer Stereo-, Radio- oder einer anderen Einrichtung) beispielsweise modifiziert oder neu geformt werden. Das Audiospektrum 404 kann beispielsweise modifiziert oder neu geformt werden, um den Audiorauschabstand in dem Fahrzeug 10 zu erhöhen. Das Audiospektrum 404 kann Beispielsweise modifiziert werden, um das Audiospektrum 404 in Abschnitten des Audiospektrums 404 (z. B. Audiofrequenzspektrum, Audioenergiespektrum oder ein anderes mit einem Geräuschtyp in Zusammenhang stehendes Spektrum), die einer hohen Störgeräuschenergie von mit dem Fahrzeug in Zusammenhang stehenden Geräuschen (z. B. Motorstörgeräusch, Windstörgeräusch, Lüfterstörgeräusch und andere Geräusche) entsprechen, hervorzuheben oder zu verstärken. Das Audiospektrum 404 kann beispielsweise in einem Abschnitt des Spektrums mit einer hohen Störgeräuschenergie verstärkt werden, um den Rauschabstand zu erhöhen, der das Verhältnis von Audio (z. B. Audioausgabe von dem Lautsprecher) zu Störgeräusch im Inneren des Fahrzeugs darstellen kann.
Gemäß einigen Ausführungsformen kann der Audioaufforderungs- oder Audioabstand 406 auf der Grundlage der Interferenzprofildatensätze 180 modifiziert oder geändert werden. Der Aufforderungs- oder Audioabstand 406 kann beispielsweise auf der Grundlage der Störgeräuschtypparameter 306 und der Störgeräuschniveauparameter 304 modifiziert werden, um die Klarheit und/oder Verständlichkeit einer Aufforderung oder von Audio (z. B. Ausgabe von den Lautsprechern 40) zu erhöhen. Beispielsweise können die Störgeräuschtypparameter 306 das Vorhandensein eines Windstörgeräuschs in dem Fahrzeug 10 angeben und können die Störgeräuschniveauparameter 304 ein Niveau des Windstörgeräuschs (z. B. Lautstärke des Windstörgeräuschs) darstellen. Auf der Grundlage der Störgeräuschniveauparameter 304 (z. B. niedrig, mittel, hoch oder ein anderer Parameter) kann der Aufforderungs- oder Audioabstand 406 (z. B. im Zusammenhang mit der Frequenz) geändert werden (z. B. erhöht oder verringert werden). Eine Änderung des Aufforderungs- oder Audioabstands 406 kann beispielsweise von dem Störgeräuschniveauparameter 306 abhängen, zu diesem proportional sein oder auf andere Weise mit diesem in Zusammenhang stehen. Beispielsweise kann der Aufforderungs- oder Audioabstand 406 in dem Vorhandensein von lauteren Fahrzeugstörgeräuschen stärker geändert werden als bei sanfteren Fahrzeugstörgeräuschen (z. B. kann er stärker verschoben werden, wenn der Störgeräuschniveauparameter 304 hoch ist als wenn der Störgeräuschniveauparameter 304 mittel oder niedrig ist). Bei einigen Ausführungsformen kann der Aufforderungs- oder Audioabstand 306 auf der Grundlage der Störgeräuschtypparameter 306 und der Störgeräuschniveauparameter 304 verringert oder weniger verschoben werden.
Gemäß einigen Ausführungsformen kann das Modifikationsmodul 224 beispielsweise die Ausgabe von Text-in-Sprache 218 modifizieren, indem die Sprachgeschwindigkeit 410 erhöht oder verringert wird, die Silbendauer 412 erhöht oder verringert wird und/oder die Sprachausgabe von dem System 100 (z. B. über den Lautsprecher 40) auf andere Weise modifiziert wird. Die Sprachgeschwindigkeit 410 kann beispielsweise auf der Grundlage der Störgeräuschtypparameter 306, der Störgeräuschniveauparameter 304 und/oder einer anderen Information modifiziert werden. Die Sprachgeschwindigkeit 410 kann beispielsweise modifiziert werden, um die Sprachgeschwindigkeit 410 einer Aufforderung unter Bedingungen eines starken Geräuschs zu verringern (z. B. wenn der Störgeräuschniveauparameter 306 hoch ist oder einen anderen Wert umfasst). Das Verringern der Sprachgeschwindigkeit 410 kann beispielsweise die Verständlichkeit eines gesprochenen Dialogs in einer lauten Umgebung oder einer Umgebung eines starken Störgeräuschs (z. B. in einem Fahrzeug mit lauten mit dem Fahrzeug in Zusammenhang stehenden Geräuschen) erhöhen. Die Sprachgeschwindigkeit 410 kann bei einigen Ausführungsformen auf der Grundlage der Störgeräuschtypparameter 306 und der Störgeräuschniveauparameter 304 erhöht werden, um die Verständlichkeit einer Audioaufforderung eines gesprochenen Dialogs, die von dem System 100 ausgegeben wird, zu erhöhen.
Gemäß einigen Ausführungsformen kann die Aufforderungssilbendauer 412 beispielsweise auf der Grundlage der Störgeräuschtypparameter 306, der Störgeräuschniveauparameter 304 und/oder einer anderen Information modifiziert werden. Die Aufforderungssilbendauer 412 kann beispielsweise die Dauer der Aussprache von Konsonanten, Vokalen und/oder anderen Silben, die zu der menschlichen Sprache gehören, umfassen. Die Silbendauer 412 kann beispielsweise proportional zu, in Abhängigkeit von oder in Relation zu den Störgeräuschniveauparametern 304 erhöht werden. Beispielsweise kann die Silbendauer 412 in Relation zu einer Erhöhung von mit dem Fahrzeug in Zusammenhang stehenden Geräuschen (z. B. Motorstörgeräusch, HLK-Systemstörgeräusch, Windstörgeräusch und andere Geräusche), die durch die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 dargestellt werden, erhöht werden (z. B. kann die Dauer der Silbenaussprache verlängert werden).
Bei einigen Ausführungsformen kann eine Kombination aus Text-in-Sprache 218, Audioverarbeitung 220 und/oder anderen Typen von Sprachaufforderung oder Audioausgabe modifiziert werden. Das Modifikationsmodul 224 kann beispielsweise eine Lombard- oder andere Sprachmodifikation verwenden. Die Lombard-Modifikation kann die Modifikation oder Kompensation der menschlichen Sprache in einer lauten Umgebung, einer Umgebung mit starkem Hintergrundstörgeräusch oder einer Umgebung mit einem anderen hohen Störgeräuschniveau modellieren. Die Lombard-Modifikation kann beispielsweise eine beliebige Kombination einer Modifikation des Signals 400 umfassen, die aus der Gruppe ausgewählt wird, die das Modifizieren des Aufforderungssignalspektrums 402, das Modifizieren des Aufforderungssignalabstands 406, das Modifizieren der Aufforderungssignalsprachgeschwindigkeit 410 und das Modifizieren der Aufforderungssignalsilbendauer 412 umfasst. Die Lombard-Modifikation kann beispielsweise von Störgeräuschtypparametern 306, Störgeräuschniveauparametern 304 und einer anderen Information abhängen. Beispielsweise können die Störgeräuschtypparameter 306 Wind (z. B. Störgeräusch_Typ = Wind) und die Störgeräuschniveauparameter 304 hoch erzeugt werden, die angeben, dass ein starkes Windstörgeräusch vorliegen kann. Auf der Grundlage der Störgeräuschtypparameter 306 und der Störgeräuschniveauparameter 304 kann eine vordefinierte Kombination aus Aufforderungsspektrum 402, Aufforderungsabstand 406, Aufforderungssprachgeschwindigkeit 410, Aufforderungssilbendauer 412 und/oder anderen Aufforderungsparametern modifiziert werden, um die Verständlichkeit der Aufforderung zu erhöhen. Die vordefinierte Kombination, die mit einer gegebenen Kombination aus Störgeräuschtypparametern 306 und Störgeräuschniveauparametern 304 angewandt wird, kann beispielsweise während der Herstellung, des Testens, einer Anpassung 320 oder eines anderen Prozesses ermittelt werden. Die vordefinierte Kombination kann beispielsweise die Kombination sein, die die Verständlichkeit, die Verstehbarkeit oder die Klarheit der gesprochenen Aufforderung am besten erhöht.
Gemäß einigen Ausführungsformen kann die Aufforderungsmodifikation angepasst werden 320, um die Klarheit und/oder Verständlichkeit von Aufforderungen zu verbessern. Die Effektivität oder Auswirkung der Aufforderungsmodifikation 224, die den vordefinierten Störgeräuschtypparametern 306, den Störgeräuschniveauparametern 304 und anderen Parametern zugehörig ist, kann gemessen und auf der Grundlage der Messung angepasst oder geändert werden. Die Effektivität der Aufforderungsmodifikation kann beispielsweise gemessen werden, indem eine Benutzer- oder Insassenreaktion auf modifizierte Aufforderungen überwacht wird. Beispielsweise kann eine Aufforderung auf der Grundlage von Störgeräuschtypparametern 306, Störgeräuschniveauparametern 304 und/oder anderen Parametern modifiziert werden und kann eine Insassenreaktion auf die Aufforderung gemessen werden. Beispielsweise kann eine Aufforderung eine Reaktion von einem Insassen hervorrufen oder anfordern. Wenn der Insasse nicht auf die Aufforderung reagiert, auf die Aufforderung auf eine unvorhergesehene Weise reagiert (z. B. eine irritierte Reaktion liefert) oder andere Aktionen durchführt, kann ermittelt werden, dass die Aufforderungsmodifikation 224 angepasst werden könnte, um die Klarheit der Aufforderungen zu verbessern. Bei einem Beispiel kann die Aufforderungsmodifikation 224 beispielsweise angepasst werden, indem die Aufforderungsmodifikation 224 gesperrt wird. Wenn beispielsweise ermittelt wird, dass die Aufforderungsmodifikation 224 die Klarheit oder Verständlichkeit der Sprachaufforderung nicht verbessert, kann die Aufforderungsmodifikation 224 (z. B. das Aufforderungsmodifikationsmodul) gesperrt oder deaktiviert werden. Bei einem Beispiel kann die Aufforderungsmodifikation 224 modifiziert werden, indem die Aufforderungsmodifikationsparameter (z. B. Spektrum, Abstand, Sprachgeschwindigkeit, Silbendauer und/oder andere Aufforderungsmodifikationsparameter) geändert werden. Beispielsweise können die Modifikationsparameter des Aufforderungsspektrums 402 angepasst oder geändert werden, um die Klarheit von gesprochenen Aufforderungen zu verbessern. Die Modifikationsparameter des Aufforderungsspektrums 402 können beispielsweise angepasst werden, um das Aufforderungssignal 400 in einem anderen Teil des Aufforderungsspektrums 402 zu stärken oder zu verbessern. Es können andere Anpassungsverfahren verwendet werden.
6 ist ein Blockdiagramm eines Steuersystems eines gesprochenen Dialogs gemäß Ausführungsformen der vorliegenden Erfindung. Gemäß einigen Ausführungsformen können die Dialogsteuerung 210 oder andere Systeme oder Prozesse, die zu dem System 100 eines gesprochenen Dialogs gehören, auf der Grundlage der Störgeräuschtypparameter 304, der Störgeräuschniveauparameter 306 und/oder anderer Parameter modifiziert oder geändert werden 224.
Dialogsteuervorgänge 500 können auf der Grundlage der Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und/oder andere Parameter) modifiziert werden 224. Dialogsteuervorgänge 500 können beispielsweise Operationen sein, die durch das Dialogsteuermodul 210 durchgeführt werden, und können Aufforderungen, die an einen Benutzer ausgegeben werden, Aktionen, die mit der Ermittlung eines Eingangs oder Ausgangs in Zusammenhang stehen, oder andere Operationen umfassen. Die Dialogsteuervorgänge 500 können beispielsweise Verdeutlichungsvorgänge 502, das Reduzieren von Semantikinterpretationseinrichtungskonfidenzniveaus 504 und andere Prozesse oder Operationen umfassen. Die Dialogsteuervorgänge 500 können beispielsweise auf der Grundlage der Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und/oder andere Parameter) modifiziert werden, in dem Verdeutlichungsvorgänge 502 realisiert werden. Die Verdeutlichungsvorgänge 502 können beispielsweise realisiert oder auferlegt werden, wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein starkes Störgeräusch in der Nähe des Fahrzeugs 10 (z. B. in dem Fahrgastraum des Fahrzeugs) vorhanden sein kann.
Gemäß einigen Ausführungsformen können die Verdeutlichungsvorgänge 502 eine explizite Bestätigung einer Benutzereingabe, eine Audioaufforderung oder eine Frage an einen Benutzer, eine Eingabe zu wiederholen, oder eine andere Aufforderung eines Benutzers, eine Eingabe zu verdeutlichen, umfassen. Eine Audioaufforderung 508, die eine explizite Bestätigung einer Benutzereingabe anfordert, kann beispielsweise (z. B. unter Verwendung des Lautsprechers 40) ausgegeben werden. Beispielsweise kann ein Benutzer in einem gesprochenen Dialog nach einem Restaurant (z. B. ”Wo befindet sich das nächste Restaurant?”) fragen (z. B. Sprache in ein System eines gesprochenen Dialogs eingeben, die eine Information anfordert). Wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass hohe Niveaus oder ein starkes Störgeräusch (z. B. hohe Niveaus eines mit dem Fahrzeug in Zusammenhang stehenden Störgeräuschs oder mit dem Fahrzeug in Zusammenhang stehender Geräusche) vorhanden sind, kann das Modul 210 eines gesprochenen Dialogs beispielsweise eine Aufforderung ausgeben, die eine Bestätigung einer Benutzeraussage anfordert. Es kann beispielsweise eine Audioaufforderung 508 ausgegeben werden, die von einem Benutzer verlangt, zu bestätigen, dass der Benutzer nach einem Restaurant sucht (z. B. ”Sagten Sie ”Wo befindet sich das nächste Restaurant?””). Wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein Hintergrundstörgeräusch vorhanden sein kann, können jedes Mal, wenn ein Benutzer eine Eingabe liefert, wenn eine Benutzereingabe unverständlich ist oder zu anderen Zeitpunkten Aufforderungen 508 ausgegeben werden, die eine explizite Bestätigung der Benutzereingabe anfordern. Es können andere Verdeutlichungsvorgänge und Aufforderungen verwendet werden.
Gemäß einigen Ausführungsformen können die Verdeutlichungsvorgänge 502 umfassen, dass von einem Benutzer verlangt oder gefordert wird, eine Eingabe zu wiederholen. Das Dialogsteuermodul 210 kann beispielsweise eine Aufforderung ausgeben, die von einem Benutzer fordert, seine Eingabe zu wiederholen. Wenn beispielsweise ein Benutzer das System 100 eines gesprochenen Dialogs bittet, das nächste Hotel zu finden (z. B. ”Wo befindet sich das nächste Hotel?”) und Störgeräuschtypparameter 306 und/oder Störgeräuschniveauparameter 304 angeben, dass hohe Störgeräuschniveaus auftreten können (z. B. Störgeräusch_Niveau = hoch), kann eine Aufforderung ausgegeben werden, die fordert, dass ein Benutzer seine Eingabe wiederholen soll. Beispielsweise kann eine Aufforderung 508 ausgegeben werden, die von einem Benutzer verlangt, seine Aussage zu wiederholen (z. B. ”Bitte wiederholen”, ”Ich habe das nicht verstanden, bitte wiederholen Sie das noch einmal” oder andere Anforderungen hinsichtlich einer Wiederholung). Wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein Hintergrundstörgeräusch vorhanden sein kann, kann eine Aufforderung 508 ausgegeben werden, die von einem Benutzer fordert, seine Eingabe jedes Mal zu wiederholen, wenn der Benutzer eine Eingabe liefert, wenn die Benutzereingabe unverständlich ist oder zu anderen Zeitpunkten. Es können andere Verdeutlichungsvorgänge 502 verwendet werden.
Gemäß einigen Ausführungsformen können die Verdeutlichungsvorgänge 502 angeregt werden und/oder kann die Wahrscheinlichkeit der Verdeutlichungsvorgänge 502 erhöht werden, indem die Semantikinterpretationseinrichtungskonfidenzniveaus 504 geändert werden (z. B. durch Reduzieren der Konfidenzniveaus 504 oder anderweitiges Ändern der Konfidenzniveaus 504). Die Konfidenzniveaus 504 können auf der Grundlage der Störgeräuschtypparameter 306 und der Störgeräuschniveauparameter 304 geändert oder modifiziert werden. Die Konfidenzniveaus 504 können beispielsweise die Wahrscheinlichkeit oder Sicherheit, dass eine Wortfolge, eine Phrase oder eine andere gesprochene Eingabe (z. B. ”Suche ein Hotel”) von einem Benutzer mit einem Dialogvorgang (z. B. Inform (Typ = Hotel)) in der Ontologie 170 eines Systems eines gesprochenen Dialogs übereinstimmt oder diesem entspricht, darstellen. Ein Konfidenzniveau 504 kann beispielsweise ein Prozentsatz, ein numerischer Wert oder ein anderer Parameter sein, der eine Konfidenz, eine Wahrscheinlichkeit oder eine Probabilität darstellt, dass eine Wortfolge mit einem Dialogvorgang in der Ontologie 170 eines Systems eines gesprochenen Dialogs übereinstimmt. Ein Konfidenzniveau 504 kann beispielsweise einem Dialogvorgang zugehörig sein, der durch die Semantikinterpretationseinrichtung 206 erzeugt wird. Dialogvorgänge und zugehörige Konfidenzniveaus 504 können beispielsweise von der Semantikinterpretationseinrichtung 206 an das Dialogsteuermodul 210 ausgegeben werden. Das Dialogsteuermodul 210 kann beispielsweise auf der Grundlage von Dialogvorgängen und zugehörigen Konfidenzniveaus 504 eine Reaktion zur Ausgabe an einen Benutzer erzeugen. Wenn beispielsweise das Konfidenzniveau 504 unter einem Schwellenwertkonfidenzniveau 506 liegt, kann das Dialogsteuermodul 504 Verdeutlichungsvorgänge 502 realisieren (z. B. Anfordern einer expliziten Bestätigung einer Benutzereingabe, Fordern von einem Benutzer, eine Eingabe zu wiederholen, und andere Verdeutlichungsvorgänge). Wenn das einem Dialogvorgang zugehörige Konfidenzniveau 504 über einem Schwellenwertkonfidenzniveau 506 liegt, kann der Dialogvorgang als korrekte Interpretation einer Benutzereingabe betrachtet werden (z. B. Umwandlung eines gesprochenen Dialogs eines Benutzers in eine Wortfolge) und kann das Dialogsteuermodul 210 beispielsweise eine Reaktion erzeugen, eine Aktion durchführen oder auf andere Weise auf den Dialogvorgang reagieren.
Gemäß einigen Ausführungsformen können von der Semantikinterpretationseinrichtung 206 ausgegebene Konfidenzniveaus 504 auf der Grundlage der Störgeräuschtypparameter 306, der Störgeräuschniveauparameter 304 und/oder einer anderen Information beispielsweise modifiziert oder reduziert werden. Wenn beispielsweise die Störgeräuschniveauparameter 304 angeben, dass ein mit dem Fahrzeug in Zusammenhang stehendes Störgeräusch oberhalb eines vordefinierten Schwellenwerts vorhanden sein kann (z. B. Störgeräusch_Niveau = mittel, Störgeräusch_Niveau = hoch oder ein anderer Störgeräusch_Niveau-Wert), können die Konfidenzniveaus 504, die von der Semantikinterpretationseinrichtung ausgegeben werden, reduziert werden. Bei einigen Ausführungsformen kann beispielsweise ein Konfidenzniveau 504 von neunzig Prozent (z. B. 90%) auf beispielsweise achtzig Prozent (z. B. 80%) oder einen anderen Wert reduziert werden, wenn die Störgeräuschtypparameter 306 und/oder die Störgeräuschniveauparameter 304 angeben, dass moderate bis hohe Störgeräuschniveaus in dem Fahrzeug 10 (z. B. in der Fahrgastzelle des Fahrzeugs) auftreten können. Es können andere Konfidenzniveaus 504 verwendet werden.
Die Reduzierung der Konfidenzniveaus 504 kann beispielsweise nichtlinear sein. Die Konfidenzniveaus 504 oberhalb eines vordefinierten Grenzkonfidenzniveaus können beispielsweise ungeachtet dessen, ob die Störgeräuschtypparameter 306 und/oder die Störgeräuschniveauparameter 304 angeben, dass ein Hintergrundstörgeräusch vorhanden sein kann, nicht reduziert oder geändert werden. Beispielsweise können die Konfidenzniveaus 504 (die z. B. Dialogvorgängen zugehörig sind) oberhalb eines Grenzschwellenwerts (z. B. fünfundneunzig Prozent oder ein anderer Wert) nicht geändert oder reduziert werden, während die Konfidenzniveaus 504 unter einem Grenzschwellenwert (z. B. fünfundneunzig Prozent oder ein anderer Wert) reduziert werden können. Es können andere Grenzschwellenwerte verwendet werden.
Gemäß einigen Ausführungsformen kann die Modifikation der Dialogsteuervorgänge 500 mit gegebenen Interferenzprofildatensätzen (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und andere Informationen) angepasst werden 320. Die Modifikation 224 der Dialogsteuervorgänge 500 (z. B. Realisieren der Verdeutlichungsvorgänge 502, Reduzieren der Konfidenzniveaus 504 und andere Modifikationen) kann beispielsweise angepasst werden, indem Korrelationen zwischen Störgeräuschtypparametern 306 und/oder Störgeräuschniveauparametern 304 und der Erfolg oder die Funktionalität der Dialogsteuerung 210 gemessen werden. Eine optimale Modifikation der Dialogsteuerung 210 für einen gegebenen Interferenzprofildatensatz 180 kann beispielsweise in einem Anpassungsprozess 320 ermittelt werden. Eine optimale Modifikation einer Dialogsteuerung für einen gegebenen Interferenzprofildatensatz 180 kann die Modifikation sein, die für einen Benutzer am wenigsten umständlich ist und/oder die Funktionalität des Systems 100 am besten verbessert. Beispielsweise können Störgeräuschtypparameter 306 und Störgeräuschniveauparameter 304 angeben, dass ein starkes Windstörgeräusch vorliegen kann, und können die Semantikinterpretationseinrichtungskonfidenzniveaus 504 auf der Grundlage der Störgeräuschtypparameter 306 und der Störgeräuschniveauparameter 304 modifiziert werden 224. Die Funktion der Dialogsteuerung 210 (z. B. der Erfolg der Dialogsteuerung 210 oder der Dialogsteuererfolg 210) mit den modifizierten Konfidenzniveaus 504 kann gemessen werden. Die Funktion oder der Erfolg der Dialogsteuerung 210 kann beispielsweise auf der Grundlage dessen gemessen werden, ob die Dialogsteuerung 210 eine geeignete Reaktion auf eine Benutzereingabe ausgibt. Wenn beispielsweise der Benutzer eine Anforderung hinsichtlich des Orts der nächsten Tankstelle eingibt (z. B. ”Wo befindet sich die nächste Tankstelle?”), würde eine Reaktion der Dialogsteuerung 210, die Tankstellen auflistet, als Dialogerfolg betrachtet werden, während eine nicht zum Thema gehörige Audioaufforderung 508 (z. B. ”Die nächsten Restaurants sind Restaurant A und Restaurant B”), die von der Dialogsteuerung 210 ausgegeben wird, nicht als Erfolg betrachtet werden würde. Es können andere Erfolgsmessungsansätze verwendet werden. Auf der Grundlage der Messung der Funktion oder des Erfolgs der Dialogsteuerung 210 können Dialogsteuervorgänge 500 mit gegebenen Interferenzprofildatensätzen 180 angepasst werden, um die Funktion des Systems der Dialogsteuerung 210 zu verbessern. Beispielsweise kann eine Anpassung 320 ermitteln, dass die Verdeutlichungsvorgänge 502 (z. B. eine explizite Bestätigung einer Benutzereingabe, die von einem Benutzer das Wiederholen einer Eingabe fordert) effizienter sind als das Reduzieren der Semantikinterpretationseinrichtungskonfidenzniveaus 504, wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein starkes Windstörgeräusch vorliegen kann. Beispielsweise kann die Anpassung 320 ermitteln, dass das Reduzieren der Konfidenzniveaus 504 (z. B. um einen vorbestimmten Konfidenzniveaureduzierungsparameter oder Betrag) für den Benutzer am effektivsten und am wenigsten umständlich ist, wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein starkes Motorstörgeräusch vorhanden sein kann. Die Modifikation 224 der Dialogsteuervorgänge 500 (z. B. Realisieren der Verdeutlichungsvorgänge 502, Reduzieren der Konfidenzniveaus 504 und andere Modifikationen) kann beispielsweise angepasst werden, um die effektivsten und am wenigsten umständlichen Dialogsteuervorgänge 500 mit einem gegebenen Satz von Störgeräuschtypparametern 306 und Störgeräuschniveauparametern 304 zu verwenden.
Gemäß einigen Ausführungsformen können die Audioaufforderungen 508 auf der Grundlage der Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und andere Informationen) eingeführt und/oder modifiziert werden. Die Aufforderungen 508 können beispielsweise eine Informationsausgabe von dem System 100 umfassen und können durch das Dialogsteuermodul 210 in Ansprechen auf eine Benutzereingabe erzeugt werden. Die Aufforderungen 508 können typischerweise in Ansprechen auf eine Benutzereingabe von dem System 100 ausgegeben werden, um einem Benutzer eine Information bereitzustellen, oder für andere Funktionen. Die Aufforderungen 508 können bei einigen Ausführungsformen einen Benutzer informieren, dass Funktionen und/oder das Leistungsvermögen des Systems 100 eines gesprochenen Dialogs aufgrund eines starken Hintergrundstörgeräuschs reduziert oder geändert sein können. Die Aufforderungen 508 können beispielsweise auf der Grundlage von Störgeräuschtypparametern 306 und/oder Störgeräuschniveauparametern 304 erzeugt werden. Die Aufforderungen 508 können beispielsweise die Benutzererwartung an das Leistungsvermögen des Systems 100 eines gesprochenen Dialogs festlegen (z. B. dass das Leistungsvermögen des Systems 100 reduziert werden kann), einen Benutzer auf einen anderen Interaktionsstil vorbereiten (z. B. einen Benutzer informieren, dass das System 100 von einem Benutzer fordern kann, Aussagen zu verdeutlichen, Aussagen zu wiederholen und andere Funktionen durchzuführen) oder einen Benutzer auf andere Weise informieren, dass das Leistungsvermögen des Systems 100 bei einem vorhandenen Hintergrundstörgeräusch geändert werden kann. Die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 können beispielsweise ein starkes Windstörgeräusch angeben. Auf der Grundlage dessen, dass die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 ein starkes Windstörgeräusch angeben, kann eine Aufforderung 508 durch das Dialogsteuermodul 210 erzeugt und an den Benutzer ausgegeben werden (z. B. unter Verwendung der Lautsprecher 40). Die Aufforderung 508 kann beispielsweise die Benutzererwartungen hinsichtlich des Leistungsvermögens des Systems 100 bei einem starken Windstörgeräusch festlegen. Die Aufforderung 508 kann beispielsweise ”Bitte beachten Sie, dass die Spracherkennung bei offenen Fenstern und hoher Geschwindigkeit schwierig ist” oder eine andere Aufforderung 508 umfassen. Auf der Grundlage der Aufforderung 508 kann ein Benutzer das Schließen des/der Fenster(s) des Fahrzeugs in Betracht ziehen, um das Leistungsvermögen des Systems 100 zu verbessern. Bei einigen Ausführungsformen kann die Aufforderung 508 basierend auf den Störgeräuschtypparametern 306 und den Störgeräuschniveauparametern 304 einen Benutzer auf einen anderen Interaktionsstil eines gesprochenen Dialogs vorbereiten. Die Aufforderung 508 kann beispielsweise ”Die Spracherkennung ist schwierig, ich muss nach mehr Verdeutlichungen fragen, haben Sie Rücksicht mit mir, wohin möchten Sie fahren?” oder eine andere Aufforderung sein. Auf der Grundlage der Aufforderung 508 können die Benutzererwartungen verwaltet werden und kann ein Benutzer beispielsweise vorbereitet oder vorab gewarnt werden, dass das System 100 möglicherweise mehr Verdeutlichungsvorgänge 502 ausgibt (z. B. Anforderungen hinsichtlich Verdeutlichung, Wiederholung und andere Verdeutlichungen) und/oder dass Funktionen des Systems 100 modifiziert werden können (z. B. um hohe Hintergrundstörgeräuschniveaus zu kompensieren).
Gemäß einigen Ausführungsformen kann das Tempo und/oder das Timing der Aufforderungen 508 auf der Grundlage der Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und andere Information) modifiziert oder gesteuert werden. Das Timing der Ausgabe der Aufforderung 508 kann beispielsweise modifiziert oder verzögert werden, um die Aufforderung 508 an den Benutzer zu einem Zeitpunkt auszugeben, zu dem ein geringeres Hintergrundstörgeräusch (z. B. mit dem Fahrzeug in Zusammenhang stehende Geräusche) in dem Fahrzeug 10 vorhanden sein kann. Beispielsweise können die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein starkes Motorstörgeräusch in dem Fahrzeug vorhanden sein kann (z. B. Störgeräusch_Typ = Motor und Störgeräusch_Niveau = hoch). Die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 eines starken Motorstörgeräuschs können beispielsweise angeben, dass die Motor-RPM hoch sein kann (z. B. kann der Fahrer das Fahrzeug 10 beschleunigen). Auf der Grundlage dessen, dass die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 ein hohes Motorstörgeräusch angeben, kann die Dialogsteuerung 210 die Ausgabe der Aufforderung 508 verzögern. Die Dialogsteuerung 210 kann beispielsweise die Ausgabe einer Aufforderung 508 verzögern, bis Störgeräuschniveauparameter 304 angeben, dass das Motorstörgeräusch reduziert werden kann. Die Dialogsteuerung 210 kann bei einigen Ausführungsformen eine Ausgabe der Aufforderung 508 für eine vorbestimmte Zeitdauer verzögern. Die vorbestimmte Zeitdauer kann beispielsweise ein typischer oder durchschnittlicher Umfang an Zeit für eine Fahrzeugbeschleunigung sein, kann auf typischen Fahrereigenschaften basieren (z. B. typische Beschleunigungszeiten) oder kann eine andere Zeitdauer umfassen. Eine typische oder durchschnittliche Beschleunigungszeit kann beispielsweise während des Fahrzeugtests, der Herstellung oder während eines Anpassungsprozesses 320 eines gesprochenen Dialogs ermittelt werden.
Gemäß einigen Ausführungsformen kann ein Dialogstil 514 modifiziert werden, um die Grammatikperplexität 510 zu andern oder zu reduzieren, oder basierend auf Interferenzprofildatensätzen 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und/oder andere Informationen). Die Grammatikperplexität 510 kann beispielsweise die Komplexität einer Spracherkennungsgrammatik sein, die durch das Spracherkennungsmodul oder die -einrichtung 204 zu einem gegebenen Zeitpunkt verwendet wird. Das Dialogsteuermodul 210 kann beispielsweise die Grammatikperplexität auf der Grundlage von Interferenzprofildatensätzen 180 ermitteln. Die Grammatikperplexität 510 kann beispielsweise durch Durchführen einer Erkennung eines einzelnen Einschubs, Erzwingen einer exakten Formulierung, Vermeiden einer gemischten Initiative und/oder Verwenden anderer Techniken oder Ansätze reduziert oder modifiziert werden. Die Grammatikperplexität 510 kann beispielsweise auf der Grundlage der Störgeräuschtypparameter 306 und der Störgeräuschniveauparameter 304 reduziert oder geändert werden. Beispielsweise können die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein starkes Windstörgeräusch (z. B. Störgeräusch_Typ = Wind, Störgeräusch_Niveau = hoch) vorhanden sein kann. Auf der Grundlage dessen, dass die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 ein starkes Windstörgeräusch angeben, kann die Dialogsteuerung 210 die Grammatikperplexität 510 durch Durchführung einer Erkennung eines einzelnen Einschubs, Erzwingen einer exakten Formulierung, Vermeiden einer gemischten Initiative und/oder Durchführen anderer Aktionen reduzieren.
Eine Erkennung eines einzelnen Einschubs kann beispielsweise die Grammatikperplexität 510 reduzieren, indem komplexe Aufforderungen, die mehrere Einschübe oder Typen von Information anfordern, in mehrere einfachere Audioaufforderungen reduziert oder modifiziert werden, die eine reduzierte Anzahl an oder einzelne Einschübe einer Information anfordern. Beispielsweise kann eine komplexe Aufforderung ”Welche Musik möchten Sie hören?” in mehrere Aufforderungen einzelner Einschübe ”Bitte geben Sie einen Liedtitel ein”, gefolgt von ”Bitte geben Sie den Künstler ein” und/oder andere Aufforderungen modifiziert oder reduziert werden. Natürlich können andere Aufforderungen verwendet werden, die mit anderen Themen in Zusammenhang stehen.
Bei einigen Ausführungsformen kann der Dialogstil 514 modifiziert werden, um die Grammatikperplexität 510 zu reduzieren, indem eine exakte Formulierung von einem Benutzer (z. B. (einem) Fahrzeuginsassen) erzwungen wird. Die exakte Formulierung von einem Benutzer kann erzwungen werden, indem ein Benutzer aufgefordert wird, exakte Reaktionen anstatt allgemeine Reaktionen zu liefern. Beispielsweise kann eine Aufforderung 508 ”Welchen Dienst wünschen Sie?”, die viele verschiedene Reaktionen von einem Benutzer hervorrufen kann, in eine Aufforderung 508”Bitte sagen Sie a. Musik, b. Navigation, c. Klimaanlage” modifiziert werden, was eine spezifische oder exakte Formulierung von einem Benutzer hervorrufen kann. Wenn die Störgeräuschtypparameter 306 und/oder die Störgeräuschniveauparameter 304 angeben, dass hohe Störgeräuschniveaus (z. B. Wind, Motor, HLK-System, Audiowiedergabe oder ein anderes Störgeräusch) in dem Fahrzeug vorhanden sein können, kann das Dialogsteuermodul 210 eine exakte Formulierung von einem Benutzer erzwingen. Natürlich können andere Aufforderungen, die mit anderen Themen in Zusammenhang stehen, verwendet werden.
Bei einigen Ausführungsformen kann der Dialogstil 514 modifiziert werden, um die Grammatikperplexität 510 zu reduzieren, indem der Dialogstil 514 einer gemischten Initiative reduziert wird. Der Dialogstil 514 einer gemischten Initiative kann beispielsweise einem Benutzer ermöglichen, auf eine Frage zu reagieren, die nicht gestellt wurde. Eine gemischte Initiative kann beispielsweise gesperrt oder deaktiviert werden, um die Grammatikperplexität 510 zu reduzieren, wenn die Störgeräuschtypparameter 306 und/oder die Störgeräuschniveauparameter 304 angeben, dass Störgeräuschniveaus oberhalb eines Schwellenwerts vorhanden sein können. Beispielsweise kann die Dialogsteuerung 210 eine Aufforderung ausgeben, die einen Informationstyp anfordert (z. B. ”Nach welchem Hoteltyp suchen Sie?”) und kann eine gemischte Initiative einem Benutzer ermöglichen, eine nicht zum Thema gehörige Reaktion zu liefern (z. B. ”Wo befindet sich das nächste Restaurant?”). Es können andere Aufforderungen 508, die mit anderen Themen in Zusammenhang stehen, verwendet werden. Das Sperren einer gemischten Initiative kann beispielsweise erfordern, dass ein Benutzer auf eine gefragte Frage reagiert, wobei nicht zugelassen wird, dass der Benutzer das Unterhaltungsthema ändert. Wenn ein Benutzer eine nicht zum Thema gehörige Reaktion auf eine Frage liefert, kann das Dialogsteuermodul 210 fordern, dass die Benutzerreaktion auf die gefragte Frage reagiert.
Gemäß einigen Ausführungsformen kann die Modifikation des Dialogstils 514 mit gegebenen Interferenzprofildatensätzen 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und andere Parameter oder Informationen) angepasst werden 320. Die Modifikation 224 des Dialogstils 514 (z. B. Ändern der Grammatikperplexität 510 oder andere Dialogstilmodifikationen) kann beispielsweise angepasst werden, indem Korrelationen zwischen der Modifikation des Dialogstils 514 auf der Grundlage der Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306 und/oder Störgeräuschniveauparameter 304) und dem Erfolg oder der Funktionalität der Dialogsteuerung 210 gemessen werden. Es können eine optimale Modifikation des Dialogstils 514 oder ein Reduzierungsansatz der Grammatikperplexität 510 (z. B. Erkennung eines einzelnen Einschubs, Erzwingen einer exakten Formulierung, Vermeiden einer gemischten Initiative oder ein anderer Reduzierungsansatz einer Grammatikperplexität) für einen gegebenen Interferenzprofildatensatz 180 ermittelt werden. Die optimale Modifikation des Dialogstils 514 für einen gegebenen Interferenzprofildatensatz 180 kann die Modifikation sein, die für einen Benutzer am wenigsten umständlich ist, die Funktionalität des Systems 100 am stärksten verbessert und/oder zu einem Dialogerfolg führt. Eine optimale Modifikation des Dialogstils 514 kann beispielsweise ermittelt werden, indem der Erfolg der Dialogsteuerung 210 mit und ohne Modifikation des Dialogstils 514 oder die Grammatikperplexität 510 gemessen wird. Der gemessene Dialogsteuererfolg in Verbindung mit verschiedenen Typen von Modifikation von Dialogstil 514 oder Grammatikperplexität 510 kann verglichen werden, um eine Modifikation von Dialogstil 514 oder Grammatikperplexität 510 zu ermitteln, die den Dialogsteuererfolg am stärksten optimiert. Beispielsweise können Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306 und Störgeräuschniveauparameter 304) angeben, dass ein starkes mit dem HLK in Zusammenhang stehendes Störgeräusch vorhanden sein kann, und die Grammatikperplexität 510 kann auf der Grundlage der Interferenzprofildatensätze 180 reduziert oder modifiziert werden 224. Die Grammatikperplexität 510 kann beispielsweise reduziert werden, indem der Dialogstil 514 modifiziert wird, um eine exakte Formulierung zu erzwingen (z. B. Auffordern eines Benutzers, aus einer Liste von Optionen auszuwählen (z. B. ”Bitte sagen Sie a. Musik, b. Navigation oder c. Tanken” anstatt von ”Welchen Dienst wünschen Sie?”)). Der Erfolg der Dialogsteuerung 210 (z. B. Erfolg des Dialogsteuersystems 210) mit dem Erzwingen einer exakten Formulierung (z. B.
reduzierte Grammatikperplexität 510) kann gemessen werden. Die Funktion oder der Erfolg der Dialogsteuerung 210 kann beispielsweise auf der Grundlage dessen, ob ein Benutzer eine Dialogaktion korrekt abschließt (z. B. Reaktionen auf eine Aufforderung), ob ein Benutzer ein positives Dialogergebnis erreicht (z. B. Benutzer findet, was er sucht) oder basierend auf anderen Maßen oder Parametern gemessen werden. Der Erfolg der Dialogsteuerung 210 (z. B. Erfolg des Dialogsteuersystems 210) mit der Erzwingung einer exakten Formulierung (z. B. reduzierte Grammatikperplexität 510) kann mit dem Erfolg der Dialogsteuerung 210 ohne exakte Formulierung oder dem Dialogsteuererfolg 210 mit einem anderen Typ von Modifikation des Dialogstils 514 oder der Grammatikperplexität 510 verglichen werden. Beispielsweise kann ermittelt werden, dass ein Typ von Modifikation des Dialogstils 514 zum Reduzieren der Grammatikperplexität 510 (z. B. Erkennung eines einzelnen Einschubs) auf der Grundlage bestimmter Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306 und Störgeräuschniveauparameter 304) zu einem reduzierten Dialogsteuererfolg führen kann oder dazu, dass dies weniger erfolgreich ist als ein anderer Typ von Modifikation des Dialogstils 514 und/oder keine Modifikation zum Reduzieren der Grammatikperplexität 510. Auf der Grundlage der Ermittlung, dass ein Typ von Modifikation des Dialogstils 514 mit gegebenen bestimmten Interferenzprofildatensätzen 180 weniger erfolgreich oder nicht erfolgreich beim Erhöhen des Dialogerfolgs sein kann, kann der Typ von Modifikation des Dialogstils 514 beispielsweise gesperrt, angepasst und/oder durch einen anderen Typ von Modifikation des Dialogstils 514 ersetzt werden. Beispielsweise kann eine Anpassung 320 ermitteln, dass das Reduzieren der Grammatikperplexität 510 durch Erzwingen einer exakten Formulierung effektiver sein kann als das Vermeiden einer gemischten Initiative, wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein starkes HLK-Störgeräusch oder ein anderes mit dem Fahrzeug in Zusammenhang stehendes Störgeräusch vorhanden sein kann. Beispielsweise kann die Anpassung 320 ermitteln, dass das Reduzieren der Grammatikperplexität 510 durch Erzwingen einer exakten Formulierung für den Benutzer am effektivsten und am wenigsten umständlich sein kann, wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass ein starkes HLK-Störgeräusch vorhanden sein kann.
Gemäß einigen Ausführungsformen kann die Dialogsteuerung 210 auf der Grundlage der Interferenzprofildatensätze 180 (z. B. Störgeräuschniveauparameter 304, Störgeräuschtypparameter 306 und andere Informationen) eine Benutzerirritation 516 überwachen (z. B. nach dieser horchen) und auf diese reagieren. Wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass hohe Störgeräuschniveaus in einem oder um ein Fahrzeug 10 herum vorliegen können, kann die Dialogsteuerung 210 beispielsweise modifiziert werden, um eine Benutzerirritation 516 zu überwachen oder nach dieser zu horchen und darauf zu reagieren. Um die Benutzerirritation 516 zu überwachen und darauf zu reagieren, kann die Dialogsteuerung 210 beispielsweise modifiziert werden, um von einem Benutzer eingegebene Verdeutlichungsanforderungen zu identifizieren. Die Verdeutlichungsanforderungen (z. B. ausgesprochen von einem Benutzer) können beispielsweise Phrasen, wie beispielsweise ”wiederholen”, ”Ich kann Sie nicht hören”, ”Wiederholen Sie diese Aufforderung”, ”Es ist nicht klar”, ”Wie bitte?” oder andere Phrasen umfassen. Auf Verdeutlichungsanforderungen von einem Benutzer kann beispielsweise durch die Dialogsteuerung 210 reagiert werden. Die Dialogsteuerung 210 kann beispielsweise auf Verdeutlichungsanforderungen von einem Benutzer reagieren, indem die letzte Aufforderungsausgabe wiederholt wird, die letzte Aufforderung neu formuliert wird oder andere Aktionen durchgeführt werden. Eine Aufforderung 508 (z. B. ”Das nächste Restaurant ist ABC Diner” oder eine andere Aufforderung) kann beispielsweise neu formuliert werden, indem die Reihenfolge der Phrasen in der Aufforderung 508 geändert wird (z. B. ”ABC ist das nächste Restaurant”). Es können andere Aufforderungen verwendet werden.
Gemäß einigen Ausführungsformen kann ein Multimodus-, Multifunktions- oder anderer Typ von Dialog auf der Grundlage der Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 und/oder andere Informationen) modifiziert werden. Der Multimodusdialog 512 kann beispielsweise einen gesprochenen Dialog kombiniert mit einem taktilen, visuellen oder anderen Dialog umfassen. Der Multimodusdialog 512 kann beispielsweise Audioaufforderungen eines gesprochenen Dialogs umfassen, die von einem Benutzer fordern, eine Information in eine taktile Einrichtung einzugeben (z. B. die Eingabeeinrichtung 44 oder eine andere Einrichtung). Es können andere Typen von Multimodusdialog 512 verwendet werden.
Bei einigen Ausführungsformen kann der Multimodusdialog 512 beispielsweise, wenn die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 angeben, dass hohe Störgeräuschniveaus in einem Fahrzeug 10 oder um dieses herum vorliegen können, modifiziert werden, indem im Gegensatz zu einer Sprachaufforderung auf eine visuelle Anzeige zurückgegriffen wird oder diese favorisiert wird, indem auf eine visuelle Anzeige von Systemhypothesen (z. B. Fragen, Anforderungen hinsichtlich einer Information und andere Aufforderungen) zurückgegriffen wird oder zu dieser gewechselt wird, eine taktile Bestätigung von einem Benutzer (z. B. Auswählen einer Reaktion aus einer Liste von Reaktionen, die an einem Touchscreen oder einer anderen Ausgabeeinrichtung angezeigt wird) aufgefordert oder angefordert wird, die Verwendung einer taktilen Modalität (z. B. Reduzieren der Konfidenz der Semantikinterpretationseinrichtung) angeregt wird, für eine Teilmenge von Anwendungsfunktionen (z. B. einfacher Befehl und einfache Steuerung durch taktile Mittel) von Sprache zu anderen Modalitäten gewechselt wird, oder durch andere Modifikationen.
Auf der Grundlage der Störgeräuschtypparameter 306 und der Störgeräuschniveauparameter 304 kann das Dialogsteuermodul 210 beispielsweise auf eine visuelle Anzeige von Systemhypothesen zurückgreifen, indem Fragen, Anforderungen hinsichtlich einer Information und andere Typen von Aufforderungen an einer Ausgabeeinrichtung 42 (z. B. einem Anzeigebildschirm) angezeigt werden. Es kann beispielsweise eine taktile Bestätigung von einem Benutzer angefordert werden. Die Dialogsteuerung 210 kann beispielsweise anfordern, dass ein Benutzer Reaktionen auf Dialogaufforderungen 508 (z. B. Aufforderungen eines gesprochenen Dialogs) oder eine andere Informationsausgabe von dem System 100 unter Verwendung einer taktilen Einrichtung, der Eingabeeinrichtung 44 (z. B. eine Tastatur, ein Touchscreen oder eine andere Eingabeeinrichtung) und/oder einer anderen Einrichtung bestätigt. Das System 100 kann beispielsweise eine Aussage ”Bitte bestätigen Sie, dass Sie Hotel sagten, indem Sie Ja eingeben” unter Verwendung des Lautsprechers 40, der Ausgabeeinrichtung 42 oder einer anderen Einrichtung ausgeben, und der Benutzer kann eine taktile Bestätigung liefern, indem er eine Reaktion (z. B. Drücken eines Knopfs, Eingeben von ”Ja” oder eine andere Reaktion) in eine Eingabeeinrichtung 44 oder eine andere Einrichtung eingibt. Das Dialogsteuermodul 210 kann bei einigen Ausführungsformen fordern, dass ein Benutzer eine Reaktion aus einer Liste von Optionen auswählt. Beispielsweise kann das System 100 den Benutzer auffordern, eine Option aus einer Liste von Optionen unter Verwendung einer taktilen Einrichtung, der Eingabeeinrichtung 44 (z. B. eine Tastatur, ein Touchscreen oder eine andere Eingabeeinrichtung) und/oder einer anderen Einrichtung auszuwählen. Das System 100 kann beispielsweise eine Aufforderung ”Bitte wählen Sie eine Kategorie: Hotels, Restaurants oder Tankstellen an dem Touchscreen” ausgeben, und ein Benutzer kann auf die Aufforderung reagieren, indem er das Wählen einer Option (z. B. Hotels, Restaurants oder Tankstellen) an einer taktilen Einrichtung, der Eingabeeinrichtung 44 und/oder einer anderen Einrichtung eingibt.
Gemäß einigen Ausführungsformen kann das Modifikationsmodul 224 beispielsweise die Verwendung eines taktilen Dialogs anregen oder verstärken, indem die Semantikinterpretationseinrichtungskonfidenzniveaus 504 geändert werden. Wenn beispielsweise ein Konfidenzniveau 504 unter einem Schwellenwertkonfidenzniveau 506 liegt, kann das Dialogsteuermodul 504 eine taktile Bestätigung, eine taktile Auswahl oder einen anderen Typ von Eingabe von dem Benutzer anfordern. Wenn das einem Dialogvorgang zugehörige Konfidenzniveau 504 über einem Schwellenwertkonfidenzniveau 506 liegt, kann der Dialogvorgang als korrekte Interpretation der Benutzereingabe betrachtet werden, und kann das System 100 eine sprachbasierte Dialogsteuerung verwenden (z. B. fordert das System 100 möglicherweise keine taktile Bestätigung, taktile Auswahl oder keinen anderen Typ von Eingabe von dem Benutzer an). Die Konfidenzniveaus 504 können beispielsweise auf der Grundlage der Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306, Störgeräuschniveauparameter 304 oder andere Informationen) reduziert werden. Wenn beispielsweise die Interferenzprofildatensätze 180 (z. B. Störgeräuschniveauparameter 304) angeben, dass ein mit einem Fahrzeugstörgeräusch in Zusammenhang stehendes Störgeräusch über einem vordefinierten Schwellenwert vorhanden sein kann (z. B. Störgeräusch_Niveau = mittel, Störgeräusch_Niveau = hoch oder ein anderer Störgeräusch_Niveau-Wert), können die Konfidenzniveaus 504, die von der Semantikinterpretationseinrichtung ausgegeben werden, reduziert werden. Ein Konfidenzniveau 504 kann beispielsweise ein kontinuierlicher Wert (z. B. zwischen 0% und 100% oder ein anderer Wertebereich) sein, der mit einer Sicherheit der Spracherkennung in Zusammenhang steht oder davon abhängt. Die Konfidenzniveaus 504 können beispielsweise auf der Grundlage der Interferenzprofildatensätze 180 von einem ersten Konfidenzniveauwert auf einen zweiten Konfidenzniveauwert (z. B. einen Konfidenzniveauwert, der kleiner als ein erster Konfidenzniveauwert ist) geändert werden (z. B. reduziert oder erhöht). Die Konfidenzniveaus 504 können beispielsweise gemäß einer Funktion (z. B. einer kontinuierlichen Funktion) geändert werden (z. B. reduziert oder erhöht). Ein Konfidenzniveau 504 kann beispielsweise fünfundneunzig Prozent (z. B. 95%) oder einen beliebigen anderen Wert umfassen, wenn der Störgeräuschniveauparameter 304 Null oder ein geringes Hintergrundstörgeräusch angibt (z. B. Störgeräuschniveauparameter = niedrig). Ein Konfidenzniveau 504 kann beispielsweise von einem ersten Wert (z. B. fünfundneunzig Prozent oder einem anderen Wert) auf beispielsweise einen zweiten Wert (z. B. achtzig Prozent oder einen anderen Wert) reduziert werden, der beispielsweise kleiner als ein erster Wert sein kann, wenn die Interferenzprofildatensätze 180 angeben, dass moderate bis hohe Störgeräuschniveaus in dem Fahrzeug 10 (z. B. in der Fahrgastzelle des Fahrzeugs) auftreten können. Das Reduzieren der Konfidenzniveaus 504, wenn die Interferenzprofildatensätze 180 (z. B. Störgeräuschtypparameter 306 und/oder Störgeräuschniveauparameter 304) ein starkes Hintergrundstörgeräusch angeben, kann die Wahrscheinlichkeit erhöhen, dass die Dialogsteuerung 210 eine taktile Bestätigung, Auswahl oder eine andere taktile Eingabe von dem Benutzer anfordern kann.
Gemäß einigen Ausführungsformen kann der Multimodusdialog modifiziert werden 224, indem für eine Teilmenge von Funktionen des Systems 100 (z. B. vordefinierte Funktionen der Backend-Anwendung 212) von Sprache zu anderen Modalitäten (z. B. taktile Eingabe, visuelle Ausgabe und/oder andere Modalitäten) gewechselt wird. Auf der Grundlage der Störgeräuschtypparameter 306, der Störgeräuschniveauparameter 304 und/oder einer anderen Information können eine oder mehrere Backend-Anwendungen 212 von einer sprachbasierten Modalität zu Modalitäten ohne Sprache wechseln (z. B. taktile oder andere Modalitäten). Andere Backend-Anwendungen 212 können beispielsweise nicht zu Modalitäten ohne Sprache wechseln (z. B. Steuerung und/oder Befehl können sprachbasiert bleiben). Wenn beispielsweise die Störgeräuschtypparameter 306 und die Störgeräuschniveauparameter 304 ein starkes Motorstörgeräusch angeben (z. B. Störgeräusch_Typ = Motor, Störgeräusch_Niveau = hoch) kann die Funktionalität (z. B. Steuerung und Befehl) der vordefinierten Backend-Anwendung 212 (z. B. Radio, Karte, Sprachsuche oder andere Backend-Anwendungen) von einer sprachbasierten zu einer taktilen Steuerung (z. B. unter Verwendung der Eingabeeinrichtung 44) wechseln, während andere Backend-Anwendungen 212 möglicherweise nicht von einer sprachbasierten zu einer taktilen Steuerung wechseln können. Wenn beispielsweise die Geräuschtypparameter 306 und/oder die Geräuschniveauparameter 304 ein Hintergrundstörgeräusch angeben, können eine Sprachsuche und/oder (eine) andere Hintergrundanwendung(en) 212 gesperrt (z. B. blockiert) werden und werden eine sprachbasierte Radiosteuerung und/oder andere Hintergrundanwendungen 212 möglicherweise nicht gesperrt (können z. B. aktiv bleiben). Es kann beispielsweise während des Fahrzeugtests, der Herstellung oder während der Anpassung 320 ermittelt werden, welche Backend-Anwendungen 212 zu anderen Modalitäten (z. B. taktile Eingabe oder anderer Eingabemodus) wechseln oder deaktiviert werden, wenn die Geräuschtypparameter 306 und/oder die Geräuschniveauparameter 304 ein Hintergrundstörgeräusch angeben.
Gemäß einigen Ausführungsformen kann die Modifikation des Multimodusdialogs 512 mit gegebenen Interferenzprofildatensätzen 180 (z. B. Stör geräuschtypparameter 306, Störgeräuschniveauparameter 304 und andere Informationen) angepasst werden 320. Die Modifikation 224 des Multimodusdialogs 512 (z. B. Zurückgreifen auf eine visuelle Anzeige, Anfordern einer taktilen Bestätigung, Anregen der Verwendung von taktilen Modalitäten, Wechseln von Sprache zu anderen Modalitäten für eine Teilmenge von Anwendungsfunktionen und/oder andere Modifikationen) kann beispielsweise angepasst werden 320, indem Korrelationen zwischen den Störgeräuschtypparametern 306 und/oder den Störgeräuschniveauparametern 304 und dem Erfolg oder der Funktionalität der Dialogsteuerung 210 gemessen werden. Die Anpassung 320 kann beispielsweise die optimale Modifikation des Multimodusdialogs 512 (z. B. Zurückgreifen auf eine visuelle Anzeige, Anfordern einer taktilen Bestätigung, Anregen der Verwendung von taktilen Modalitäten, Wechseln von Sprache zu anderen Modalitäten für eine Teilmenge von Anwendungsfunktionen und/oder andere Modifikationen) für einen gegebenen Interferenzprofildatensatz 180 ermitteln. Die optimale Modifikation des Dialogstils 514 für einen gegebenen Interferenzprofildatensatz 180 kann die Modifikation sein, die für einen Benutzer am wenigsten umständlich ist und/oder die Funktionalität des Systems 100 am besten verbessert. Die Anpassung 320 der Modifikationsstrategien oder -ansätze des Multimodusdialogs 512 kann ähnlich der Anpassung der Modifikationsstrategien des Dialogstils 514, der Anpassung der Dialogsteuervorgänge 500 und anderen Prozessen oder Ansätzen einer Anpassung 320 sein.
Bei einigen Ausführungsformen können alle Typen der Modifikation 224 der Operationen der Dialogsteuerung 210 auf der Grundlage der Störgeräuschtypprofile 306 und Störgeräuschniveauprofile 304 angepasst werden 320. Die Typen der Modifikation 224 können wie hierin erläutert eine Modifikation der Dialogsteuervorgänge 500, eine Einführung von Audioaufforderungen 508, eine Modifikation von Aufforderungen 508, eine Modifikation des Dialogstils 514 (z. B. zum Reduzieren der Grammatikperplexität 510), eine Überwachung und Reaktion auf eine Benutzerirritation 516, eine Modifikation des Multimodusdialogs 512, eine Modifikation von Funktionen der Backend-Anwendung 212 und/oder andere Typen von Modifikation 224 umfassen. Die Korrelation zwischen Dialogerfolg und Modifikation der Dialogsteuerung 210 auf der Grundlage der Störgeräuschtypparameter 306 und/oder der Störgeräuschniveauparameter 304 kann gemessen, bewertet oder berechnet werden. Der Erfolg eines Typs von Modifikation 224 der Dialogsteuerung 210 kann beispielsweise gemessen oder bewertet werden, indem ermittelt wird, ob ein Benutzer vorhersagbare Reaktionen auf die Dialogsteuerungsaufforderungen 508 liefert (z. B. ob die Benutzerreaktionen zum Thema gehören oder nicht), ob ein Benutzer irgendwelche Reaktionen auf die Aufforderungen 508 liefert oder unter Verwendung von anderen Ansätzen. Auf der Grundlage des gemessenen Dialogsteuererfolgs können die Prozesse und Operationen der Modifikation der Dialogsteuerung 210 angepasst werden, indem Typen der Dialogsteuerungsmodifikation 224 deaktiviert, gesperrt, geändert oder gewechselt werden, oder die Dialogsteuerungsmodifikation 224 auf andere Weise geändert wird. Die Operationen der Dialogsteuerungsmodifikation 224 können beispielsweise geändert werden, indem die einer Typmodifikation 210 zugehörigen Parameter mit gegebenen Störgeräuschtypparametern 306 und Störgeräuschniveauparametern 304 verändert werden. Beispielsweise können Semantikinterpretationseinrichtungskonfidenzniveaus 504 geändert werden, können Parameter in Bezug auf Tempo und Timing von Aufforderungen 508 geändert werden und können andere Parameter geändert oder angepasst werden, um den Erfolg der Dialogsteuerung 210 zu verbessern. Es können andere Parameter und Operationen angepasst oder verändert werden.
7 ist ein Flussdiagramm eines Verfahrens gemäß Ausführungsformen der vorliegenden Erfindung. Bei Operation 600 kann ein Audiosignal (z. B. das Audiosignal 200 von 3) in einem Prozessor (z. B. dem Prozessor 110 von 2 oder dem Signalprozessor 202 von 3), der zu einem Fahrzeug (z. B. dem Fahrzeug 10 von 3) gehört, empfangen werden. Der Signalprozessor 202 kann beispielsweise vollständig oder teilweise durch den Prozessor 110 realisiert sein.
Bei Operation 610 kann eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation (z. B. die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation 160 von 2 oder Signale oder eine Information, die mit dem Betrieb von Fahrzeugsystemen, die ein Geräusch erzeugen oder verursachen, in Zusammenhang stehen), die ein oder mehrere Geräusche darstellt oder diesen entspricht, in dem Prozessor empfangen werden (z. B. Interferenzprofilmodul 222 von 3). Die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation kann bei einigen Ausführungsformen kein Audiosignal umfassen. Das Interferenzprofilmodul 222 kann beispielsweise vollständig oder teilweise durch den Prozessor 110 realisiert sein.
Bei Operation 620 können Interferenzprofildatensätze (z. B. die Interferenzprofildatensätze 180 von 2) auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation ermittelt werden. Die Interferenzprofildatensätze können beispielsweise Störgeräuschtypparameter (z. B. die Störgeräuschtypparameter 306 von 4), Störgeräuschniveauparameter (z. B. die Störgeräuschniveauparameter 304 von 4) und/oder andere Parameter umfassen. Die Interferenzprofildatensätze können beispielsweise unter Verwendung einer logischen Operation oder anderer mathematischer Operationen auf der Grundlage einer mit mehreren Geräuschtypen in Zusammenhang stehenden Fahrzeuginformation ermittelt werden. Die Interferenzprofildatensätze können bei einigen Ausführungsformen durch Quantisieren einer mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation (z. B. einer Fahrzeugmotor-RPM-Information) ermittelt werden.
Bei Operation 630 kann ein Spracherkennungsprozess oder -system (z. B. in dem Spracherkennungsmodul 204 und/oder dem Signalprozessor 202 von 3) auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation und/oder der Interferenzprofildatensätze modifiziert werden. Die Spracherkennung kann beispielsweise modifiziert werden, indem ein Filter (z. B. das Filter 312 von 4) und Filterparameter (z. B. die Filterparameter 322 von 4) in einem Signalprozessor (z. B. dem Signalprozessor 212), einem Frontend-System einer automatischen Spracherkennung (z. B. der Frontend-ASR 314 von 4) oder einer anderen Einrichtung auf der Grundlage der Interferenzprofildatensätze gewählt oder ermittelt werden. Es kann beispielsweise ein Filter auf das Audiosignal angewandt werden. Es kann eine Reaktion auf Sprachbefehle in dem Audiosignal erzeugt werden (z. B. durch das Dialogsteuermodul 210 und/oder den Reaktionsgenerator 214 von 3), und die Reaktion kann an einen Fahrzeuginsassen ausgegeben werden (z. B. über eine Anzeige 42 oder einen Lautsprecher 40 von 2).
Es können andere oder verschiedene Reihen von Operationen verwendet werden.
Die Ausführungsformen der vorliegenden Erfindung können Vorrichtungen zum Durchführen der hierin beschriebenen Operationen umfassen. Solche Vorrichtungen können speziell für die gewünschten Zwecke konstruiert sein oder können Computer oder Prozessoren umfassen, die selektiv durch ein in den Computern gespeichertes Computerprogramm aktiviert oder rekonfiguriert werden. Solche Computerprogramme können in einem von einem Computer lesbaren oder einem von einem Prozessor lesbaren dauerhaften Speichermedium, einem beliebigen Typ von Platte einschließlich Disketten, optische Platten, CD-ROMs, magnetooptische Platten, Nur-Lese-Speicher (ROMS von read-only memories), Direktzugriffsspeicher (RAMs von random access memories), elektrisch programmierbare Nur-Lese-Speicher (EPROMS von electrically programmable read-only memories), elektrisch löschbare und programmierbare Nur-Lese-Speicher (EEPROMs von electrically erasable and programmable read only memories), magnetische oder optische Karten, oder einem beliebigen anderen Typ von Medium, das zum Speichern elektronischer Anweisungen geeignet ist, gespeichert sein. Es sei angemerkt, dass eine Vielzahl von Programmiersprachen verwendet werden kann, um die Lehren der Erfindung wie hierin beschrieben zu realisieren. Die Ausführungsformen der Erfindung können einen Gegenstand, wie beispielsweise ein von einem dauerhaften Computer oder Prozessor lesbares dauerhaftes Speichermedium, wie beispielsweise ein Speicher, ein Diskettenlaufwerk, oder eine USB-Flash-Speichercodierung, umfassen, der Anweisungen, z. B. von einem Computer ausführbare Anweisungen, umfasst oder speichert, die bei einer Ausführung durch einen Prozessor oder Controller bewirken, dass der Prozessor oder Controller hierin offenbarte Verfahren ausführt. Die Anweisungen können bewirken, dass der Prozessor oder Controller Prozesse ausführt, die hierin offenbarte Verfahren ausführen.
Hierin sind verschiedene Ausführungsformen offenbart. Merkmale bestimmter Ausführungsformen können mit Merkmalen anderer Ausführungsformen kombiniert werden; somit können bestimmte Ausführungsformen Kombinationen von Merkmalen mehrerer Ausführungsformen sein. Die vorstehende Beschreibung der Ausführungsformen der Erfindung wurde für Erläuterungs- und Beschreibungszwecke dargestellt. Sie soll nicht vollständig sein oder die Erfindung auf die genaue offenbarte Form beschränken. Fachleute werden erkennen, dass viele Modifikationen, Abwandlungen, Ersetzungen, Änderungen und Äquivalente angesichts der obigen Lehren möglich sind. Daher ist zu verstehen, dass die beigefügten Ansprüche alle derartigen Modifikationen und Änderungen abdecken sollen, die innerhalb des Gedankens der Erfindung liegen.

Claims

Verfahren, das umfasst, dass: in einem einem Fahrzeug zugehörigen Prozessor ein Audiosignal empfangen wird; in dem Prozessor eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation empfangen wird, die ein oder mehrere Geräusche darstellt, wobei die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation kein Audiosignal umfasst; und ein Spracherkennungsprozess auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation modifiziert wird.
Verfahren nach Anspruch 1, das umfasst, dass Interferenzprofildatensätze auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation ermittelt werden, und wobei das Modifizieren des Spracherkennungsprozesses auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation umfasst, dass: ein Filter und Filterparameter auf der Grundlage der Interferenzprofildatensätze ermittelt werden; und das Filter auf das Audiosignal angewandt wird.
Verfahren nach Anspruch 2, wobei das Modifizieren des Spracherkennungsprozesses auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation umfasst, dass: ein Akustikmodell auf der Grundlage der Interferenzprofildatensätze ausgewählt wird; und Sprache unter Verwendung des Akustikmodells decodiert wird.
Verfahren nach Anspruch 1, das umfasst, dass: ein Erfolg der Spracherkennungsmodifikation auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation hinsichtlich eines Verbesserns der Funktionalität der Spracherkennung gemessen wird; und die Spracherkennungsmodifikation auf der Grundlage des gemessenen Erfolgs angepasst wird.
System, umfassend: einen Speicher; einen einem Fahrzeug zugehörigen Prozessor, um: ein Audiosignal zu empfangen; eine mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation zu empfangen, die ein oder mehrere Geräusche darstellt, wobei die mit einem Geräusch in Zusammenhang stehende Fahrzeuginformation kein Audiosignal umfasst; und einen Spracherkennungsprozess auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation zu modifizieren, indem ein Filter und Filterparameter auf der Grundlage der Interferenzprofildatensätze ermittelt werden und das Filter auf das Audiosignal angewandt wird.
System nach Anspruch 5, wobei der Prozessor zum Modifizieren des Spracherkennungsprozesses auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation dazu dient: ein Akustikmodell auf der Grundlage der Interferenzprofildatensätze auszuwählen; und Sprache unter Verwendung des Akustikmodells zu decodieren.
System nach Anspruch 5, wobei der Prozessor zum Ermitteln der Interferenzprofildatensätze auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation dazu dient, die Interferenzprofildatensätze durch Quantisieren einer mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation zu ermitteln.
System nach Anspruch 5, wobei der Prozessor dazu dient: einen Erfolg der Spracherkennungsmodifikation auf der Grundlage der mit einem Geräusch in Zusammenhang stehenden Fahrzeuginformation hinsichtlich eines Verbesserns der Funktionalität der Spracherkennung zu messen; und die Spracherkennungsmodifikation auf der Grundlage des gemessenen Erfolgs anzupassen.
Verfahren, das umfasst, dass: unter Verwendung eines oder mehrerer einem Fahrzeug zugehörigen Mikrofons/zugehöriger Mikrofone Geräusche gemessen werden; ein Signal, das die Geräusche darstellt, an ein System einer automatischen Spracherkennung übertragen wird; an einem Controller eine Information bezüglich des Betriebs von Fahrzeugsystemen, die ein Geräusch verursachen, empfangen wird; Interferenzprofildatensätze auf der Grundlage der Information berechnet werden, wobei die Interferenzprofildatensätze Störgeräuschtypen und Störgeräuschniveaus darstellen; und die Spracherkennung auf der Grundlage der Interferenzprofildatensätze geändert wird, indem ein Filter und Filtereinstellungen auf der Grundlage der Interferenzprofildatensätze gewählt werden; und das Filter auf das Signal angewandt wird.
Verfahren nach Anspruch 9, wobei das Ändern der Spracherkennung auf der Grundlage der Interferenzprofildatensätze umfasst, dass: ein Akustikmodell auf der Grundlage der Interferenzprofildatensätze ermittelt wird; und Sprache in dem Signal unter Verwendung des Akustikmodells decodiert wird.