-
Die Erfindung betrifft ein Verfahren zur Verbesserung von automatischer Spracherkennung in einem Fahrzeug.
-
Die
JP H06-67 690 A offenbart ein Verfahren zum Entfernen von Fahrgeräuschen eines Kraftfahrzeugs aus dem Mikrofoneingang des bordeigenen Spracherkennungsgeräts mit einem Mikrofon für Sprache, ohne ein Mikrofon für Geräusche in einem geräuschreduzierenden bordeigenen Spracherkennungsgerät zu verwenden. Auf der Grundlage von Informationen aus einer Straßenoberflächenzustands-Einstellvorrichtung wählt eine Geräuschmuster-Auswahlvorrichtung ein dem Stra-ßenzustand während einer aktuellen Fahrt entsprechendes Geräuschspektrum-Muster aus mindestens mehr als zwei gespeicherten, den Straßenoberflächenzuständen entsprechenden Geräuschspektrum-Mustern aus. Ein Spektralmuster-Arithmetikteil entfernt das Spektralmuster des Rauschens aus dem Spektralmuster, das durch Überlagerung der über ein Mikrofon eingegebenen Sprache und des Rauschens entsprechend dem ausgewählten Spektralmuster des Rauschens erhalten wird.
-
Aus der
US 2015 / 0 012 267 A1 ist ein Verfahren bekannt, in dem Geräusche in einem Tonsignal, das von einem in einem Fahrzeug befindlichen Mikrofon aufgenommen wird, vorhergesagt und anschließend unterdrückt werden. Dabei sind die erkannten und unterdrückten Geräusche insbesondere kurzzeitig auftretende Geräusche, wie beispielsweise am eigenen Fahrzeug vorbeifahrende Lastwagen, aber auch andere kurzzeitige Geräusche, die in der herkömmlichen Geräuschunterdrückung schwerer zu unterdrücken sind als kontinuierlicher Lärm.
-
Moderne Kraftfahrzeuge besitzen häufig Sprachverarbeitungssysteme, die eine Sprachsteuerung von Fahrzeugfunktionen ermöglichen. Die Güte der Spracherkennung wird durch Fremdgeräusche beeinträchtigt. Eine besondere Herausforderung für die Spracherkennung sind plötzliche Änderungen des Fahrgeräusches, wie sie beim Überfahren von Unebenheiten der Fahrbahn wie z. B. Buckeln oder Schlaglöchern oder bei Änderungen der Oberflächenstruktur der Fahrbahn auftreten.
-
Die
US 7 725 315 B2 offenbart ein Verfahren zur Erkennung von Fahrgeräuschen in einem Tonsignal, bei dem von der Fahrbahn herrührende vorübergehende Fahrgeräusche anhand von charakteristischen Signaleigenschaften erkannt werden und von Sprachsignalen unterschieden werden können. Entsprechende Signalcharakteristika sind z. B. Paare zeitlich verknüpfter Schallereignisse, wenn zuerst die Vorderräder und danach die Hinterräder eine Fahrbahnunebenheit passieren, und andere charakteristische zeitliche Verläufe von Signalstärken und -frequenzen. Zur besseren Erkennung von vorübergehenden Fahrgeräuschen werden verschiedene zeitliche und spektrale Charakteristika von vorübergehenden Fahrgeräuschen modelliert und mit dem gerade aufgenommenen Mikrofonsignal verglichen.
-
Aus der
US 2014 / 0 303 905 A1 ist es bekannt, einen vor dem Fahrzeug liegenden Abschnitt der Fahrbahn mit einem Sensor zu beobachten und daraus Fahrgeräusche vorherzusagen, die mit Messsignalen eines Mikrofons korreliert werden. Diese Fahrgeräusche werden gemäß diesem Dokument zur allgemeinen zur Kartierung von Fahrbahn-Beschaffenheiten erhoben, so dass das in diesem Dokument beschriebene Verfahren für Messfahrten, und nicht für die Verbesserung des Regel-Fahrzeugbetriebs, insbesondere für eine Verbesserung von Spracherkennung oder Sprachkommunikation, konzipiert ist.
-
Der vorliegenden Erfindung liegt die Aufgabe zu Grunde, von Unebenheiten oder der Oberflächenstruktur der Fahrbahn herrührende Fahrgeräusche noch zuverlässiger von im Fahrzeug aufgezeichneten Mikrofonsignalen unterscheiden zu können, um die Spracherkennung bzw. die Qualität von Telekommunikation (d.h. allgemein Sprachkommunikation) in einem Fahrzeug zu verbessern.
-
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst.
-
Vorteilhafte Weiterbildungen der Erfindung sind in den abhängigen Patentansprüchen angegeben.
-
Ein erfindungsgemäßes Verfahren zur Verbesserung von automatischer Spracherkennung in einem fahrenden Fahrzeug umfasst die Schritte, einen in Fahrtrichtung vor dem Fahrzeug liegenden Abschnitt der Fahrbahn mit einem im oder am Fahrzeug eingebauten Sensor zu beobachten; anhand der erhaltenen Beobachtungsdaten Ort und Größe von voraus liegenden Fahrbahnunebenheiten zu bestimmen; zu prüfen, ob Teile von erkannten Fahrbahnunebenheiten voraussichtlich von einem Reifen des Fahrzeugs überfahren werden; während der Dauer des Überfahrens von erkannten Fahrbahnunebenheiten ein im Fahrzeug eingebautes Mikrofon ein Tonsignal aufnehmen zu lassen und anhand der erhaltenen Tonaufnahmen den Einfluss von Fahrbahnunebenheiten auf die Spracherkennung zu ermitteln und zu speichern; und von dem Mikrofon aufgenommene Tonsignale von Fahrgeräuschen zu reinigen, die von Unebenheiten der Fahrbahn herrühren, bevor die Tonsignale der Spracherkennung unterzogen werden.
-
Dabei können anhand der erhaltenen Beobachtungsdaten außerdem Oberflächenstrukturen der voraus liegenden Fahrbahn ermittelt werden; den ermittelten Oberflächenstrukturen werden dann Tonsignale zugeordnet, die aufgenommen werden, während eine entsprechende Oberflächenstruktur überfahren wird; der Einfluss von Oberflächenstrukturen auf das Spracherkennungssystem wird ermittelt; und von dem Mikrofon aufgenommene Tonsignale werden auch von Fahrgeräuschen gereinigt, die von der Oberflächenstruktur der Fahrbahn herrühren, bevor die Tonsignale der Spracherkennung unterzogen werden.
-
Ein in Fahrtrichtung vor dem Fahrzeug liegender Abschnitt der Fahrbahn wird mit dem im oder am Fahrzeug eingebauten Sensor beobachtet, und anhand der erhaltenen Beobachtungsdaten werden Beginn und Dauer von Fahrgeräuschen vorhergesagt, die von Unebenheiten oder von der Oberflächenstruktur der Fahrbahn herrühren, wobei damit die Spracherkennung in dem Fahrzeug oder die Sprachverständlichkeit von Telekommunikation aus dem Fahrzeug verbessert wird.
-
Der Sensor zur Beobachtung des in Fahrtrichtung vor dem Fahrzeug liegenden Abschnitts der Fahrbahn ermöglicht die Gewinnung von Bildern der Fahrbahnoberfläche oder von anderen die Beschaffenheit der Fahrbahn repräsentierenden Daten in irgendeinem Bereich des elektromagnetischen Spektrums wie z. B. sichtbares oder unsichtbares Licht oder Radarwellen. Anhand dieser Bilder oder ähnlicher sensorisch gewonnener Beobachtungsdaten der Fahrbahn kann im Kraftfahrzeug in Echtzeit ermittelt werden, ob und wann sich eine beobachtete Fahrbahnunebenheit auf das Mikrofonsignal auswirken wird, so dass geeignete Gegenmaßnahmen getroffen werden können.
-
Der Sensor kann eine oder mehrere Kameras und/oder Laserscanner umfassen und/oder kann ein Teil eines Radarsystems sein. Nach vorne blickende Kameras, Laserscanner und Radar sind Bilderfassungssysteme, die in modernen Kraftfahrzeugen oft schon serienmäßig eingebaut oder zumindest listenmäßig bestellbar sind. Die Bilderfassungssysteme können entweder zweidimensionale Bilder gewinnen oder die Straßenoberfläche zeilenweise abtasten. Daraus kann eine Messpunktwolke oder ein Höhenprofil erhalten oder errechnet werden, in der bzw. dem sich Fahrbahnunebenheiten besonders leicht auffinden lassen.
-
In einer bevorzugten Ausführungsform werden als der Sensor eine oder mehrere Kameras und/oder oder andere Sensoren für vorausschauende optische Hinderniserkennung verwendet, wie sie z. B. aus der
US 2008/0015743 A1 bekannt sind. Wird ein Hindernis wie z. B. ein Buckel auf der Fahrbahn erkannt, kann nicht nur der Fahrer gewarnt werden, sondern auch eine Zwangsbremsung eingeleitet und/oder die Federung und/oder Dämpfung des Fahrzeugchassis vorausschauend angepasst werden.
-
Wird ein Sensor für vorausschauende optische Hinderniserkennung verwendet, kann dessen Auswerteelektronik mit verwendet werden, da sie schon die Zeiten liefert, zu denen Beeinträchtigungen des Mikrofonsignals durch vorübergehende Fahrgeräusche zu erwarten sind.
-
Darüber hinaus kann anhand der Sensorsignale die Fahrbahnbeschaffenheit abgeschätzt werden und wann Beeinträchtigungen des Mikrofonsignals durch starke Abrollgeräusche zu erwarten sind. Irgendwelchen vorausgesagten Beeinträchtigungen des Mikrofonsignals kann dann durch geeignete Maßnahmen entgegengewirkt werden.
-
Die Vorhersage der Fahrgeräusche umfasst neben deren Beginn und Dauer auch Charakteristika der Fahrgeräusche, um den Einfluss der Fahrgeräusche noch gezielter kompensieren zu können. Die Charakteristika der Fahrgeräusche können zuvor aus Mikrofonsignalen ermittelt werden, in denen keine Sprachsignale enthalten sind, d. h. keine Tonsignale, die ein Spracherkennungssystem als Sprache ansieht. Entsprechende Mikrofonsignale stehen in Zeiten zur Verfügung, in denen das Spracherkennungssystem mehr oder weniger inaktiv ist, weil der Fahrer schweigt, und auf ein Aktivierungssignal wartet.
-
Mikrofonsignale, in denen keine Sprachsignale enthalten sind, werden während vorhergesagten Dauern von Fahrgeräuschen aufgenommen, die von Unebenheiten oder der Oberflächenstruktur der Fahrbahn herrühren. Damit erhält man die zugehörigen Fahrgeräusche in einer im Wesentlichen reinen Form, was es ermöglicht, diese aus dem Mikrofonsignal herauszurechnen, wenn das Mikrofon in einem späteren Zeitpunkt Sprache aufnimmt.
-
In einer bevorzugten Ausführungsform wird das Verfahren zur Verbesserung von automatischer Spracherkennung in dem Fahrzeug verwendet, damit Fahrgeräusche, wie sie beim Überfahren von Buckeln oder Schlaglöchern oder bei sich ändernder Oberflächenstruktur der Fahrbahn auftreten, nicht mehr zu Spracherkennungsfehlern führen können, seien es Fehlinterpretationen des Inhalts von Sprachbefehlen, die von dem Mikrofon aufgenommen und durch ein Spracherkennungssystem analysiert werden, oder seien es Fehlinterpretationen von Fahrgeräuschen als Sprache.
-
Das Verfahren kann aber zum Beispiel dazu verwendet werden, die Güte von Telekommunikation des Fahrers mit irgendwelchen menschlichen Gesprächspartnern (sei es im Fahrzeug oder außerhalb, beispielsweise bei GSM-Mobilfunkverbindungen) durch im richtigen Zeitpunkt getroffene Maßnahmen zur Minderung der Fahrgeräuschkomponente in dem vom Mikrofon aufgenommenen und weitergeleiteten Tonsignal zu verbessern.
-
Es folgt eine Beschreibung von Ausführungsbeispielen anhand der Zeichnungen. Darin zeigen:
- 1 eine schematische Draufsicht auf ein fahrendes Kraftfahrzeug; und
- 2 ein Flussdiagramm eines Verfahren zur Verbesserung von automatischer Spracherkennung in einem Kraftfahrzeug.
-
Ein in 1 gezeigtes Kraftfahrzeug 1 fährt in der eingezeichneten Pfeilrichtung auf einer Fahrbahn 2 einer Straße.
-
Das Kraftfahrzeug 1 weist eine oder mehrere nicht gezeigte Kameras oder andere Beobachtungsinstrumente wie z. B. Laserscanner oder Radar auf, die zusammen einen Sensor zur Beobachtung eines in Fahrtrichtung liegenden Abschnitts der Fahrbahn 2 bilden. Nach vorne blickende Kameras, Laserscanner und Radar sind Bilderfassungssysteme, die in modernen Kraftfahrzeugen oft schon serienmäßig eingebaut oder zumindest listenmäßig bestellbar sind. Die Bilderfassungssysteme können entweder zweidimensionale Bilder gewinnen oder die Straßenoberfläche zeilenweise abtasten.
-
Zu dem Sensor gehört auch eine Auswerteelektronik, die eine vorausschauende Hinderniserkennung und insbesondere die Erkennung von Unebenheiten und besonderen Oberflächenstrukturen der Fahrbahn 2 ermöglicht. Die Arbeitsweise derartiger Systeme, die dazu verwendet werden, adaptive Feder/Dämpfer-Systeme an die Fahrbahnbeschaffenheit anzupassen, ist dem Fachmann bekannt.
-
In Fahrtrichtung vor dem Kraftfahrzeug 1 befinden sich auf dem Weg, den die Räder des Kraftfahrzeugs 1 voraussichtlich nehmen werden, zwei Buckel 3 auf der Fahrbahn 2, die mittels des Sensors und seiner Auswerteelektronik im Kraftfahrzeug 1 erkannt werden können.
-
Das Kraftfahrzeug 1 besitzt auch ein sog. Infotainmentsystem, welches die Anzeige und Bedienung von z. B. Autoradio, Navigationssystem und verschiedenen Fahrzeugfunktionen zusammenführt und das auch eine Sprachsteuerung über ein im Kraftfahrzeug 1 eingebautes Mikrofon als Teil eines Spracherkennungssystems aufweist.
-
Werden die Buckel 3 auf der Fahrbahn 2 mittels des Sensors am oder im Kraftfahrzeug 1 erkannt, wird anhand der bekannten Geschwindigkeit bzw. deren Verlauf vorausberechnet, in welchem Zeitpunkt die Buckel 3 von welchen Rädern des Kraftfahrzeugs 1 überfahren werden und wie lange der Einfluss der entsprechenden Erschütterung des Kraftfahrzeugs 1 auf das vom Mikrofon aufgenommene Tonsignal andauern wird.
-
Sodann können während der Dauer von vorhergesagten Fahrgeräuschen, die vom Überfahren der Buckel 3 oder anderen erkannten Unebenheiten der Fahrbahn 2 herrühren, Maßnahmen getroffen werden, welche Spracherkennungsfehler, insbesondere Fehlinterpretationen des Inhalts von in dem selben Zeitpunkt gegebenen Sprachbefehlen oder Fehlinterpretationen der Fahrgeräusche als irgendeinen Sprachbefehl, verhindern oder zumindest weniger wahrscheinlich machen.
-
In einem sehr einfachen Ausführungsbeispiel wird während der vorhergesagten Dauern von Fahrgeräuschen einfach das Mikrofon oder das Spracherkennungssystem deaktiviert.
-
Noch besser ist es, den Einfluss der Buckel 3 und von anderen Fahrbahnunebenheiten auf das Tonsignal in Zeiten zu untersuchen, in denen das Mikrofon keine Sprache aufzeichnet. Dies sind Zeiten, in denen das Spracherkennungssystem mehr oder weniger inaktiv ist und auf ein Aktivierungssignal wartet. Dadurch erhält man im Kraftfahrzeug 1 mit der Zeit empirische Daten, die in der Folge Spracherkennungsfehler bei aktivem Spracherkennungssystem verhindern helfen.
-
Insbesondere äußert sich der Einfluss der Buckel 3 und von anderen Fahrbahnunebenheiten auf das vom Mikrofon aufgenommene Tonsignal in charakteristischen Geräuschen im Zeitpunkt des Überfahrens von Fahrbahnunebenheiten. Diese ermöglichen es, eine Impulsantwortfunktion des Einflusses der Fahrbahn auf das Tonsignal aufzustellen, und zwar nicht nur des Einflusses von Fahrbahnunebenheiten wie z. B. den Buckeln 3, sondern auch von Oberflächenstrukturen der Fahrbahn. So verursacht z. B. das Fahren auf sehr rauem Asphalt oder auf Schotter erhebliche Geräusche im Fahrzeuginnenraum, welche die Güte der Spracherkennung verschlechtern können.
-
Ein entsprechendes Ausführungsbeispiel eines Verfahrens zur Verbesserung von automatischer Spracherkennung in einem Kraftfahrzeug wird nun unter weiterer Bezugnahme auf 2 näher erläutert.
-
In einem Schritt S1 werden mit dem im Kraftfahrzeug 1 eingebauten Kamera-Sensor laufend Bilder eines Abschnitts der in Fahrtrichtung liegenden Fahrbahnoberfläche aufgenommen.
-
In einem Schritt S2 werden Ort und Größe von voraus liegenden Buckeln 3 oder Vertiefungen oder anderen Fahrbahnunebenheiten bestimmt, wobei die Größe der Unebenheiten durch deren Länge, Breite und Tiefe gegeben ist. Es kann auch die Form von deren Rändern ermittelt werden, z. B. ob die Ränder von Buckeln 3 ausgefranst sind. Somit werden mittels des Kamera-Sensors Beobachtungsdaten der Fahrbahnbeschaffenheit gewonnen.
-
In einem Schritt S3 werden Fahrzeuggeometriedaten, zu denen insbesondere die Positionen der Reifen am Kraftfahrzeug 1 gehören, und Fahrzeugbewegungsdaten, zu denen insbesondere dessen Geschwindigkeit und Bewegungsrichtung gehören, aber auch Gierwinkel, Lenkwinkel usw. gehören können, gewonnen. Diese Daten können z. B. über einen Fahrzeug-CAN-Bus von einem Fahrzeugsteuermodul abgerufen werden. Sodann wird unter Verwendung der in Schritt S1 erhaltenen Beobachtungsdaten geprüft, ob ein Teil eines erkannten Buckels 3 oder dgl. in Übereinstimmung mit den Fahrzeuggeometriedaten und den Fahrzeugbewegungsdaten voraussichtlich von einem Reifen des Kraftfahrzeugs 1 überfahren werden wird. Dabei können auch Winkel berücksichtigt werden, unter denen Reifen auf einen Buckel treffen, z. B. weil die Stoßreaktion bei Kurvenfahrt anders ist als bei Geradeausfahrt.
-
Wird im Schritt S3 festgestellt, dass ein Teil eines erkannten Buckels 3 oder dgl. voraussichtlich von einem Reifen überfahren werden wird, werden in einem Schritt S4 Beginn und Dauer des dadurch zu erwartenden Stoßes vorausberechnet, und während des Stoßes wird das im Kraftfahrzeug 1 eingebaute Mikrofon aufnehmen gelassen, z. B. indem ein Mikrofoneingang bei inaktiver Spracherkennung geöffnet wird. Anhand der erhaltenen Tonaufnahme wird der Einfluss des Buckels 3 auf das Spracherkennungssystem ermittelt. Dazu kann insbesondere eine Impulsantwortfunktion für das Eintreten in den Buckel 3 und für das Austreten aus dem Buckel 3 berechnet werden, z. B. nach dem ARMA-Modell (Autoregressive-Moving Average) einem Modell für stationäre, zeitdiskrete stochastische Prozesse, oder nach dem ARIMA-Modell (Autoregressive-Integrated-Moving Average).
-
Außerdem werden im Schritt S4 typische Geräuschparameter für Buckel 3 oder dgl. gespeichert, die mit der Zeit von Reifen des Kraftfahrzeugs 1 überfahren werden, und es werden Korrelationen mit den zuvor berechneten Impulsantwortfunktionen gesucht und gefunden, welche von der Größe und insbesondere der Länge, Breite, Tiefe und Fläche der von Reifen getroffenen Buckelteile und auch davon abhängen können, welche Reifen betroffen sind.
-
Fahrgeräusche und deren Charakteristika wie z. B. die im Schritt S4 gewonnenen Geräuschparameter hängen natürlich auch von der Geschwindigkeit und vom Typ des verwendeten Fahrzeugs ab. Die Geschwindigkeit ist im Fahrzeug bekannt und kann leicht berücksichtigt werden. Andere Einflussgrößen wie z. B. der Fahrzeugtyp müssen bei der Erfindung nicht eigens berücksichtigt werden, da ein im Fahrzeug ermitteltes „akustisches Modell“ des Fahrzeug, das die Geräuschantwort auf das Passieren von Fahrbahnunebenheiten voraussagt, die komplette Geräuschübertragungskette durch alle Fahrzeugmaterialien hindurch einschließt.
-
Die im Schritt S4 erhaltenen Geräuschparameter, die zu verschiedenen Fahrbahnunregelmäßigkeiten gehören, und deren Korrelationen mit Impulsantwortfunktionen werden im Schritt S5 dazu verwendet, Tonsignale zu reinigen, die von dem Mikrofon aufgenommen und sprachanalysiert werden, während die Spracherkennung aktiv ist.
-
Die im Schritt S1 von dem Kamera-Sensor aufgenommenen Bilder können in einem Schritt S6 zusätzlich dazu verwendet werden, die Oberflächenstruktur der voraus liegenden Fahrbahn zu bestimmen, insbesondere deren Rauigkeit, aber auch deren Helligkeit und Farbton, welche auf das Fahrbahnmaterial wie z. B. Asphalt oder Beton schließen lassen. Oberflächenstrukturen der Fahrbahn lassen sich möglicherweise leichter erkennen, wenn man die von digitalen Kameras üblicherweise gelieferten RGB-Bilder in andere Farbräume transformiert.
-
Im Schritt S6 ermittelten Oberflächenstrukturen können in einem Schritt S7 Tonsignale zugeordnet werden, die aufgenommen werden, während der zugehörige Fahrbahnabschnitt überfahren wird und die Spracherkennung inaktiv ist.
-
Anhand der erhaltenen Tonaufnahmen wird in einem Schritt S8 der Einfluss von unterschiedlichen Oberflächenstrukturen auf das Spracherkennungssystem ermittelt, und zwar unabhängig von der Ermittlung von Impulsantwortfunktionen im Schritt S4.
-
Dazu können Autokorrelations- und/oder Kreuzkorrelationsverfahren verwendet werden, um Geräuschparameter wie z. B. mittlere Amplitude, Varianz der Störung, Asymmetrie und dgl. zu bestimmen. Es können auch Standardprozeduren zu Analyse von stochastischen Prozessen angewendet werden, welche z. B. als Doob-Meyer- oder Doob-Meyer-Fisk-Zerlegung bekannt sind. Auf diese Weise werden Impulsantwortfunktionen des Einflusses von unterschiedlichen Fahrbahnstrukturen auf das Tonsignal erhalten.
-
Die im Schritt S8 erhaltenen Geräuschparameter, die zu verschiedenen erkannten Fahrbahnoberflächenstrukturen gehören, können im Schritt S5 ebenfalls dazu verwendet, Tonsignale zu reinigen, die von dem Mikrofon aufgenommen und analysiert werden, während die Spracherkennung aktiv ist.