DE102022100428A1

DE102022100428A1 - Sprachfilterung in einem fahrzeug

Info

Publication number: DE102022100428A1
Application number: DE102022100428.7A
Authority: DE
Inventors: Scott Andrew Amman; Cynthia M. Neubecker; Pietro Buttolo; Joshua Wheeler; Brian Bennie
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2021-01-11
Filing date: 2022-01-10
Publication date: 2022-07-14
Also published as: CN114765030A; US11355136B1

Abstract

Die vorliegende Offenbarung betrifft Sprachfilterung in einem Fahrzeug. Ein Computer beinhaltet einen Prozessor und einen Speicher, der Anweisungen speichert, die durch den Prozessor ausführbar sind, um einen Insassen in einem Fahrgastraum eines Fahrzeugs zu identifizieren, eine Position eines Kopfes des Insassen relativ zu dem Fahrgastraum zu erfassen, einen ersten Filter auf Sprache von dem Insassen auf Grundlage der Position des Kopfes anzuwenden, einen zweiten Filter zu erzeugen, den zweiten Filter auf die Sprache anzuwenden, den zweiten Filter auf Grundlage einer Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und einem vorgespeicherten Profil des Insassen anzupassen und einen Vorgang unter Verwendung der durch den ersten Filter und den zweiten Filter gefilterten Sprache durchzuführen.

Description

GEBIET DER TECHNIK
Die Erfindung betrifft im Allgemeinen Fahrzeug-Spracherkennungssysteme.
ALLGEMEINER STAND DER TECHNIK
Viele moderne Fahrzeuge beinhalten Spracherkennungssysteme. Ein derartiges System beinhaltet ein Mikrofon. Das System wandelt durch das Mikrofon erfasste gesprochene Wörter in Text oder eine andere Form um, der ein Befehl zugeordnet werden kann. Erkannte Befehle können Einstellen von Klimasteuerungen, Auswählen von abzuspielenden Medien usw. beinhalten.
Figurenliste

1 ist eine Draufsicht auf ein beispielhaftes Fahrzeug mit einem zur Veranschaulichung freigelegten Fahrgastraum.
2 ist ein Blockdiagramm eines Systems des Fahrzeugs.
3 ist ein Verlauf des Schalldrucks gegenüber der Frequenz für Sprache für eine Vielfalt von Zuständen.
4 ist ein Prozessablaufdiagramm eines beispielhaften Prozesses zum Erzeugen eines Profils von Sprache eines Insassen des Fahrzeugs.
5 ist ein Prozessablaufdiagramm eines beispielhaften Prozesses zum Filtern von Sprache des Insassen.
6 ist ein Informationsablaufdiagramm einer Rückkopplungsschleife zum Anpassen eines zweiten Filters zum Filtern von Sprache des Insassen.

KURZDARSTELLUNG
Die Anweisungen können Anweisungen beinhalten, um wiederholt während einer einzelnen Fahrt des Fahrzeugs die Sprache durch den Insassen zu erfassen, dann den zweiten Filter auf die Sprache anzuwenden und dann den zweiten Filter auf Grundlage der Differenz zwischen der durch den zweiten Filter gefilterten Sprache und dem vorgespeicherten Profil anzupassen.
Der zweite Filter kann ein Durchlassfilter sein, wenn er erzeugt wird.
Das Erzeugen des zweiten Filters kann als Reaktion darauf erfolgen, dass sich die Sprache um mindestens einen Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet. Die Anweisungen können Anweisungen beinhalten, um als Reaktion darauf, dass sich die Sprache um weniger als den Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet, den Vorgang unter Verwendung der durch den ersten Filter gefilterten Sprache durchzuführen.
Das vorgespeicherte Profil kann eine Vielzahl von Schallpegeln bei einer jeweiligen Vielzahl von Frequenzen beinhalten und die Sprache kann sich um mindestens den Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheiden, wenn sich mindestens einer der Schallpegel in dem vorgespeicherten Profil um mindestens einen Schallpegelschwellenwert ungleich null von einem Schallpegel der Sprache bei der gleichen Frequenz unterscheidet.
Die Anweisungen zum Anwenden des ersten Filters können Anweisungen zum Auswählen des ersten Filters gemäß der Position des Kopfes aus einer Vielzahl von in Speicher gespeicherten Filtern beinhalten.
Die Anweisungen können Anweisungen beinhalten, um das vorgespeicherte Profil auf Grundlage einer Aufzeichnung von Sprache durch den Insassen zu erzeugen. Die Anweisungen können Anweisungen beinhalten, um dem Insassen eine Aufforderung bereitzustellen, vorgespeicherten Text zu sagen, und die Aufzeichnung der Sprache vorzunehmen, während der Insasse den vorgespeicherten Text sagt.
Die Anweisungen zum Anwenden des zweiten Filters auf die Sprache können Anweisungen beinhalten, den zweiten Filter auf die durch den ersten Filter gefilterte Sprache anzuwenden.
Der zweite Filter kann Schallpegel der Sprache um einen Betrag anpassen, der in Abhängigkeit von der Frequenz variiert.
Der erste Filter kann Schallpegel der Sprache um einen Betrag anpassen, der in Abhängigkeit von der Frequenz variiert.
Der Vorgang kann Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals sein.
Der Vorgang kann Übertragen der durch den ersten Filter und den zweiten Filter gefilterten Sprache in einem Telefonanruf sein.
Der Vorgang kann Ausgeben der durch den ersten Filter und den zweiten Filter gefilterten Sprache durch einen Lautsprecher des Fahrzeugs sein.
Ein Verfahren beinhaltet Identifizieren eines Insassen in einem Fahrgastraum eines Fahrzeugs, Erfassen einer Position eines Kopfes des Insassen relativ zu dem Fahrgastraum, Anwenden eines ersten Filters auf Sprache von dem Insassen auf Grundlage der Position des Kopfes, Erzeugen eines zweiten Filters, Anwenden des zweiten Filters auf die Sprache, Anpassen des zweiten Filters auf Grundlage einer Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und einem vorgespeicherten Profil des Insassen und Durchführen eines Vorgangs unter Verwendung der durch den ersten Filter und den zweiten Filter gefilterten Sprache.
Das Verfahren kann ferner wiederholtes Erfassen der Sprache durch den Insassen während einer einzelnen Fahrt des Fahrzeugs, dann Anwenden des zweiten Filters auf die Sprache und dann Anpassen des zweiten Filters auf Grundlage der Differenz zwischen der durch den zweiten Filter gefilterten Sprache und dem vorgespeicherten Profil beinhalten.
Der zweite Filter kann ein Durchlassfilter sein, wenn er erzeugt wird.
Das Erzeugen des zweiten Filters kann als Reaktion darauf erfolgen, dass sich die Sprache um mindestens einen Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet.
Das Anwenden des ersten Filters kann Auswählen des ersten Filters gemäß der Position des Kopfes aus einer Vielzahl von in Speicher gespeicherten Filtern beinhalten.
Unter Bezugnahme auf die Figuren beinhaltet ein Computer 102 einen Prozessor und einen Speicher, der Anweisungen speichert, die durch den Prozessor ausführbar sind, um einen Insassen in einem Fahrgastraum 106 eines Fahrzeugs 100 zu identifizieren, eine Position eines Kopfes des Insassen relativ zu dem Fahrgastraum 106 zu erfassen, einen ersten Filter auf Sprache von dem Insassen auf Grundlage der Position des Kopfes anzuwenden, einen zweiten Filter zu erzeugen, den zweiten Filter auf die Sprache anzuwenden, den zweiten Filter auf Grundlage einer Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und einem vorgespeicherten Profil 104 des Insassen anzupassen und einen Vorgang unter Verwendung der durch den ersten Filter und den zweiten Filter gefilterten Sprache durchzuführen.
DETAILLIERTE BESCHREIBUNG
Ein Computer beinhaltet einen Prozessor und einen Speicher, der Anweisungen speichert, die durch den Prozessor ausführbar sind, um einen Insassen in einem Fahrgastraum eines Fahrzeugs zu identifizieren, eine Position eines Kopfes des Insassen relativ zu dem Fahrgastraum zu erfassen, einen ersten Filter auf Sprache von dem Insassen auf Grundlage der Position des Kopfes anzuwenden, einen zweiten Filter zu erzeugen, den zweiten Filter auf die Sprache anzuwenden, den zweiten Filter auf Grundlage einer Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und einem vorgespeicherten Profil des Insassen anzupassen und einen Vorgang unter Verwendung der durch den ersten Filter und den zweiten Filter gefilterten Sprache durchzuführen.
Der Computer 102 kann verwendet werden, um die Klarheit der Sprache von einem Insassen zu verbessern, der von einem Zustand betroffen ist, der seine Stimme verändert, z. B. der Insasse ist krank, trägt eine Maske usw. Die Auswahl des ersten Filters kann einige Effekte auf die Stimme des Insassen aufgrund der Position des Insassen kompensieren, da diese Effekte über die Insassen hinweg konstant sind. Der zweite Filter kann angepasst werden, um den konkreten Zustand des Insassen zu kompensieren. Die gefilterten Schalldaten können somit zuverlässig für verschiedene fahrzeuginterne Vorgänge verwendet werden, wie etwa Bereitstellen eines Sprachbefehls zum Aktivieren eines Merkmals des Fahrzeugs 100 oder Bereitstellen von Sprache, die in einem Telefonanruf übertragen werden soll, oder Bereitstellen von Sprache an einen Lautsprecher 108 an anderer Stelle in dem Fahrzeug 100, d. h. an ein fahrzeuginternes Gegensprechsystem. Der Sprachbefehl kann zuverlässig erkannt werden, der Telefonanruf kann von der Person am anderen Ende von dem Insassen zuverlässig verstanden werden und die Gegensprech-Nachricht kann von dem anderen Insassen des Fahrzeugs 100 zuverlässig verstanden werden. Ferner kann das vorgespeicherte Profil 104 an mehreren Fahrzeugen verwendet werden, ohne dass das vorgespeicherte Profil 104 für jedes Fahrzeug neu erstellt werden muss.
Unter Bezugnahme auf 1 kann es sich bei dem Fahrzeug 100 um eine beliebige geeignete Art von Kraftfahrzeug handeln, z. B. einen Personen- oder Nutzkraftwagen, wie etwa eine Limousine, ein Coupe, einen Lastwagen, einen Geländewagen, ein Crossover-Fahrzeug, einen Van, einen Minivan, ein Taxi, einen Bus usw. Das Fahrzeug 100 kann zum Beispiel autonom sein. Anders ausgedrückt kann das Fahrzeug 100 derartig autonom betrieben werden, dass das Fahrzeug 100 ohne ständige Aufmerksamkeit eines Fahrers gefahren werden kann, d. h. das Fahrzeug 100 kann ohne menschliche Eingabe selbst fahren.
Das Fahrzeug 100 beinhaltet den Fahrgastraum 106 zum Aufnehmen von Insassen des Fahrzeugs 100. Der Fahrgastraum 106 beinhaltet Sitze 110, einschließlich eines oder mehrerer Vordersitze 110, die in einem vorderen Teils des Fahrgastraums 106 angeordnet sind, und eines oder mehrerer Rücksitze 110, die hinter den Vordersitzen 110 angeordnet sind. Der Fahrgastraum 106 kann zudem eine dritte Sitzreihe 110 (nicht gezeigt) in einem hinteren Teil des Fahrgastraums 106 beinhalten.
Das Fahrzeug 100 beinhaltet mindestens eine Kamera 112. Die Kamera 112 kann elektromagnetische Strahlung in einem gewissen Bereich von Wellenlängen erfassen. Zum Beispiel kann die Kamera 112 sichtbares Licht, Infrarotstrahlung, ultraviolettes Licht oder einen gewissen Bereich von Wellenlängen erfassen, der sichtbares, infrarotes und/oder ultraviolettes Licht beinhaltet. Zum Beispiel kann die Kamera 112 eine Wärmebildkamera sein.
Die Kamera 112 ist so positioniert, dass ein Sichtfeld der Kamera 112 mindestens einen der Sitze 110, z. B. den Fahrersitz 110 oder den Vorder- und Rücksitz 110, einschließt. Zum Beispiel kann die Kamera 112 an einem Armaturenbrett 114 oder einem Rückspiegel positioniert und in Bezug auf den Fahrgastraum 106 nach hinten ausgerichtet sein.
Das Fahrzeug 100 beinhaltet mindestens ein Mikrofon 116, z.B. ein erstes Mikrofon 116a und ein zweites Mikrofon 116b. Die Mikrofone 116 sind Wandler, die Schall in ein elektrisches Signal umwandeln. Die Mikrofone 116 können eine beliebige geeignete Art von Mikrofonen 116 zum Erfassen von Sprache durch Insassen des Fahrzeugs 100 sein, z. B. dynamisch, Kondensator, Kontakt usw.
Die Mikrofone 116 können an jeweiligen Stellen oder Positionen in dem Fahrgastraum 106 angeordnet sein, um gemeinsam Sprache von Insassen auf unterschiedlichen Sitzen 110 zu erfassen. Zum Beispiel kann das erste Mikrofon 116a in dem Armaturenbrett 114 positioniert sein und kann das zweite Mikrofon 116b zwischen den Vordersitzen 110 positioniert und ausgerichtet sein, um Schall von den Rücksitzen 110 aufzunehmen.
Eine Benutzerschnittstelle 118 stellt einem Insassen des Fahrzeugs 100 Informationen dar und empfängt Informationen von ihm. Die Benutzerschnittstelle 118 kann sich z. B. an dem Armaturenbrett 114 in dem Fahrgastraum 106 oder an einer beliebigen Stelle befinden, an der sie ohne Weiteres durch den Insassen gesehen werden kann. Die Benutzerschnittstelle 118 kann Zifferblätter, Digitalanzeigen, Bildschirme, die Lautsprecher 108 usw. zum Bereitstellen von Informationen für den Insassen beinhalten, z. B. Elemente einer Mensch-Maschine-Schnittstelle (human-machine interface - HMI), wie sie bekannt sind. Die Benutzerschnittstelle 118 kann Schaltflächen, Knöpfe, Tastenfelder, die Mikrofone 116 usw. zum Empfangen von Informationen von dem Insassen beinhalten.
Die Lautsprecher 108 sind elektroakustische Wandler, die ein elektrisches Signal in Schall umwandeln können. Die Lautsprecher 108 können eine beliebige geeignete Art zum Erzeugen von für die Insassen hörbarem Schall sein, z. B. dynamisch. Die Lautsprecher 108 können an jeweiligen Stellen oder Positionen in dem Fahrgastraum 106 angeordnet sein, um gemeinsam Schall für Insassen auf jeweiligen Sitzen 110 zu erzeugen.
Unter Bezugnahme auf 2 handelt es sich bei dem Computer 102 um eine mikroprozessorbasierte Rechenvorrichtung, z. B. eine generische Rechenvorrichtung, die einen Prozessor und einen Speicher beinhaltet, eine elektronische Steuerung oder dergleichen, ein feldprogrammierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (application-specific integrated circuit - ASIC) usw. Der Computer 102 kann somit einen Prozessor, einen Speicher usw. beinhalten. Der Speicher des Computers 102 kann Medien zum Speichern von Anweisungen, die durch den Prozessor ausführbar sind, sowie zum elektronischen Speichern von Daten und/oder Datenbanken beinhalten und/oder der Computer 102 kann Strukturen, wie etwa die Vorangehenden, beinhalten, durch die eine Programmierung bereitgestellt wird. Der Computer 102 kann aus mehreren miteinander gekoppelten Computern bestehen.
Der Computer 102 kann Daten über ein Kommunikationsnetzwerk 120 übertragen und empfangen, wie etwa einen Controller-Area-Network-(CAN-)Bus, Ethernet, WiFi®, ein Local Interconnect Network (LIN), einen On-Board-Diagnoseanschluss (OBD-II) und/oder über ein beliebiges anderes drahtgebundenes oder drahtloses Kommunikationsnetzwerk. Der Computer 102 kann über das Kommunikationsnetzwerk 120 kommunikativ an die Kamera 112, die Mikrofone 116, die Benutzerschnittstelle 118, die Lautsprecher 108 und andere Komponenten gekoppelt sein.
Unter Bezugnahme auf 3 speichert der Computer 102 ein vorgespeichertes Profil 104 für jeden Insassen, der den nachstehend in Bezug auf einen Prozess 400 beschriebenen Registrierungsprozess durchgeführt hat. Das vorgespeicherte Profil 104 kann eine Vielzahl von Schallpegeln mit einer entsprechenden Vielzahl von Frequenzen beinhalten, die in 3 als eine Kurve (in durchgezogener Linie gezeigt) dargestellt sind, wobei die Frequenz als horizontale Achse und der Schallpegel als vertikale Achse aufgetragen sind. Die Frequenz wird in Einheiten von Zyklen pro Zeiteinheit, z. B. Hz, gemessen und der Schallpegel wird in Einheiten von Dezibel (dB) oder A-gewichteten Dezibel (dBA) gemessen. Das vorgespeicherte Profil 104 stellt die typischen Schallpegel für jeweilige Frequenzen dar, wenn der Insasse spricht, d. h. die Schallpegel für jeweilige Frequenzen, wenn die Stimme des Insassen nicht durch beliebige Zustände beeinflusst wird. Die jeweiligen Frequenzen können in Oktavbänder organisiert werden, d. h. in Frequenzbändern, in denen die höchste Frequenz für jedes Band das Doppelte der niedrigsten Frequenz für dieses Frequenzband ist.
Unterschiedliche Zustände können dazu führen, dass die Stimme des Insassen von dem vorgespeicherten Profil 104 abweicht. Beispiele für Zustände beinhalten, wenn der Insasse krank ist, z. B. mit einer Erkältung; wenn der Insasse eine Maske trägt; usw. Zum Beispiel ist in 3 eine abweichende Kurve 122 in gepunkteten Linien aufgetragen, die die Schallpegel der Stimme des Insassen für jeweilige Frequenzen darstellt, wenn der Insasse eine Maske trägt. Masken haben häufig eine geringe Auswirkung auf die Lautstärke, wenn die Frequenz 500 Hz oder weniger beträgt und dämpfen Geräusche bei 1000 Hz und höher erheblich, in einem Ausmaß, das von der Art der Maske abhängt.
4 ist ein Prozessablaufdiagramm, das einen beispielhaften Prozess 400 zum Erzeugen des vorgespeicherten Profils 104 für den Insassen veranschaulicht; dieser wird als Registrierung des Insassen bezeichnet. Der Speicher des Computers 102 speichert ausführbare Anweisungen zum Durchführen der Schritte des Prozesses 400 und/oder eine Programmierung kann in Strukturen, wie etwa vorangehend erwähnt, umgesetzt sein. Als allgemeine Übersicht über den Prozess 400 verwendet der Computer 102 Daten, um den Insassen zu identifizieren, und wenn der Insasse das vorgespeicherte Profil 104 erzeugen möchte, fordert der Computer 102 den Insassen auf, vorgespeicherten Text zu sagen, nimmt eine Aufzeichnung der Sprache vor, während der Insasse den vorgespeicherten Text sagt und erzeugt das vorgespeicherte Profil 104 auf Grundlage der Aufzeichnung.
Der Prozess 400 beginnt in einem Block 405, in dem der Computer 102 Daten des Insassen des Fahrzeugs 100 empfängt, z. B. Bilddaten von der Kamera 112, die den Insassen zeigen, oder identifizierende Daten von der Benutzerschnittstelle 118.
Als Nächstes identifiziert der Computer 102 in einem Block 410 den Insassen. Zum Beispiel kann der Insasse einen Funkschlüssel verwenden, um das Fahrzeug 100 zu starten, und der Funkschlüssel weist ein RFID-Tag oder dergleichen auf, das den Insassen unter anderen potenziellen Insassen, die das Fahrzeug 100 regelmäßig verwenden, eindeutig spezifiziert. Das RFID-Signal kann dem Insassen in Speicher zugeordnet sein. Als ein anderes Beispiel kann ein Mobiltelefon oder eine mobile Vorrichtung des Insassen z. B. mit der Benutzerschnittstelle 118 des Fahrzeugs 100 gepaart sein. Das Mobiltelefon oder die mobile Vorrichtung kann dem Insassen in Speicher zugeordnet sein. Als ein anderes Beispiel kann der Computer 102 die Daten von der Kamera 112 verwenden, die ein Sichtfeld aufweist, das ein Gesicht des Insassen beinhaltet, und kann den Insassen unter Verwendung von bekannten Bilderkennungstechniken identifizieren. Als ein anderes Beispiel kann der Insasse identifizierende Informationen, wie etwa einen Benutzernamen und ein Passwort, in die Benutzerschnittstelle eingeben.
Als Nächstes bestimmt der Computer 102 in einem Entscheidungsblock 415, ob der Insasse einen Befehl von der Benutzerschnittstelle 118 ausgewählt hat, um das vorgespeicherte Profil 104 zu erzeugen, d. h. eine Registrierung zu starten. Falls nicht, endet der Prozess 400. Falls ja, geht der Prozess 400 zu einem Block 420 über.
In dem Block 420 stellt der Computer 102 dem Insassen über die Benutzerschnittstelle 118 eine Aufforderung bereit, vorgespeicherten Text zu sagen. Zum Beispiel kann die Benutzerschnittstelle 118 den vorgespeicherten Text zusammen mit Anweisungen, den vorgespeicherten Texte laut zu sagen, anzeigen. Der vorgespeicherte Text kann ein oder mehrere Sätze oder Phrasen sein, die so ausgewählt sind, dass sie gemeinsam einen vollen Frequenzbereich beinhalten, wodurch die Erstellung des vorgespeicherten Profils 104 ermöglicht wird, wie in 3 gezeigt.
Als nächstes nimmt der Computer 102 in einem Block 425 die Aufzeichnung der Sprache vor, während der Insasse den vorgespeicherten Text spricht, z. B. speichert er die von den Mikrofonen 116 zurückgegebenen Daten für eine Dauer, die ausreichend lang ist, damit der Insasse den vorgespeicherten Text sprechen, d. h. laut sagen, kann.
Als Nächstes erzeugt der Computer 102 in einem Block 425 das vorgespeicherte Profil 104 auf Grundlage der Aufzeichnung von Sprache durch den Insassen, der den vorgespeicherten Text sagt. Zum Beispiel kann der Computer 102 die Schallpegel, auch Schalldrücke genannt, der Frequenzen aus der Aufzeichnung als Kurve auftragen, d. h. als mathematische Funktion P = F(f), d. h. Schalldruck P als Funktion einer Frequenz f. Als ein anderes Beispiel kann der Computer 102 die Schallpegel der Frequenzen als Vektor P = <p₁, p₂, ... p_n> speichern, wobei jeder Eintrag p_i der Schallpegel bei einer konkreten Frequenz ist, z. B. der Schallpegel p₁ bei 125 Hz, der Schallpegel p₂ bei 250 Hz usw. bis zum Schallpegel p₇ bei 8000 Hz. Nach dem Block 425 endet der Prozess 400.
5 ist ein Prozessablaufdiagramm, das einen beispielhaften Prozess 500 zum Filtern von Sprach des Insassen veranschaulicht. Der Speicher des Computers 102 speichert ausführbare Anweisungen zum Durchführen der Schritte des Prozesses 500 und/oder eine Programmierung kann in Strukturen, wie etwa vorangehend erwähnt, umgesetzt sein. Als allgemeine Übersicht über den Prozess 500 verwendet der Computer 102 Daten, um den Insassen zu identifizieren, erfasst die Position des Kopfes des Insassen relativ zum Fahrgastraum 106 und wendet den ersten Filter auf die Sprache des Insassen auf Grundlage der Position des Kopfes an. Wenn sich die Sprache nicht um mindestens einen Schwellenwert ungleich null von dem vorgespeicherten Profil 104 unterscheidet, führt der Computer 102 einen Vorgang unter Verwendung der durch den ersten Filter aber nicht durch den zweiten Filter gefilterten Sprache durch. Wenn sich die Sprache um mindestens den Schwellenwert ungleich null von dem vorgespeicherten Profil 104 unterscheidet, erzeugt der Computer 102 den zweiten Filter. Solange das Fahrzeug 100 eingeschaltet bleibt wendet der Computer 102 dann wiederholt den zweiten Filter an, passt den zweiten Filter auf Grundlage einer Differenz zu dem vorgespeicherten Profil 104 an und führt den Vorgang unter Verwendung der durch den ersten und den zweiten Filter gefilterten Sprache durch.
Der Prozess 500 beginnt in einem Block 505, in dem der Computer 102 Daten des Insassen des Fahrzeugs 100 empfängt, z. B. Bilddaten von der Kamera 112, die den Insassen zeigen, oder identifizierende Daten von der Benutzerschnittstelle 118.
Als Nächstes identifiziert der Computer 102 in einem Block 510 den Insassen, wie in Bezug auf Block 410 des Prozesses 400 vorangehend beschrieben.
Als Nächstes erfasst der Computer 102 in einem Block 515 eine Position sowie möglicherweise eine Ausrichtung des Kopfes des Insassen relativ zu dem Fahrgastraum 106. Erstens kann der Computer 102 den Kopf in den Bilddaten von der Kamera 112 erfassen, z. B. unter Verwendung einer beliebigen geeigneten Gesichtserkennungstechnik, z. B. wissensbasierter Techniken, wie etwa eines regelbasierten Mehrfachauflösungsverfahrens; merkmalsinvarianter Techniken, wie etwa Gruppieren von Kanten, einer Grauwertübergangsmatrix oder einer Gaußschen Mischung; Vorlagenabgleichstechniken, wie etwa einer Formvorlage oder eines aktiven Formmodells; oder erscheinungsbildbasierter Techniken, wie etwa Eigengesichtszerlegung und -clustering, einer Gaußschen Verteilung und eines mehrschichtigen Perzeptrons, eines neuronalen Netzes, einer Unterstützungsvektormaschine mit Polynomkern, eines naiven Bayes-Klassifikators mit gemeinsamen Statistiken des lokalen Erscheinungsbilds und der Position, Statistiken höherer Ordnung mit verstecktem Markov-Modell oder relativer Kullback-Informationen. Die Ausgabe der Gesichtserkennungstechnik kann die Ausrichtung des Kopfes des Insassen beinhalten. Zweitens kann der Computer 102, wenn der Kopf erfasst wurde, die Position bestimmen, z. B. unter Verwendung von Pixelabmessungen in einem Einzelbild der Bilddaten für eine Richtung von der Kamera 112 und einer Größe in z. B. Pixelbreite für einen Abstand von der Kamera 112.
Als nächstes wählt der Computer 102 in einem Block 520 den ersten Filter gemäß der Position und möglicherweise auch der Ausrichtung des Kopfes aus einer Vielzahl von gespeicherten Filtern aus, die in dem Speicher gespeichert sind, und der Computer 102 wendet den ausgewählten ersten Filter auf Sprache von dem Insassen an, wie durch die Mikrofone 116 erfasst. Die gespeicherten Filter werden durch experimentelles Testen auf Schallverzerrungen bestimmt, wenn sich der Kopf des Insassen in unterschiedlichen Positionen und möglicherweise Ausrichtungen um den Fahrgastraum 106 befindet und/oder die gespeicherten Filter können unter Verwendung von computergestützten Konstruktionsmodellen von Schall mit einem Kopf eines Insassen in verschiedenen Positionen und möglicherweise Ausrichtungen in einem Modell des Fahrgastraums 106 bestimmt werden. Die gespeicherten Filter passen Schallpegel der Sprache um einen Betrag an, der in Abhängigkeit von der Frequenz variiert. Jeder gespeicherte Filter gibt an, wie viel ein Schalldruck, d. h. die Lautstärke, von Schalldaten gemäß einer Frequenz angepasst werden soll, z. B. stellt jeder gespeicherte Filter Schalldruck als mathematische Funktion der Frequenz SP₁ = F(J) bereit, wobei SP₁ der Schalldruck ist, F die Funktion des gespeicherten Filters ist und f die Frequenz ist. Die Funktion F kann kontinuierlich oder stückweise kontinuierlich sein und die Funktion F kann durch Anpassung an Versuchsdaten erzeugt werden. Alternativ kann jeder gespeicherte Filter als Vektor SP₁ = <sp₁, sp₂, ... sp_n> dargestellt werden, wobei jeder Eintrag sp_i der Schallpegel bei einer bestimmten Frequenz ist, z. B. der Schallpegel sp₁ bei 125 Hz, der Schallpegel sp₂ bei 250 Hz usw. bis zu dem Schallpegel sp₇ bei 8000 Hz. Zum Beispiel können die gespeicherten Filter einen gespeicherten Filter beinhalten, der dem entspricht, wenn sich der Insasse auf dem Fahrersitz 110 befindet, wobei sich der Fahrersitz 110 in einer Position befindet, die vergleichsweise nahe an dem Armaturenbrett 114 ist und der Kopf des Insassen vergleichsweise niedrig ist, einen gespeicherten Filter, der dem entspricht, wenn sich der Insasse auf dem Fahrersitz 110 befindet, wobei sich der Fahrersitz 110 in einer Position befindet, die vergleichsweise weit von dem Armaturenbrett 114 entfernt ist und der Kopf des Insassen verhältnismäßig hoch ist, und einen gespeicherten Filter, der dem entspricht, wenn sich der Insasse auf dem vorderen Beifahrersitz 110 befindet. Die gespeicherten Filter können auch eine größere Anzahl von gespeicherten Filtern beinhalten, die feinkörnigeren Positionen des Kopfes des Insassen entsprechen. Zum Beispiel können die gespeicherten Filter unterschiedliche Filter für unterschiedliche Winkel des Kopfes des Insassen relativ zu den Mikrofonen 116 beinhalten. Das Auswählen aus der Vielzahl von gespeicherten Filtern kann einen ersten Filter bereitstellen, der die Sprache am genauesten anpasst, um bekannte Verzerrungen aus dem Fahrgastraum 106 zu kompensieren.
Als nächstes bestimmt der Computer 102 in einem Entscheidungsblock 525, ob sich die Sprache von dem Insassen um mindestens den Schwellenwert ungleich null von dem vorgespeicherten Profil 104 unterscheidet. Der Computer 102 bestimmt die Schallpegel für eine Vielzahl von Frequenzen der Sprache, die durch die Mikrofone 116 erfasst wird, insbesondere der Sprache, nachdem sie durch den ersten Filter in dem Block 520 gefiltert wurde. Die Sprache kann sich um mindestens den Schwellenwert ungleich null von dem vorgespeicherten Profil 104 unterscheiden, wenn sich mindestens einer der Schallpegel in dem vorgespeicherten Profil 104 um mindestens einen Schallpegelschwellenwert ungleich null von einem Schallpegel der Sprache bei der gleichen Frequenz unterscheidet. Der Schallpegelschwellenwert ungleich null wird in den gleichen Einheiten wie die Schallpegel des vorgespeicherten Profils 104 gemessen und der Schallpegelschwellenwert ungleich null kann durch Experimente ausgewählt werden, um Unterschiede, die durch einen Zustand verursacht werden, von Unterschieden zu unterscheiden, die durch zufällige Schwankungen des Schallpegels verursacht werden. Als Reaktion darauf, dass sich die Sprache um mindestens den Schwellenwert ungleich null von dem vorgespeicherten Profil 104 unterscheidet, geht der Prozess 500 zu einem Block 535 über. Als Reaktion darauf, dass sich die Sprache um weniger als den Schwellenwert ungleich null von dem vorgespeicherten Profil 104 unterscheidet, geht der Prozess 500 zu einem Block 530 über.
In dem Block 530 führt der Computer 102 einen Vorgang unter Verwendung der durch den ersten Filter aber nicht durch den zweiten Filter gefilterten Schalldaten durch. Zum Beispiel kann der Vorgang Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals sein, z. B. Umwandeln der Schalldaten in Text, wie etwa „Pizza-Laden anrufen“, „Podcast abspielen“, „Temperatur verringern“ usw. (oder in äquivalente Daten, die den Befehl identifizieren, wie etwa einen Code für den Befehl). Das Verwenden der durch den ersten Filter gefilterten Schalldaten kann dem Computer 102 dabei helfen, den Sprachbefehl genau zu identifizieren. Als ein anderes Beispiel kann der Vorgang Übertragen der Schalldaten in einem Telefonanruf sein. Ein Mobiltelefon kann mit der Benutzerschnittstelle 118 gepaart sein und verwendet werden, um einen Telefonanruf zu tätigen. Das Verwenden der durch den ersten Filter gefilterten Schalldaten kann das Verständnis durch den Empfänger des Anrufs von dem, was der Insasse sagt, verbessern. Als ein anderes Beispiel kann der Vorgang Ausgeben der gefilterten Schalldaten durch einen oder mehrere der Lautsprecher 108 sein. Schalldaten, die von dem ersten Mikrofon 116a stammen, können durch den Lautsprecher 108 in einem hinteren Teil des Fahrgastraums 106 verwendet und ausgegeben werden; anders ausgedrückt bilden das erste Mikrofon 116a und der Lautsprecher 108 eine fahrzeuginterne Gegensprechanlage. Das Verwenden der durch den ersten Filter gefilterten Schalldaten kann es für einen Insassen auf dem Rücksitz 110 einfacher machen, zu verstehen, was der Insasse auf dem Vordersitz 110 sagt, als den Insassen, der mit dem Zustand spricht, direkt zu hören. Nach dem Block 530 endet der Prozess 500.
In dem Block 535 erzeugt der Computer 102 den zweiten Filter. Der zweite Filter passt Schallpegel der Sprache um einen Betrag an, der in Abhängigkeit von der Frequenz variiert. Der zweite Filter SP₂ kann mathematisch in der gleichen Form wie der erste Filter dargestellt sein, wie vorangehend in Bezug auf den Block 520 beschrieben. Der zweite Filter kann, wenn er erzeugt wird, ein Durchlassfilter sein; d. h. der Schallpegel bei jeder Frequenz ist vor und nach dem Filtern durch den zweiten Filter gleich. Wenn der zweite Filter unten in einem Block 545 angepasst wird, wird der zweite Filter kein Durchlassfilter mehr. Alternativ kann der zweite Filter, wenn er erzeugt wird, auf Daten von einer vorherigen Durchführung des Prozesses 500 für den identifizierten Insassen basieren.
Als Nächstes wendet der Computer 102 in einem Block 540 den zweiten Filter auf Sprache von dem Insassen an, wie durch die Mikrofone 116 erfasst, z. B. auf die Sprache, nachdem sie in dem Block 520 durch den ersten Filter gefiltert wurde.
Als Nächstes passt der Computer 102 in dem Block 545 den zweiten Filter auf Grundlage einer Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und dem vorgespeicherten Profil 104 des Insassen an. Wenn der Computer 102 die Blöcke 540 und 545 wiederholt durchführt, erstellt der Computer 102 eine Rückkopplungsschleife 600, die nachstehend in Bezug auf 6 ausführlicher beschrieben wird. Die Anpassung des zweiten Filters in diesem Block 545 kann somit die Anpassung sein, die nachstehend in Bezug auf den Block 630 in der Rückkopplungsschleife 600 beschrieben wird.
Als nächstes führt der Computer 102 in einem Block 550 einen Vorgang unter Verwendung der sowohl durch den ersten Filter als auch den zweiten Filter gefilterten Schalldaten durch. Zum Beispiel kann der Vorgang Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals sein, z. B. Umwandeln der Schalldaten in Text, wie etwa „Pizza-Laden anrufen“, „Podcast abspielen“, „Temperatur verringern“ usw. (oder in äquivalente Daten, die den Befehl identifizieren). Das Verwenden der durch den ersten Filter und den zweiten Filter gefilterten Schalldaten kann dem Computer 102 dabei helfen, den Sprachbefehl genau zu identifizieren. Als ein anderes Beispiel kann der Vorgang Übertragen der Schalldaten in einem Telefonanruf sein. Ein Mobiltelefon kann mit der Benutzerschnittstelle 118 gepaart sein und verwendet werden, um einen Telefonanruf zu tätigen. Das Verwenden der durch den ersten Filter und den zweiten Filter gefilterten Schalldaten kann es für einen Empfänger eines Anrufs einfacher machen, zu verstehen, was der Insasse sagt. Als ein anderes Beispiel kann der Vorgang Ausgeben der gefilterten Schalldaten durch einen oder mehrere der Lautsprecher 108 sein. Schalldaten, die von dem ersten Mikrofon 116a stammen, können durch den Lautsprecher 108 in einem hinteren Teil des Fahrgastraums 106 verwendet und ausgegeben werden; anders ausgedrückt bilden das erste Mikrofon 116a und der Lautsprecher 108 ein Telefon. Das Verwenden der durch den ersten Filter und den zweiten Filter gefilterten Schalldaten kann es für einen Insassen auf dem Rücksitz 110 einfacher machen, zu verstehen, was der Insasse auf dem Vordersitz 110 sagt, als den Insassen, der mit dem Zustand spricht, direkt zu hören.
Als nächstes bestimmt der Computer 102 in einem Entscheidungsblock 555, ob das Fahrzeug 100 noch eingeschaltet ist. Wenn das Fahrzeug 100 noch eingeschaltet ist, kehrt der Prozess 500 zu dem Block 540 zurück, sodass die Blöcke 540, 545 und 550 während einer einzelnen Fahrt des Fahrzeugs 100 wiederholt durchgeführt werden, wodurch die nachstehend in Bezug auf 6 beschriebene Rückkopplungsschleife 600 erstellt wird. Wenn das Fahrzeug 100 ausgeschaltet wurde, endet der Prozess 500.
6 ist ein Informationsablaufdiagramm, das die Rückkopplungsschleife 600 zum Anpassen des zweiten Filters veranschaulicht. Der Speicher des Computers 102 speichert ausführbare Anweisungen zum Ausführen der Rückkopplungsschleife 600 und/oder eine Programmierung kann in Strukturen, wie etwa vorangehend erwähnt, umgesetzt sein. Als allgemeine Übersicht über die Rückkopplungsschleife 600 wendet der Computer 102 den zweiten Filter auf die durch den ersten Filter gefilterte Sprache an, die verwendet wird, um den Vorgang durchzuführen und ein Spektrum zu erzeugen, d. h. Schallpegel bei unterschiedlichen Frequenzen der durch den ersten Filter und den zweiten Filter gefilterten Sprache. Der Computer 102 bestimmt einen „Fehler“, d. h. eine Differenz zwischen dem vorgespeicherten Profil 104 und dem Spektrum. Der Computer 102 verwendet den Fehler, um den zweiten Filter anzupassen, bevor er den zweiten Filter erneut anwendet, um die Rückkopplungsschleife 600 abzuschließen.
In einem Block 610 wendet der Computer 102 den zweiten Filter auf die durch den ersten Filter gefilterte Sprache an, wie vorangehend in Bezug auf den Block 540 beschrieben. Die durch den ersten Filter gefilterte Sprache wird durch einen Informationsblock 605 dargestellt, der in den Block 610 läuft. Der zweite Filter kann ein Durchlassfilter für die erste Iteration der Rückkopplungsschleife 600 sein und der zweite Filter wird danach von einem Block 630 empfangen. Die durch den ersten Filter und den zweiten Filter gefilterte Sprache läuft zu einem Block 615, in dem der Computer 102 den Vorgang wie vorangehend in Bezug auf den Block 550 beschrieben durchführt, und zu einem Block 620.
In dem Block 620 erzeugt der Computer 102 das Spektrum unter Verwendung der durch den ersten Filter und den zweiten Filter gefilterten Sprache. Das Spektrum stellt dar, wie der Schallpegel der durch den ersten Filter und den zweiten Filter gefilterten Sprache mit der Frequenz variiert. Das Spektrum kann mathematisch in der gleichen Form wie der zweite Filter dargestellt werden. Das Spektrum kann als Schallpegel als mathematische Funktion der Frequenz S = F(J) dargestellt werden, wobei S der Schallpegel ist, F die mathematische Funktion ist und ƒ die Frequenz ist. Alternativ kann das Spektrum als Vektor S = <s₁, s₂, ... s_n> dargestellt werden, wobei jeder Eintrag s_i der Schallpegel bei einer bestimmten Frequenz ist, z. B. der Schallpegel s₁ bei 125 Hz, der Schallpegel s₂ bei 250 Hz usw. bis zu dem Schallpegel s₇ bei 8000 Hz.
Der Fehler ist die Differenz zwischen dem vorgespeicherten Profil 104, das als Informationsblock 625 gezeigt ist, und dem Spektrum, das von dem Block 620 läuft, d. h. E = P - S, wobei P das vorgespeicherte Profil 104 ist und S das Spektrum ist. Wenn das vorgespeicherte Profil 104 und das Spektrum als mathematische Funktionen P = F₁(ƒ) und S = F₂(ƒ) dargestellt werden, ist der Fehler eine Funktion E = F₁(ƒ) - F₂(ƒ). Wenn das vorgespeicherte Profil 104 und das Spektrum als Vektoren P = <p₁, p₂, ... p_n> und S = <s₁, s₂, ... s_n> dargestellt werden, ist der Fehler ein Vektor E = <p₁, p₂, ... p_n> - <s₁, s₂, ... s_n> = <p₁ - s₁, p₂ - s₂, ... p_n - s_n>. Der Fehler E läuft in den Block 630.
In dem Block 630 passt der Computer 102 das zweite Profil auf Grundlage des Fehlers, d. h auf Grundlage der Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und dem vorgespeicherten Profil 104 des Insassen, an. Für jede Frequenz wird die vorherige Kompensation in dem zweiten Filter durch den Fehler bei dieser Frequenz geändert; wenn z. B. der zweite Filter den Schallpegel um 8 dBA bei 2000 Hz erhöht und der Fehler 2 dBA beträgt, wird der zweite Filter angepasst, um stattdessen den Schallpegel bei 2000 Hz um 10 dBA zu erhöhen. Der angepasste zweite Filter läuft von Block 630 zu Block 610, um die Rückkopplungsschleife 600 abzuschließen.
Computerausführbare Anweisungen können von Computerprogrammen zusammengestellt oder interpretiert werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -techniken erstellt wurden, darunter unter anderem, entweder allein oder in Kombination, Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Anweisungen z. B. von einem Speicher, einem computerlesbaren Medium usw. und führt diese Anweisungen aus, wodurch er einen oder mehrere Prozesse durchführt, die einen oder mehrere der in dieser Schrift beschriebenen Prozesse beinhalten. Derartige Anweisungen und andere Daten können unter Verwendung einer Reihe von computerlesbaren Medien gespeichert und übermittelt werden. Eine Datei in einer vernetzten Vorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw. gespeichert sind. Ein computerlesbares Medium umfasst ein beliebiges Medium, das an der Bereitstellung von Daten (z. B. Anweisungen) beteiligt ist, die von einem Computer gelesen werden können. Ein derartiges Medium kann viele Formen annehmen, die nichtflüchtige Medien, flüchtige Medien usw. umfassen können, ohne darauf beschränkt zu sein. Nichtflüchtige Medien umfassen zum Beispiel optische oder magnetische Festplatten und andere Dauerspeicher. Flüchtige Medien umfassen einen dynamischen Direktzugriffsspeicher (dynamic random access memory - DRAM), der in der Regel einen Hauptspeicher darstellt. Gängige Formen computerlesbarer Medien umfassen zum Beispiel: eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen beliebigen anderen Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das von einem Computer gelesen werden kann.
Die Offenbarung wurde auf veranschaulichende Weise beschrieben und es versteht sich, dass die verwendete Terminologie ihrem Wesen nach beschreibend und nicht einschränkend sein soll. Die Adjektive „erstes“ und „zweites“ werden in der gesamten Schrift als Identifikatoren verwendet und sollen keine Bedeutung, Reihenfolge oder Anzahl angeben. Die Verwendung von „als Reaktion auf“ und „wenn bestimmt wird“ gibt eine kausale Beziehung an, nicht nur eine rein temporale Beziehung. In Anbetracht der vorangehenden Lehren sind viele Modifikationen und Variationen der vorliegenden Offenbarung möglich und kann die Offenbarung anders als konkret beschrieben umgesetzt werden.
Gemäß der vorliegenden Erfindung ist ein Computer bereitgestellt, der einen Prozessor und einen Speicher aufweist, der Anweisungen speichert, die durch den Prozessor zu Folgendem ausführbar sind: Identifizieren eines Insassen in einem Fahrgastraum eines Fahrzeugs; Erfassen einer Position eines Kopfes des Insassen relativ zu dem Fahrgastraum; Anwenden eines ersten Filters auf Sprache von dem Insassen auf Grundlage der Position des Kopfes; Erzeugen eines zweiten Filters; Anwenden des zweiten Filters auf die Sprache; Anpassen des zweiten Filters auf Grundlage einer Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und einem vorgespeicherten Profil des Insassen; und Durchführen eines Vorgangs unter Verwendung der durch den ersten Filter und den zweiten Filter gefilterten Sprache.
Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um wiederholt während einer einzelnen Fahrt des Fahrzeugs die Sprache durch den Insassen zu erfassen, dann den zweiten Filter auf die Sprache anzuwenden und dann den zweiten Filter auf Grundlage der Differenz zwischen der durch den zweiten Filter gefilterten Sprache und dem vorgespeicherten Profil anzupassen.
Gemäß einer Ausführungsform ist der zweite Filter ein Durchlassfilter, wenn er erzeugt wird.
Gemäß einer Ausführungsform erfolgt das Erzeugen des zweiten Filters als Reaktion darauf, dass sich die Sprache um mindestens einen Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet.
Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um als Reaktion darauf, dass sich die Sprache um weniger als den Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet, den Vorgang unter Verwendung der durch den ersten Filter gefilterten Sprache durchzuführen.
Gemäß einer Ausführungsform beinhaltet das vorgespeicherte Profil eine Vielzahl von Schallpegeln bei einer jeweiligen Vielzahl von Frequenzen und unterscheidet sich die Sprache um mindestens den Schwellenwert ungleich null von dem vorgespeicherten Profil, wenn sich mindestens einer der Schallpegel in dem vorgespeicherten Profil um mindestens einen Schallpegelschwellenwert ungleich null von einem Schallpegel der Sprache bei der gleichen Frequenz unterscheidet.
Gemäß einer Ausführungsform beinhalten die Anweisungen zum Anwenden des ersten Filters Anweisungen zum Auswählen des ersten Filters gemäß der Position des Kopfes aus einer Vielzahl von in Speicher gespeicherten Filtern.
Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um das vorgespeicherte Profil auf Grundlage einer Aufzeichnung von Sprache durch den Insassen zu erzeugen.
Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um dem Insassen eine Aufforderung bereitzustellen, vorgespeicherten Text zu sagen und die Aufzeichnung der Sprache vorzunehmen, während der Insasse den vorgespeicherten Text sagt.
Gemäß einer Ausführungsform beinhalten die Anweisungen zum Anwenden des zweiten Filters auf die Sprache Anweisungen, den zweiten Filter auf die durch den ersten Filter gefilterte Sprache anzuwenden.
Gemäß einer Ausführungsform passt der zweite Filter Schallpegel der Sprache um einen Betrag an, der in Abhängigkeit von der Frequenz variiert.
Gemäß einer Ausführungsform passt der erste Filter Schallpegel der Sprache um einen Betrag an, der in Abhängigkeit von der Frequenz variiert.
Gemäß einer Ausführungsform ist der Vorgang Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals.
Gemäß einer Ausführungsform ist der Vorgang Übertragen der durch den ersten Filter und den zweiten Filter gefilterten Sprache in einem Telefonanruf.
Gemäß einer Ausführungsform ist der Vorgang Ausgeben der durch den ersten Filter und den zweiten Filter gefilterten Sprache durch einen Lautsprecher des Fahrzeugs.
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren: Identifizieren eines Insassen in einem Fahrgastraum eines Fahrzeugs; Erfassen einer Position eines Kopfes des Insassen relativ zu dem Fahrgastraum; Anwenden eines ersten Filters auf Sprache von dem Insassen auf Grundlage der Position des Kopfes; Erzeugen eines zweiten Filters; Anwenden des zweiten Filters auf die Sprache; Anpassen des zweiten Filters auf Grundlage einer Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und einem vorgespeicherten Profil des Insassen; und Durchführen eines Vorgangs unter Verwendung der durch den ersten Filter und den zweiten Filter gefilterten Sprache.
In einem Aspekt beinhaltet das Verfahren wiederholtes Erfassen der Sprache durch den Insassen während einer einzelnen Fahrt des Fahrzeugs, dann Anwenden des zweiten Filters auf die Sprache und dann Anpassen des zweiten Filters auf Grundlage der Differenz zwischen der durch den zweiten Filter gefilterten Sprache und dem vorgespeicherten Profil.
In einem Aspekt der Erfindung ist der zweite Filter ein Durchlassfilter, wenn er erzeugt wird.
In einem Aspekt der Erfindung erfolgt das Erzeugen des zweiten Filters als Reaktion darauf, dass sich die Sprache um mindestens einen Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet.
In einem Aspekt der Erfindung beinhaltet das Anwenden des ersten Filters Auswählen des ersten Filters gemäß der Position des Kopfes aus einer Vielzahl von in Speicher gespeicherten Filtern.

Claims

Verfahren, umfassend: Identifizieren eines Insassen in einem Fahrgastraum eines Fahrzeugs; Erfassen einer Position eines Kopfes des Insassen relativ zu dem Fahrgastraum; Anwenden eines ersten Filters auf Sprache von dem Insassen auf Grundlage der Position des Kopfes; Erzeugen eines zweiten Filters; Anwenden des zweiten Filters auf die Sprache; Anpassen des zweiten Filters auf Grundlage einer Differenz zwischen der durch den zweiten Filter gefilterten Sprache des Insassen und einem vorgespeicherten Profil des Insassen; und Durchführen eines Vorgangs unter Verwendung der durch den ersten Filter und den zweiten Filter gefilterten Sprache.
Verfahren nach Anspruch 1, ferner umfassend wiederholtes Erfassen der Sprache durch den Insassen während einer einzelnen Fahrt des Fahrzeugs, dann Anwenden des zweiten Filters auf die Sprache und dann Anpassen des zweiten Filters auf Grundlage der Differenz zwischen der durch den zweiten Filter gefilterten Sprache und dem vorgespeicherten Profil.
Verfahren nach Anspruch 1, wobei der zweite Filter ein Durchlassfilter ist, wenn er erzeugt wird.
Verfahren nach Anspruch 1, wobei das Erzeugen des zweiten Filters als Reaktion darauf erfolgt, dass sich die Sprache um mindestens einen Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet.
Verfahren nach Anspruch 4, ferner umfassend, als Reaktion darauf, dass sich die Sprache um weniger als den Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet, Durchführen des Vorgangs unter Verwendung der durch den ersten Filter gefilterten Sprache.
Verfahren nach Anspruch 4, wobei das vorgespeicherte Profil eine Vielzahl von Schallpegeln bei einer jeweiligen Vielzahl von Frequenzen beinhaltet und sich die Sprache um mindestens den Schwellenwert ungleich null von dem vorgespeicherten Profil unterscheidet, wenn sich mindestens einer der Schallpegel in dem vorgespeicherten Profil um mindestens einen Schallpegelschwellenwert ungleich null von einem Schallpegel der Sprache bei der gleichen Frequenz unterscheidet.
Verfahren nach Anspruch 1, wobei das Anwenden des ersten Filters Auswählen des ersten Filters gemäß der Position des Kopfes aus einer Vielzahl von in Speicher gespeicherten Filtern beinhaltet.
Verfahren nach Anspruch 1, ferner umfassend Bereitstellen einer Aufforderung an den Insassen, vorgespeicherten Text zu sagen, Erstellen einer Aufzeichnung von Sprache, während der Insasse den vorgespeicherten Text sagt und Erzeugen des vorgespeicherten Profils auf Grundlage der Aufzeichnung der Sprache durch den Insassen.
Verfahren nach Anspruch 1, wobei das Anwenden des zweiten Filters auf die Sprache Anwenden des zweiten Filters auf die durch den ersten Filter gefilterte Sprache beinhaltet.
Verfahren nach Anspruch 1, wobei der zweite Filter Schallpegel der Sprache um einen Betrag anpasst, der in Abhängigkeit von der Frequenz variiert.
Verfahren nach Anspruch 1, wobei der erste Filter Schallpegel der Sprache um einen Betrag anpasst, der in Abhängigkeit von der Frequenz variiert.
Verfahren nach Anspruch 1, wobei der Vorgang Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals ist.
Verfahren nach Anspruch 1, wobei der Vorgang Übertragen der durch den ersten Filter und den zweiten Filter gefilterten Sprache in einem Telefonanruf ist.
Verfahren nach Anspruch 1, wobei der Vorgang Ausgeben der durch den ersten Filter und den zweiten Filter gefilterten Sprache durch einen Lautsprecher des Fahrzeugs ist.
Computer, umfassend einen Prozessor und einen Speicher, der Anweisungen speichert, die durch den Prozessor ausführbar sind, um das Verfahren nach einem der Ansprüche 1-14 durchzuführen.