-
Erfindungsgebiet
-
Diese Erfindung bezieht sich darauf, einen Umgebungskontext durch Klassifikation von Geräuschen zu bestimmen, insbesondere von Geräuschen, die in einer Fahrgastzelle detektiert werden können.
-
Hintergrund der Erfindung
-
Die meisten fahrzeuginternen Aktivitäten erzeugen ein Geräusch. Das von jeder fahrzeuginternen Aktivität erzeugte Geräusch kann eine „Geräuschaktivität” genannt werden. Die von jeder fahrzeuginternen Aktivität erzeugte Geräuschaktivität ist einzigartig und kann als eine Signatur der entsprechenden fahrzeuginternen Aktivität betrachtet werden. Diese Geräuschaktivitäten sind entweder direkt mit fahrzeuginternen Ereignissen (z. B. Hupengeräusch, Blinkgebergeräusch, Sprache, Musik usw.) oder indirekt mit fahrzeuginternen Ereignissen (z. B. Fahrzeugmotorgeräusch, Wischerbetriebsgeräusch, Schaltgetriebebetriebsgeräusch, Reifengeräusch, Geräusch aufgrund von Wind, Geräusch aufgrund von Regen, Türbetätigungsgeräusch usw.) verknüpft.
-
Geräuschaktivitäten können die Leistungsfähigkeit der Audiosysteme des Fahrzeugs beeinträchtigen, z. B. eines Audioverbesserungssystems, eines Spracherkennungssystems oder eines Rauschunterdrückungssystems. Es wäre wünschenswert, Geräuschaktivitäten zu erfassen und zu analysieren, um die Leistungsfähigkeit der Audiosysteme des Fahrzeugs zu verbessern.
-
Kurzfassung der Erfindung
-
Ein erster Aspekt der Erfindung stellt ein Verfahren zum Bestimmen von Kontexten für ein Fahrzeug bereit, wobei das Verfahren umfasst:
Verknüpfen einer Mehrzahl von Fahrzeugkontexten mit einer jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten; Detektieren eines Audiosignals im Fahrzeug;
Detektieren wenigstens einer der Geräuschaktivitäten im Audiosignal; und
Zuordnen wenigstens eines der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, zum Fahrzeug.
-
Ein zweiter Aspekt der Erfindung stellt ein System zum Bestimmen von Kontexten für ein Fahrzeug bereit, wobei das System umfasst:
wenigstens ein Mikrophon zum Detektieren eines Audiosignals im Fahrzeug; und ein Kontextklassifikationssystem, das dazu ausgelegt ist, eine Mehrzahl von Fahrzeugkontexten mit einer jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten zu verknüpfen, wenigstens eine der Geräuschaktivitäten im Audiosignal zu detektieren und wenigstens einen der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, dem Fahrzeug zuzuordnen Ein dritter Aspekt der Erfindung stellt ein Fahrzeug-Audiosystem bereit, das ein System zum Bestimmen von Kontexten für ein Fahrzeug umfasst, wobei das Kontextbestimmungssystem umfasst:
wenigstens ein Mikrophon zum Detektieren eines Audiosignals im Fahrzeug; und ein Kontextklassifikationssystem, das dazu ausgelegt ist, eine Mehrzahl von Fahrzeugkontexten mit einem jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten zu verknüpfen, wenigstens eine der Geräuschaktivitäten im Audiosignal zu detektieren und wenigstens einen der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, dem Fahrzeug zuzuordnen.
-
Bevorzugte Ausführungsformen der Erfindung ermöglichen das Erfassen und Analysieren von Geräuschaktivitäten zum Detektieren eines Bereichs fahrzeuginterner Aktivitäten, deren Detektieren unter Verwendung konventioneller Fahrzeugsensorsysteme schwierig oder aufwendig ist (z. B. Wind, Regenwetter, Notbremsung, Fahrzeugmotorgesundheit und so weiter). Zu von bevorzugten Ausführungsformen gebotenen, damit verbundenen Vorteilen zählen: das Bereitstellen eines unauffälligen Abtastmittels; Robustheit gegenüber der Position und Ausrichtung der Aktivität in Bezug auf die Sensoren; zu relativ geringen Kosten einsetzbar; die Befähigung zum gleichzeitigen Erfassen von Informationen mehrerer Aktivitäten; die Fähigkeit, ohne Weiteres zwischen Aktivitäten zu unterscheiden.
-
Das Identifizieren einzelner Geräuschaktivitäten erleichtert das Identifizieren der entsprechenden fahrzeuginternen Aktivität, die die Geräuschaktivität erzeugt hat. Dies gestattet wiederum die Verbesserung von fahrzeuginternen Audiosystemen, z. B. eines Audioplayers, eines Audioverbesserungssystems, eines Spracherkennungssystems, eines Rauschunterdrückungssystems und so weiter. Zum Beispiel ist das Detektieren des Vorhandenseins eines Hupengeräuschs im Audiosignal ein Ansatzpunkt, der von einem Audioverbesserungssystem zur Verbesserung seiner Leistungsfähigkeit verwendet werden kann und dadurch die Leistungsfähigkeit des Spracherkennungssystems verbessert.
-
Es kann vorteilhaft sein, einen breiteren, mit einer fahrzeuginternen Aktivität verknüpften Kontext zu bestimmen. Dies ist in realen fahrzeuginternen Szenarien darauf zurückzuführen, dass Geräuschaktivitäten miteinander auf Basis des Kontextes interagieren, und demzufolge weisen sie kontextbezogene Verknüpfungen auf. Im Allgemeinen kann Kontext als Information definiert werden, die die Situation einer Person, eines Platzes oder Objekts charakterisiert. Fahrzeuginterner Kontext kann als die Information betrachtet werden, die im Fahrzeug die Art der Umgebung oder von Ereignissen, die in dieser Umgebung stattgefunden haben, charakterisiert. Die folgenden Deskriptoren sind Beispiele für fahrzeuginterne Kontexte:
- • Der Fahrer betreibt einen Mediaplayer
- • Zwischen Insassen findet eine Unterhaltung statt
- • Der Zustand einer fahrzeuginternen Vorrichtung hat sich geändert (z. B. Klingeln des Mobiltelefons)
- • Der Fahrer führt bei regnerischen Bedingungen eine Notbremsung durch
- • Der Fahrer oder die Insassen öffnen/schließen die Türen/Fenster unter Windbedingungen
-
In bevorzugten Ausführungsformen werden kontextbezogene Informationen verwendet, um Interaktionen des Nutzers mit fahrzeuginternen Vorrichtungen und Interaktionen und Operationen zwischen Vorrichtungen zu verbessern. Zum Beispiel können kontextbezogene Informationen, die angeben, dass ein Mobiltelefon in Betrieb ist, von (einem) fahrzeuginternen Audiosystem(en) verwendet werden, um die Lautstärke des Telefons anzupassen, und dadurch besseren Service für den Nutzer bereitstellen.
-
Ein Aspekt der Erfindung stellt ein Verfahren zum Klassifizieren von Kontexten in einem Fahrzeug durch Erfassen und Analysieren von Geräuschaktivitäten im Fahrzeug bereit. Das bevorzugte Verfahren segmentiert die resultierenden Audiosignale in Segmente, die jedes einen fahrzeuginternen Kontext darstellen; dann werden für jedes Audiosegment ein jeweiliger Kontext und einzelne, verknüpfte Geräuschaktivitäten identifiziert, die im Audiosegment vorliegen.
-
Bevorzugte Ausführungsformen stellen ein Verfahren zum Klassifizieren von fahrzeuginternen Kontexten anhand von fahrzeuginternen Audiosignalen bereit. Das Verfahren kann das Organisieren von Audio-Trainingsdaten in einen Satz von Geräuschmodellen umfassen, die eine Geräuschkomponente einer Geräuschmischung darstellen, die den fahrzeuginternen Kontext bildet. Das Verfahren kann das Organisieren von Audio-Trainingsdaten in einen Satz von Geräuschmodellen umfassen, die das Geräusch darstellen, das direkt von einem fahrzeuginternen Kontext gebildet wird. Vorzugsweise umfasst das Verfahren den Aufbau einer Verknüpfungstabelle, die eine Liste von fahrzeuginternen Kontexten enthält, wobei jeder Kontext auf eines oder mehrere Geräuschmodell(e) abgebildet wird. Optional bezieht das Verfahren das Organisieren der fahrzeuginternen Kontextdynamiken in n-Gramm-Modelle ein. Vorteilhaftweise umfasst das Verfahren das Nutzen von Daten aus den Fahrzeugsensorsystemen. Das bevorzugte Verfahren bezieht die gemeinsame Identifikation von Kontext und Geräuschaktivitäten aus einem Audiosegment ein. Vorzugsweise wird eine Liste von vergangenen Kontexten im Prozess für gemeinsame Identifikation verwendet. Vorzugsweise bezieht gemeinsame Identifikation Modellreduktion ein, indem vorteilhafterweise Daten aus den Fahrzeugsensorsystemen genutzt werden. Gemeinsame Identifikation kann das Verwenden einer probabilistischen Technik einbeziehen, um Matching Scores zwischen den Audiomerkmalen, die aus dem Audiosegment ermittelt werden, und den Modellsätzen, die in einer Kontextliste mit den Kontexten verknüpft sind, abzuleiten. Die probabilistische Technik vermutet in den kurzen Audiomerkmalen des Audiosegments vorzugsweise zeitliche Seltenheit. Die probabilistische Technik umfasst vorzugsweise eine n-Gramm-Kontextgewichtung, um den Modell-Score abzuleiten.
-
Andere bevorzugte Merkmale werden in den abhängigen Patentansprüchen, die hieran angefügt sind, vorgetragen.
-
Weitere vorteilhafte Aspekte der Erfindung werden sich für Durchschnittsfachleute bei Durchsicht der folgenden Beschreibung einer speziellen Ausführungsform und unter Bezugnahme auf die beiliegenden Zeichnungen ergeben.
-
Kurze Beschreibung der Zeichnungen
-
Es wird jetzt eine Ausführungsform der Erfindung beispielhaft und unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben:
-
1 ist eine schematische Draufsicht auf ein Fahrzeug, das zur Verwendung mit Ausführungsformen der Erfindung geeignet ist;
-
2 zeigt eine Darstellung eines fahrzeuginternen Audiosignals mit Segmenten, die sich aus der Detektion eines oder mehrerer Geräusche ergeben, die sich aus unterschiedlichen Geräuschaktivitäten ergeben;
-
3 ist eine schematische Darstellung eines bevorzugten fahrzeuginternen Kontextklassifikationssystems, das einen Aspekt der vorliegenden Erfindung verkörpert;
-
4 ist eine schematische Darstellung eines Audio-Segmentierungsprozesses, der zur Verwendung durch ein Audio-Segmentierungsmodul geeignet ist, das Teil des Systems aus 3 ist;
-
5 ist eine schematische Darstellung eines Merkmalsextraktionsprozesses, der zur Verwendung durch ein Merkmalsextraktionsmodul geeignet ist, das Teil des Systems aus 3 ist;
-
6 ist eine schematische Darstellung eines Geräuschquellen- und -aktivitäts-Modellierungsprozesses, der zur Verwendung durch das System aus 3 geeignet ist;
-
7 ist eine schematische Darstellung eines Trainingsprozesses zum Generieren einer Verknüpfungstabelle zur Verwendung mit dem System aus 3;
-
8 ist eine schematische Darstellung eines Modellierungsprozesses zum Erfassen von Kontextdynamiken, der zur Verwendung durch ein Kontextdynamik-Modellierungsmodul geeignet ist, das Teil des Systems aus 3 ist;
-
9 ist eine schematische Darstellung eines Modellreduktionsprozesses, der zur Verwendung durch das bevorzugte Modul für den gemeinsamen Identifikationsalgorithmus geeignet ist; und
-
10 ist eine schematische Darstellung eines Modell-Scoring-Prozesses, der zur Verwendung durch das bevorzugte Modul für den gemeinsamen Identifikationsalgorithmus geeignet ist.
-
Ausführliche Beschreibung der Zeichnungen
-
1 veranschaulicht das Innere oder die Fahrgastzelle 11 eines Fahrzeugs 10, z. B. eines Autos. Das Fahrzeug 10 umfasst wenigstens eine Audioerfassungsvorrichtung, die typischerweise ein Mikrophon 12 umfasst. Zwei Mikrophone 12 werden in 1 beispielhaft gezeigt, in der Praxis kann jedoch eine beliebige Anzahl vorliegen. Die Mikrophone 12 sind in der Lage, Geräusche aus der Fahrgastzelle 11 zu detektieren, wozu im Inneren der Fahrgastzelle 11 generierte Geräusche (z. B. Sprache eines menschlichen Insassen 18) und Geräusche, die außerhalb der Fahrgastzelle generiert werden, aber im Inneren der Fahrgastzelle detektiert werden können (z. B. das Ertönen einer Hupe oder der Betrieb eines Windschutzscheibenwischers) zählen. Das Fahrzeug 10 umfasst wenigstens eine Audiowiedergabevorrichtung, die typischerweise einen Lautsprecher 14 umfasst. In 1 werden beispielhaft drei Lautsprecher 14 gezeigt, in der Praxis kann jedoch eine beliebige Anzahl vorliegen. Die Lautsprecher 14 sind in der Lage, Audiosignale in der Fahrgastzelle 11 wiederzugeben, insbesondere für die Insassen 18.
-
Das Fahrzeug 10 umfasst ein Audiosystem 20, das zusammen mit den Mikrophonen 12 und den Lautsprechern 14 dazu ausgelegt ist, Audiosignale aus der Fahrgastzelle 11 zu detektieren und Audiosignale in ihr wiederzugeben. Das Audiosystem 20 kann eine oder mehrere Audiowiedergabevorrichtungen 22 umfassen, um zu bewirken, dass Audiosignale über die Lautsprecher 14 wiedergegeben werden. Das Audiosystem 20 kann eine oder mehrere Spracherkennungsvorrichtungen 24 umfassen, um Sprache zu erkennen, die von den Insassen 18 ausgesprochen und von den Mikrophonen 12 detektiert wird. Das Audiosystem 20 kann eine oder mehrere Rauschunterdrückungsvorrichtungen 26 zum Verarbeiten von Audiosignalen, die von den Mikrophonen 12 detektiert werden, und/oder zum Wiedergeben durch die Lautsprecher 14 umfassen, um die Wirkungen von Signalrauschen zu reduzieren. Das Audiosystem 20 kann eine oder mehrere Rauschverbesserungsvorrichtungen 28 zum Verarbeiten von Audiosignalen, die von den Mikrophonen 12 detektiert werden, und/oder zum Wiedergeben durch die Lautsprecher 14 umfassen, um die Qualität des Audiosignals zu verbessern. Die Vorrichtungen 22, 24, 26, 28 (einzeln oder in einer beliebigen Kombination) können zusammen mit einer oder mehreren, Audiosignale nutzenden Vorrichtungen des Fahrzeugs betrieben werden oder Teil davon sein (z. B. Radio, CD-Player, Mediaplayer, Telefonsystem, Satellitennavigationssystem oder Sprachsteuerungssystem), wobei die Ausstattung als Teil oder als entsprechende Untersysteme des gesamten Fahrzeug-Audiosystems 20 betrachtet werden kann. Die Vorrichtungen 22, 24, 26, 28 können einzeln oder in einer beliebigen Kombination auf eine beliebige zweckmäßige Art und Weise implementiert werden, zum Beispiel als Hardware und/oder als Computer-Software, die von einem oder mehreren Datenprozessoren unterstützt wird, und sie können in Form und Funktion konventionell sein. In bevorzugten Ausführungsformen werden kontextbezogene Informationen, die sich auf das Fahrzeug beziehen, verwendet, um Interaktionen des Nutzers mit solchen fahrzeuginternen Audiovorrichtungen und Interaktionen und Operationen zwischen Vorrichtungen zu verbessern.
-
Das Audiosystem 20 umfasst ein Kontextklassifikationssystem (CCS, context classification system) 32, das einen Aspekt der vorliegenden Erfindung verkörpert. Das CCS 32 kann auf eine beliebige zweckmäßige Art und Weise implementiert werden, zum Beispiel als Hardware und/oder als Computer-Software, die von einem oder mehreren Datenprozessoren unterstützt wird. Im Betrieb bestimmt das CCS 32 einen oder mehrere Kontexte für die Fahrgastzelle 11 auf Basis eines oder mehrerer, von den Mikrophonen 12 detektierter Geräusche und/oder einer oder mehrerer Nicht-Audio-Eingaben. Um die Nicht-Audio-Eingaben zu generieren, umfasst das Fahrzeug 10 wenigstens eine elektrische Vorrichtung, die typischerweise einen Sensor 16 umfasst, der dazu ausgelegt ist, ein Signal zu erzeugen, das den Zustand eines entsprechenden Aspekts des Fahrzeugs 10 angibt, insbesondere von denjenigen, die das Geräusch in der Fahrgastzelle 11 beeinträchtigen können. Zum Beispiel kann jeder Sensor 16 dazu ausgelegt sein, den Betriebszustand eines beliebigen der folgenden Fahrzeugaspekte anzugeben: Betrieb des linken/rechten Blinkgebers; Windschutzscheibenwischerbetrieb; Mediaplayer an/aus; Fenster geöffnet/geschlossen; Regendetektion; Telefonbetrieb; Lüfterbetrieb; Schiebedach; Klimaanlagen-, Heizungsbetrieb, unter anderem. In 1 werden beispielhaft drei Sensoren 16 gezeigt, in der Praxis kann jedoch eine beliebige Anzahl vorliegen. Jeder Sensor 16 kann ein integrierter Teil eines Standardfahrzeugs sein oder kann speziell zum Implementieren der vorliegenden Erfindung bereitgestellt werden. Jeder Sensor 16 stellt sein Ausgangssignal dem Audiosystem 20 direkt oder indirekt bereit, zum Beispiel über eine Fahrzeugsteuereinheit (VCU, vehicle control unit) 30, z. B. die Motorsteuereinheit (ECU, engine control unit) des Fahrzeugs, was häufig der Fall ist, wenn der Sensor 16 eine Standardfahrzeugkomponente ist. Außerdem kann die VCU 30 selbst eine oder mehrere Nicht-Audio-Eingaben für das Audiosystem 20 bereitstellen, die den Zustand des entsprechenden Aspekts des Fahrzeugs 10 angeben.
-
2 zeigt ein Beispiel für ein Audiosignal 40, das die Ausgabe eines beliebigen der Mikrophone 12 als Reaktion auf in der Fahrgastzelle 11 detektierte Geräusche sein kann. Das System 20 kann solche Signale zur Analyse in einer beliebigen zweckmäßigen Speichervorrichtung (nicht dargestellt) aufzeichnen, und so kann das Signal aus 2 auch eine fahrzeuginterne Audioaufzeichnung darstellen. Das Signal 40 umfasst Sequenzen relativ kurzer Audiosegmente 42. Jedes der Audiosegmente 42 kann eine Kombination von entsprechenden Audiosignalkomponenten umfassen, die der Detektion einer beliebigen oder mehrerer von mehreren Geräuschaktivitäten entsprechen. Die Audiosignalkomponenten können durch Überlagerung und/oder Konkatenation kombiniert werden. Jede Geräuschaktivität entspricht einer Aktivität, die Geräusche generiert, die von den Mikrophonen 12 detektiert werden können (die als fahrzeuginterne Geräusche bezeichnet werden). Beispielhaft sind die im Signal 40 dargestellten fahrzeuginternen Geräusche: Fahrzeugmotorgeräusch; Sprechen der Insassen; Musik; und Wischergeräusch. Ein entsprechender fahrzeuginterner Kontext kann abhängig von dem bzw. den Geräusch(en) jedem Audiosegment 42 zugeordnet werden. Demzufolge stellt jedes Audiosegment 42 einen fahrzeuginternen Kontext dar, der für die Dauer des Segments 42 anwendbar ist. Tabelle 1 stellt Beispiele bereit, die ein Abbilden zwischen Geräuschaktivitäten und dem entsprechenden fahrzeuginternen Kontext veranschaulichen.
-
Tabelle 1: Beispielhaftes Abbilden zwischen Geräuschaktivitäten und fahrzeuginternem Kontext
-
Das CCS 32 bestimmt oder klassifiziert Kontext anhand der fahrzeuginternen Audiosignale, die von einem oder mehreren der Mikrophone 12 erfasst werden, wie mit dem Audiosignal 40 beispielhaft gezeigt wird. In bevorzugten Ausführungsformen wird dies erreicht durch: 1) Segmentieren des Audiosignals 40 in kleinere Audiosegmente 42, die jedes einen entsprechenden fahrzeuginternen Kontext darstellen; und 2) gemeinsames Identifizieren des fahrzeuginternen Kontextes und der Geräuschaktivitäten, die in jedem Audiosegment vorliegen.
-
3 veranschaulicht eine bevorzugte Ausführungsform des CCS 32. Das fahrzeuginterne Audiosignal 40 wird in das CCS 32 eingegeben. Typischerweise werden auch Nicht-Audio-Daten 44 aus, oder abgeleitet von, den Ausgaben eines oder mehrerer Sensoren 16 und/oder andere Fahrzeugdaten aus der VCU 30 in das CCS 32 eingegeben. Die Daten 44 können zum Beispiel von der VCU 30 oder direkt vom maßgeblichen Sensor 16 bereitgestellt werden, wie es zweckmäßig ist. Das CCS 32 erzeugt entsprechende Kontextdaten 46, die zweckmäßigerweise einen Satz Audiosegmente 42 umfassen, wobei jedes Segment 42 mit einem entsprechenden fahrzeuginternen Kontext 43 und vorzugsweise auch mit einer oder mehreren entsprechenden, im entsprechenden Audiosegment 42 detektierten Geräuschaktivitäten 45 verknüpft wird.
-
Das bevorzugte CCS 32 umfasst ein Audiosegmentierungsmodul 48, das das eingegebene Audiosignal 40 in Audiosegmente 42 von geringerer Länge segmentiert, wie in 4 veranschaulicht wird. Typischerweise bezieht die Segmentierung eine Zeitaufteilung des Signals 40 ein. Zweckmäßigerweise wird das Audiosignal 40 vor der Segmentierung in einem Pufferspeicher oder in einer anderen Speichereinrichtung (nicht dargestellt) gespeichert. Beispielhaft können ungefähr zwischen 10 und 60 Sekunden des Audiosignals 40 zu diesem Zweck gepuffert werden. Beispielhaft kann das Audiosignal 40 in Audiosegmente fester Länge von ungefähr 3 bis 4 Sekunden segmentiert werden. Jedes Audiosegment 42 stellt einen entsprechenden kurzzeitigen fahrzeuginternen Kontext dar.
-
Vorzugsweise werden die Audiosegmente 42 analysiert, um zu bestimmen, ob sie Audiogehalt aufweisen, der zur Verwendung bei der Kontextbestimmung geeignet ist, z. B. ob sie identifizierbare Geräusch(e) enthalten. Dies kann unter Verwendung beliebiger zweckmäßiger konventioneller Technik(en) durchgeführt werden, zum Beispiel Bayesscher Informationskriterien, modellbasierter Segmentierung und so weiter. Diese Analyse wird zweckmäßigerweise vom Audiosegmentierungsmodul 48 durchgeführt.
-
Das Audiosegmentierungsmodul 48 kann auch die Nicht-Audio-Daten 44 verwenden, um die Audiosegmentierung zu verbessern. Zum Beispiel können die Nicht-Audio-Daten 44 während des Segmentierungsprozesses zum Bestimmen der Grenzen für die Audiosegmente 42 verwendet werden.
-
Das bevorzugte CCS 32 umfasst auch das Merkmalsextraktionsmodul 50, das dazu ausgelegt ist, Merkmalsextraktion auf den Audiosegmenten 42 durchzuführen. Daraus ergibt sich, dass jedes Segment 42 als mehrere Audiomerkmale dargestellt wird, wie in 5 veranschaulicht wird. Merkmalsextraktion bezieht eine Analyse des Zeit-Frequenz-Gehalts des Segments 42 ein, wobei die resultierenden Audiomerkmale (üblicherweise als Merkmalsvektoren bekannt) eine Beschreibung des Frequenzgehalts bereitstellen. Um Merkmalsextraktion durchzuführen, wird typischerweise zunächst jedes Audiosegment 42 in relativ kurze Zeitrahmen aufgeteilt. Zum Beispiel kann jeder Rahmen ungefähr 20 ms lang sein, mit einer Rahmendauer von ungefähr 10 ms. Dann kann Merkmalsextraktion durchgeführt werden, um jeden Rahmen als einen Merkmalsvektor darzustellen, wobei jeder Merkmalsvektor typischerweise einen Zahlensatz umfasst, der den Audiogehalt des entsprechenden Rahmens darstellt. Beispielhaft kann Merkmalsextraktion das Durchführen von Mel-Frequenz-Cepstrum-Analyse der Rahmen einbeziehen, um einen entsprechenden Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Vektor zu erzeugen. Allerdings kann vom Merkmalextraktionsmodul 50 eine beliebige zweckmäßige, konventionelle Merkmaldarstellung für Audiosignale (zum Beispiel Log-Spektral-Vektoren, lineare Vorhersage-Koeffizienten, lineare Vorhersage-Cepstral-Koeffizienten und so weiter) verwendet werden.
-
Das bevorzugte CCS 32 umfasst ein Geräuschaktivitätsmodul 52. Dieses Modul 52 umfasst mehrere mathematische Geräuschaktivitätsmodelle 53, die vom CCS 32 verwendet werden, um den Audiogehalt der Audiosegmente 42 zu identifizieren. Jedes Modell kann ein spezielles Geräusch identifizieren (z. B. Wischerbetrieb) oder einen speziellen Geräuschtyp (z. B. Sprache oder Musik) oder eine spezielle Geräuschquelle (z. B. eine Hupe) oder eine bekannte Kombination von Geräuschen, Geräuschtypen und/oder Geräuschquellen. Zum Beispiel umfasst in der bevorzugten Ausführungsform jedes Modell eine mathematische Darstellung des einen oder anderen der Folgenden: das stationäre Geräusch aus einer einzigen Geräuschquelle (z. B. ein Hupenklang); eine einzelne spezielle Geräuschaktivität einer Geräuschquelle (z. B. Musik aus einem Radio); oder eine Mischung von zwei oder mehr speziellen Geräuschaktivitäten aus mehreren Geräuschquellen (z. B. Musik aus einem Radio kombiniert mit Sprache eines Insassen). Vorteilhafterweise sind die Geräuschaktivitätsmodelle 53 insofern elementar, als dass sie beliebig miteinander kombiniert werden können, um entsprechende fahrzeuginterne Kontexte am besten darzustellen. In jedem Fall kann jedes Modell direkt oder indirekt mit einer speziellen fahrzeuginternen Geräuschaktivität oder einer Kombination aus fahrzeuginternen Geräuschaktivitäten verknüpft werden. Das CCS 32 kann eine beliebige oder mehrere Geräuschaktivitäten 45 jedem Audiosegment 42, abhängig vom Audiogehalt des Segments 42, zuordnen.
-
Die Geräuschaktivitätsmodelle 53 können aus einem Trainingsprozess bezogen werden, wie zum Beispiel in 6 veranschaulicht wird. Audio-Trainingsdaten 54 können auf eine beliebige zweckmäßige Art und Weise bezogen werden, zum Beispiel aus einer vorhandenen Geräuschmodell-Datenbank (nicht dargestellt) oder durch Vorabaufzeichnen der interessierenden Geräusche. Die Trainingsdaten 54 sind nach Geräuschquellen- und Geräuschaktivitätsklassen organisiert, wobei jeder Klasse eine entsprechende fahrzeuginterne Geräuschaktivität oder eine Kombination von fahrzeuginternen Geräuschaktivitäten entspricht (z. B. Fahrzeugmotor an, Musik spielt, Sprache und Motor an, Wischer an, Blinkgeber an, Blinkgeber und Motor an und so weiter). Die Trainingsdaten jeder Klasse werden einem beliebigen geeigneten Modellierprozess M unterzogen, um die entsprechenden Modelle 53 zu erbringen. Vorteilhafterweise wird das Modellieren auf eine Art und Weise durchgeführt, die kompatibel zur vom Merkmalsextraktionsmodul 50 durchgeführten Merkmalsextraktionsanalyse ist, um den Vergleich der vom Merkmalsextraktionsmodul 50 erzeugten Merkmalsvektoren mit den Geräuschaktivitätsmodellen 53 zu erleichtern, d. h. die Modelle 53 werden auf eine Art und Weise definiert, die ihren Vergleich mit den entsprechenden, vom Merkmalsextraktionsmodul 50 bereitgestellten Definitionen der Audiosegmente 42 erleichtert. Im vorliegenden Beispiel bezieht dies das Modellieren der kurzzeitigen Merkmale der Audio-Trainingsdaten ein (die unter Verwendung des Merkmalsextraktionselements bezogen werden). Beispielhaft kann lediglich eine Technik der Gaussian Mixture Modellierung (GMM) verwendet werden, um die Wahrscheinlichkeitsverteilungen der Mel-Frequenz-Cepstrum-Koeffizientenmerkmale der Trainingsdaten zu modellieren.
-
Das bevorzugte CCS 32 führt eine Verknüpfungstabelle 56, die mehrere fahrzeuginterne Kontexte 43 mit einem jeweiligen oder mehreren jeweiligen Geräuschaktivitätsmodellen 53 verknüpft, d. h. mit einem einzigen Geräuschaktivitätsmodell 53 oder einer Kombination von Geräuschaktivitätsmodellen 53. Unter Bezugnahme auf 3 können zum Beispiel die Modelle 53 für die Geräuschaktivitäten „Fahrzeugmotor an” und „Fahrzeugblinkgeber an” in Kombination mit dem Kontext „Fahrzeug wendet” verknüpft werden, während das Modell 53 für die Geräuschaktivität „Musik” für sich selbst mit dem Kontext „Mediaplayer an” verknüpft werden kann. Es ist anzumerken, dass ein Kontext 43, der zwei oder mehr Geräuschaktivitäten darstellt, auf ein einziges Geräuschaktivitätsmodell 53 abgebildet werden kann, falls ein solches Modell verfügbar ist. Falls es zum Beispiel ein einziges Modell 53 gibt, das die kombinierten Geräuschaktivitäten „Fahrzeugmotor an” und „Fahrzeugblinkgeber an” darstellt, dann kann der Kontext „Fahrzeug wendet” mit dem einzigen Modell 53 verknüpft werden. Abhängig davon, welche Modelle verfügbar sind, kann die Verknüpfungstabelle 56 demzufolge mehr als einen Eintrag für jeden Kontext enthalten. Die Verknüpfungstabelle 56 kann in irgendwelchen zweckmäßigen Speichermitteln geführt werden und kann auf eine beliebige konventionelle Art und Weise der Datenverknüpfung implementiert werden.
-
Unter Bezugnahme auf 7 kann die Verknüpfungstabelle 56 angelegt werden, indem die Geräuschquellenmodelle 53 und die kontextverknüpften Audio-Trainingsdaten 58 einem Modellierprozess M unterzogen werden, der dazu ausgelegt ist, für jedes angemerkte Audiosegment der Trainingsdaten ein Modell oder einen Modellsatz zu finden, der die Übereinstimmung zwischen den ausgewählten Modellen und dem Audiosegment maximiert. Alternativ kann die Tabelle 56 manuell, auf Basis von menschlichem Wissen über die fahrzeuginternen Kontexte 43 und der verknüpften Geräuschaktivitätsmodelle 53 angelegt werden.
-
In bevorzugten Ausführungsformen verwendet das CCS 32 Kontextdynamikmodelle 60, um die Zuordnung von Kontexten 43 zu Audiosegmenten 42 unter Verwendung eines statistischen Modellierungsprozesses zu analysieren. Vorzugsweise wird ein statistischer n-Gramm-Modellierungsprozess zum Erzeugen des Modells 60 verwendet. Lediglich beispielhaft kann ein Unigramm-(1-Gramm-)Modell verwendet werden. Im Allgemeinen stellt ein n-Gramm-Modell die Dynamiken (zeitliche Entwicklung) einer Sequenz dar, indem die Statistiken einer zusammenhängenden Sequenz von n Elementen aus einer gegebenen Sequenz erfasst werden. In der bevorzugten Ausführungsform wird ein entsprechendes n-Gramm-Modell 60, das die Dynamiken jedes fahrzeuginternen Kontextes 43 darstellt, bereitgestellt. Die n-Gramm-Modelle 60 können aus einem Trainingsprozess bezogen werden, der in 8 veranschaulicht wird. Das Modellieren eines n-Gramm-Modells 60 für einen Kontext erfordert typischerweise Kontext-Trainingsdaten 64, die eine relativ große Anzahl von unterschiedlichen Datensequenzen enthalten, die in dem betrachteten Kontext realistisch erzeugt werden. Je nach dem Wert von n kann die n-Gramm-Modellierung die Schwankung in zugeordneten Kontexten für variable Zeiträume nachverfolgen. Die Kontextdynamikmodellierung gestattet, dass die Wahrscheinlichkeit der zugeordneten Kontexte zum Beurteilen korrekt ist, was die Genauigkeit des Entscheidungsfindungsprozesses verbessert.
-
Das bevorzugte CCS 32 umfasst einen Kontext-Verlaufspuffer 66 zum Speichern einer Sequenz von identifizierten Kontexten, die aus einem Modul 68 für gemeinsame Identifikation typischerweise in einen First-in-First-out (FIFO) Puffer (nicht dargestellt) ausgegeben werden, und führt die identifizierten Kontexte zurück in das Modul 68 für gemeinsame Identifikation. Ein entsprechender Kontext wird für jedes aufeinander folgende Audiosegment 42 identifiziert. Die Anzahl der identifizierten Kontexte, die im Puffer 66 gespeichert werden sollen, hängt vom Wert von „n” im n-Gramm-Modell ab. Die im Puffer 66 gespeicherten Informationen können gemeinsam mit dem n-Gramm-Modell verwendet werden, um die Dynamiken des für anschließende Audiosegmente 42 identifizierten Kontextes nachzuverfolgen.
-
Das Modul 68 für gemeinsame Identifikation generiert einen fahrzeuginternen Kontext zusammen mit einer oder mehreren verknüpften Geräuschaktivitäten für jedes Audiosegment 42. In der bevorzugten Ausführungsform nimmt das Modul 68 für die gemeinsame Identifikation die folgenden Eingaben auf: die extrahierten Merkmale aus dem Merkmalsextraktionsmodul 50; die Geräuschaktivitätsmodelle 53; die Verknüpfungstabelle 56; die n-Gramm-Kontextmodelle 60; und die Sequenz von identifizierten Kontexten für Audiosegmente, die dem aktuellen Audiosegment unmittelbar vorausgehen (aus dem Kontextverlaufspuffer 66). Das bevorzugte Modul 68 generiert zwei Ausgaben für jedes Audiosegment 42: den identifizierten fahrzeuginternen Kontext 43; und die einzelnen identifizierten Geräuschaktivitäten 45.
-
In der bevorzugten Ausführungsform wendet das Modul 68 für gemeinsame Identifikation auf jedes Segment 42 sequentielle Schritte an, und zwar Modellreduktion und Modell-Scoring, um die Ausgaben 43, 45 zu generieren. Der bevorzugte Modellreduktionsschritt wird in 9 veranschaulicht. Die Verknüpfungstabelle 56 stellt einen Satz von Kontexten 43 zusammen mit ihren verknüpften Geräuschaktivitätsmodellen 53 bereit. Modellreduktion bezieht das Erzeugen einer temporären Liste 70 ein, die eine Untermenge von bekannten Kontexten 43 umfasst, die während des anschließenden Modell-Scoring-Schritts für das aktuelle Audiosegment 42 in Betracht gezogen werden sollen. Anfänglich enthält die Liste 70 alle Kontexte 43 aus der Verknüpfungstabelle 56. Beim Fehlen irgendwelcher Nicht-Audio-Daten 44 werden keine weiteren Maßnahmen ergriffen, und alle bekannten Kontexte 43 werden während des Modell-Scoring-Schritts ausgewertet. Vorzugsweise werden allerdings Nicht-Audio-Daten als eine Eingabe für den Modellreduktionsschritt bereitgestellt. Für jedes Audiosegment 42 werden vorteilhafterweise die Nicht-Audio-Daten 44 verwendet, die aus den fahrzeuginternen Sensorsystemen bezogen werden (z. B. Betriebszustand von Fahrzeug, Blinkgebern, Wischern, Mediaplayer usw.), um unmögliche oder unwahrscheinliche Kontexte 43 aus der temporären Kontextliste 70 zu eliminieren. Dies kann erreicht werden, indem das Modul 68 veranlasst wird, einen Satz von Regeln anzuwenden, der die gegenseitige Kompatibilität von Kontexten 43 und Nicht-Audio-Daten 44 mit den entsprechenden Nicht-Audio-Daten 44 für jedes Segment 42 angibt, und jeden Kontext 43 aus der temporären Liste 70 zu eliminieren, der als inkompatibel mit den Daten 44 angesehen wird. Dies reduziert die Komplexität des anschließenden Modell-Scoring-Schritts für das aktuelle Audiosegment 42.
-
Optional verwendet das Modul 68 die Kontextdynamikmodelle 60, um Kontextdynamikmodellierung, in diesem Beispiel n-Gramm-Modellierung, durchzuführen, um die Zuordnung von Kontexten 43 zu Audiosegmenten 42 zu analysieren. Dies verbessert den Modellreduktionsprozess durch Eliminieren von inkompatiblen Kontexten 43 aus der Liste 70 für das aktuelle Segment 42 auf Basis der zeitlichen Entwicklung von Daten über die vorhergehenden n – 1 Segmente.
-
10 veranschaulicht den bevorzugten Modell-Scoring-Schritt. Die hauptsächliche Funktion des Modell-Scoring-Schritts ist es, für jedes Audiosegment 42 die Ausgabe des Merkmalsextraktionsmoduls 50 mit dem, oder jedem, mit jedem Kontext 43 in der temporären Kontextliste 70 verknüpften entsprechenden Geräuschaktivitätsmodell 53 zu vergleichen. Für jeden Kontext 43 in der temporären Kontextliste 70 berechnet das Modul 68 einen Matching Score zwischen dem bzw. den entsprechenden Geräuschaktivitätsmodell(en) 53 und dem entsprechenden extrahierten Audiomerkmal für das Segment 42. Der Kontext 43, der als der mit dem beste Matching Score angesehen wird, kann dem aktuellen Segment 42 zugeordnet werden und als die Ausgabe des Moduls 68 zusammen mit der bzw. den verknüpften Geräuschaktivität(en) 45 bereitgestellt werden. Beispielhaft kann ein probabilistischer statistischer Ansatz verwendet werden, um die Matching Scores zu finden. Probabilitäts-Scores können von dem vom Dynamikmodell 60 verwendeten, entsprechenden n-Gramm-Kontext und Inhalten des Kontextverlaufspuffers 66 gewichtet werden, um die Leistungsfähigkeit der Kontext- und Geräuschaktivitätsidentifikation zu verbessern. In der bevorzugten Ausführungsform wird während des Modell-Scoring-Schritts in den kurzen Audiomerkmalen jedes Audiosegments 42 zeitliche Seltenheit angenommen. Dies bedeutet, dass angenommen wird, dass jeder Rahmen des Audiosegments 42 (wie er vom Extraktionsmodul 50 erzeugt wird) zu einem einzigen Geräuschaktivitätsmodell 53 passt.
-
Nachstehend wird Pseudo-Code für eine beispielhafte Implementierung des Modell-Scoring-Prozesses angegeben. Gegeben:
-
Die Erfindung ist nicht auf die hier beschriebenen Ausführungsform(en) beschränkt, sondern kann abgeändert oder modifiziert werden, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen.